CN118261120B - 数据生成方法、装置、电子设备及存储介质 - Google Patents

数据生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN118261120B
CN118261120B CN202410673407.4A CN202410673407A CN118261120B CN 118261120 B CN118261120 B CN 118261120B CN 202410673407 A CN202410673407 A CN 202410673407A CN 118261120 B CN118261120 B CN 118261120B
Authority
CN
China
Prior art keywords
abstract
target
formula
expression
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410673407.4A
Other languages
English (en)
Other versions
CN118261120A (zh
Inventor
王文松
冯晓筠
赫斌
张家瑞
刘强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Wuhan Kingsoft Office Software Co Ltd
Original Assignee
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Wuhan Kingsoft Office Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Office Software Inc, Zhuhai Kingsoft Office Software Co Ltd, Wuhan Kingsoft Office Software Co Ltd filed Critical Beijing Kingsoft Office Software Inc
Priority to CN202410673407.4A priority Critical patent/CN118261120B/zh
Publication of CN118261120A publication Critical patent/CN118261120A/zh
Application granted granted Critical
Publication of CN118261120B publication Critical patent/CN118261120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Stored Programmes (AREA)

Abstract

本申请涉及一种数据生成方法、装置、电子设备及存储介质,所述方法包括:获取至少一个示例表格,并针对任一所述示例表格,确定所述示例表格对应的示例函数;根据所述示例表格以及所述示例函数,生成示例表格公式,并根据所述示例表格公式确定示例需求表述;对所述示例表格公式及所述示例需求表述进行第一处理,生成抽象表格公式及抽象需求表述;根据目标表格,对所述抽象表格公式及所述抽象需求表述进行第二处理,生成目标表格公式及目标需求表述。如此先生成抽象表格公式及抽象需求表述,后续对抽象表格公式及抽象需求表述进行第二处理,即可批量生成目标表格公式及目标需求表述,节约了成本。

Description

数据生成方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据生成方法、装置、电子设备及存储介质。
背景技术
目前,电子表格软件(Excel)因其强大的数据可视化和分析能力,逐渐被人们所使用。其中,表格公式是电子表格软件中非常强大的工具,可以用于解决各种数学、统计、逻辑、文本、日期和时间等问题,能够帮助用户更好的处理和分析数据等。
但是,表格公式作为电子表格软件中非常强大的工具,对于很多用户来说有一定的使用门槛。为此引入了大语言模型,用户可以输入自然语言的需求表述,可以将自然语言的需求表述转换为对应的表格公式。但在此之前,需要对大语言模型进行训练。
相关技术中,用于表格公式生成公开的训练数据,即公开的需求表述及对应的表格公式很少,且需求表述及对应的表格公式多种多样,如果直接利用人为标注(即基于示例表格,人为编写需求表述及对应的表格公式)的话,成本较高,因此急需通过合理的方法进行批量生成。
发明内容
为了解决上述基于表格的用于表格公式生成的公开的训练数据,即公开的需求表述及对应的表格公式很少,且需求表述及对应的表格公式多种多样,如果直接利用人为标注(即基于示例表格,人为编写需求表述及对应的表格公式)的话,成本较高,因此急需通过合理的方法进行批量生成的技术问题,本申请实施例提供了一种数据生成方法、装置、电子设备及存储介质。具体技术方案如下:
在本申请实施例的第一方面,首先提供了一种数据生成方法,所述方法包括:
获取至少一个示例表格,并针对任一所述示例表格,确定所述示例表格对应的示例函数;
根据所述示例表格以及所述示例函数,生成示例表格公式,并根据所述示例表格公式确定示例需求表述;
对所述示例表格公式及所述示例需求表述进行第一处理,生成抽象表格公式及抽象需求表述;
根据目标表格,对所述抽象表格公式及所述抽象需求表述进行第二处理,生成目标表格公式及目标需求表述。
在一个可选的实施方式中,所述针对任一所述示例表格,确定所述示例表格对应的示例函数,包括:
针对任一所述示例表格,确定所述示例表格对应的示例场景,并获取预设的场景与函数之间的对应关系;
根据所述对应关系,确定所述示例场景对应的函数,将所述函数确定为所述示例表格对应的示例函数。
在一个可选的实施方式中,所述根据所述示例表格以及所述示例函数,生成示例表格公式,包括:
构建所述示例函数的函数应用表述,并对所述示例表格进行结构化处理,得到所述示例表格的结构化信息;
利用所述函数应用表述及所述结构化信息构建预训练的大语言模型的第一提示;
将所述第一提示输入至所述预训练的大语言模型,得到示例表格公式。
在一个可选的实施方式中,所述根据所述示例表格公式确定示例需求表述,包括:
对所述示例表格进行结构化处理,得到所述示例表格的结构化信息;
利用所述示例表格公式及所述结构化信息构建预训练的大语言模型的第二提示;
将所述第二提示输入至所述预训练的大语言模型,得到所述示例表格公式的公式解释,并将所述公式解释确定为示例需求表述。
在一个可选的实施方式中,所述对所述示例表格公式及所述示例需求表述进行第一处理,生成抽象表格公式及抽象需求表述,包括:
提取所述示例表格公式的示例函数中的示例参数;
根据所述示例参数,对所述示例表格公式及所述示例需求表述进行第一处理,生成抽象表格公式及抽象需求表述。
在一个可选的实施方式中,所述根据所述示例参数,对所述示例表格公式及所述示例需求表述进行第一处理,生成抽象表格公式及抽象需求表述,包括:
根据所述示例参数,对所述示例表格公式及所述示例需求表述执行以下第一处理,生成抽象表格公式及抽象需求表述:
从所述示例参数中,确定表征所述示例表格中单元格的地址的第一示例参数,查找所述第一示例参数对应的第一抽象参数;
确定所述示例需求表述中的第一实体,将所述第一示例参数替换为所述第一抽象参数,将所述第一实体替换为所述第一抽象参数;
从所述示例参数中,确定未表征所述示例表格中单元格的地址的第二示例参数,查找所述第二示例参数对应的第二抽象参数;
确定所述示例需求表述中的第二实体,将所述第二示例参数替换为所述第二抽象参数,将所述第二实体替换为所述第二抽象参数;
将替换所述第一示例参数、所述第二示例参数后的所述示例表格公式确定为抽象表格公式;
将替换所述第一实体、所述第二实体后的所述示例需求表述确定为抽象需求表述。
在一个可选的实施方式中,所述确定所述示例需求表述中的第一实体,包括:
确定所述单元格的地址对应的示例列,获取所述示例列的示例列标题;
从所述示例需求表述中,查找与所述示例列标题相匹配的第一实体。
在一个可选的实施方式中,所述确定所述示例需求表述中的第二实体,包括:
从所述示例需求表述中,查找与所述第二示例参数匹配的第二实体。
在一个可选的实施方式中,所述方法还包括:
获取所述示例列的示例列类型,建立所述第一抽象参数与所述第一实体、所述示例列类型的第一对应关系;
建立所述第二抽象参数与所述第二实体的第二对应关系,由所述第一对应关系、所述第二对应关系构建参数列表。
在一个可选的实施方式中,所述根据目标表格,对所述抽象表格公式及所述抽象需求表述进行第二处理,生成目标表格公式及目标需求表述,包括:
从目标表格中,确定列类型与所述示例列类型一致的目标列,获取所述目标列中目标单元格的目标地址;
生成第三实体,将所述抽象表格公式中的所述第一抽象参数替换为所述目标地址,将所述抽象表格公式中的所述第二抽象参数替换为所述第三实体,生成目标表格公式;
获取所述目标列的目标列标题,将所述抽象需求表述中的所述第一抽象参数替换为所述目标列标题,将所述抽象需求表述中的所述第二抽象参数替换为所述第三实体,生成目标需求表述。
在一个可选的实施方式中,所述方法还包括:
确定所述目标需求表述的语义流畅度,并判断所述语义流畅度与预设数值的差值是否小于预设差值阈值;
在所述目标表格执行所述目标表格公式的情况下,检测所述目标表格公式的执行结果是否正常;
确定所述目标表格公式中目标函数、所述目标函数对应的目标参数、以及与所述目标函数相匹配的模板函数;
确定所述目标函数与所述目标参数的第三对应关系,以及所述模板函数与所述模板函数中模板参数的第四对应关系,并检测所述第三对应关系,是否与所述第四对应关系是否一致;
在所述语义流畅度与预设数值的差值小于所述预设差值阈值,且所述目标表格公式的执行结果正常,且所述第三对应关系与所述第四对应关系一致的情况下,保留所述目标表格公式及所述目标需求表述组成的数据对。
在一个可选的实施方式中,所述方法还包括:
从所述目标需求表述的实体中,检测是否存在表征时间的第四实体;
在存在所述第四实体的情况下,按照时间类的增强方式,对所述第四实体进行增强,得到增强后的所述目标需求表述;
由所述目标表格公式及增强后的所述目标需求表述组成新的数据对。
在一个可选的实施方式中,所述方法还包括:
确定所述目标需求表述中第五实体的同义词,将所述第五实体替换为所述同义词,得到增强后的所述目标需求表述;
由所述目标表格公式及增强后的所述目标需求表述组成新的数据对。
在一个可选的实施方式中,所述方法还包括:
确定所述目标需求表述中第六实体的同音词,将所述第六实体替换为所述同音词,得到增强后的所述目标需求表述;
由所述目标表格公式及增强后的所述目标需求表述组成新的数据对。
在本申请实施例的第二方面,还提供了一种数据生成装置,所述装置包括:
示例表格获取模块,用于获取至少一个示例表格;
示例函数确定模块,用于针对任一所述示例表格,确定所述示例表格对应的示例函数;
表格公式生成模块,用于根据所述示例表格以及所述示例函数,生成示例表格公式;
表格公式解释模块,用于根据所述示例表格公式确定示例需求表述;
公式、需求第一处理模块,用于对所述示例表格公式及所述示例需求表述进行第一处理,生成抽象表格公式及抽象需求表述;
公式、需求第二处理模块,用于根据目标表格,对所述抽象表格公式及所述抽象需求表述进行第二处理,生成目标表格公式及目标需求表述。
在一个可选的实施方式中,所述示例函数确定模块具体用于:
针对任一所述示例表格,确定所述示例表格对应的示例场景,并获取预设的场景与函数之间的对应关系;
根据所述对应关系,确定所述示例场景对应的函数,将所述函数确定为所述示例表格对应的示例函数。
在一个可选的实施方式中,所述表格公式生成模块具体用于:
构建所述示例函数的函数应用表述,并对所述示例表格进行结构化处理,得到所述示例表格的结构化信息;
利用所述函数应用表述及所述结构化信息构建预训练的大语言模型的第一提示;
将所述第一提示输入至所述预训练的大语言模型,得到示例表格公式。
在一个可选的实施方式中,所述表格公式解释模块具体用于:
对所述示例表格进行结构化处理,得到所述示例表格的结构化信息;
利用所述示例表格公式及所述结构化信息构建预训练的大语言模型的第二提示;
将所述第二提示输入至所述预训练的大语言模型,得到所述示例表格公式的公式解释,并将所述公式解释确定为示例需求表述。
在一个可选的实施方式中,所述公式、需求第一处理模块具体包括:
参数提取子模块,用于提取所述示例表格公式的示例函数中的示例参数;
公式、需求第一处理子模块,用于根据所述示例参数,对所述示例表格公式及所述示例需求表述进行第一处理,生成抽象表格公式及抽象需求表述。
在一个可选的实施方式中,所述公式、需求第一处理子模块具体包括:
第一处理单元,用于根据所述示例参数,对所述示例表格公式及所述示例需求表述执行以下第一处理,生成抽象表格公式及抽象需求表述:
第一参数查找单元,用于从所述示例参数中,确定表征所述示例表格中单元格的地址的第一示例参数,查找所述第一示例参数对应的第一抽象参数;
第一实体确定单元,用于确定所述示例需求表述中的第一实体;
第一参数替换单元,用于将所述第一示例参数替换为所述第一抽象参数,将所述第一实体替换为所述第一抽象参数;
第二参数查找单元,用于从所述示例参数中,确定未表征所述示例表格中单元格的地址的第二示例参数,查找所述第二示例参数对应的第二抽象参数;
第二实体确定单元,用于确定所述示例需求表述中的第二实体;
第二参数替换单元,用于将所述第二示例参数替换为所述第二抽象参数,将所述第二实体替换为所述第二抽象参数;
公式确定单元,用于将替换所述第一示例参数、所述第二示例参数后的所述示例表格公式确定为抽象表格公式;
表述确定单元,用于将替换所述第一实体、所述第二实体后的所述示例需求表述确定为抽象需求表述。
在一个可选的实施方式中,所述第一实体确定单元具体用于:
确定所述单元格的地址对应的示例列,获取所述示例列的示例列标题;
从所述示例需求表述中,查找与所述示例列标题相匹配的第一实体。
在一个可选的实施方式中,所述第二实体确定单元具体用于:
从所述示例需求表述中,查找与所述第二示例参数匹配的第二实体。
在一个可选的实施方式中,所述装置还包括:
参数列表构建模块,用于获取所述示例列的示例列类型,建立所述第一抽象参数与所述第一实体、所述示例列类型的第一对应关系;
建立所述第二抽象参数与所述第二实体的第二对应关系,由所述第一对应关系、所述第二对应关系构建参数列表。
在一个可选的实施方式中,所述公式、需求第二处理模块具体用于:
从目标表格中,确定列类型与所述示例列类型一致的目标列,获取所述目标列中目标单元格的目标地址;
根据所述第二实体,生成第三实体,将所述抽象表格公式中的所述第一抽象参数替换为所述目标地址,将所述抽象表格公式中的所述第二抽象参数替换为所述第三实体,生成目标表格公式;
获取所述目标列的目标列标题,将所述抽象需求表述中的所述第一抽象参数替换为所述目标列标题,将所述抽象需求表述中的所述第二抽象参数替换为所述第三实体,生成目标需求表述。
在一个可选的实施方式中,所述装置还包括:
公式、需求质检模块,用于确定所述目标需求表述的语义流畅度,并判断所述语义流畅度与预设数值的差值是否小于预设差值阈值;
在所述目标表格执行所述目标表格公式的情况下,检测所述目标表格公式的执行结果是否正常;
确定所述目标表格公式中目标函数、所述目标函数对应的目标参数、以及与所述目标函数相匹配的模板函数;
确定所述目标函数与所述目标参数的第三对应关系,以及所述模板函数与所述模板函数中模板参数的第四对应关系,并检测所述第三对应关系,是否与所述第四对应关系是否一致;
在所述语义流畅度与预设数值的差值小于所述预设差值阈值,且所述目标表格公式的执行结果正常,且所述第三对应关系与所述第四对应关系一致的情况下,保留所述目标表格公式及所述目标需求表述组成的数据对。
在一个可选的实施方式中,所述装置还包括:
时间增强模块,用于从所述目标需求表述的实体中,检测是否存在表征时间的第四实体;
在存在所述第四实体的情况下,按照时间类的增强方式,对所述第四实体进行增强,得到增强后的所述目标需求表述;
由所述目标表格公式及增强后的所述目标需求表述组成新的数据对。
在一个可选的实施方式中,所述装置还包括:
同义词增强模块,用于确定所述目标需求表述中第五实体的同义词,将所述第五实体替换为所述同义词,得到增强后的所述目标需求表述;
由所述目标表格公式及增强后的所述目标需求表述组成新的数据对。
在一个可选的实施方式中,所述装置还包括:
同音词增强模块,用于确定所述目标需求表述中第六实体的同音词,将所述第六实体替换为所述同音词,得到增强后的所述目标需求表述;
由所述目标表格公式及增强后的所述目标需求表述组成新的数据对。
在本申请实施例的第三方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面中任一所述的数据生成方法。
在本申请实施例的第四方面,还提供了一种存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面中任一所述的数据生成方法。
在本申请实施例的第五方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的数据生成方法。
本申请实施例提供的技术方案,获取至少一个示例表格,并针对任一示例表格,确定示例表格对应的示例函数,根据示例表格以及示例函数,生成示例表格公式,并根据示例表格公式确定示例需求表述,对示例表格公式及示例需求表述进行第一处理,生成抽象表格公式及抽象需求表述,根据目标表格,对抽象表格公式及抽象需求表述进行第二处理,生成目标表格公式及目标需求表述。
通过确定示例表格对应的示例函数,根据示例表格以及示例函数,生成示例表格公式,并根据示例表格公式确定示例需求表述,对示例表格公式及示例需求表述进行第一处理,生成抽象表格公式及抽象需求表述,对抽象表格公式及抽象需求表述进行第二处理,生成目标表格公式及目标需求表述,如此先生成抽象表格公式及抽象需求表述,后续对抽象表格公式及抽象需求表述进行第二处理,即可批量生成目标表格公式及目标需求表述,节约了成本。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1为本申请实施例中示出的一种数据生成方法的实施流程示意图;
图2为本申请实施例中示出的另一种数据生成方法的实施流程示意图;
图3为本申请实施例中示出的一种数据第一处理方法的实施流程示意图;
图4为本申请实施例中示出的一种数据生成装置的结构示意图;
图5为本申请实施例中示出的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
下文的公开提供了许多不同的实施例或例子用来实现本申请的不同结构。为了简化本申请的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本申请。此外,本申请可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。
需要说明的是,对于本申请实施例中所涉及的表格公式,实质是指表格中的函数公式,例如SUM函数,AVERAGE函数、VLOOKUP函数等,与具体的计算公式不同,例如计算公式可以是y=ax+b,表格公式与这种类型的计算公式不同。
如图1所示,为本申请实施例提供的一种数据生成方法的实施流程示意图,该方法应用于电子设备,具体可以包括以下步骤:
S101,获取至少一个示例表格,并针对任一示例表格,确定示例表格对应的示例函数。
在本申请实施例中,对于不同场景下的表格,其可能使用到的函数是不一样的,例如财务场景下的表格与教育场景下的表格,两者使用到的函数是不一样的,为了解决场景覆盖问题,这里需要收集各个场景的示例表格,以此组成不同场景的至少一个示例表格。
基于此,可以获取上述不同场景的至少一个示例表格,每个示例表格对应着一种场景,且各个示例表格对应的场景不同。并且针对至少一个示例表格中的任一示例表格,需要确定该示例表格对应的函数,例如确定示例表格对应的IF函数。其中,示例函数的数量可以是多个。
S102,根据示例表格以及示例函数,生成示例表格公式,并根据示例表格公式确定示例需求表述。
在本申请实施例中,对于示例表格,以及示例表格对应的示例函数,可以根据该示例表格及示例函数,生成示例表格公式,意味着参考该示例表格,生成使用了该示例函数的示例表格公式。
此外,对于示例表格公式,可以根据该示例表格公式确定示例需求表述。其中,可以参考示例表格,根据示例表格公式确定示例需求表述。
例如,示例表格为学生成绩表格,示例函数为IF函数,由此生成一个使用了该IF函数的示例表格公式“=IF(L2≥650,“学习之星”,“”)”,并且参考该示例表格,根据示例表格公式确定示例需求表述“总分在650分及以上的是学习之星”。
S103,对示例表格公式及示例需求表述进行第一处理,生成抽象表格公式及抽象需求表述。
在本申请实施例中,对于示例表格公式及示例需求表述,可以对示例表格公式及示例需求表述进行第一处理,生成抽象表格公式及抽象需求表述。
需要说明的是,第一处理即抽象处理,所谓抽象处理,指的是示例表格公式中示例参数替换为抽象参数,示例需求表述中实体替换为抽象参数,例如抽象参数为column_1,意味着将示例表格公式(=IF(L2≥650,“学习之星”,“”))中示例参数(L2)替换为column_1,将示例需求表述(为总分在650分及以上的是学习之星)中实体(总分)替换为column_1。如此对示例表格公式及示例需求表述进行抽象处理,示例表格公式中示例参数替换为抽象参数,示例需求表述中实体替换为抽象参数,可以得到抽象表格公式及抽象需求表述,抽象表格公式及抽象需求表述可以理解为模板表格公式以及模板需求表述,方便后续进行第二处理,即嵌套处理,以批量生成目标表格公式及目标需求表述,节约成本。
其中,对于示例表格公式中示例参数,示例需求表述中实体,在一定程度上表示的是同一内容。例如,示例表格公式(=IF(L2≥650,“学习之星”,“”))中示例参数(L2、650、学习之星),示例需求表述(总分在650分及以上的是学习之星)中实体(总分、650、学习之星),可以知晓示例参数(L2)指的是学生成绩表格中总分列的单元格地址,指代的是总分,与实体(总分)表示的是同一内容,对于示例参数(650、学习之星)与实体(650、学习之星)亦是如此。
如此经过上述处理,对于至少一个示例表格中的任一示例表格,均存在对应的抽象表格公式及抽象需求表述,抽象表格公式及抽象需求表述组成数据对,并且其数量可以是多对。
S104,根据目标表格,对抽象表格公式及抽象需求表述进行第二处理,生成目标表格公式及目标需求表述。
在本申请实施例中,可以获取目标表格,该目标表格的场景与示例表格的场景一致,如此可以根据目标表格,对示例表格对应的抽象表格公式及抽象需求表述进行第二处理,生成目标表格公式及目标需求表述,目标表格公式及目标需求表述组成数据对,并且其数量可以是多个。
需要说明的是,第二处理即嵌套处理,所谓嵌套处理,指的是抽象表格公式中抽象参数替换为具体参数,抽象需求表述中抽象参数替换为具体实体,例如抽象参数为column_1,意味着将抽象表格公式中column_1替换为具体参数F2,将抽象需求表述中column_1替换为具体实体总成绩,并且抽象表格公式及抽象需求表述共享相同的抽象参数,意味着抽象表格公式及抽象需求表述中抽象参数一致。
其中,对于示例参数,一般设置了对应的抽象参数,从而可以使用抽象参数去替换示例表格公式中对应的示例参数,得到抽象表格公式,后续对于具体参数,其与示例参数类似,具有相似性,可以参考示例参数与抽象参数的对应关系,使用具体参数去替换抽象表格公式中对应的抽象参数,得到目标表格公式。
例如对于示例参数(L2),设置了对应的抽象参数(column_1),从而可以使用抽象参数(column_1)去替换示例表格公式中对应的示例参数(L2),得到抽象表格公式,后续对于具体参数F2,其与示例参数(L2)具有相似性,示例参数(L2)指的是学生成绩表格中总分列的单元格地址,具体参数F2指的是学生成绩表格中总成绩列的单元格地址,两者均指代总的成绩(或总分),参考示例参数(L2)与抽象参数(column_1)的对应关系,使用具体参数F2去替换抽象表格公式中对应的抽象参数(column_1),得到目标表格公式。
通过上述对本申请实施例提供的技术方案的描述,获取至少一个示例表格,并针对任一示例表格,确定示例表格对应的示例函数,根据示例表格以及示例函数,生成示例表格公式,并根据示例表格公式确定示例需求表述,对示例表格公式及示例需求表述进行第一处理,生成抽象表格公式及抽象需求表述,根据目标表格,对抽象表格公式及抽象需求表述进行第二处理,生成目标表格公式及目标需求表述。
通过确定示例表格对应的示例函数,根据示例表格以及示例函数,生成示例表格公式,并根据示例表格公式确定示例需求表述,对示例表格公式及示例需求表述进行第一处理,生成抽象表格公式及抽象需求表述,对抽象表格公式及抽象需求表述进行第二处理,生成目标表格公式及目标需求表述,如此先生成抽象表格公式及抽象需求表述,后续对抽象表格公式及抽象需求表述进行第二处理,即可批量生成目标表格公式及目标需求表述,节约了成本。
对于生成的目标表格公式及目标需求表示,可以作为大语言模型的训练数据使用,即目标表格的结构化信息、目标需求表述作为key(键),而目标表格公式作为value(值),提供给大语言模型学习,即学习key-value的这种对应关系,实现对大语言模型的训练。后续在电子表格软件中,用户可以启动大语言模型,输入自然需求的需求表述,将电子表格软件中当前展示的表格的结构化信息及自然需求的需求表述输入至大语言模型,由大语言模型输出表格公式,提供给用户使用。
如图2所示,为本申请实施例提供的另一种数据生成方法的实施流程示意图,该方法应用于电子设备,具体可以包括以下步骤:
S201,获取至少一个示例表格,并针对任一示例表格,确定示例表格对应的示例场景,并获取预设的场景与函数之间的对应关系。
S202,根据对应关系,确定示例场景对应的函数,将函数确定为示例表格对应的示例函数。
在本申请实施例中,对于不同场景下的表格,其可能使用到的函数是不一样的,例如财务场景下的表格与教育场景下的表格,两者使用到的函数是不一样的,为了解决场景覆盖问题,这里需要收集各个场景的示例表格,以此组成不同场景的至少一个示例表格,并且预先设置了场景与函数之间的对应关系。
基于此,可以获取上述不同场景的至少一个示例表格,针对至少一个示例表格中的任一示例表格,可以确定该示例表格对应的示例场景,并获取预设的场景与函数之间的对应关系,根据该对应关系,确定示例场景对应的函数,将函数确定为该示例表格对应的示例函数。
例如,预先设置场景与函数之间的对应关系,如下表1所示。针对至少一个示例表格中的任一示例表格,可以确定该示例表格对应的示例场景:教育,根据下述表1所示的场景与函数之间的对应关系,可以确定示例场景(教育)对应的函数:IF函数、SUM函数、AVERAGE函数,将IF函数、SUM函数、AVERAGE函数等确定为示例表格对应的示例函数。
表1
S203,构建示例函数的函数应用表述,并对示例表格进行结构化处理,得到示例表格的结构化信息。
S204,利用函数应用表述及结构化信息构建预训练的大语言模型的第一提示。
S205,将第一提示输入至预训练的大语言模型,得到示例表格公式。
在本申请实施例中,对于示例表格,以及示例表格对应的示例函数,可以根据该示例表格及示例函数,让预训练的大语言模型(可以是当前任意的大语言模型)生成对应的示例表格公式。
为此,构建示例函数的函数应用表述,并对示例表格进行结构化处理,得到示例表格的结构化信息,利用函数应用表述及结构化信息构建预训练的大语言模型的第一提示,将第一提示输入至预训练的大语言模型,得到示例表格公式。
其中,对于示例表格的结构化信息,通常指的是示例表格的标题,示例表格的表头以及示例表格的内容等信息。对示例表格进行结构化处理,本质上是为了预训练的大语言模型可以更好的理解示例表格。
例如,构建示例函数(IF函数)的函数应用表述:基于学生成绩表格(示例表格的标题),使用IF函数生成表格公式,对示例表格进行结构化处理,得到示例表格的标题、表头以及内容等结构化信息,利用函数应用表述及结构化信息构建预训练的大语言模型的第一提示(prompt),将第一提示输入至预训练的大语言模型,得到示例表格公式=IF(L2≥650,“学习之星”,“”)。
S206,利用示例表格公式及结构化信息构建预训练的大语言模型的第二提示。
S207,将第二提示输入至预训练的大语言模型,得到示例表格公式的公式解释,并将公式解释确定为示例需求表述。
在本申请实施例中,对于示例表格公式,可以根据示例表格的结构化信息,让预训练的大语言模型对该示例表格公式进行解释,从而生成示例需求表述。
为此,利用示例表格公式及示例表格的结构化信息构建预训练的大语言模型的第二提示,将第二提示输入至预训练的大语言模型,得到示例表格公式的公式解释,并将公式解释确定为示例需求表述。
例如,示例表格公式为=IF(L2≥650,“学习之星”,“”),利用示例表格公式及示例表格的标题、表头以及内容等结构化信息构建预训练的大语言模型的第二提示(prompt),将第二提示输入至预训练的大语言模型,得到示例表格公式的公式解释:总分在650分及以上的是学习之星,并将公式解释确定为示例需求表述。
此外,当示例表格公式、示例需求表述积累到一定数量之后,可以训练基于示例表格的示例表格公式到示例需求表述的翻译模型,例如seq2seq(端到端神经网络模型),从而后续可以直接把示例表格公式及示例表格的结构化信息输入至翻译模型,得到示例需求表述。
S208,对示例表格公式及示例需求表述进行第一处理,生成抽象表格公式及抽象需求表述。
在本申请实施例中,对于示例表格公式及示例需求表述,可以对示例表格公式及示例需求表述进行第一处理,生成抽象表格公式及抽象需求表述。
其中,可以提取示例表格公式的示例函数中的示例参数,根据示例参数,对示例表格公式及示例需求表述进行第一处理,生成抽象表格公式及抽象需求表述。
需要说明的是,可以借助于表格公式解析类,例如openpyxl.formula.tokenizer,提取该示例表格公式的示例函数中的示例参数。其中,关于表格公式解析类的具体应用可以参考现有技术,本申请实施例在此不再一一赘述。
第一处理即抽象处理,所谓抽象处理,指的是示例表格公式中示例参数替换为抽象参数,示例需求表述中实体替换为抽象参数。为此,根据示例参数,对示例表格公式及示例需求表述进行抽象处理,其抽象处理过程可以参考图3所示方法。如图3所示,为本申请实施例提供的一种数据第一处理方法的实施流程示意图,该方法应用于电子设备,具体可以包括以下步骤:
S301,根据示例参数,对示例表格公式及示例需求表述执行以下第一处理,生成抽象表格公式及抽象需求表述。
在本申请实施例中,对于示例表格公式及示例需求表述,根据示例参数,执行如下步骤S302~S307的第一处理,可以得到最终的抽象表格公式及抽象需求表述,也即模板表格公式及模板需求表述。
S302,从示例参数中,确定表征示例表格中单元格的地址的第一示例参数,查找第一示例参数对应的第一抽象参数。
在本申请实施例中,对于示例表格公式,提取该示例表格公式的示例函数中的示例参数,并从提取的示例参数中,确定表征示例表格中单元格的地址的第一示例参数。
需要说明的是,对于示例参数,其中包含表征示例表格中单元格的地址的第一示例参数,以及未表征示例表格中单元格的地址的第二示例参数,单元格的地址例如可以是L2,本申请实施例对此不作限定。
例如,示例表格公式为=IF(L2≥650,“学习之星”,“”),示例需求表述为总分在650分及以上的是学习之星,通过openpyxl.formula.tokenizer提取示例表格公式的示例函数中的示例参数,这些示例参数具体为L2、650、学习之星。并且在这些示例参数中,确定表征示例表格中单元格的地址的第一示例参数L2,L2即单元格的地址,代表的是示例表格中第L列第2行的单元格。
此外,在本申请实施例中,对于第一示例参数,可以查找该第一示例参数对应的第一抽象参数。例如,第一示例参数为L2,其表征的是示例表格中单元格的地址L2,可以查找该第一示例参数对应的第一抽象参数column_1。
需要说明的是,对于示例参数,根据示例参数的参数类型(例如百分比、数字、年份等),定义了对应的抽象参数,由此对于第一示例参数,可以确定该第一示例参数对应的参数类型,查找该参数类型对应的抽象参数,将该抽象参数确定为第一示例参数对应的第一抽象参数。
S303,确定示例需求表述中的第一实体,将第一示例参数替换为第一抽象参数,将第一实体替换为第一抽象参数。
在本申请实施例中,对于示例需求表述,可以确定示例需求表述中的第一实体,如此对于示例需求表述中的第一实体,可以将第一实体替换为第一抽象参数。此外,对于示例表格公式中,表征示例表格中单元格的地址的第一示例参数,可以将第一示例参数替换为第一抽象参数。
其中,对于示例参数,其中包含表征示例表格中单元格的地址的第一示例参数。由此确定该单元格的地址对应的示例列,获取示例列的示例列标题。对于示例需求表述,可以识别该示例需求表述中的实体,从而可以在示例需求表述中,查找与上述示例列标题相匹配的第一实体,这里相匹配的含义指的是与上述示例列标题一致的第一实体。
需要说明的是,对于示例表格,通常采取的是纵向排布的形式,因此上述均是以“列”为例进行说明的,如示例列、示例列标题。相应的如果示例表格采取的是横向排布的形式的话,那么上述的“列”可以替换为“行”,例如示例行、示例行标题,本申请实施例对此不作限定。
例如,第一示例参数为L2,其表征的是示例表格中单元格的地址L2,可以查找该第一示例参数对应的第一抽象参数column_1,并且确定单元格的地址L2对应的示例列,即L列,获取示例列的示例列标题,即总分。
示例需求表述为总分在650分及以上的是学习之星,识别该示例需求表述中的实体,具体是总分、650、学习之星等,从示例需求表述中,查找与上述示例列标题(即总分)相匹配的第一实体,也即总分。
示例表格公式为=IF(L2≥650,“学习之星”,“”),将其中表征示例表格中单元格的地址的第一示例参数(L2)替换为第一抽象参数(column_1),替换之后为=IF({ column_1}≥650,“学习之星”,“”)。
示例需求表述为总分在650分及以上的是学习之星,将其中的第一实体(总分)替换为第一抽象参数(column_1),替换之后为{ column_1}在650分及以上的是学习之星。
S304,从示例参数中,确定未表征示例表格中单元格的地址的第二示例参数,查找第二示例参数对应的第二抽象参数。
在本申请实施例中,对于示例表格公式的示例函数中的示例参数,从这些示例参数中,确定未表征示例表格中单元格的地址的第二示例参数,并且查找第二示例参数对应的第二抽象参数。
例如,示例表格公式为=IF(L2≥650,“学习之星”,“”),示例表格公式的示例函数中的示例参数具体为L2、650、学习之星,确定未表征示例表格中单元格的地址的第二示例参数:650、学习之星,查找第二示例参数对应的第二抽象参数:value_1、change_name_1,650与value_1对应,学习之星与change_name_1对应。
需要说明的是,对于示例参数,根据示例参数的参数类型(例如百分比、数字、年份等),定义了对应的抽象参数,由此对于第二实际参数,可以确定该第二示例参数对应的参数类型,查找该参数类型对应的抽象参数,将该抽象参数确定为第二示例参数对应的第二抽象参数。
S305,确定示例需求表述中的第二实体,将第二示例参数替换为第二抽象参数,将第二实体替换为第二抽象参数。
在本申请实施例中,对于示例需求表述,确定示例需求表述中的第二实体,如此对于示例需求表述中的第二实体,可以将第二示例参数替换为第二抽象参数。此外,对于示例表格公式中,未表征示例表格中单元格的地址的第二示例参数,可以将第二示例参数替换为第二抽象参数。
其中,从示例需求表述中,查找与第二示例参数匹配的第二实体。具体地,对于示例需求表述,可以识别该示例需求表述中的实体,从而可以在示例需求表述中,查找与上述第二示例参数相匹配的第二实体,这里相匹配的含义指的是与上述第二示例参数一致的第二实体。
例如,示例需求表述为总分在650分及以上的是学习之星,识别该示例需求表述中的实体,具体是总分、650、学习之星等,从示例需求表述中,查找与上述第二示例参数(650、学习之星)相匹配的第二实体(650、学习之星)。
示例表格公式为=IF(L2≥650,“学习之星”,“”),将其中未表征示例表格中单元格的地址的第二示例参数(650、学习之星)替换为第二抽象参数(value_1、change_name_1),替换之后为=IF(L2≥{ value_1},“{change_name_1}”,“”)。
示例需求表述为总分在650分及以上的是学习之星,将其中第二实体(650、学习之星)替换为第二抽象参数(value_1、change_name_1),替换之后为总分在{ value_1}分及以上的是{change_name_1}。
此外,对于示例表格公式,将其中表征示例表格中单元格的地址的第一示例参数(L2)替换为第一抽象参数(column_1),替换之后为=IF({ column_1}≥{ value_1},“{change_name_1}”,“”)。对于示例需求表述,将其中的第一实体(总分)替换为第一抽象参数(column_1),替换之后为{ column_1}在{ value_1}分及以上的是{change_name_1}。
S306,将替换第一示例参数、第二示例参数后的示例表格公式确定为抽象表格公式。
S307,将替换第一实体、第二实体后的示例需求表述确定为抽象需求表述。
在本申请实施例中,对于示例表格公式,经过上述第一处理,可以替换掉其中的第一示例参数、第二示例参数,如此可以将替换第一示例参数、第二示例参数后的示例表格公式确定为抽象表格公式。
同理,对于示例需求表述,经过上传第一处理,可以替换掉其中的第一实体、第二实体,如此可以将替换第一实体、第二实体后的示例需求表述确定为抽象需求表述。
另外,在对示例表格公式及示例需求表述进行第一处理,生成抽象表格公式及抽象需求表述之后,可以根据示例表格、抽象参数以及示例需求表述中实体,构建参数列表,可以作为中间件,用来对抽象表格公式及抽象需求表述进行第二处理。
基于此,获取示例表格中上述示例列的示例列类型,建立上述第一抽象参数与上述第一实体、该示例列类型的第一对应关系。建立上述第二抽象参数与上述第二实体的第二对应关系,由第一对应关系、第二对应关系构建参数列表。此外,还可以获取示例列在示例表格中的列索引、列序号等,参与第一对应关系的建立。
例如,获取示例表格中上述示例列的示例列类型data,示例列在示例表格中的列索引L、列序号5,由此建立第一抽象参数column_1与第一实体总分、示例列类型data、列索引L、列序号5的第一对应关系,如下所示:
“column_1”:{“name”:“总分”,“type”:“data”,“col_index”:“L”,“col_num”:“5”}。
建立第二抽象参数(value_1、change_name_1)与第二实体(650、学习之星)的对应关系,如下所示:
“change_name_1”:“学习之星”。
“value_1”:“650”。
由第一对应关系、第二对应关系构建参数列表,如下所示:
“column_1”:{“name”:“总分”,“type”:“data”,“col_index”:“L”,“col_num”:“5”};
“change_name_1”:“学习之星”;
“value_1”:“650”。
S209,根据目标表格,对抽象表格公式及抽象需求表述进行第二处理,生成目标表格公式及目标需求表述。
在本申请实施例中,可以获取目标表格,该目标表格的场景与示例表格的场景一致,可以以上述参数列表为中间件,根据目标表格,对示例表格对应的抽象表格公式及抽象需求表述进行第二处理,生成目标表格公式及目标需求表述。
基于此,从目标表格中,确定列类型与上述参数列表中记载的示例列类型一致的目标列,获取目标列中目标单元格的目标地址;根据上述参数列表中记载的第二实体,生成第三实体,将抽象表格公式中的第一抽象参数替换为目标地址,将抽象表格公式中的第二抽象参数替换为第三实体,生成目标表格公式;获取目标列的目标列标题,将抽象需求表述中的第一抽象参数替换为目标列标题,将抽象需求表述中的第二抽象参数替换为第三实体,生成目标需求表述。
需要说明的是,可以随机获取目标列中目标单元格的目标地址。此外,根据上述参数列表中记载的第二实体,随机生成第三实体,其中,可以随机生成与第二实体相似的第三实体。例如,上述参数列表中记载的第二实体为学习之星,可以随机生成与第二实体相似的第三实体,即学习标兵,本申请实施例对此不作限定。
例如,从目标表格中,确定列类型与上述参数列表中记载的示例列类型(data)一致的目标列,随机获取目标列中目标单元格的目标地址(F2),根据上述参数列表中记载的第二实体(650、学习之星),随机生成第三实体(550、学习标兵),将抽象表格公式中的第一抽象参数(column_1)替换为目标地址(F2),将抽象表格公式中的第二抽象参数(value_1、change_name_1)替换为第三实体(550、学习标兵),生成目标表格公式,也即=IF(F2≥550,“学习标兵”,“”),获取目标列的目标列标题(总成绩),将抽象需求表述中的第一抽象参数(column_1)替换为目标列标题(总成绩),将抽象需求表述中的第二抽象参数(value_1、change_name_1)替换为第三实体(550、学习标兵),生成目标需求表述,也即总成绩在550分及以上的是学习标兵。
如此先生成抽象表格公式及抽象需求表述,后续对抽象表格公式及抽象需求表述进行第二处理,即可批量生成目标表格公式及目标需求表述,节约了成本。
此外,对于生成的目标表格公式及目标需求表述,需要进行质检,只有质检通过之后,才可以作为大语言模型的训练数据使用。为此,需要关注目标需求表述的语义流畅程度,目标表格公式的语法合法性。
基于此,确定目标需求表述的语义流畅度,并判断语义流畅度与预设数值(例如0)的差值是否小于预设差值阈值,在目标表格执行目标表格公式的情况下,检测目标表格公式的执行结果是否正常,确定目标表格公式中目标函数、目标函数对应的目标参数,以及与目标函数相匹配的模板函数,确定目标函数与目标参数的第三对应关系,以及模板函数与模板函数中模板参数的第四对应关系,并检测第三对应关系,是否与第四对应关系是否一致,在语义流畅度与预设数值的差值小于预设差值阈值,且目标表格公式的执行结果正常,且第三对应关系与第四对应关系一致的情况下,保留目标表格公式及目标需求表述组成的数据对,由此可以作为大语言模型的训练数据使用,即目标表格的结构化信息、目标需求表述作为key(键),而目标表格公式作为value(值),提供给大语言模型学习,即学习key-value的这种对应关系,实现对大语言模型的训练。
其中,通过语义流畅度评测模型评估目标需求表述的语义流畅度。具体地,将目标需求表述输入至语义流畅度评测模型,得到评分,将评分确定为目标需求表述的语义流畅度。需要说明的是,对于语义流畅度评测模型,例如可以是ngrams、masked bert或kenlm等,其输入是目标需求表述的句子,输出为评分。其中,评分函数有2种,分别为score和perplexity,对于score 函数,其值为负值,值越大,目标需求表述的生成质量越高,对于perplexity函数,其值为正值,值越小,目标需求表述的生成质量越高,意味着不管采用那种评分函数,评分趋近于0,则说明目标需求表述的生成质量越高,目标需求表述可用,因此上述需要判断语义流畅度与预设数值(例如0)的差值是否小于预设差值阈值。
对于目标表格公式的语法合法性的质检,通常是在目标表格执行目标表格公式,并检测目标表格公式的执行结果是否正常,如果执行结果正常,则说明目标表格公式的语法合法。例如,在目标表格执行目标表格公式=sum(1)与=sum(),可以得到两种不同的执行结果,前者可以正确执行,后者会报相应的错误。
对于目标表格公式的语法合法性的另一种质检,通常是检查函数与参数的对应关系,本质上是检查函数与参数的类型的对应关系。由于函数是可穷举的,可构建模板函数与模板函数中模板参数的类型的第四对应关系,利用表格公式解析类,例如openpyxl.formula.tokenizer,解析目标表格公式,输出其中目标函数、目标函数对应的目标参数,检测目标函数与目标参数的类型的第三对应关系,是否落入前置构建的模板函数与模板函数中模板参数的类型的第四对应关系,如果落入,则说明目标表格公式的语法合法。
另外,为了实现自然语言的泛化性,在自动化流程中增加了自然语言的增强处理,其中包括时间类的增强方式、同义词增强及同音字增强等。为此,可以针对目标需求表述执行上述增强处理。
其中,对于时间数据来说,格式较多,需要利用格式间的转化进行增强处理,将一种时间类型的数据泛化为所有可支持的时间范围;对于时间类型的比较数据可以根据在哪一天泛化到哪一天之前或之后或多个时间段的表述。为此,从目标需求表述的实体中,检测是否存在表征时间的第四实体;在存在第四实体的情况下,按照时间类的增强方式,对第四实体进行增强,得到增强后的目标需求表述;由目标表格公式及增强后的目标需求表述组成新的数据对。例如,“在2023年1月前的订单数量”,就可以按照时间类的增强方式,增强为“在2023年1月后的订单数量”。
对于一句话,可以识别其中的多个实体,每个实体通常存在多个同义词,将一句话中的某个实体替换为同义词达到在不改变句意句子的泛化。例如“提取单元格F4最左边的数值”,将实体“提取”替换为同义词“取出”,可将句子改变为“取出单元格F4最左边的数值”,这样在不改变句意的同时泛化表述。为此确定目标需求表述中第五实体的同义词,将第五实体替换为同义词,得到增强后的目标需求表述;由目标表格公式及增强后的目标需求表述组成新的数据对。
在用户输入自然语言的需求表述时,可能由于习惯导致部分实体在相同音的情况下输出却不是自己想要的,在未发现的情况表格公式生成也可以正确输出,这离不开同音词增强处理,在处理该任务时会将部分常用错误的同音词进行替换做训练数据,在实际处理时就可以正确识别用户想要的输入信息,进而可以正确的进行表格公式生成。为此确定目标需求表述中第六实体的同音词,将第六实体替换为同音词,得到增强后的目标需求表述;由目标表格公式及增强后的目标需求表述组成新的数据对。
此外,对于目标表格公式及增强后的目标需求表述,同样进行质检,只有质检通过之后,才可以作为训练数据使用,即训练大语言模型的训练数据。为此,需要关注增强后的目标需求表述的语义流畅程度,目标表格公式的语法合法性。
基于此,确定增强后的目标需求表述的语义流畅度,并判断语义流畅度与预设数值(例如0)的差值是否小于预设差值阈值,在目标表格执行目标表格公式,并检测目标表格公式的执行结果是否正常,确定目标表格公式中目标函数、目标函数对应的目标参数,以及与目标函数相匹配的模板函数,检测目标函数与目标参数的第三对应关系,是否与模板函数与模板函数中模板参数的第四对应关系是否一致,在语义流畅度与预设数值的差值小于预设差值阈值,且目标表格公式的执行结果正常,且第三对应关系与第四对应关系一致的情况下,保留目标表格公式及增强后的目标需求表述组成的数据对,由此可以作为大语言模型的训练数据使用,即目标表格的结构化信息、增强后的目标需求表述作为key(键),而目标表格公式作为value(值),提供给大语言模型学习,即学习key-value的这种对应关系,实现对大语言模型的训练。
与上述方法实施例相对应,本申请实施例还提供了一种数据生成装置,如图4所示,该装置可以包括:示例表格获取模块410、示例函数确定模块420、表格公式生成模块430、表格公式解释模块440、公式、需求第一处理模块450、公式、需求第二处理模块460。
示例表格获取模块410,用于获取至少一个示例表格;
示例函数确定模块420,用于针对任一所述示例表格,确定所述示例表格对应的示例函数;
表格公式生成模块430,用于根据所述示例表格以及所述示例函数,生成示例表格公式;
表格公式解释模块440,用于根据所述示例表格公式确定示例需求表述;
公式、需求第一处理模块450,用于对所述示例表格公式及所述示例需求表述进行第一处理,生成抽象表格公式及抽象需求表述;
公式、需求第二处理模块460,用于根据目标表格,对所述抽象表格公式及所述抽象需求表述进行第二处理,生成目标表格公式及目标需求表述。
在一个可选的实施方式中,所述示例函数确定模块具体用于:
针对任一所述示例表格,确定所述示例表格对应的示例场景,并获取预设的场景与函数之间的对应关系;
根据所述对应关系,确定所述示例场景对应的函数,将所述函数确定为所述示例表格对应的示例函数。
在一个可选的实施方式中,所述表格公式生成模块具体用于:
构建所述示例函数的函数应用表述,并对所述示例表格进行结构化处理,得到所述示例表格的结构化信息;
利用所述函数应用表述及所述结构化信息构建预训练的大语言模型的第一提示;
将所述第一提示输入至所述预训练的大语言模型,得到示例表格公式。
在一个可选的实施方式中,所述表格公式解释模块具体用于:
对所述示例表格进行结构化处理,得到所述示例表格的结构化信息;
利用所述示例表格公式及所述结构化信息构建预训练的大语言模型的第二提示;
将所述第二提示输入至所述预训练的大语言模型,得到所述示例表格公式的公式解释,并将所述公式解释确定为示例需求表述。
在一个可选的实施方式中,所述公式、需求第一处理模块具体包括:
参数提取子模块,用于提取所述示例表格公式的示例函数中的示例参数;
公式、需求第一处理子模块,用于根据所述示例参数,对所述示例表格公式及所述示例需求表述进行第一处理,生成抽象表格公式及抽象需求表述。
在一个可选的实施方式中,所述公式、需求第一处理子模块具体包括:
第一处理单元,用于根据所述示例参数,对所述示例表格公式及所述示例需求表述执行以下第一处理,生成抽象表格公式及抽象需求表述:
第一参数查找单元,用于从所述示例参数中,确定表征所述示例表格中单元格的地址的第一示例参数,查找所述第一示例参数对应的第一抽象参数;
第一实体确定单元,用于确定所述示例需求表述中的第一实体;
第一参数替换单元,用于将所述第一示例参数替换为所述第一抽象参数,将所述第一实体替换为所述第一抽象参数;
第二参数查找单元,用于从所述示例参数中,确定未表征所述示例表格中单元格的地址的第二示例参数,查找所述第二示例参数对应的第二抽象参数;
第二实体确定单元,用于确定所述示例需求表述中的第二实体;
第二参数替换单元,用于将所述第二示例参数替换为所述第二抽象参数,将所述第二实体替换为所述第二抽象参数;
公式确定单元,用于将替换所述第一示例参数、所述第二示例参数后的所述示例表格公式确定为抽象表格公式;
表述确定单元,用于将替换所述第一实体、所述第二实体后的所述示例需求表述确定为抽象需求表述。
在一个可选的实施方式中,所述第一实体确定单元具体用于:
确定所述单元格的地址对应的示例列,获取所述示例列的示例列标题;
从所述示例需求表述中,查找与所述示例列标题相匹配的第一实体。
在一个可选的实施方式中,所述第二实体确定单元具体用于:
从所述示例需求表述中,查找与所述第二示例参数匹配的第二实体。
在一个可选的实施方式中,所述装置还包括:
参数列表构建模块,用于获取所述示例列的示例列类型,建立所述第一抽象参数与所述第一实体、所述示例列类型的第一对应关系;
建立所述第二抽象参数与所述第二实体的第二对应关系,由所述第一对应关系、所述第二对应关系构建参数列表。
在一个可选的实施方式中,所述公式、需求第二处理模块具体用于:
从目标表格中,确定列类型与所述示例列类型一致的目标列,获取所述目标列中目标单元格的目标地址;
根据所述第二实体,生成第三实体,将所述抽象表格公式中的所述第一抽象参数替换为所述目标地址,将所述抽象表格公式中的所述第二抽象参数替换为所述第三实体,生成目标表格公式;
获取所述目标列的目标列标题,将所述抽象需求表述中的所述第一抽象参数替换为所述目标列标题,将所述抽象需求表述中的所述第二抽象参数替换为所述第三实体,生成目标需求表述。
在一个可选的实施方式中,所述装置还包括:
公式、需求质检模块,用于确定所述目标需求表述的语义流畅度,并判断所述语义流畅度与预设数值的差值是否小于预设差值阈值;
在所述目标表格执行所述目标表格公式的情况下,检测所述目标表格公式的执行结果是否正常;
确定所述目标表格公式中目标函数、所述目标函数对应的目标参数、以及与所述目标函数相匹配的模板函数;
确定所述目标函数与所述目标参数的第三对应关系,以及所述模板函数与所述模板函数中模板参数的第四对应关系,并检测所述第三对应关系,是否与所述第四对应关系是否一致;
在所述语义流畅度与预设数值的差值小于所述预设差值阈值,且所述目标表格公式的执行结果正常,且所述第三对应关系与所述第四对应关系一致的情况下,保留所述目标表格公式及所述目标需求表述组成的数据对。
在一个可选的实施方式中,所述装置还包括:
时间增强模块,用于从所述目标需求表述的实体中,检测是否存在表征时间的第四实体;
在存在所述第四实体的情况下,按照时间类的增强方式,对所述第四实体进行增强,得到增强后的所述目标需求表述;
由所述目标表格公式及增强后的所述目标需求表述组成新的数据对。
在一个可选的实施方式中,所述装置还包括:
同义词增强模块,用于确定所述目标需求表述中第五实体的同义词,将所述第五实体替换为所述同义词,得到增强后的所述目标需求表述;
由所述目标表格公式及增强后的所述目标需求表述组成新的数据对。
在一个可选的实施方式中,所述装置还包括:
同音词增强模块,用于确定所述目标需求表述中第六实体的同音词,将所述第六实体替换为所述同音词,得到增强后的所述目标需求表述;
由所述目标表格公式及增强后的所述目标需求表述组成新的数据对。
本申请实施例还提供了一种电子设备,如图5所示,包括处理器51、通信接口52、存储器53和通信总线54,其中,处理器51,通信接口52,存储器53通过通信总线54完成相互间的通信,
存储器53,用于存放计算机程序;
处理器51,用于执行存储器53上所存放的程序时,实现如下步骤:
获取至少一个示例表格,并针对任一所述示例表格,确定所述示例表格对应的示例函数;根据所述示例表格以及所述示例函数,生成示例表格公式,并根据所述示例表格公式确定示例需求表述;对所述示例表格公式及所述示例需求表述进行第一处理,生成抽象表格公式及抽象需求表述;根据目标表格,对所述抽象表格公式及所述抽象需求表述进行第二处理,生成目标表格公式及目标需求表述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种存储介质,该存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的数据生成方法。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的数据生成方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在存储介质中,或者从一个存储介质向另一个存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk (SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

Claims (16)

1.一种数据生成方法,其特征在于,所述方法包括:
获取至少一个示例表格,并针对任一所述示例表格,确定所述示例表格对应的示例函数;
根据所述示例表格以及所述示例函数,生成示例表格公式,并根据所述示例表格公式确定示例需求表述;所述表格公式是表格中的函数公式;
对所述示例表格公式及所述示例需求表述进行第一处理,生成抽象表格公式及抽象需求表述;
根据目标表格,对所述抽象表格公式及所述抽象需求表述进行第二处理,生成目标表格公式及目标需求表述;
所述对所述示例表格公式及所述示例需求表述进行第一处理,生成抽象表格公式及抽象需求表述,包括:
提取所述示例表格公式的示例函数中的示例参数;
将所述示例表格公式中的示例参数替换为抽象参数,将所述示例需求表述中的实体替换为抽象参数,得到抽象表格公式及抽象需求表述。
2.根据权利要求1所述的方法,其特征在于,所述针对任一所述示例表格,确定所述示例表格对应的示例函数,包括:
针对任一所述示例表格,确定所述示例表格对应的示例场景,并获取预设的场景与函数之间的对应关系;
根据所述对应关系,确定所述示例场景对应的函数,将所述函数确定为所述示例表格对应的示例函数。
3.根据权利要求1所述的方法,其特征在于,所述根据所述示例表格以及所述示例函数,生成示例表格公式,包括:
构建所述示例函数的函数应用表述,并对所述示例表格进行结构化处理,得到所述示例表格的结构化信息;
利用所述函数应用表述及所述结构化信息构建预训练的大语言模型的第一提示;
将所述第一提示输入至所述预训练的大语言模型,得到示例表格公式。
4.根据权利要求1所述的方法,其特征在于,所述根据所述示例表格公式确定示例需求表述,包括:
对所述示例表格进行结构化处理,得到所述示例表格的结构化信息;
利用所述示例表格公式及所述结构化信息构建预训练的大语言模型的第二提示;
将所述第二提示输入至所述预训练的大语言模型,得到所述示例表格公式的公式解释,并将所述公式解释确定为示例需求表述。
5.根据权利要求1所述的方法,其特征在于,所述将所述示例表格公式中的示例参数替换为抽象参数,将所述示例需求表述中的实体替换为抽象参数,得到抽象表格公式及抽象需求表述,包括:
根据所述示例参数,对所述示例表格公式及所述示例需求表述执行以下第一处理,生成抽象表格公式及抽象需求表述:
从所述示例参数中,确定表征所述示例表格中单元格的地址的第一示例参数,查找所述第一示例参数对应的第一抽象参数;
确定所述示例需求表述中的第一实体,将所述第一示例参数替换为所述第一抽象参数,将所述第一实体替换为所述第一抽象参数;
从所述示例参数中,确定未表征所述示例表格中单元格的地址的第二示例参数,查找所述第二示例参数对应的第二抽象参数;
确定所述示例需求表述中的第二实体,将所述第二示例参数替换为所述第二抽象参数,将所述第二实体替换为所述第二抽象参数;
将替换所述第一示例参数、所述第二示例参数后的所述示例表格公式确定为抽象表格公式;
将替换所述第一实体、所述第二实体后的所述示例需求表述确定为抽象需求表述。
6.根据权利要求5所述的方法,其特征在于,所述确定所述示例需求表述中的第一实体,包括:
确定所述单元格的地址对应的示例列,获取所述示例列的示例列标题;
从所述示例需求表述中,查找与所述示例列标题相匹配的第一实体。
7.根据权利要求5所述的方法,其特征在于,所述确定所述示例需求表述中的第二实体,包括:
从所述示例需求表述中,查找与所述第二示例参数匹配的第二实体。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取所述示例列的示例列类型,建立所述第一抽象参数与所述第一实体、所述示例列类型的第一对应关系;
建立所述第二抽象参数与所述第二实体的第二对应关系,由所述第一对应关系、所述第二对应关系构建参数列表。
9.根据权利要求8所述的方法,其特征在于,所述根据目标表格,对所述抽象表格公式及所述抽象需求表述进行第二处理,生成目标表格公式及目标需求表述,包括:
从目标表格中,确定列类型与所述示例列类型一致的目标列,获取所述目标列中目标单元格的目标地址;
根据所述第二实体,生成第三实体,将所述抽象表格公式中的所述第一抽象参数替换为所述目标地址,将所述抽象表格公式中的所述第二抽象参数替换为所述第三实体,生成目标表格公式;
获取所述目标列的目标列标题,将所述抽象需求表述中的所述第一抽象参数替换为所述目标列标题,将所述抽象需求表述中的所述第二抽象参数替换为所述第三实体,生成目标需求表述。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述目标需求表述的语义流畅度,并判断所述语义流畅度与预设数值的差值是否小于预设差值阈值;
在所述目标表格执行所述目标表格公式的情况下,检测所述目标表格公式的执行结果是否正常;
确定所述目标表格公式中目标函数、所述目标函数对应的目标参数、以及与所述目标函数相匹配的模板函数;
确定所述目标函数与所述目标参数的第三对应关系,以及所述模板函数与所述模板函数中模板参数的第四对应关系,并检测所述第三对应关系是否与所述第四对应关系一致;
在所述语义流畅度与预设数值的差值小于所述预设差值阈值,且所述目标表格公式的执行结果正常,且所述第三对应关系与所述第四对应关系一致的情况下,保留所述目标表格公式及所述目标需求表述组成的数据对。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从所述目标需求表述的实体中,检测是否存在表征时间的第四实体;
在存在所述第四实体的情况下,按照时间类的增强方式,对所述第四实体进行增强,得到增强后的所述目标需求表述;
由所述目标表格公式及增强后的所述目标需求表述组成新的数据对。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述目标需求表述中第五实体的同义词,将所述第五实体替换为所述同义词,得到增强后的所述目标需求表述;
由所述目标表格公式及增强后的所述目标需求表述组成新的数据对。
13.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述目标需求表述中第六实体的同音词,将所述第六实体替换为所述同音词,得到增强后的所述目标需求表述;
由所述目标表格公式及增强后的所述目标需求表述组成新的数据对。
14.一种数据生成装置,其特征在于,所述装置包括:
示例表格获取模块,用于获取至少一个示例表格;
示例函数确定模块,用于针对任一所述示例表格,确定所述示例表格对应的示例函数;
表格公式生成模块,用于根据所述示例表格以及所述示例函数,生成示例表格公式;所述表格公式是表格中的函数公式;
表格公式解释模块,用于根据所述示例表格公式确定示例需求表述;
公式、需求第一处理模块,用于对所述示例表格公式及所述示例需求表述进行第一处理,生成抽象表格公式及抽象需求表述;
所述公式、需求第一处理模块具体包括:参数提取子模块,用于提取所述示例表格公式的示例函数中的示例参数;公式、需求第一处理子模块,用于将所述示例表格公式中的示例参数替换为抽象参数,将所述示例需求表述中的实体替换为抽象参数,得到抽象表格公式及抽象需求表述;
公式、需求第二处理模块,用于根据目标表格,对所述抽象表格公式及所述抽象需求表述进行第二处理,生成目标表格公式及目标需求表述。
15.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-13中任一所述的方法。
16.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-13中任一所述的方法。
CN202410673407.4A 2024-05-28 2024-05-28 数据生成方法、装置、电子设备及存储介质 Active CN118261120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410673407.4A CN118261120B (zh) 2024-05-28 2024-05-28 数据生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410673407.4A CN118261120B (zh) 2024-05-28 2024-05-28 数据生成方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN118261120A CN118261120A (zh) 2024-06-28
CN118261120B true CN118261120B (zh) 2024-08-27

Family

ID=91602608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410673407.4A Active CN118261120B (zh) 2024-05-28 2024-05-28 数据生成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN118261120B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560413A (zh) * 2020-12-15 2021-03-26 中国人寿保险股份有限公司 基于配置模式的报表扩展方法、装置和设备
CN113515920A (zh) * 2020-04-09 2021-10-19 北京庖丁科技有限公司 从表格中提取公式的方法、电子设备和计算机可读介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010061296A (ja) * 2008-09-02 2010-03-18 Sharp Corp データ作成装置、データ処理装置、データ供給システム、データ作成方法、データ処理方法、制御プログラムおよび記録媒体
CN117874161A (zh) * 2023-12-15 2024-04-12 北京捷通华声科技股份有限公司 表格问答优化方法、装置、电子设备及可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515920A (zh) * 2020-04-09 2021-10-19 北京庖丁科技有限公司 从表格中提取公式的方法、电子设备和计算机可读介质
CN112560413A (zh) * 2020-12-15 2021-03-26 中国人寿保险股份有限公司 基于配置模式的报表扩展方法、装置和设备

Also Published As

Publication number Publication date
CN118261120A (zh) 2024-06-28

Similar Documents

Publication Publication Date Title
CN110704626B (zh) 一种用于短文本的分类方法及装置
CN108846138B (zh) 一种融合答案信息的问题分类模型构建方法、装置和介质
CN112528703B (zh) 一种识别表格结构的方法、装置及电子设备
CN110245349A (zh) 一种句法依存分析方法、装置及一种电子设备
CN113255365A (zh) 文本数据增强方法、装置、设备及计算机可读存储介质
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN110738056A (zh) 用于生成信息的方法和装置
CN117573985B (zh) 一种应用于智能化在线教育系统的信息推送方法及系统
CN114896382A (zh) 人工智能问答模型生成方法、问答方法、装置及存储介质
Yeo et al. Framework for evaluating code generation ability of large language models
JP6942759B2 (ja) 情報処理装置、プログラム及び情報処理方法
Nguyen et al. Measuring Moral Dimensions in Social Media with Mformer
CN118261120B (zh) 数据生成方法、装置、电子设备及存储介质
Acheampong et al. Answer triggering of factoid questions: A cognitive approach
US20240320500A1 (en) Method and apparatus for generating training data
CN113268673B (zh) 互联网行动类信息线索分析的方法和系统
CN118246408B (zh) 数据生成方法、装置、电子设备及存储介质
CN116306598B (zh) 针对不同领域字词的定制化纠错方法、系统、设备及介质
CN114579601B (zh) 数据生成方法、装置、计算设备及介质
CN118331890B (zh) 基于token训练限定大语言模型的数据批量生成方法
CN116662523B (zh) 一种基于gpt模型的生化知识问答方法、系统及存储介质
US20240354632A1 (en) Method and apparatus for generating target deep learning model
EP4328805A1 (en) Method and apparatus for generating target deep learning model
Kittenberger Generating knowledge Graphs with specified ambiguities
Wang et al. Domain Knowledge Enhanced BERT for Chinese Named Entity Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant