CN116976294A - 一种用于实现复杂电子表格自动填充的方法及系统 - Google Patents

一种用于实现复杂电子表格自动填充的方法及系统 Download PDF

Info

Publication number
CN116976294A
CN116976294A CN202311227413.9A CN202311227413A CN116976294A CN 116976294 A CN116976294 A CN 116976294A CN 202311227413 A CN202311227413 A CN 202311227413A CN 116976294 A CN116976294 A CN 116976294A
Authority
CN
China
Prior art keywords
data
cell
answer
gpt
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311227413.9A
Other languages
English (en)
Other versions
CN116976294B (zh
Inventor
刘伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Noah Information Technology Co ltd
Original Assignee
Qingdao Noah Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Noah Information Technology Co ltd filed Critical Qingdao Noah Information Technology Co ltd
Priority to CN202311227413.9A priority Critical patent/CN116976294B/zh
Publication of CN116976294A publication Critical patent/CN116976294A/zh
Application granted granted Critical
Publication of CN116976294B publication Critical patent/CN116976294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Devices For Executing Special Programs (AREA)

Abstract

本发明属于数据信息处理技术领域,公开了一种用于实现复杂电子表格自动填充的方法及系统。该方法包括:定义一种根据上下文、模板约束自动构造标准问题结构;将复杂电子表格中所有需要填充的单元格cell构造成一个状态流,按顺序对每个单元格构造标准问题,所述标准问题包括单元格的上下文,单元格包括模板的规则约束;将标准问题发送给GPT获得答案;如果答案匹配单元格cell的模板的规则约束,则直接填入,如果不匹配,多次调用获得一个答案集,去重后呈现给用户。本发明可以帮助企业节省时间和成本,提高数据准确性和完整性,并使得数据管理更加便捷和高效。

Description

一种用于实现复杂电子表格自动填充的方法及系统
技术领域
本发明属于数据信息处理技术领域,尤其涉及一种用于实现复杂电子表格自动填充的方法及系统。
背景技术
复杂电子表格广泛应用于各种领域,如商业、金融、科学研究等,成为数据处理和分析的重要工具之一。然而,在实际应用中,由于复杂电子表格存在大量的语义关系和上下文信息,其中某些单元格需要进行自动化填充,这成为复杂电子表格处理的难点之一。传统的基于规则或特征工程的方法在复杂电子表格自动化填充任务中效果有限,因此需要寻找新的解决方案。
近年来,深度学习技术的发展使得语言模型在自然语言处理等领域取得了重要进展。针对复杂电子表格自动化填充的问题,在处理大量复杂电子表格信息录入时,存在以下问题:
1)容易出现错误:由于复杂电子表格中的数据量很大,输入数据时容易出现拼写错误、格式错误、逻辑错误等问题,从而导致数字计算和分析的不准确性。
2)重复劳动:对于大量数据的输入,需要花费大量时间进行手动录入,这会浪费人力资源和时间,并且可能会导致疲劳和错误增加。
3)数据一致性:当多个人员参与大量信息的录入时,难免会因为差异的操作和理解导致数据的不一致性,这将影响后续的数据分析和决策过程。
4)不良用户体验:当录入项过多时,页面会变得拥挤、混乱,给用户带来不好的使用体验,影响用户满意度和粘性。
发明内容
为克服相关技术中存在的问题,本发明公开实施例提供了一种用于实现复杂电子表格自动填充的方法及系统,具体涉及一种基于Generative Pre-Training Transformer模型实现复杂电子表格自动填充的技术。
所述技术方案如下:一种用于实现复杂电子表格自动填充的方法,利用单元格cell构造一个标准问题并向GPT提问,获得GPT的回答,将答案填入到单元格中或者获得多个答案供使用户选择;具体包括以下步骤:
S1,定义一种根据上下文、模板约束自动构造标准问题结构;
S2,将复杂电子表格中所有需要填充的单元格cell构造成一个状态流,按顺序对每个单元格构造标准问题,所述标准问题包括单元格的上下文,单元格包括模板的规则约束;
S3,将标准问题发送给GPT获得答案;如果答案匹配单元格cell的模板的规则约束,则直接填入,如果不匹配,多次调用获得一个答案集,去重后呈现给用户。
进一步的,在步骤S1中,定义一种根据上下文、模板约束自动构造标准问题结构包括:解析表格,将表单的字段、位置、样式、数据生成数据模板,所述数据模板为预模型,修改预模型,形成最终模型。
进一步的,所述解析表格包括:
(1)检查数据类型并确定每列数据的格式,所述格式包括数字、文本、时间;
(2)对数据进行清理和整理,所述整理包括去除重复数据、填充缺失数据、格式化日期;
(3)将表头作为JSON对象中的key,将每行数据转换为JSON对象中的值,并将每行数据组合在一起创建JSON数组;
(4)使用编程语言或在线工具方法将JSON数组转换为JSON格式数据;
所述生成数据模板包括:
基于原生DOM绘制表格设计数据模板,最小结构为单元格;单元格包括编码、位置、样式、数据绑定,其中编码为唯一值用来唯一标识单元格;通过第几行第几列定义单元格的位置;所述样式包括是单元格本身的样式以及单元格绑定的数据展示的样式;
所述数据的绑定包括:利用原生JS与订阅发布者模式实现数据双向绑定;
所述修改预模型,形成最终模型包括:对预模型进行数据集划分、预训练、超参数调优、微调、评估和测试、部署和应用多个步骤形成最终模型,并针对不同因素和环节之间的相互关系,根据实际情况进行优化。
进一步的,对生成数据模板还需进行:数据的处理以及识别数据的结束条件;
所述数据的处理包括:根据预模型中字段的约束条件、计算规则进行相关处理,包括格式化、转换、计算操作;
所述识别数据的结束条件中识别出具体的影响数据模板生成的特征变量。
进一步的,在步骤S2中,将复杂电子表格中所有需要填充的单元格cell构造成一个状态流包括:状态流中包含需要填充的各个单元格的模型数据,把每个需要输出内容结果的单元格当成一个小节,每个小节中都包含字段约束、上下文信息、特征变量;一个复杂电子表格的所有小节共同构成有限状态机,每个节为一个状态。
进一步的,在步骤S3中,将标准问题发送给GPT获得答案包括:
首先,需要确定生成内容的主题和目标;
其次,将预先准备好的输入数据传递给GPT模型,并使用GPT生成相应的内容;
然后,控制调用次数,超过5次调用,则为无法生成正确内容;将内容数据与约束条件根据标准问答结构进行判断是否匹配,如果匹配直接填入,如果不匹配,将错误信息反馈给GPT模型,再次生成数据;把高匹配结果作为备选项提供给用户,作为人工判断依据;
最终,根据上下文信息和输入参数的变化,自动判断出结果数据。
进一步的,所述使用GPT生成相应的内容中,在生成内容时,指定生成的长度、样式、语言参数,使用自然语言处理技术评估生成结果的相关度、一致性和合理性,使用文本、图片、音频进行输出。
进一步的,在控制调用次数中,待填充数据初始化为空,然后使用GPT模型生成待填充字段,并分别检查每个字段是否与约束条件匹配。其中在约束条件范围内视为匹配。
进一步的,在控制调用次数中,如果生成的内容与约束条件相符,则直接将其填入表单;否则将其添加到备选项中,并继续调用GPT模型。
进一步的,将内容数据与约束条件进行匹配,如果匹配直接填入后,检查备选项并向用户提供多个选项以供选择;当所有字段均被填充且符合约束条件时,结束程序。
本发明的另一目的提供一种用于实现复杂电子表格自动填充的系统包括:
标准问题结构构造模块,定义一种根据上下文、模板约束自动构造标准问题结构;
状态流构造模块,用于将复杂电子表格中所有需要填充的单元格cell构造成一个状态流,顺序对每个单元格构造一个标准问题;
标准问题发送模块,用于将标准问题发送给GPT获得答案;
复杂电子表格自动填充模块,用于如果答案匹配单元格cell的要求则直接填入,如果不匹配多次调用获得一个答案集,去重后呈现给用户
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提出了一种基于Generative Pre-Training Transformer模型的复杂电子表格数据自动填充方法,称之为GPT-E-Table。把复杂电子表格数据填充所需要的语义、上下文作为输入,生成复杂电子表格中单元格所需要填入的数据。结果表明,GPT-E-Table能够快速、准确填充复杂电子表格中的数据,并显著提高生产效率和数据分析效率。
本发明执行问题的询问的标准过程是:单元格-cell构造了一个标准问题向GPT提问,获得GPT的回答,将答案填入到单元格中或者获得多个答案供使用者(用户)选择。因此,“GPT-E-Table”作为一种新的电子表格自动化填充技术,可以帮助企业节省时间和成本,提高数据准确性和完整性,并使得数据管理更加便捷和高效。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理;
图1是本发明实施例提供的用于实现复杂电子表格自动填充的方法流程图;
图2是本发明实施例提供的用于实现复杂电子表格自动填充的方法原理图;
图3是本发明实施例提供的表格属性示意图;
图4是本发明实施例提供的Mealy模式实例图;
图5是本发明实施例提供的状态转换逻辑图;
图6是本发明实施例提供的用于实现复杂电子表格自动填充系统示意图;
图中:1、标准问题结构构造模块;2、状态流构造模块;3、标准问题发送模块;4、复杂电子表格自动填充模块。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
实施例1,如图1所示,本发明实施例提供的用于实现复杂电子表格自动填充的方法利用单元格cell构造一个标准问题并向GPT提问,获得GPT的回答,将答案填入到单元格中或者获得多个答案供使用户选择;具体包括以下步骤:
S1,定义一种根据上下文、模板约束自动构造标准问题结构;
S2,将复杂电子表格中所有需要填充的单元格(cell)构造成一个状态流,顺序对每个单元格构造一个标准问题(依赖于单元格的上下文,单元格依附于模板的规则约束等);
S3,将标准问题发送给GPT获得答案;
S4,如果答案匹配单元格(cell)的要求(模板的约束等)则直接填入,如果不匹配多次调用获得一个答案集,去重后呈现给用户。
通过在上述实施例,可以理解,本发明提出的基于语言模型的方法,称之为“GPT-E-Table”。该方法利用预训练的Generative Pre-Training Transformer(下文简称GPT)模型对复杂电子表格进行语义理解和预测,并通过自适应控制和多任务学习技术提高预测精度和鲁棒性;本发明的创新在于:提出了一种新的基于语言模型的方法,用于复杂电子表格自动化填充;设计了自适应控制和多任务学习技术,以提高填充精度和鲁棒性。
其中,“复杂电子表格”:是一种数据结构,以行和列的形式排列并组织各种类型的信息和数据。除了具备普通复杂电子表格的特点以外,还具备表单的功能。包含表单标签,这里面包含了处理表单数据所用CGI程序的URL以及数据提交到服务器的方法。表单域,包含了文本框、密码框、隐藏域、多行文本框、复选框、单选框、下拉选择框和文件上传框等。表单按钮,包括提交按钮、复位按钮和一般按钮;用于将数据传送到服务器上的CGI脚本或者取消输入,还可以用表单按钮来控制其他定义了处理脚本的处理工作。“复杂电子表格”,还具备了以下5个特点:对最小单元格进行操作;填写表单后,表单样式和初填时发生变化;单元格有计算公式的要求;单元格样式多样,5种以上;表单对象属性字段有两级以上的数据关系。
“复杂电子表格自动化填充”:是一种用于自动填充复杂电子表格中缺少数值、文本或其他数据的技术。在复杂电子表格处理和分析过程中,由于大量的语义关系和上下文信息存在于复杂电子表格中,因此某些单元格需要进行自动化填充以提高计算、分析和呈现数据的效率和准确性。复杂电子表格自动化填充通常使用计算机程序来解决这个问题,可以基于规则、模式识别、机器学习等技术实现。
“预训练模型”:预训练模型是一种在大规模数据集上进行训练的机器学习模型,目的是提高模型的泛化能力和效果。与传统的监督学习模型不同,预训练模型通常使用无标签数据来进行训练,以学习到丰富、高层次的特征表示。预训练模型的优点在于可以显著减少需要标注数据的量,而预训练模型的效果也已经在自然语言处理、计算机视觉和语音识别等领域取得了重要进展。
“鲁棒性”:是指系统或算法在面对不同类型的输入、参数变化、各种异常情况和错误处理时保持稳定和可靠的能力。
“GPT-E-Table”是一种基于生成对抗网络(GAN)的表格填充方法,可以自动填充电子表格中缺失的数值、文本等数据,从而解决了涉及到的大量数据录入问题。与传统的手工输入或自动化录入相比,采用“GPT-E-Table”有以下优势:
提高效率:采用“GPT-E-Table”可以有效提高数据录入和处理的速度,节省人力和时间成本。
提高准确性:“GPT-E-Table”使用机器学习算法自动填充数据,避免了手动输入过程中可能出现的输入错误和疏漏,从而提高数据的准确性和完整性。
支持复杂数据类型:“GPT-E-Table”能够支持多种不同类型的数据,如数字、文本、日期等,可以应对多样化的数据录入需求。
灵活性强:“GPT-E-Table”具有较高的灵活性,在处理新的数据类型和格式时也能够快速适应并进行填充。
维护和升级方便:由于“GPT-E-Table”是基于机器学习的算法,因此可以通过反馈迭代和模型训练来不断优化和改进系统,同时也更容易进行日常维护和升级。
总之,“GPT-E-Table”作为一种新的电子表格自动化填充技术,可以帮助企业节省时间和成本,提高数据准确性和完整性,并使得数据管理更加便捷和高效。
实施例2,作为本发明另一种实施方式,如图2所示,本发明实施例提供的用于实现复杂电子表格自动填充的方法有两种,一种是根据上下文得到内容结果值,一种是根据上下文得到一定的诊断结果。包括:
解析表格,将表格样式及数据内容填充为一个预模型;
修改预模型,形成最终模型;
构建流-状态机;
驱动GPT;
生成内容模型;
判断是否符合生成内容要求(最多5次);若是,则执行根据GPT内容结果,自动填充复杂电子表格(单元格);若否,则返回生成内容模型步骤;
结束。
示例性的,实现复杂电子表格自动填充的方法具体包括:
步骤1,解析表格:定义一种根据上下文、模板约束自动构造标准问题结构包括:解析表格,示例性的,例行实验表单中此类表单结构复杂,录入项较多,含有大量的计算逻辑,先对此表单进行JSON结构数据转换,包括:
(1)检查数据类型并确定每列数据的格式。例如,是否为数字、文本、时间等。对于不同类型的数据,在转换时需要采取不同的处理方式。
(2)对数据进行必要的清理和整理。例如,去除重复数据、填充缺失数据、格式化日期等。
(3)将表头作为JSON对象中的key,将每行数据转换为JSON对象中的值,并将它们组合在一起以创建JSON数组。
(4)使用编程语言或在线工具等方法将JSON数组转换为JSON格式数据。
步骤2,将表单的字段、位置、样式、数据等生成一个包含步骤1以上内容的数据模板,即预模型;
(2.1)模板是基于原生DOM绘制表格进行设计,最小结构是单元格。单元格主要有编码、位置、样式、数据绑定几个属性,如图3表格属性所示。其中编码为唯一值用来唯一标识单元格;位置主要从行、列进行描述,通过第几行第几列来定义单元格的位置;样式分为两个样式:一个是单元格本身的样式,另外一个是单元格绑定的数据展示的样式。
(2.2)数据的绑定:在展示模板中,每个单元格通常都需要与相应的模型属性进行绑定,以便从数据源中获取相应的值。本发明利用原生JS与订阅发布者模式来实现简单的数据双向绑定,发布-订阅模式就是让多个观察者对象同时监听某一个主题对象,当一个对象发生改变时,所有依赖于它的对象都将得到通知。当JS对象的数据发生改变时,依赖这个数据的视图也会发生变化,这个时候JS对象数据变化作为发布者,模板就是订阅者。当用户触发单元格的事件,改变数据,此时事件是发布者,数据对象是订阅者。
(2.3)数据的处理:在展示模板中,根据预模型中字段的约束条件、计算规则进行相关处理,例如格式化、转换、计算等操作,以便更好地展示数据。
(2.4)数据的结束条件:在此结束条件中,要识别出具体的影响数据模板生成的特征变量。对于例行实验表单的特征变量可以归纳为几点,标动制动试验台、车辆类型(如T车、K车等)、轴数、制动系统类型(如空气制动、电磁制动等)等。包括:
A.标动制动试验台:这是一个测试设备,可以检测车辆制动性能。如果标动制动试验台的性能较差,可能会导致制动压力不稳定或者偏低。
B.车辆类型:不同类型的车辆(如T车、K车等)可能具有不同的制动系统和制动压力要求。
C.轴数:车辆的轴数也可能影响其制动性能和压力需求。
D.制动系统类型:根据车辆的制动系统类型(如空气制动、电磁制动等),可能需要采用不同的控制策略来调节制动压力。
E.温度、湿度等环境因素:环境因素也可能对车辆制动压力产生一定的影响。
F.制动系统类型:根据车辆的制动系统类型(如空气制动、电磁制动等),可能需要采用不同的控制策略来调节制动压力。
G.将特征变量转为JSON结构:
{
"标动制动试验台": true,
"车辆类型": "T车",
"轴数": 3,
"制动系统类型": "空气制动",
"环境温度": 25,
"环境湿度": 60
}.
步骤3,最终模型:通过预模型形成最终模型需要经过数据集划分、预训练、超参数调优、微调、评估和测试、部署和应用等多个步骤,需要充分考虑到不同因素和环节之间的相互关系,并根据实际情况进行优化和改进。
根据实际情况,加入结果字段与上下文的关系,增加“压力值范围”内容。
{
"标动制动试验台": true,
"车辆类型": "T车",
"轴数": 3,
"制动系统类型": "空气制动",
"环境温度": 25,
"环境湿度": 60,
"压力标准": 66,
"压力上限": 86,
"压力下限": 46
}
如果车辆的制动压力值等于或接近压力标准(即66),则可以认为该车辆的制动性能正常。
如果车辆的制动压力值超过了压力上限(即86)或低于压力下限(即46),则说明制动性能存在问题,需要进行进一步的检查和维修处理。
步骤4,构建流-状态机,根据上面的这些步骤,把一个复杂的表单构建成一个流,这个流中包括各单元格数据内容,把每个需要输出内容结果的单元格当成一个小节。这每个小节中包括字段约束、上下文信息、特征变量等,做成一个“指令代码”。把整个流做成一个“图灵机”,根据模型的决策过程制作有限状态机FSM。
有限状态机(finite state machine,FSM)是一种数学模型,用于描述离散事件系统或计算机程序的行为。它由有限数量的状态、转移和动作组成,可以根据输入事件和当前状态进行状态转移,并执行相应的动作。FSM通常用于自动控制、编程语言解析、软件验证和协议设计等领域。
在FSM中,状态表示系统所处的不同工作状态,转移表示从一个状态到另一个状态的条件或规则,动作表示在状态转移时需要执行的操作。FSM的核心思想是将系统抽象为一组状态和转移,并根据这些状态和转移来进行系统设计和分析,以便更好地理解和控制系统的行为。
FSM通常包括以下几个组成部分:
状态集合是FSM中所有可能的状态的集合。每个状态都表示系统所处的某个状态或条件。状态通常使用符号或名称来标识。
转移函数定义了从一个状态到另一个状态的转移条件。它描述了在FSM中如何根据输入事件和当前状态来进行状态转移。转移函数通常写成一个表格、图形或公式的形式。
动作函数定义了在状态转移时需要执行的操作或动作。例如,在状态转移时需要输出一条消息、修改系统状态或执行某个特定的操作。动作函数通常使用程序代码、伪代码或其他形式来表示。
输入事件是FSM中可能出现的所有事件或输入信号。它们触发FSM中相应的状态转移和动作执行。输入事件可以是一个字符、一个数字、一个信号、一个命令等。
输出事件是FSM中可能产生的所有事件或输出信号。它们表示FSM在当前状态下所产生的结果或响应。输出事件可以是一个字符、一个数字、一个信号、一张图片等。
综上所述,有限状态机是一种数学模型,用于描述离散事件系统或计算机程序的行为。它由有限数量的状态、转移和动作组成,并根据输入事件和当前状态进行状态转移,并执行相应的动作。
在该状态机中,有两个状态:正常状态和异常状态。如果预测结果符合预期,则转移到正常状态并执行相应的操作;否则,转移到异常状态并执行相应的操作。同时,状态机也可以根据环境温度、湿度等条件来触发相应的状态转移。采用Mealy模式,如图4,Mealy模式实例图所示。包括:
输入事件,产生下一状态的组合逻辑F,产生的激励信号输入状态寄存器,同时接收时钟信号clk输入,判断当前状态,正常则产生输出的组合逻辑G;异常,则返回产生下一状态的组合逻辑F步骤。
根据属性之间的约束和关系定义状态之间的转换条件。把以上的JSON Schema中的属性状态转换逻辑,如图5状态转换逻辑所示。
将状态机的状态和转换与标准问答的问题和答案进行关联,建立状态与标准问答问题答案对照表,创建状态-问题映射表。这是一个表格,其中的每一行代表一个状态,每个状态关联着一个或多个问题类型。
以下是伪代码,演示如何使用状态机驱动标准问答结构。
State processingstate:
transition:
-condition:isQuestionComplete
Action:retrieveAnswer
-condition:isQuestionIncomplete
action:askAdditionalQuestion
//方法实现
method processuserQuery():
//解析用户提问,确定意图和实体等
inten=extactintent(userQueery)
entities=extractEntities(userQuery)
//根据解析结果进行状态转换
If inten==“问答”:
//获取与用户问题匹配的标准问题
matchedQuestion=findMatchingQuestion(userQuery,entities)
//将匹配的标准问题存档为当前问题
setcurrentQuestion(matchedQusestion)
//进入问题处理状态
Currentstate=processingstateelse:
//其他意图的处理逻辑
method isQuestioncomplete():
//判断当前问题是否已经完整回答
//可根据业务规则和答案的要求进行判断
method retrieveAnswer():
//根据当前问题,从标准答案中检索相应的答案
Answer=getAnswerForCurrentQuestion()
//返回答案给用户
method askAdditionalQuestion():
//根据当前问题的不完整部分,向用户提出额外的问题以获取更多信息
//入口方法
method handleuserInput(userInput)
//处理用户输入,驱动状态机
userQuery=preprocessInput(userInput)
currentstate=Initialatate
while currentstate is not null:
//根据当前状态执行相应操作
if currentstate has transition:
for each transition in currenstate.transition:
if transition.condition is true:
//执行相应的操作和转换
call transition.action()
break
else:
//无法进行状态转换,结束循环
break
method retrieveAnswer():
//根据当前问题,从标准答案中检索相应的答案
Answer=getAnswerForCurrentQuestion()
//使用GPT模型生成回答
generatedAnswer=generateAnswerwithGPT(answer)
//返回生成的回答给用户
Return generatedAnswer
method generateAnswerWithGPT(answer)
//初始化GPT模型
model=gpt.load_model(“your_model_path”)
//设置生成参数
generation_parmas={
“max_length”:100//最大生成长度
“temperature”:0.8//生成的多样性控制参数
“top_k”:50//保留概率最高的k个词
“top_p”:0.9//保留累计概率大于等于p的词
}
//使用GPT模型生成回答
Generated_answer=model.generate(answer,**generation_params)
//将生成的回答转换为字符串格式
Generated_answer_text=convertToString(generated_answer)
//返回生成的回答
return generated_answer_text
上述实施例描述了基于状态机的对话处理流程,根据用户输入的问题和状态,来进行问题的解析、答案的检索,以及额外问题的询问。
状态转换提供了两种条件和相应的动作来执行状态转换。首先,如果问题完整(isquestioncomplete),会执行retrieveAnswer动作,即检索答案。如果问题不完整(isquestionIncomplete),则会执行askAdditionalQuestion动作,即询问额外问题。
方法实现:processUserQuery方法,用于解析用户提问,提取意图和实体。根据解析结果,进行状态转换。如果意图为问答,将寻找匹配用户问题的标准问题,并设置当前问题。对于其他意图,你还可以实现适当的处理逻辑。
isQuestionComplete()方法:用于判断当前问题是否已经完整回答,可以根据业务规则和答案要求来判断问题是否完整
askAdditionalQuestion()方法:用于根据当前问题的不完整部分,向用户提出额外的问题,以获取更多信息。
handleUserInput(userInput)方法:用于处理用户输入,驱动状态机的执行。根据用户输入的情况,执行相应的操作,从而实现状态转换和处理。
retrieveAnswer()方法:根据当前问题从标准答案中检索相应的答案,然后使用GPT模型生成回答。首先,它调用getAnswerForCurrentQuestion()方法从标准答案库中获取答案。然后,它使用GPT模型来生成回答,通过设置生成参数,例如最大生成长度、温度、top-k和top-p参数,来控制生成过程的多样性和质量。最终,生成的回答被转换为文本格式并返回。
generateAnswerWithGPT(answer)方法:这个方法描述了如何使用GPT模型来生成回答。它首先加载预训练的GPT模型,并设置生成参数。然后,它调用模型的generate方法,传入原始答案作为输入,同时使用生成参数来控制生成过程。最后,生成的回答被转换为文本格式并返回。
步骤5,驱动GPT生成内容结果,首先,需要确定生成内容的主题和目标。可以通过定义关键词、问题或任务等方式来实现。准备与主题和目标相关的输入数据,帮助GPT更好地理解并生成相应内容。输入数据可以是与主题相关的文本、图片、音频等形式。根据生成内容的需求和目标,选择适当的GPT模型和参数。在选择模型时,考虑到不同模型的架构、大小、精度等因素,并根据实际情况进行调整和优化。将预先准备好的输入数据传递给GPT模型,并使用GPT生成相应的内容。在生成内容时,可以指定生成的长度、样式、语言等参数,以控制生成的内容质量和风格。评估和优化生成结果,以提高生成内容的质量和可读性。可以使用自然语言处理(NLP)技术或其他相关工具来评估生成结果的相关度、一致性和合理性,同时也可以进行后期编辑和修改,以优化生成结果。可以使用各种形式的输出方式,如文本、图片、音频等,根据实际需求和目标进行选择和调整。
其次,将预先准备好的输入数据传递给GPT模型,并使用GPT生成相应的内容。在生成内容时,可以指定生成的长度、样式、语言等参数,以控制生成的内容质量和风格。这里不对GPT的实现原理进行过多阐述。
然后,控制调用次数,超过5次调用,则视为无法生成正确内容。将内容数据与约束条件进行匹配,如果匹配直接填入,如果不匹配,将错误信息反馈给GPT模型,再次生成数据。把高匹配结果作为备选项提供给用户,作为人工判断依据。
定义约束条件和备选项,以确保生成的内容符合要求。
待填充数据初始化为空,然后使用GPT模型生成待填充字段,并分别检查每个字段是否与约束条件匹配。其中在约束条件范围内视为匹配。
如果生成的内容与约束条件相符,则直接将其填入表单;否则将其添加到备选项中,并继续调用GPT模型。
在表单填充完成后,还会检查备选项并向用户提供多个选项以供选择。
当所有字段均被填充且符合约束条件时,结束程序。
最终,根据上下文信息和输入参数的变化,可自动判断出结果数据。
实施例3,如图6所示,本发明实施例提供的用于实现复杂电子表格自动填充的系统包括:
标准问题结构构造模块1,定义一种根据上下文、模板约束自动构造标准问题结构;
状态流构造模块2,用于将复杂电子表格中所有需要填充的单元格(cell)构造成一个状态流,顺序对每个单元格构造一个标准问题(依赖于单元格的上下文,单元格依附于模板的规则约束等)。
标准问题发送模块3,用于将标准问题发送给GPT获得答案;
复杂电子表格自动填充模块4,用于如果答案匹配单元格(cell)的要求(模板的约束等)则直接填入,如果不匹配多次调用获得一个答案集,去重后呈现给用户。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
通过上述实施例,可以获知,本发明基于GPT模型的复杂电子表格自动填充技术具有提高工作效率、减少错误、降低人力成本、支持大规模数据处理和广泛的商业应用潜力等多重预期收益和商业价值。这项技术有望提升组织和企业的数据处理能力,并为其带来更高的竞争优势和商业价值。
本发明填补了国内外业内技术空白,为复杂电子表格填充领域带来了创新和进步。它克服了传统方法的局限性,提供了智能化、上下文感知、多数据类型支持和自适应填充能力等优势,填补了相关领域的研究和应用空白。
本发明基于GPT模型的复杂电子表格自动填充技术方案具备强大的学习和适应能力,有望在复杂电子表格填充领域带来重要的技术突破和解决方案。本发明基于GPT模型的技术方案可以通过合适的数据处理和模型调整措施来减少和纠正技术偏见的影响,以实现更公正和中立的复杂电子表格自动填充结果。
上述装置/单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程。
基于上述本发明实施例记载的技术方案,进一步的可提出以下应用例。
根据本申请的实施例,本发明还提供了一种计算机设备,该计算机设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。
本发明实施例还提供了一种信息数据处理终端,所述信息数据处理终端用于实现于电子装置上执行时,提供用户输入接口以实施如上述各方法实施例中的步骤,所述信息数据处理终端不限于手机、电脑、交换机。
本发明实施例还提供了一种服务器,所述服务器用于实现于电子装置上执行时,提供用户输入接口以实施如上述各方法实施例中的步骤。
本发明实施例还提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行时可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。
以上所述,仅为本发明较优的具体的实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种用于实现复杂电子表格自动填充的方法,其特征在于,该方法利用单元格cell构造一个标准问题并向GPT提问,获得GPT的回答,将答案填入到单元格中或者获得多个答案供使用户选择;具体包括以下步骤:
S1,定义一种根据上下文、模板约束自动构造标准问题结构;
S2,将复杂电子表格中所有需要填充的单元格cell构造成一个状态流,按顺序对每个单元格构造标准问题,所述标准问题包括单元格的上下文,单元格包括模板的规则约束;
S3,将标准问题发送给GPT获得答案;如果答案匹配单元格cell的模板的规则约束,则直接填入,如果不匹配,多次调用获得一个答案集,去重后呈现给用户。
2.根据权利要求1所述的用于实现复杂电子表格自动填充的方法,其特征在于,在步骤S1中,定义一种根据上下文、模板约束自动构造标准问题结构包括:解析表格,将表单的字段、位置、样式、数据生成数据模板,所述数据模板为预模型,修改预模型,形成最终模型。
3.根据权利要求2所述的用于实现复杂电子表格自动填充的方法,其特征在于,所述解析表格包括:
(1)检查数据类型并确定每列数据的格式,所述格式包括数字、文本、时间;
(2)对数据进行清理和整理,所述整理包括去除重复数据、填充缺失数据、格式化日期;
(3)将表头作为JSON对象中的key,将每行数据转换为JSON对象中的值,并将每行数据组合在一起创建JSON数组;
(4)使用编程语言或在线工具方法将JSON数组转换为JSON格式数据;
所述生成数据模板包括:
基于原生DOM绘制表格设计数据模板,最小结构为单元格;单元格包括编码、位置、样式、数据绑定,其中编码为唯一值用来唯一标识单元格;通过第几行第几列定义单元格的位置;所述样式包括是单元格本身的样式以及单元格绑定的数据展示的样式;
所述数据的绑定包括:利用原生JS与订阅发布者模式实现数据双向绑定;
所述修改预模型,形成最终模型包括:对预模型进行数据集划分、预训练、超参数调优、微调、评估和测试、部署和应用多个步骤形成最终模型,并针对不同因素和环节之间的相互关系,根据实际情况进行优化。
4.根据权利要求3所述的用于实现复杂电子表格自动填充的方法,其特征在于,对生成数据模板还需进行:数据的处理以及识别数据的结束条件;
所述数据的处理包括:根据预模型中字段的约束条件、计算规则进行相关处理,包括格式化、转换、计算操作;
所述识别数据的结束条件中识别出具体的影响数据模板生成的特征变量。
5.根据权利要求1所述的用于实现复杂电子表格自动填充的方法,其特征在于,在步骤S2中,将复杂电子表格中所有需要填充的单元格cell构造成一个状态流包括:状态流中包含需要填充的各个单元格的模型数据,把每个需要输出内容结果的单元格当成一个小节,每个小节中都包含字段约束、上下文信息、特征变量;一个复杂电子表格的所有小节共同构成有限状态机,每个节为一个状态。
6.根据权利要求1所述的用于实现复杂电子表格自动填充的方法,其特征在于,在步骤S3中,将标准问题发送给GPT获得答案包括:
首先,需要确定生成内容的主题和目标;
其次,将预先准备好的输入数据传递给GPT模型,并使用GPT生成相应的内容;
然后,控制调用次数,超过5次调用,则为无法生成正确内容;将内容数据与约束条件根据标准问答结构进行判断是否匹配,如果匹配直接填入,如果不匹配,将错误信息反馈给GPT模型,再次生成数据;把高匹配结果作为备选项提供给用户,作为人工判断依据;
最终,根据上下文信息和输入参数的变化,自动判断出结果数据。
7.根据权利要求6所述的用于实现复杂电子表格自动填充的方法,其特征在于,所述使用GPT生成相应的内容中,在生成内容时,指定生成的长度、样式、语言参数,使用自然语言处理技术评估生成结果的相关度、一致性和合理性,使用文本、图片、音频进行输出;
在控制调用次数中,待填充数据初始化为空,然后使用GPT模型生成待填充字段,并分别检查每个字段是否与约束条件匹配。
8.根据权利要求6所述的用于实现复杂电子表格自动填充的方法,其特征在于,在控制调用次数中,如果生成的内容与约束条件相符,则直接将其填入表单;否则将其添加到备选项中,并继续调用GPT模型。
9.根据权利要求6所述的用于实现复杂电子表格自动填充的方法,其特征在于,将内容数据与约束条件进行匹配,如果匹配直接填入后,检查备选项并向用户提供多个选项以供选择;当所有字段均被填充且符合约束条件时,结束程序。
10.一种用于实现复杂电子表格自动填充的系统,其特征在于,包括:
标准问题结构构造模块(1),定义一种根据上下文、模板约束自动构造标准问题结构;
状态流构造模块(2),用于将复杂电子表格中所有需要填充的单元格cell构造成一个状态流,顺序对每个单元格构造一个标准问题;
标准问题发送模块(3),用于将标准问题发送给GPT获得答案;
复杂电子表格自动填充模块(4),用于如果答案匹配单元格cell的要求则直接填入,如果不匹配多次调用获得一个答案集,去重后呈现给用户。
CN202311227413.9A 2023-09-22 2023-09-22 一种用于实现复杂电子表格自动填充的方法及系统 Active CN116976294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311227413.9A CN116976294B (zh) 2023-09-22 2023-09-22 一种用于实现复杂电子表格自动填充的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311227413.9A CN116976294B (zh) 2023-09-22 2023-09-22 一种用于实现复杂电子表格自动填充的方法及系统

Publications (2)

Publication Number Publication Date
CN116976294A true CN116976294A (zh) 2023-10-31
CN116976294B CN116976294B (zh) 2024-02-09

Family

ID=88483514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311227413.9A Active CN116976294B (zh) 2023-09-22 2023-09-22 一种用于实现复杂电子表格自动填充的方法及系统

Country Status (1)

Country Link
CN (1) CN116976294B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625635A (zh) * 2020-05-27 2020-09-04 北京百度网讯科技有限公司 问答处理、语言模型的训练方法、装置、设备及存储介质
CN112364150A (zh) * 2021-01-12 2021-02-12 南京云创大数据科技股份有限公司 一种结合检索与生成的智能问答方法和系统
EP3937105A1 (en) * 2020-07-06 2022-01-12 Koninklijke Philips N.V. Methods and systems for user data processing
CN114743204A (zh) * 2022-04-11 2022-07-12 平安科技(深圳)有限公司 针对表格的自动问答方法、系统、设备及存储介质
CN114969279A (zh) * 2022-04-12 2022-08-30 东南大学 一种基于层次图神经网络的表格文本问答方法
CN115238101A (zh) * 2022-09-23 2022-10-25 中国电子科技集团公司第十研究所 一种面向多类型知识库的多引擎智能问答系统
US20220405484A1 (en) * 2021-06-21 2022-12-22 Openstream Inc. Methods for Reinforcement Document Transformer for Multimodal Conversations and Devices Thereof
CN115858751A (zh) * 2022-11-30 2023-03-28 阳光保险集团股份有限公司 表格问答数据的处理方法、装置及电子设备
CN116059646A (zh) * 2023-04-06 2023-05-05 深圳尚米网络技术有限公司 一种交互式专家指导系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625635A (zh) * 2020-05-27 2020-09-04 北京百度网讯科技有限公司 问答处理、语言模型的训练方法、装置、设备及存储介质
EP3937105A1 (en) * 2020-07-06 2022-01-12 Koninklijke Philips N.V. Methods and systems for user data processing
CN112364150A (zh) * 2021-01-12 2021-02-12 南京云创大数据科技股份有限公司 一种结合检索与生成的智能问答方法和系统
US20220405484A1 (en) * 2021-06-21 2022-12-22 Openstream Inc. Methods for Reinforcement Document Transformer for Multimodal Conversations and Devices Thereof
CN114743204A (zh) * 2022-04-11 2022-07-12 平安科技(深圳)有限公司 针对表格的自动问答方法、系统、设备及存储介质
CN114969279A (zh) * 2022-04-12 2022-08-30 东南大学 一种基于层次图神经网络的表格文本问答方法
CN115238101A (zh) * 2022-09-23 2022-10-25 中国电子科技集团公司第十研究所 一种面向多类型知识库的多引擎智能问答系统
CN115858751A (zh) * 2022-11-30 2023-03-28 阳光保险集团股份有限公司 表格问答数据的处理方法、装置及电子设备
CN116059646A (zh) * 2023-04-06 2023-05-05 深圳尚米网络技术有限公司 一种交互式专家指导系统

Also Published As

Publication number Publication date
CN116976294B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
Ford et al. An expert manufacturing simulation system
CN116579339B (zh) 任务执行方法和优化任务执行方法
CN112163420A (zh) 一种基于nlp技术的rpa流程自动生成方法
CN111930912A (zh) 对话管理方法及系统、设备和存储介质
CN114722169A (zh) 一种企业智能问答系统、控制方法、介质、设备及终端
CN117453915A (zh) 一种基于可规划工作流的大语言模型的复杂任务处理方法
Hussain et al. A tutorial on open-source large language models for behavioral science
CN117453885A (zh) 提问信息处理方法、装置、设备、存储介质及产品
CN114388108A (zh) 一种基于多任务学习的用户反馈分析方法
CN116976294B (zh) 一种用于实现复杂电子表格自动填充的方法及系统
CN116822462A (zh) 电力系统的仿真报告的生成方法与生成装置
CN116821696A (zh) 表格问答模型的训练方法、装置、设备及存储介质
CN116861913A (zh) 基于gpt大模型的立场检测方法及相关设备
CN116501764B (zh) 一种基于生成式预训练模型的自动化sql优化方法
CN118070925B (zh) 模型训练方法、装置、电子设备、存储介质及程序产品
Rose Mary et al. Text based smart answering system in agriculture using RNN.
CN117787402B (zh) 基于多课程知识图谱融合个性化学习路径生成方法及系统
US11755570B2 (en) Memory-based neural network for question answering
BRAKOPOWERS Navigating the Maze of AI and Journalism in Ghana.
CN117852510A (zh) 业务数据处理方法、装置、计算机设备和存储介质
Kordon et al. Data Science Based on Artificial Intelligence
Faisal Design and Implementation of E-Mail Agent
CN118248276A (zh) 健康报告生成方法及相关产品
Brown et al. Assessing changes in reliability methods over time: An unsupervised text mining approach
Chadha et al. The Applied TensorFlow and Keras Workshop: Develop your practical skills by working through a real-world project and build your own Bitcoin price prediction tracker

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant