CN117057325B - 一种应用于电网领域表单填写方法、系统和电子设备 - Google Patents
一种应用于电网领域表单填写方法、系统和电子设备 Download PDFInfo
- Publication number
- CN117057325B CN117057325B CN202311321780.5A CN202311321780A CN117057325B CN 117057325 B CN117057325 B CN 117057325B CN 202311321780 A CN202311321780 A CN 202311321780A CN 117057325 B CN117057325 B CN 117057325B
- Authority
- CN
- China
- Prior art keywords
- filling
- text
- power grid
- requirement
- prompt
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000000463 material Substances 0.000 claims abstract description 25
- 239000000284 extract Substances 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 85
- 238000013473 artificial intelligence Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 5
- 238000012986 modification Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 241000157593 Milvus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种应用于电网领域表单填写方法、系统和电子设备,其中该表单填写方法包括:获取待填写电网领域表单中各输入框分别所对应的填写要求文本;根据全部填写要求文本生成对应的提示工程信息,提示工程信息包括:提问问题,提问问题指示从给定的电网领域材料集合中分别提取出符合各填写要求文本的要求的填写内容;将提示工程信息输入至预先训练好的生成式人工智能模型中,以供生成式人工智能模型根据提示工程信息从给定的电网领域材料集合中分别提取出符合各填写要求文本的要求的填写内容;针对每个填写要求文本,将生成式人工智能模型所提取出的符合目标填写要求文本的要求的填写内容,填写至目标填写要求文本所对应的输入框内。
Description
技术领域
本公开涉及计算机技术领域,特别涉及一种应用于电网领域表单填写方法、系统和电子设备。
背景技术
在电网领域中会有众多应用场景(例如电网项目立项、电网项目结案总结、电网项目评奖申报等)需要进行表单填写。目前电网领域表单填写,主要采用人工填写方式进行,人工填写表单的过程耗时长、效率低、工作量大。
发明内容
本公开旨在至少解决现有技术中存在的技术问题之一,提出了一种应用于电网领域表单填写方法、系统和电子设备。
第一方面,本公开提供了一种应用于电网领域表单填写方法,包括:
获取待填写电网领域表单中各输入框分别所对应的填写要求文本;
根据全部所述填写要求文本生成对应的提示工程信息,所述提示工程信息包括:提问问题,所述提问问题指示从给定的电网领域材料集合中分别提取出符合各所述填写要求文本的要求的填写内容;
将所述提示工程信息输入至预先训练好的生成式人工智能模型中,以供所述生成式人工智能模型根据所述提示工程信息从给定的电网领域材料集合中分别提取出符合各所述填写要求文本的要求的填写内容;
针对每个所述填写要求文本,将所述生成式人工智能模型所提取出的符合目标填写要求文本的要求的填写内容,填写至所述目标填写要求文本所对应的输入框内;
所述提示工程信息还包括:所述提问问题的上下文信息;
根据全部所述填写要求文本生成对应的提示工程信息的步骤包括:
根据全部所述填写要求文本生成对应的提示工程模板,所述提示工程模板包括:提问问题;
对各所述填写要求文本进行语义特征向量提取,得到各所述填写要求文本的语义特征向量;
针对每个所述填写要求文本,从预设的电网领域特征向量数据库中查询出与目标填写要求文本之间的语义特征向量相似度最大的若干个电网领域文本块,以作为所述目标填写要求文本所对应的电网领域文本块,所述电网领域特征向量数据库中记载有多个电网领域文本块以及各电网领域文本块所对应的语义特征向量;
将全部所述填写要求文本的语义特征向量所对应的电网领域文本块作为所述提问问题的上下文信息,嵌入至所述提示工程模板中,得到提示工程信息。
在一些实施例中,在从预设的电网领域特征向量数据库中查询出所对应的特征向量与目标填写要求文本的语义特征向量之间相似度最大的若干个电网领域文本块的步骤之前还包括:生成所述电网领域特征向量数据库,具体包括:
收集电网领域的多模态数据语料,并将所述多模态数据语料中的非结构化数据转化为结构化文本数据;
将收集到的各结构化文本数据进行文本块切分,得到多个电网领域文本块;
对各电网领域文本块进行语义特征向量提取处理,得到各电网领域文本块的语义特征向量。
在一些实施例中,在对填写要求文本进行语义特征向量提取的过程中,采用Embedding模型对各填写要求文本进行语义特征向量提取处理;
在生成所述电网领域特征向量数据库的过程中,采用大型语言模型对结构化文本数据进行文本块切分,以及采用Embedding模型对各电网领域文本块进行语义特征向量提取处理。
在一些实施例中,在生成所述电网领域特征向量数据库的步骤之后,还包括:
利用所述电网领域特征向量数据库对所述生成式人工智能模型进行再训练。
在一些实施例中,在将所述生成式人工智能模型所提取出的符合目标填写要求文本的填写内容填写至所述目标填写要求文本所对应的输入框内的步骤之后,还包括:
响应于修改操作,对目标输入框中的文本内容进行相应修改。
第二方面,本公开实施例提供了一种应用于电网领域表单填写系统,可用于实现如第一方面中所提供的所述表单填写方法,所述表单填写系统包括:
获取模块,用于获取待填写电网领域表单中各输入框分别所对应的填写要求文本;
生成模块,用于根据全部所述填写要求文本生成对应的提示工程信息,所述提示工程信息包括:提问问题,所述提问问题指示从给定的电网领域材料集合中分别提取出符合各所述填写要求文本的要求的填写内容;
输入模块,用于将所述提示工程信息输入至预先训练好的生成式人工智能模型中,以供所述生成式人工智能模型根据所述提示工程信息从给定的电网领域材料集合中分别提取出符合各所述填写要求文本的要求的填写内容;
填写模块,针对每个所述填写要求文本,将所述生成式人工智能模型所提取出的符合目标填写要求文本的要求的填写内容,填写至所述目标填写要求文本所对应的输入框内;
所述生成模块包括:
模板生成子模块,用于根据全部所述填写要求文本生成对应的包括有提问问题的提示工程模板;
特征提取子模块,用于对各所述填写要求文本进行语义特征向量提取,得到各所述填写要求文本的语义特征向量;
文本块获取子模块,用于针对每个所述填写要求文本,从预设的电网领域特征向量数据库中查询出与目标填写要求文本之间的语义特征向量相似度最大的若干个电网领域文本块,以作为所述目标填写要求文本所对应的电网领域文本块;
嵌入子模块,用于将全部所述填写要求文本的语义特征向量所对应的电网领域文本块作为所述提问问题的上下文信息,嵌入至所述提示工程模板中,得到提示工程信息。
第三方面,本公开实施例还提供了一种电子设备,其中,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中所提供的所述表单填写方法。
本公开的技术方案至少具备如下有益技术效果:
在本公开中,根据待填写电网领域表单中的填写要求文本生成对应的提示工程信息,提示工程信息中所包括的提问问题指示从给定的电网领域材料集合中分别提取出符合各填写要求文本的要求的填写内容,通过将该提示工程信息输入至预先训练好的AIGC模型中,AIGC模型根据提示工程信息从给定的电网领域材料集合中分别提取出符合各填写要求文本的要求的填写内容,最后将所提取出的填写内容填写至对应的输入框内,从而实现对待填写电网领域表单的自动填写;该自动填写方案,能够有效减少填写人员的工作量、缩短表单填写时间、提升填写效率。
与此同时,通过在提示工程信息中为提问问题配置上下文信息,可以有效提升AIGC模型生成提问问题所对应答案的准确性,从而能够提升填写内容的精准性。
附图说明
图1为本公开实施例提供的一种应用于电网领域表单填写方法的流程图;
图2为本公开中对系统页面中的待填写电网领域表单进行识别的一种示意图;
图3为本公开实施例中实现步骤S2的一种可选方法流程图;
图4为本公开中根据表单中的填写要求文本生成提示工程信息的一种示意图;
图5为本公开实施例提供的另一种应用于电网领域表单填写方法的流程图;
图6为本公开实施例提供的一种应用于电网领域表单填写系统的结构框图;
图7为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本领域技术人员更好地理解本公开的技术方案,下面结合附图和具体实施方式对本公开作进一步详细描述。
除非另外定义,本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”、“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述目标的绝对位置改变后,则该相对位置关系也可能相应地改变。
在各个附图中,相同的元件采用类似的附图标记来表示。为了清楚起见,附图中的各个部分并没有都按比例绘制。此外,在图中可能未示出某些公知的部分。
在相关技术中,人工填写电网领域表单的过程如下:首先,填写人员先收集与本次表单填写相关的资料,得到电网领域材料集合;然后,按照待填写表单中各填写项的要求,填写人员参考先前收集到的给定电网领域材料集合,人工查找并确认各填写项的填写内容;最后,填写人员将相应内容逐一填写到电子表单中。然而,随着电网领域表单中填写项的项数增多(例如,一些大表单的填写项项数超过了100项),此时填写人员所收集的电网领域材料也呈现多模态化、复杂化和海量化等特点,大大增加了人工填写表单的工作量,整个人工填写过程耗时长、效率低。
为有效改善现有技术中存在的问题,本公开提供了一种应用于电网领域表单填写方法、系统和电子设备,可实现根据给定的电网领域材料集合对待填写电网领域表单进行自动填写,能够有效减少填写人员的工作量、缩短表单填写时间、提升填写效率。
在本公开中,生成式人工智能(Artificial Intelligence Generated Content,简称AIGC),是指基于生成对抗网络、大型预训练模型等人工智能的技术方法,通过已有数据的学习和识别,以适当的泛化能力生成相关内容的技术;AIGC技术的核心思想是利用人工智能算法生成具有一定创意和质量的内容,通过训练模型和大量数据的学习,AIGC可以根据输入的条件或指导,生成与之相关的内容。例如,通过输入关键词、描述或样本,AIGC可以生成与之相匹配的文章、图像、音频等。
在本公开中,主要是利用AIGC模型的人工智能文本生成(AI Text Generation)能力,使用人工智能(AI)算法和模型来生成模仿人类书写内容的文本。它涉及在现有文本的大型数据集上训练机器学习模型,以生成在风格、语气和内容上与输入数据相似的新文本。具体地,将包括有提问问题的提示工程(Prompt engineering)信息输入至AIGC模型,AIGC模型可以根据该提示工程信息并基于指定材料中提取出符合该提问问题的答案,即生成符合该提问问题的答案文本。对于AIGC模型的内部工作原理,本公开不展开描述。
图1为本公开实施例提供的一种应用于电网领域表单填写方法的流程图。如图1所示,该表单填写方法包括:
步骤S1、获取待填写电网领域表单中各输入框分别所对应的填写要求文本。
图2为本公开中对系统页面中的待填写电网领域表单进行识别的一种示意图。如图2所示,可通过表单识别技术来识别系统页面中待填写电网领域表单的表单域、位于表单域中的各输入框和各输入框所对应的填写要求文本。
其中,表单域是指页面中存放表单的区域;输入框是指供进行文本输入的输入组件;填写要求文本是指向对应文本框应输入内容进行提示/要求的描述。
步骤S2、根据全部填写要求文本生成对应的提示工程信息。
其中,提示工程信息包括:提问问题,提问问题指示从给定的电网领域材料集合中分别提取出符合各填写要求文本的要求的填写内容。
步骤S3、将提示工程信息输入至预先训练好的生成式人工智能模型中,以供生成式人工智能模型根据提示工程信息从给定的电网领域材料集合中分别提取出符合各填写要求文本的要求的填写内容。
步骤S4、针对每个填写要求文本,将生成式人工智能模型所提取出的符合目标填写要求文本的要求的填写内容,填写至目标填写要求文本所对应的输入框内。
在本公开实施例中,根据待填写电网领域表单中的填写要求文本生成对应的提示工程信息,提示工程信息中所包括的提问问题指示从给定的电网领域材料集合中分别提取出符合各填写要求文本的要求的填写内容,通过将该提示工程信息输入至预先训练好的AIGC模型中,AIGC模型根据提示工程信息从给定的电网领域材料集合中分别提取出符合各填写要求文本的要求的填写内容,最后将所提取出的填写内容填写至对应的输入框内,从而实现对待填写电网领域表单的自动填写;该自动填写方案,能够有效减少填写人员的工作量、缩短表单填写时间、提升填写效率。
在一些实施例中,提示工程信息还包括:提问问题的上下文信息;在本公开中,通过在提示工程信息中为提问问题配置上下文信息,可以有效提升AIGC模型生成提问问题所对应答案的准确性,从而能够提升填写内容的精准性。
图3为本公开实施例中实现步骤S2的一种可选方法流程图。图4为本公开中根据表单中的填写要求文本生成提示工程信息的一种示意图。如图3和图4所示,在一些实施例中,步骤S2包括:
步骤S201、根据全部填写要求文本生成对应的提示工程模板,提示工程模板包括:提问问题。
例如,通过步骤S1从待填写电网领域表单中提取的填写要求文本包括“项目名称”“参与人员”“研究内容(字数控制在800字内)”“研究目的”“项目意义”等多个填写要求文本。此时,根据全部填写要求文本生成的提问问题可以是从给定的电网领域材料集合提取出符合各填写要求文本的要求的填写内容(具体形式可参见图4中所示例)。同时,在提问问题中还可以对AIGC模型的返回格式进行限定。
步骤S202、对各填写要求文本进行语义特征向量提取,得到各填写要求文本的语义特征向量。
在步骤S202中,可通过预设的语义特征向量提取模型(例如Embedding模型)来对各填写要求文本进行语义特征向量的提取可得到各填写要求文本的语义特征向量。
步骤S203、针对每个填写要求文本,从预设的电网领域特征向量数据库中查询出与目标填写要求文本之间的语义特征向量相似度最大的若干个电网领域文本块,以作为目标填写要求文本所对应的电网领域文本块。
其中,电网领域特征向量数据库中记载有多个电网领域文本块以及各电网领域文本块所对应的语义特征向量。
在本公开中,向量数据库是专门用来存储和查询向量的数据库,向量数据库通过提供 k-NN 索引等专门索引来提供向量相似性搜索。
在一些实施例中,在进行步骤S203之前还包括:生成电网领域特征向量数据库的步骤。在一些实施例中,生成电网领域特征向量数据库的具体包括:首先,收集电网领域的多模态数据(例如,文本、图像、音频等)语料,并将多模态数据语料中的非结构化数据转化为结构化文本数据;然后,将收集到的各结构化文本数据进行文本块切分(可由人工切分或由计算机模型进行自动切分),得到多个电网领域文本块;最后,对各电网领域文本块进行语义特征向量提取处理,得到各电网领域文本块的语义特征向量。
在一些实施例中,在生成电网领域特征向量数据库的过程中,可采用大型语言模型(Large Language Model,简称LLM)对结构化文本数据进行文本块切分,以及采用Embedding模型对各电网领域文本块进行语义特征向量提取处理。
在一些实施例中,电网领域特征向量数据库可以采用chroma向量数据库或milvus向量数据库。
在步骤S203中,针对目标填写要求文本,可计算该目标填写要求文本与电网领域特征向量数据库内各电网领域文本块之间的语义特征向量相似度(例如,计算语义特征向量之间的余弦相似度),然后按照一定的筛选规则,筛选出与与目标填写要求文本之间的语义特征向量相似度最大的若干个电网领域文本块。例如,可以通过设置相似度阈值然后筛选出与目标填写要求文本之间的语义特征向量相似度大于该似度阈值的电网领域文本块,或者直接筛选出与目标填写要求文本之间的语义特征向量相似度最大的前K(例如,K取值为正整数,例如K=1)个电网领域文本块。
在本公开中,每个填写要求文本所对应的电网领域文本块的数量可以相同,也可以不同,本公开对此不作限定。每个填写要求文本所对应的电网领域文本块可供AIGC模型更好的理解填写要求文本的语义。
步骤S204、将全部填写要求文本的语义特征向量所对应的电网领域文本块作为提问问题的上下文信息,嵌入至提示工程模板中,得到提示工程信息。
参见图4所示,提示工程信息中不但包括有提问问题,还包括有提问问题的上下文信息。
在一些实施例中,在生成电网领域特征向量数据库的步骤之后,还包括:利用电网领域特征向量数据库对生成式人工智能模型进行再训练。通过利用电网领域特征向量数据库对AIGC模型进行再训练,可以提升AIGC模型对电网领域文本内容的理解,更好的回答关于电网领域的提问问题,有利于提升AIGC模型最终所生成填写内容的精准性。
需要说明的是,在本公开所涉及提示工程信息中的提问问题可以看作是针对不同填写要求文本的多个子问题的集合,即该提问问题包括与填写要求文本一一对应的多个子问题,每个子问题指示从给定的电网领域材料集合中提取出符合对应填写要求文本的要求的填写内容,每个子问题的上下文信息为所对应填写要求文本的电网领域文本块。
图5为本公开实施例提供的另一种应用于电网领域表单填写方法的流程图。如图5所示,该表单填写方法不但包括前面实施例中的步骤S1~步骤S4,且在步骤S4之后还包括步骤S5,下面仅对步骤S5进行描述。
步骤S5、响应于修改操作,对目标输入框中的文本内容进行相应修改。
在实际应用中,当采用前面步骤S1~步骤S4实现对电网领域表单的自动填写后,填写人员希望对某1个或多个输入框(即目标输入框)中的填写内容进行修改,为此本公开中还提供了修改机制。
本公开的技术方案可基于电网领域特征向量数据库和AIGC模型实现对电网领域表单的自动填写,同时还能够支持填写人员对自动填写至输入框的文本内容进行修改。
基于同一发明构思,本公开实施例还提供了一种应用于电网领域表单填写系统。图6为本公开实施例提供的一种应用于电网领域表单填写系统的结构框图。如图6所示,该表单填写系统可用于实现前面实施例所提供的表单填写方法,该表单填写系统包括:获取模块1、生成模块2、输入模块3和填写模块4。
其中,获取模块1用于获取待填写电网领域表单中各输入框分别所对应的填写要求文本。
生成模块2用于根据全部填写要求文本生成对应的提示工程信息,提示工程信息包括:提问问题,提问问题指示从给定的电网领域材料集合中分别提取出符合各填写要求文本的要求的填写内容。
输入模块3用于将提示工程信息输入至预先训练好的生成式人工智能模型中,以供生成式人工智能模型根据提示工程信息从给定的电网领域材料集合中分别提取出符合各填写要求文本的要求的填写内容。
填写模块4用于针对每个填写要求文本,将生成式人工智能模型所提取出的符合目标填写要求文本的要求的填写内容,填写至目标填写要求文本所对应的输入框内。
可选地,生成模块包括:模板生成子模块、特征提取子模块、文本块获取子模块和嵌入子模块。
其中,模板生成子模块用于根据全部填写要求文本生成对应的包括有提问问题的提示工程模板。
特征提取子模块用于对各填写要求文本进行语义特征向量提取,得到各填写要求文本的语义特征向量。
文本块获取子模块用于针对每个填写要求文本,从预设的电网领域特征向量数据库中查询出与目标填写要求文本之间的语义特征向量相似度最大的若干个电网领域文本块,以作为目标填写要求文本所对应的电网领域文本块。
嵌入子模块用于将全部填写要求文本的语义特征向量所对应的电网领域文本块作为提问问题的上下文信息,嵌入至提示工程模板中,得到提示工程信息。
对于上述各模块的具体描述,可参见前面实施例中的内容,此处不再赘述。
基于同一发明构思,本公开实施例还提供了一种电子设备。图7为本公开实施例提供的一种电子设备的结构示意图。如图7所示,本公开实施例提供一种电子设备包括:一个或多个处理器101、存储器102、一个或多个I/O接口103。存储器102上存储有一个或多个程序,当该一个或多个程序被该一个或多个处理器执行,使得该一个或多个处理器实现如上述实施例中任一电网领域表单填写方法;一个或多个I/O接口103连接在处理器与存储器之间,配置为实现处理器与存储器的信息交互。
其中,处理器101为具有数据处理能力的器件,包括但不限于中央处理器(CPU)等;存储器102为具有数据存储能力的器件,包括但不限于随机存取存储器(RAM,更具体如SDRAM、DDR等)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、闪存(FLASH);I/O接口(读写接口)103连接在处理器101与存储器102间,能实现处理器101与存储器102的信息交互,包括但不限于数据总线(Bus)等。
在一些实施例中,处理器101、存储器102和I/O接口103通过总线104相互连接,进而与计算设备的其它组件连接。
在一些实施例中,该一个或多个处理器101包括现场可编程门阵列。
根据本公开的实施例,还提供一种计算机可读介质。该计算机可读介质上存储有计算机程序,其中,该程序被处理器执行时实现如上述实施例中任一的电压输出控制方法中的步骤。
特别地,根据本公开实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,包括承载在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本公开的系统中限定的上述功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的电路或子电路可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的电路或子电路也可以设置在处理器中,例如,可以描述为:一种处理器,包括:接收电路和处理电路,该处理模块包括写入子电路和读取子电路。其中,这些电路或子电路的名称在某种情况下并不构成对该电路或子电路本身的限定,例如,接收电路还可以被描述为“接收视频信号”。
可以理解的是,以上实施方式仅仅是为了说明本公开的原理而采用的示例性实施方式,然而本公开并不局限于此。对于本领域内的普通技术人员而言,在不脱离本公开的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本公开的保护范围。
Claims (7)
1.一种应用于电网领域表单填写方法,其特征在于,包括:
获取待填写电网领域表单中各输入框分别所对应的填写要求文本;
根据全部所述填写要求文本生成对应的提示工程信息,所述提示工程信息包括:提问问题,所述提问问题指示从给定的电网领域材料集合中分别提取出符合各所述填写要求文本的要求的填写内容;
将所述提示工程信息输入至预先训练好的生成式人工智能模型中,以供所述生成式人工智能模型根据所述提示工程信息从给定的电网领域材料集合中分别提取出符合各所述填写要求文本的要求的填写内容;
针对每个所述填写要求文本,将所述生成式人工智能模型所提取出的符合目标填写要求文本的要求的填写内容,填写至所述目标填写要求文本所对应的输入框内;
所述提示工程信息还包括:所述提问问题的上下文信息;
根据全部所述填写要求文本生成对应的提示工程信息的步骤包括:
根据全部所述填写要求文本生成对应的提示工程模板,所述提示工程模板包括:提问问题;
对各所述填写要求文本进行语义特征向量提取,得到各所述填写要求文本的语义特征向量;
针对每个所述填写要求文本,从预设的电网领域特征向量数据库中查询出与目标填写要求文本之间的语义特征向量相似度最大的若干个电网领域文本块,以作为所述目标填写要求文本所对应的电网领域文本块,所述电网领域特征向量数据库中记载有多个电网领域文本块以及各电网领域文本块所对应的语义特征向量;
将全部所述填写要求文本的语义特征向量所对应的电网领域文本块作为所述提问问题的上下文信息,嵌入至所述提示工程模板中,得到提示工程信息。
2.根据权利要求1所述的表单填写方法,其特征在于,在从预设的电网领域特征向量数据库中查询出所对应的特征向量与目标填写要求文本的语义特征向量之间相似度最大的若干个电网领域文本块的步骤之前还包括:生成所述电网领域特征向量数据库,具体包括:
收集电网领域的多模态数据语料,并将所述多模态数据语料中的非结构化数据转化为结构化文本数据;
将收集到的各结构化文本数据进行文本块切分,得到多个电网领域文本块;
对各电网领域文本块进行语义特征向量提取处理,得到各电网领域文本块的语义特征向量。
3.根据权利要求2所述的表单填写方法,其特征在于,
在对填写要求文本进行语义特征向量提取的过程中,采用Embedding模型对各填写要求文本进行语义特征向量提取处理;
在生成所述电网领域特征向量数据库的过程中,采用大型语言模型对结构化文本数据进行文本块切分,以及采用Embedding模型对各电网领域文本块进行语义特征向量提取处理。
4.根据权利要求2所述的表单填写方法,其特征在于,在生成所述电网领域特征向量数据库的步骤之后,还包括:
利用所述电网领域特征向量数据库对所述生成式人工智能模型进行再训练。
5.根据权利要求1所述的表单填写方法,其特征在于,在将所述生成式人工智能模型所提取出的符合目标填写要求文本的填写内容填写至所述目标填写要求文本所对应的输入框内的步骤之后,还包括:
响应于修改操作,对目标输入框中的文本内容进行相应修改。
6.一种应用于电网领域表单填写系统,其特征在于,可用于实现如权利要求1至5中任一所述表单填写方法,所述表单填写系统包括:
获取模块,用于获取待填写电网领域表单中各输入框分别所对应的填写要求文本;
生成模块,用于根据全部所述填写要求文本生成对应的提示工程信息,所述提示工程信息包括:提问问题,所述提问问题指示从给定的电网领域材料集合中分别提取出符合各所述填写要求文本的要求的填写内容;
输入模块,用于将所述提示工程信息输入至预先训练好的生成式人工智能模型中,以供所述生成式人工智能模型根据所述提示工程信息从给定的电网领域材料集合中分别提取出符合各所述填写要求文本的要求的填写内容;
填写模块,针对每个所述填写要求文本,将所述生成式人工智能模型所提取出的符合目标填写要求文本的要求的填写内容,填写至所述目标填写要求文本所对应的输入框内;
所述生成模块包括:
模板生成子模块,用于根据全部所述填写要求文本生成对应的包括有提问问题的提示工程模板;
特征提取子模块,用于对各所述填写要求文本进行语义特征向量提取,得到各所述填写要求文本的语义特征向量,
文本块获取子模块,用于针对每个所述填写要求文本,从预设的电网领域特征向量数据库中查询出与目标填写要求文本之间的语义特征向量相似度最大的若干个电网领域文本块,以作为所述目标填写要求文本所对应的电网领域文本块;
嵌入子模块,用于将全部所述填写要求文本的语义特征向量所对应的电网领域文本块作为所述提问问题的上下文信息,嵌入至所述提示工程模板中,得到提示工程信息。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至5中任一所述表单填写方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311321780.5A CN117057325B (zh) | 2023-10-13 | 2023-10-13 | 一种应用于电网领域表单填写方法、系统和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311321780.5A CN117057325B (zh) | 2023-10-13 | 2023-10-13 | 一种应用于电网领域表单填写方法、系统和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117057325A CN117057325A (zh) | 2023-11-14 |
CN117057325B true CN117057325B (zh) | 2024-01-05 |
Family
ID=88654003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311321780.5A Active CN117057325B (zh) | 2023-10-13 | 2023-10-13 | 一种应用于电网领域表单填写方法、系统和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117057325B (zh) |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105786797A (zh) * | 2016-02-23 | 2016-07-20 | 北京云知声信息技术有限公司 | 一种基于语音输入的信息处理方法及装置 |
CN108171383A (zh) * | 2017-12-30 | 2018-06-15 | 广州供电局有限公司 | 电力基建工程管理优化方法和系统 |
CN109118123A (zh) * | 2018-09-20 | 2019-01-01 | 长江勘测规划设计研究有限责任公司 | 水利水电工程施工质量评定bim管理方法 |
CN111046663A (zh) * | 2019-11-26 | 2020-04-21 | 华南理工大学 | 一种中文表单的智能校正方法 |
CN111126009A (zh) * | 2019-12-12 | 2020-05-08 | 深圳追一科技有限公司 | 表单填写方法、装置、终端设备及存储介质 |
CN111145754A (zh) * | 2019-12-12 | 2020-05-12 | 深圳追一科技有限公司 | 语音输入方法、装置、终端设备及存储介质 |
CN112507073A (zh) * | 2020-12-07 | 2021-03-16 | 云南电网有限责任公司普洱供电局 | 配电网作业文件的内容校验方法及相关设备 |
CN112800203A (zh) * | 2021-02-05 | 2021-05-14 | 江苏实达迪美数据处理有限公司 | 一种融合文本和知识表征的问答匹配方法及系统 |
CN113778288A (zh) * | 2021-08-25 | 2021-12-10 | 上海浦东发展银行股份有限公司 | 表单生成方法、装置、计算机设备和存储介质 |
CN114254645A (zh) * | 2020-09-22 | 2022-03-29 | 北京百灵互联科技有限公司 | 一种人工智能辅助写作系统 |
CN114548063A (zh) * | 2022-01-07 | 2022-05-27 | 南方电网深圳数字电网研究院有限公司 | 基于全链路语音识别技术的电子表单填写方法及装置 |
CN114565749A (zh) * | 2022-02-21 | 2022-05-31 | 国网上海市电力公司 | 一种电力建设现场签证文档关键内容识别方法及系统 |
CN114841128A (zh) * | 2022-03-31 | 2022-08-02 | 北京百度网讯科技有限公司 | 基于人工智能的业务交互方法、装置、设备、介质及产品 |
CN115130437A (zh) * | 2022-08-31 | 2022-09-30 | 南京擎盾信息科技有限公司 | 一种文档智能填写方法、装置及存储介质 |
CN115422903A (zh) * | 2022-08-30 | 2022-12-02 | 电子科大科园股份有限公司 | 报表输出方法、装置、电子设备及计算机可读取存储介质 |
CN115455922A (zh) * | 2022-09-16 | 2022-12-09 | 中国电信股份有限公司 | 表单校验方法、装置、电子设备和存储介质 |
US11526756B1 (en) * | 2020-06-24 | 2022-12-13 | Amazon Technologies, Inc. | Artificial intelligence system with composite models for multiple response-string queries |
CN115757731A (zh) * | 2022-11-16 | 2023-03-07 | 中国平安财产保险股份有限公司 | 对话问句改写方法、装置、计算机设备及存储介质 |
CN116050399A (zh) * | 2023-01-05 | 2023-05-02 | 中国科学院声学研究所南海研究站 | 一种可跨语料库可跨算法的生成式文本隐写分析方法 |
CN116152843A (zh) * | 2022-11-22 | 2023-05-23 | 南京擎盾信息科技有限公司 | 合同模板待填写内容的类别识别方法、装置及存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7739117B2 (en) * | 2004-09-20 | 2010-06-15 | International Business Machines Corporation | Method and system for voice-enabled autofill |
US8095476B2 (en) * | 2006-11-27 | 2012-01-10 | Inquira, Inc. | Automated support scheme for electronic forms |
US20090204881A1 (en) * | 2008-02-08 | 2009-08-13 | M/S. Scmooth (India) Private Limited | Method and system for knowledge-based filling and verification of complex forms |
US20140201102A1 (en) * | 2013-01-15 | 2014-07-17 | Xerox Corporation | Methods and systems for automatic form filling and validation |
US9582484B2 (en) * | 2013-10-01 | 2017-02-28 | Xerox Corporation | Methods and systems for filling forms |
US10223344B2 (en) * | 2015-01-26 | 2019-03-05 | Adobe Inc. | Recognition and population of form fields in an electronic document |
US20160224524A1 (en) * | 2015-02-03 | 2016-08-04 | Nuance Communications, Inc. | User generated short phrases for auto-filling, automatically collected during normal text use |
US10755039B2 (en) * | 2018-11-15 | 2020-08-25 | International Business Machines Corporation | Extracting structured information from a document containing filled form images |
US11386589B2 (en) * | 2020-08-04 | 2022-07-12 | Ping An Technology (Shenzhen) Co., Ltd. | Method and device for image generation and colorization |
CN112069815B (zh) * | 2020-09-04 | 2023-01-17 | 平安科技(深圳)有限公司 | 成语填空题的答案选择方法、装置和计算机设备 |
US20230215427A1 (en) * | 2022-01-05 | 2023-07-06 | International Business Machines Corporation | Automated domain-specific constrained decoding from speech inputs to structured resources |
-
2023
- 2023-10-13 CN CN202311321780.5A patent/CN117057325B/zh active Active
Patent Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105786797A (zh) * | 2016-02-23 | 2016-07-20 | 北京云知声信息技术有限公司 | 一种基于语音输入的信息处理方法及装置 |
WO2017143672A1 (zh) * | 2016-02-23 | 2017-08-31 | 北京云知声信息技术有限公司 | 一种基于语音输入的信息处理方法及装置 |
CN108171383A (zh) * | 2017-12-30 | 2018-06-15 | 广州供电局有限公司 | 电力基建工程管理优化方法和系统 |
CN109118123A (zh) * | 2018-09-20 | 2019-01-01 | 长江勘测规划设计研究有限责任公司 | 水利水电工程施工质量评定bim管理方法 |
CN111046663A (zh) * | 2019-11-26 | 2020-04-21 | 华南理工大学 | 一种中文表单的智能校正方法 |
CN111126009A (zh) * | 2019-12-12 | 2020-05-08 | 深圳追一科技有限公司 | 表单填写方法、装置、终端设备及存储介质 |
CN111145754A (zh) * | 2019-12-12 | 2020-05-12 | 深圳追一科技有限公司 | 语音输入方法、装置、终端设备及存储介质 |
US11526756B1 (en) * | 2020-06-24 | 2022-12-13 | Amazon Technologies, Inc. | Artificial intelligence system with composite models for multiple response-string queries |
CN114254645A (zh) * | 2020-09-22 | 2022-03-29 | 北京百灵互联科技有限公司 | 一种人工智能辅助写作系统 |
CN112507073A (zh) * | 2020-12-07 | 2021-03-16 | 云南电网有限责任公司普洱供电局 | 配电网作业文件的内容校验方法及相关设备 |
CN112800203A (zh) * | 2021-02-05 | 2021-05-14 | 江苏实达迪美数据处理有限公司 | 一种融合文本和知识表征的问答匹配方法及系统 |
CN113778288A (zh) * | 2021-08-25 | 2021-12-10 | 上海浦东发展银行股份有限公司 | 表单生成方法、装置、计算机设备和存储介质 |
CN114548063A (zh) * | 2022-01-07 | 2022-05-27 | 南方电网深圳数字电网研究院有限公司 | 基于全链路语音识别技术的电子表单填写方法及装置 |
CN114565749A (zh) * | 2022-02-21 | 2022-05-31 | 国网上海市电力公司 | 一种电力建设现场签证文档关键内容识别方法及系统 |
CN114841128A (zh) * | 2022-03-31 | 2022-08-02 | 北京百度网讯科技有限公司 | 基于人工智能的业务交互方法、装置、设备、介质及产品 |
CN115422903A (zh) * | 2022-08-30 | 2022-12-02 | 电子科大科园股份有限公司 | 报表输出方法、装置、电子设备及计算机可读取存储介质 |
CN115130437A (zh) * | 2022-08-31 | 2022-09-30 | 南京擎盾信息科技有限公司 | 一种文档智能填写方法、装置及存储介质 |
CN115455922A (zh) * | 2022-09-16 | 2022-12-09 | 中国电信股份有限公司 | 表单校验方法、装置、电子设备和存储介质 |
CN115757731A (zh) * | 2022-11-16 | 2023-03-07 | 中国平安财产保险股份有限公司 | 对话问句改写方法、装置、计算机设备及存储介质 |
CN116152843A (zh) * | 2022-11-22 | 2023-05-23 | 南京擎盾信息科技有限公司 | 合同模板待填写内容的类别识别方法、装置及存储介质 |
CN116050399A (zh) * | 2023-01-05 | 2023-05-02 | 中国科学院声学研究所南海研究站 | 一种可跨语料库可跨算法的生成式文本隐写分析方法 |
Non-Patent Citations (2)
Title |
---|
Automatic form filling on mobile devices;Enrico Rukzio et al.;《Pervasive and Mobile Computing》;第4卷(第2期);161-181 * |
表单批量自动填写系统的设计与实现;张正;《计算机与现代化》(第2期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117057325A (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112685565B (zh) | 基于多模态信息融合的文本分类方法、及其相关设备 | |
WO2022253074A1 (zh) | 一种数据处理方法及相关设备 | |
CN113761868B (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN113487028A (zh) | 知识蒸馏方法、装置、终端设备及介质 | |
CN115062134B (zh) | 知识问答模型训练及知识问答方法、装置和计算机设备 | |
CN110826342A (zh) | 一种实现模型管理的方法、装置、计算机存储介质及终端 | |
CN116303537A (zh) | 数据查询方法及装置、电子设备、存储介质 | |
CN115905528A (zh) | 具有时序特征的事件多标签分类方法、装置及电子设备 | |
CN116720008A (zh) | 一种机器阅读方法、装置、存储介质及电子设备 | |
CN111339311A (zh) | 基于生成式网络抽取结构化事件的方法、装置与处理器 | |
CN113704534A (zh) | 图像处理方法、装置及计算机设备 | |
CN113743650A (zh) | 电力负荷预测方法、装置、设备与存储介质 | |
CN113468323A (zh) | 争议焦点类别及相似判断方法及系统及装置及推荐方法 | |
CN117057325B (zh) | 一种应用于电网领域表单填写方法、系统和电子设备 | |
CN116993978A (zh) | 小样本分割方法、系统、可读存储介质及计算机设备 | |
CN110019875A (zh) | 索引文件的生成方法及装置 | |
CN114490922A (zh) | 一种自然语言理解模型训练方法及装置 | |
CN116719915A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN116911290A (zh) | 基于机器阅读理解的关键科技实体抽取方法及系统 | |
WO2023168818A1 (zh) | 视频和文本相似度确定方法、装置、电子设备、存储介质 | |
CN117033649A (zh) | 文本处理模型的训练方法、装置、电子设备及存储介质 | |
CN116957006A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
CN114021555A (zh) | 知识点自动标注的方法、装置、设备及可读存储介质 | |
CN117094304B (zh) | 一种应用于电网领域技术标准制修订的提示方法和系统 | |
CN117034942B (zh) | 一种命名实体识别方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |