CN117709866A - 一种标书生成方法及系统、计算机可读存储介质 - Google Patents
一种标书生成方法及系统、计算机可读存储介质 Download PDFInfo
- Publication number
- CN117709866A CN117709866A CN202311484127.0A CN202311484127A CN117709866A CN 117709866 A CN117709866 A CN 117709866A CN 202311484127 A CN202311484127 A CN 202311484127A CN 117709866 A CN117709866 A CN 117709866A
- Authority
- CN
- China
- Prior art keywords
- text
- bidding
- content
- picture
- catalog
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000012423 maintenance Methods 0.000 abstract description 10
- 238000004519 manufacturing process Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 8
- 238000007726 management method Methods 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 6
- 241001416177 Vicugna pacos Species 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 235000002198 Annona diversifolia Nutrition 0.000 description 1
- 241000282842 Lama glama Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明提供了一种标书生成方法及系统、计算机可读存储介质,涉及人工智能技术领域,所述方法包括:获取招标文件;解析所述招标文件,生成所述招标文件的标书画像;将所述标书画像转化为第一指示语句,通过所述第一指示语句调用预置的大语言模型生成标书目录;基于所述标书目录,采用所述大语言模型生成标书文件。本发明能大大减少人工维护成本,且能实现标书的全自动生成,提升了标书制作效率。
Description
技术领域
本发明涉及人工智能技术领域,具体而言,涉及一种标书生成方法及系统、计算机可读存储介质。
背景技术
招投标是指在货物、工程和服务的采购行为中,招标人通过发布招标文件释明采购要求,吸引投标人提交记载投标方案、技术方案、商务方案、价格方案等内容的标书,再由招标人基于标书对投标人进行综合评审,从中择优选定项目的中标人。其中,标书在招投标过程中具有重要作用,因而在现有技术中,通常投入大量的人力、物力和财力进行标书制作。
传统的标书制作方法,通常需要人工进行大量的研究、编写和修改,不仅耗时耗力,而且容易出错。现有的标书制作工具依赖于模板和人工输入,需要构建和存储大量模板,模板数据维护成本和人力成本均较高,但标书制作效率不高。
发明内容
本发明解决的问题是如何降低标书制作的数据维护成本和人力成本,同时提高标书制作效率。
为解决上述问题,本发明提供一种标书生成方法,包括:
获取招标文件;
解析所述招标文件,生成所述招标文件的标书画像;
将所述标书画像转化为第一指示语句,通过所述第一指示语句调用预置的大语言模型生成标书目录;
基于所述标书目录,采用所述大语言模型生成标书文件。
可选地,所述基于所述标书目录,采用所述大语言模型生成标书文件包括:
遍历所述标书目录中每一层目录,对每一层目录,执行如下操作:
基于所述目录的标题文本,调用所述大语言模型生成第一内容;
判断预置的第一数据库中是否预存有与所述目录的标题文本匹配的第二内容;
若是,则根据所述第一内容与所述第二内容,结合预置的决策算法确定所述目录对应的标书内容;
若否,则采用所述第一内容作为所述目录对应的标书内容;
基于所述目录对应的标书内容生成所述标书文件。
可选地,所述根据所述第一内容与所述第二内容,结合预置的决策算法确定所述目录对应的标书内容包括:
将所述目录的标题文本和所述标书画像拼接,生成拼接文本;
分别计算所述第一内容、所述第二内容,与所述拼接文本的匹配度,从所述第一内容、所述第二内容中确定与所述拼接文本匹配度最高的内容,作为所述目录对应的标书内容。
可选地,所述基于所述目录对应的标书内容生成所述标书文件包括:
判断所述目录对应的标书内容中,是否存在图片指示文本;
若是,则根据所述图片指示文本从预置的第二数据库中调取所述图片指示文本关联的图片;
基于所述图片指示文本关联的图片生成所述标书文件。
可选地,所述判断所述目录对应的标书内容中,是否存在图片指示文本包括:
对所述目录对应的标书内容进行分词处理,得到关键词列表;
遍历所述关键词列表中的每一个关键词,判断所述第二数据库中,是否存在所述关键词;
若是,则判定所述关键词为所述图片指示文本。
可选地,所述基于所述图片指示文本关联的图片生成所述标书文件包括:
获取所述图片指示文本在所述目录对应的标书内容中的文本位置;
根据所述文本位置,确定拼接顺序;
将所述图片指示文本关联的图片,与所述目录对应的标书内容中的其他文本,按照所述拼接顺序拼接,以生成标书文件。
可选地,所述大语言模型采用预设训练数据集训练,所述预设训练数据集的生成步骤包括:
获取历史标书文件、历史招标文件以及所述历史标书文件对应的用户操作记录;
解析所述历史标书文件和所述历史招标文件,获得所述历史标书文件和所述历史招标文件中的文本数据和图片;
将所述图片转化为图片指示文本;
其中,所述预设训练数据集包括所述历史标书文件和所述历史招标文件中的文本数据、所述图片指示文本以及所述用户操作记录。
可选地,所述将所述图片转化为图片指示文本包括:
采用两个或两个以上预置的多模态大模型分别将所述图片转化为图片指示文本,并获得每个所述多模态大模型生成的图片指示文本的评分;
将评分最高的图片指示文本,作为所述图片的图片指示文本。
本发明还提出一种标书生成系统,包括存储有计算机程序的计算机可读存储介质和处理器,所述计算机程序被所述处理器读取并运行时,实现如上所述的标书生成方法。
本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器读取并运行时,实现如上所述的标书生成方法。
与现有技术相比,本发明至少具有如下有益效果:
本发明通过解析招标文件获得其标书画像,将标书画像转化为第一指示语句,调用生成式的大语言模型生成标书目录,基于标书目录,再调用大语言模型生成标书文件,一方面,该方法解析招标文件获得刻画招标文件专属特征的标书画像,基于此生成的标书文件与招标文件适配度更高,具有更高的灵活性和个性化程度,另一方面,该方法无需构建庞大繁琐的知识库,大大减少了人工维护成本,且能实现标书的全自动生成,提升了标书制作效率。
附图说明
图1为本发明标书生成方法一实施例的流程示意图;
图2为本发明标书生成方法另一实施例的流程示意图;
图3为本发明标书生成方法又一实施例的流程示意图;
图4为本发明标书生成方法一实施例中文件解析流程示意图;
图5为本发明标书生成系统的架构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。应当理解的是,本发明的附图及实施例仅用于示例性作用,并非用于限制本发明的保护范围。本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”;术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”;术语“可选地”表示“可选的实施例”。其他术语的相关定义将在下文描述中给出。
一实施例中,参见图1,本发明标书生成方法包括:
步骤S100,获取招标文件。
招标文件,可以由用户上传,或者由用户提供招标文件链接,基于该招标文件链接获取招标文件,或者从预置的招标文件数据库中获取预存的招标文件。
步骤S200,解析所述招标文件,生成所述招标文件的标书画像。
其中,标书画像指通过技术手段形成的招标文件的特征描述,标书画像可包括招标项目的名称、产品要求、评分标准、文档格式规范要求等内容。可采用自然语言处理技术、计算机视觉技术等从招标文件中提取关键词,采用大模型(如Llama2羊驼大模型)从招标文件中提取特征信息,将关键词和特征信息合并,作为招标文件的标书画像。
步骤S300,将所述标书画像转化为第一指示语句,通过所述第一指示语句调用预置的大语言模型生成标书目录。
将标书画像转化为Prompt(即第一指示语句),具体可采用自然语言处理技术对标书画像进行语义转化,生成第一指示语句。
预置的大语言模型为预先训练好的生成式模型,其无需从预定义的数据集中选择,而是能从头开始生成新的文本或回答,例如ChatGPT、Llama2羊驼大模型。大语言模型具有从头开始生成新文本或回答的能力,而不仅仅局限于预定义数据集的选择,可以摆脱对庞大且复杂的知识库的依赖,减少人工维护成本,且通过大语言模型能够自主生成符合语法和语义规则的文本,具备创造性和灵活性。
步骤S400,基于所述标书目录,采用所述大语言模型生成标书文件。
采用预置的大语言模型生成标书目录,在标书目录的基础上,再调用大语言模型生成标书文件。
一实施方式中,循环解析标书目录中的每一层目录,对于每一层目录,基于目录的标题文本调用大语言模型直接生成目录正文,将每一层目录对应的目录正文写入文档,生成标书文件。
另一实施方式中,步骤S400包括:遍历所述标书目录中每一层目录,对每一层目录,执行如下操作:
步骤S401,基于所述目录的标题文本,调用所述大语言模型生成第一内容。
其中,每一层目录的标题文本,即该层目录对应的章节标题文本。可将目录的标题文本转化为prompt,再调用大语言模型生成与目录的标题文本对应的第一内容。
步骤S402,判断预置的第一数据库中是否预存有与所述目录的标题文本匹配的第二内容。
具体地,可采用自然语言处理技术基于目录的标题文本检索第一数据库中是否存在与目录的标题文本匹配的第二内容,具体可通过计算目录的标题文本与第一数据库中预存文本的相似度,当第一数据库中存在与目录的标题文本相似度大于预设值的预存文本时,该预存文本为第二内容。第一数据库可为MySQL数据库。
步骤S403,若是,则根据所述第一内容与所述第二内容,结合预置的决策算法确定所述目录对应的标书内容。
若第一数据库中存储有与目录的标题文本匹配的第二内容,说明基于当前的目录的标题文本曾生成对应的正文内容,此时,可根据预置的决策算法从第一内容和第二内容中择优作为当前的目录对应的标书内容,从而使最新生成的标书质量比历史标书质量更佳或质量持平。其中,第一数据库中与目录的标题文本匹配的第二内容可能有多条,可根据预置的决策算法在第一内容和多条第二内容中确定最优的内容作为目录对应的标书内容。
一实施方式中,根据第一内容与第二内容,结合预置的决策算法确定目录对应的标书内容,具体可包括:分别计算第一内容与目录的标题文本、第二内容与目录的标题文本之间的匹配度,将匹配度最高的内容作为目录对应的标书内容。
另一实施方式中,根据第一内容与第二内容,结合预置的决策算法确定目录对应的标书内容,具体可包括:将所述目录的标题文本和所述标书画像拼接,生成拼接文本;分别计算所述第一内容、所述第二内容,与所述拼接文本的匹配度,从所述第一内容、所述第二内容中确定与所述拼接文本匹配度最高的内容,作为所述目录对应的标书内容。
将目录的标题文本和标书画像拼接后,可增加拼接文本的信息量,使后续计算与第一内容、第二内容的匹配度时,可获得更准确的匹配结果,进而从第一内容和第二内容中选取更为合适的内容作为目录对应的标书内容,确保标书具有较高的质量。
步骤S404,若否,则采用所述第一内容作为所述目录对应的标书内容。
若第一数据库中,未预存有与目录的标题文本匹配的第二内容,则直接采用大语言模型生成的第一内容作为目录的标题文本匹配的第二内容,而无需预先构建相关的知识库,摆脱对庞大且复杂知识库的依赖,降低了知识库维护成本。
步骤S405,基于所述目录对应的标书内容生成所述标书文件。
确定目录对应的标书内容后,可将标书内容顺序写入标书文件,具体可采用IDP技术将标书内容顺序写入文档,以生成标书文件。IDP(Intelligent Document Processing)技术是一类用于自动化文档解析和处理的技术,其结合了自然语言处理(NLP)、计算机视觉(CV)和机器学习等技术,旨在从非结构化或半结构化的文档中提取出有用的信息。
循环所有目录,生成目录对应的标书内容,直到完成所有目录对应的标书内容生成。在结束内容生成后,根据识别的招标文件中格式要求对标书文件进行格式更新。
全人工的标书制作方法或者依赖于模板和人工输入的半自动标书制作方法,存在数据维护成本和人力成本较高,而标书制作效率不高问题;而部分使用人工智能技术的标书工具,通过建立包含预定义问题和答案对或大规模文档集合的知识库,在知识库中检索获得与输入查询最匹配的答案或响应作为相应的标书内容,这种方式严重依赖于对应知识库数据集维护,知识库庞大且复杂,人工和系统维护成本高,缺乏灵活性和个性化。
与上述标书制作方法相比,本发明实施例通过解析招标文件获得其标书画像,将标书画像转化为第一指示语句,调用生成式的大语言模型生成标书目录,基于标书目录,再调用大语言模型生成标书文件,一方面,该方法解析招标文件获得刻画招标文件专属特征的标书画像,基于此生成的标书文件与招标文件适配度更高,具有更高的灵活性和个性化程度,另一方面,该方法无需构建庞大繁琐的知识库,大大减少了人工维护成本,且能实现标书的全自动生成,提升了标书制作效率。
进一步地,在生成标书目录之后,对于每一层目录,根据其标题文本调用大语言模型生成第一内容,同时检索第一数据库中预存的与该层目录的标题文本匹配的第二内容,在第一内容和第二内容中择优选择该层目录对应的标书内容,从而实现该层目录对应正文内容的自动优化迭代,实现标书文件质量的优化迭代,保证最终生成质量较高的标书文件。
参见图2,一实施方式中,上传招标文件后,将招标文件采用OSS文件对象服务存储,同时解析招标文件,采用自然语言处理技术(NLP技术)提取关键字,采用Llama2羊驼大模型提取特征信息,将关键字和特征信息合并后,进行NLP语义转化,生成主Prompt,使用主prompt调用大语言模型生成标书目录结构,再调用Langchain,Langchain根据标书目录结构,调用大语言模型生成目录对应的文档内容,再完成标书文档内容生成后,将文档保存,具体采用OSS文件对象服务存储。
本发明另一实施例中,在确定目录对应的标书内容之后,执行步骤S405基于所述目录对应的标书内容生成所述标书文件,可选地,步骤S405包括:判断所述目录对应的标书内容中,是否存在图片指示文本;若是,则根据所述图片指示文本从预置的第二数据库中调取所述图片指示文本关联的图片;基于所述图片指示文本关联的图片生成所述标书文件。
其中,图片指示文本指在第二数据库中关联了图片的文本。一实施方式中,图片指示文本可带有特定标识符,通过该特定标识符识别图片指示文本。另一实施方式中,所述判断所述目录对应的标书内容中,是否存在图片指示文本包括:对所述目录对应的标书内容进行分词处理,得到关键词列表;遍历所述关键词列表中的每一个关键词,判断所述第二数据库中,是否存在所述关键词;若是,则判定所述关键词为所述图片指示文本;若否,则判定所述关键词为非图片指示文本。
图片指示文本可通过解析预存文件获得,此处的预存文件可包括历史标书文件,也可包括非标书文件,参见图4,具体解析步骤可包括:
获取预存文件,具体可通过获取存储的文件信息,从中获得文件类型(图片、word、excel等)、文件存储路径,再基于文件存储路径中获取预存文件;当预存文件为word文件时,采用python dox类库读取预存文件的文件信息,将其解析为Document对象,读取Document对象中的paragraphs数组对象,循环paragraphs数组对象获取其中的paragraph对象,从paragraph对象中的text字段中获取文本数据,对于paragraph对象中的图片数据,采用预置的多模态模型将图片转化为图片指示文本,并生成图片数据与图片指示文本的映射关系;当预存文件为图片文件时,采用预置的多模态模型将图片转化为图片指示文本,并生成图片数据与图片指示文本的映射关系;其中,文本数据(包含图片指示文本)和映射关系存储在MYSQL中,图片存储于OSS中。
若目录对应的标书内容为纯文本数据,不存在图片指示文本,则可将目录对应的标书内容直接写入标书文件中。
若目录对应的标书内容包括图片指示文本,则所述基于所述图片指示文本关联的图片生成所述标书文件可包括:获取所述图片指示文本在所述目录对应的标书内容中的文本位置;根据所述文本位置,确定拼接顺序;将所述图片指示文本关联的图片,与所述目录对应的标书内容中的其他文本,按照所述拼接顺序拼接,以生成标书文件。
在标书文件的过程文档中,创建段落对象,获取当前的目录对应的标书内容,若该目录对应的标书内容为纯文本数据,则将文本数据信息赋值于段落对象的文本字段,若该目录对应的标书内容包含图片指示文本,则将该图片指示文本之前已生成的文档保存,将该文档与图片指示文本关联的图片拼接生成新文件,作为标书文件的一部分。
一实施方式中,参见图3,标书文件生成步骤包括:
1.检测到标书制作请求,发起标书制作流程;
2.通过java的基础file类库生成.docx后缀的word文件;
3.通过java的POI库读取生成的word文件,获取到Document对象;
4.创建Paragraph对象;
5.获取目录对应的标书内容;
6.判断目录对应的标书内容是否存在图片指示文本;若为全文本数据,则将文本数据信息赋值于Paragraph对象的text字段;若包含图片指示文本,则Document对象调用File类库直接保存文档,调用Node.js的docx-marge插件将文本和图片进行拼接生成新文件,使用java的POI类库重新读取新文件并生成Document对象;其中,由于java的POI库中word合并拼接功能经常导致拼接后的文件无法二次解析为Document对象,因而采用Node技术规避word拼接的缺陷,确保标书文件的顺利生成。
7.通过目录对应的标书内容中的标识判断标书文案是否生成完毕,其中,标识可以为最后一个目录,也可以为其他特定的结尾标识;若未生成完毕,则继续下一个目录对应的标书内容,重复5到7的步骤进行文件内容写入;若生成完毕,则保存最终文档。
可选地,参见图5,所述大语言模型采用预设训练数据集训练,所述预设训练数据集的生成步骤包括:获取历史标书文件、历史招标文件以及所述历史标书文件对应的用户操作记录;解析所述历史标书文件和所述历史招标文件,获得所述历史标书文件和所述历史招标文件中的文本数据和图片;将所述图片转化为图片指示文本;其中,所述预设训练数据集包括所述历史标书文件和所述历史招标文件中的文本数据、所述图片指示文本以及所述用户操作记录。
具体地,历史标书文件对应的用户操作记录,包含用户页面跳转记录、用户功能按钮点击记录等用户在制作历史标书文件时的操作记录,其反映了用户在标书制作中的偏好,将用户操作记录作为预设训练数据集中的一部分,可以使最后训练出的大语言模型生成的标书文件更符合用户习惯,更符合用户需求。
采用预置的多模态模型将图片转化为图片指示文本。多模态模型(MultimodalModel)是一种能够处理和融合多种不同类型数据(例如文本、图像、语音等)的机器学习模型。一实施方式中,采用训练好的Inception-v3网络对图片进行特征提取,将提取到的图像特征输入到Bi-LSTM模型中;对文本进行预处理,如分词、编码等,采用Bi-LSTM模型对预处理后的文本进行建模;最后,将图像特征和文本特征进行整合,例如可以通过连接或者拼接操作将二者合并,实现图片与文本的映射。其中,Inception-v3卷积神经网络可以对图像进行卷积和池化操作,以捕获图像的局部和全局特征。Bi-LSTM是一种循环神经网络,能够处理序列数据,并具有记忆单元,可以捕捉文本中的上下文信息。另一实施方式中,构建基于Dual-Attention双注意力网络的多模态模型,具体包括:构建训练数据集,所述训练数据集中的每个样本均包括图像及其对应的文本描述;将图像输入到卷积神经网络中进行特征提取;将文本进行分词和嵌入表示,具体地,可使用词袋模型、word2vec或BERT等方法将文本转换为向量表示;构建Dual-Attention双注意力网络,其包括图像注意力和文本注意力模块,将图像特征输入到图像注意力模块中,以将图像特征映射到共享的语义空间,将文本表示输入到文本注意力模块中,以将文本表示映射到共享的语义空间;随后在共享的语义空间中进行相似性匹配,例如可使用余弦相似度或欧氏距离来计算图像和文本之间的相似性;可使用交叉熵损失函数作为损失函数,衡量相似性匹配的准确性。
将不同模态的数据映射到共享的语义空间中,以实现跨模态的相似性匹配。使用Dual-Attention网络通过引入双向注意力机制实现图像和文本之间的交互。
可采用预置的一个多模态大模型将图片转化为图片指示文本。也可采用两个或两个以上预置的多模态大模型分别将所述图片转化为图片指示文本,并获得每个所述多模态大模型生成的图片指示文本的评分,将评分最高的图片指示文本,作为所述图片的图片指示文本,由此可以获得结果更优的图片指示文本,确保最终生成的标书文件具有较高的质量。
一实施方式中,历史标书文件、历史招标文件均采用OSS文件对象服务存储,用户操作记录使用结构化数据存储于mysql。
读取历史标书文件、历史招标文件,调用IDP技术对其进行解析,word文档采用python的docx类型逐行解析,文件中的文本数据保存于mysql数据库中,文档中的图片存储于OSS文件。读取存储于OSS文件中的图片,使用预置的多模态大模型将图片转化为图片指示文本,并将图片与图片指示文本之间的映射关系存储于mysql数据库中。读取mysql中的文本数据,将文本数据转化为词向量并存储。将用户操作记录、词向量和图片指示文本,作为预设训练数据集,在预设训练数据集的基础上,采用无监督训练的方式训练大语言模型。
此外,随着生成的标书越来越多,而大语言模型采用无监督训练方式训练,无需标注数据,其可基于生成的标书进行自适应训练,不断提升模型效果,实现动态提升模型能力,使模型能自主提升标书制作能力,输出更优质的标书文件。
一实施例中,本发明标书生成系统包括存储有计算机程序的计算机可读存储介质和处理器,所述计算机程序被所述处理器读取并运行时,实现如上所述的标书生成方法。
一实施例中,标书生成系统包括:
用户层:用于提供用户页面交互,主要通过前端技术实现,使用VUE3框架和H5进行搭建,CSS提供样式配置,富文本提供文本、文件、图片、视频等多结构化数据的交互。
展示层:用于服务端和前端的交互接入。服务端和前端使用HTTP和HTTPS协议进行交互。服务端提供API接口供前端调用,前端使用AJAX技术通过POST和GET请求调用服务端提供的API接口,数据通过模板引擎渲染。
业务层:提供与前端交互的业务接口API,通过功能模块进行划分。主要分为文件管理,标书管理,模型管理,埋点管理等模块。具体地,文件管理包括文件上传,文件下载,文件解析,文件格式转换等功能。标书管理包括招标文件上传,查看,修改,删除,标书文件创建,查看,修改,删除,生成等功能。模型管理包括模型初始化,训练,测试,发布等功能。埋点管理包括用户页面跳转记录,用户功能按钮点击记录等用户在系统中的操作记录存储和维护。
服务层:为业务层提供技术支持服务,包括IPD技术,LLM大模型,多模态模型等。其中,IPD技术用于标书文件和招标文件的解析处理,包括采用python docx类库解析word文档,采用python openpyxl类库解析excel文档,采用java POI技术解析word,excel文档,采用node.js docx和docx-marge插件解析word文档和图片。LLM大模型可包括但不限于chatGPT和Llama2羊驼大模型。
多模态模型包括但不限于以下模型:Inception-v3+Bi-LSTM:使用Inception-v3卷积神经网络提取图像特征,并结合双向长短期记忆网络(Bi-LSTM)对文本进行建模,实现将图片与文本进行映射。Cross-modal Retrieval Models(跨模态检索模型):将不同模态的数据映射到共享的语义空间中,以实现跨模态的相似性匹配,使用Dual-Attention网络通过引入双向注意力机制实现图像和文本之间的交互。
数据层:提供数据的存储和查询,使用基础的开源数据源mysql对结构化数据进行存储,使用OSS文件对象存储对非结构化的文档进行数据存储。
运行环境:独立服务器部署前端nodejs服务和静态vue服务,supOS平台部署LLM大模型和服务端集群应用。
本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器读取并运行时,实现如上所述的标书生成方法。
虽然本发明披露如上,但本发明的保护范围并非仅限于此。本领域技术人员在不脱离本发明的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。
Claims (10)
1.一种标书生成方法,其特征在于,包括:
获取招标文件;
解析所述招标文件,生成所述招标文件的标书画像;
将所述标书画像转化为第一指示语句,通过所述第一指示语句调用预置的大语言模型生成标书目录;
基于所述标书目录,采用所述大语言模型生成标书文件。
2.如权利要求1所述的标书生成方法,其特征在于,所述基于所述标书目录,采用所述大语言模型生成标书文件包括:
遍历所述标书目录中每一层目录,对每一层目录,执行如下操作:
基于所述目录的标题文本,调用所述大语言模型生成第一内容;
判断预置的第一数据库中是否预存有与所述目录的标题文本匹配的第二内容;
若是,则根据所述第一内容与所述第二内容,结合预置的决策算法确定所述目录对应的标书内容;
若否,则采用所述第一内容作为所述目录对应的标书内容;
基于所述目录对应的标书内容生成所述标书文件。
3.如权利要求2所述的标书生成方法,其特征在于,所述根据所述第一内容与所述第二内容,结合预置的决策算法确定所述目录对应的标书内容包括:
将所述目录的标题文本和所述标书画像拼接,生成拼接文本;
分别计算所述第一内容、所述第二内容,与所述拼接文本的匹配度,从所述第一内容、所述第二内容中确定与所述拼接文本匹配度最高的内容,作为所述目录对应的标书内容。
4.如权利要求2所述的标书生成方法,其特征在于,所述基于所述目录对应的标书内容生成所述标书文件包括:
判断所述目录对应的标书内容中,是否存在图片指示文本;
若是,则根据所述图片指示文本从预置的第二数据库中调取所述图片指示文本关联的图片;
基于所述图片指示文本关联的图片生成所述标书文件。
5.如权利要求4所述的标书生成方法,其特征在于,所述判断所述目录对应的标书内容中,是否存在图片指示文本包括:
对所述目录对应的标书内容进行分词处理,得到关键词列表;
遍历所述关键词列表中的每一个关键词,判断所述第二数据库中,是否存在所述关键词;
若是,则判定所述关键词为所述图片指示文本。
6.如权利要求4所述的标书生成方法,其特征在于,所述基于所述图片指示文本关联的图片生成所述标书文件包括:
获取所述图片指示文本在所述目录对应的标书内容中的文本位置;
根据所述文本位置,确定拼接顺序;
将所述图片指示文本关联的图片,与所述目录对应的标书内容中的其他文本,按照所述拼接顺序拼接,以生成标书文件。
7.如权利要求1所述的标书生成方法,其特征在于,所述大语言模型采用预设训练数据集训练,所述预设训练数据集的生成步骤包括:
获取历史标书文件、历史招标文件以及所述历史标书文件对应的用户操作记录;
解析所述历史标书文件和所述历史招标文件,获得所述历史标书文件和所述历史招标文件中的文本数据和图片;
将所述图片转化为图片指示文本;
其中,所述预设训练数据集包括所述历史标书文件和所述历史招标文件中的文本数据、所述图片指示文本以及所述用户操作记录。
8.如权利要求7所述的标书生成方法,其特征在于,所述将所述图片转化为图片指示文本包括:
采用两个或两个以上预置的多模态大模型分别将所述图片转化为图片指示文本,并获得每个所述多模态大模型生成的图片指示文本的评分;
将评分最高的图片指示文本,作为所述图片的图片指示文本。
9.一种标书生成系统,其特征在于,包括存储有计算机程序的计算机可读存储介质和处理器,所述计算机程序被所述处理器读取并运行时,实现如权利要求1-8任一项所述的标书生成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器读取并运行时,实现如权利要求1-8任一项所述的标书生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311484127.0A CN117709866A (zh) | 2023-11-08 | 2023-11-08 | 一种标书生成方法及系统、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311484127.0A CN117709866A (zh) | 2023-11-08 | 2023-11-08 | 一种标书生成方法及系统、计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117709866A true CN117709866A (zh) | 2024-03-15 |
Family
ID=90150463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311484127.0A Pending CN117709866A (zh) | 2023-11-08 | 2023-11-08 | 一种标书生成方法及系统、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117709866A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118133973A (zh) * | 2024-05-10 | 2024-06-04 | 北京网智天元大数据科技有限公司 | 基于大语言模型的报告生成方法及装置 |
-
2023
- 2023-11-08 CN CN202311484127.0A patent/CN117709866A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118133973A (zh) * | 2024-05-10 | 2024-06-04 | 北京网智天元大数据科技有限公司 | 基于大语言模型的报告生成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hedges et al. | Academic crowdsourcing in the humanities: Crowds, communities and co-production | |
CN111488931B (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN110599592B (zh) | 一种基于文本的三维室内场景重建方法 | |
CN116909991B (zh) | 一种基于nlp的科研档案管理方法及系统 | |
CN110427483A (zh) | 文本摘要评测方法、装置、系统及评测服务器 | |
CN117709866A (zh) | 一种标书生成方法及系统、计算机可读存储介质 | |
CN115687647A (zh) | 公证文书生成方法、装置、电子设备及存储介质 | |
CN111666376A (zh) | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 | |
CN117591663B (zh) | 一种基于知识图谱的大模型prompt生成方法 | |
CN117473076B (zh) | 基于大数据挖掘的知识点生成方法及系统 | |
CN114911915A (zh) | 一种基于知识图谱的问答搜索方法、系统、设备和介质 | |
CN113377844A (zh) | 面向大型关系型数据库的对话式数据模糊检索方法及装置 | |
CN117035078A (zh) | 一种多模态知识图谱统一表示学习框架 | |
CN116523041A (zh) | 装备领域知识图谱构建方法、检索方法、系统及电子设备 | |
CN116894495A (zh) | 用注释增强机器学习管道的方法、计算机可读介质和系统 | |
CN114840657A (zh) | 一种基于混合模式的api知识图谱自适应构建及智能问答方法 | |
CN114677165A (zh) | 上下文在线广告投放方法、装置、服务器和存储介质 | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 | |
CN114840680A (zh) | 一种实体关系联合抽取方法、装置、存储介质及终端 | |
CN114021541A (zh) | 演示文稿生成方法、装置、设备及存储介质 | |
Hoque et al. | An interactive system for exploring community question answering forums | |
CN115658935B (zh) | 一种个性化评论生成方法及装置 | |
CN118069587B (zh) | 三维模型管理方法、装置、设备及存储介质 | |
CN111368048B (zh) | 信息获取方法、装置、电子设备及计算机可读存储介质 | |
CN117874261B (zh) | 基于课程学习的问答式事件抽取方法以及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |