CN117473971A - 一种基于采购文本库的招标文件自动生成方法及系统 - Google Patents
一种基于采购文本库的招标文件自动生成方法及系统 Download PDFInfo
- Publication number
- CN117473971A CN117473971A CN202311351373.9A CN202311351373A CN117473971A CN 117473971 A CN117473971 A CN 117473971A CN 202311351373 A CN202311351373 A CN 202311351373A CN 117473971 A CN117473971 A CN 117473971A
- Authority
- CN
- China
- Prior art keywords
- module
- text
- bidding
- information
- preliminary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 72
- 238000000605 extraction Methods 0.000 claims abstract description 65
- 238000005516 engineering process Methods 0.000 claims abstract description 60
- 238000012216 screening Methods 0.000 claims abstract description 17
- 238000003058 natural language processing Methods 0.000 claims abstract description 14
- 238000010801 machine learning Methods 0.000 claims abstract description 11
- 238000005457 optimization Methods 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 21
- 238000005065 mining Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 12
- 238000004140 cleaning Methods 0.000 claims description 11
- 238000013075 data extraction Methods 0.000 claims description 11
- 238000013135 deep learning Methods 0.000 claims description 11
- 239000012634 fragment Substances 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 8
- 238000007418 data mining Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 8
- 238000012015 optical character recognition Methods 0.000 claims description 4
- 238000010845 search algorithm Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 239000003623 enhancer Substances 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000012805 post-processing Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/08—Auctions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Multimedia (AREA)
- Entrepreneurship & Innovation (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能技术领域,具体为一种基于采购文本库的招标文件自动生成方法及系统,包括以下步骤:利用自然语言处理技术和机器学习的关键词提取算法,从数据源中提取包括法律法规、需求规格的核心文本信息,形成初步文本库。本发明中,通过自然语言处理和机器学习算法对庞大的数据源进行高效、精确的核心信息提取,省去了大量手动筛选信息的时间和劳动。利用知识图谱不仅增加了信息的逻辑性和一致性,而且也使得系统能在多次运行中持续学习和改进。模板匹配和自动摘要算法进一步加快了文本生成速度,同时保证了文本的高质量。图像处理和自动添加水印、签名等后处理步骤进一步提高了文档的专业性和安全性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于采购文本库的招标文件自动生成方法及系统。
背景技术
人工智能技术是一门研究如何使计算机能够模拟和实现人类智能的学科,旨在开发能够感知、理解、学习和决策的智能系统。其中,基于采购文本库的招标文件自动生成方法是一种利用人工智能技术的方法,通过建设文本库和智能化方法,实现招标文件的自动生成能力。其目的是提高招标文件的编制效率和质量,使招标文件的生成过程更加智能化和自动化,提高招标文件的编制效率,减少人工操作的时间和工作量,同时确保招标文件的质量和准确性。
现有方法通常依赖于手动操作和固定模板,这不仅效率低下,而且容易出现错误和遗漏。由于没有使用先进的自然语言处理和机器学习技术,现有方法在信息提取阶段就存在大量冗余和不准确的情况。没有知识图谱和数据挖掘的辅助,现有方法很难实现信息的深度关联和逻辑性,也缺乏系统的持续学习和改进能力。此外,现有方法通常没有进行深度学习和语义理解的优化处理,导致生成的文档可能在结构和内容上都存在一定的不足。最后,现有方法在文档的后处理阶段通常也较为简单和粗糙,没有采用高级的图像处理和安全性增强技术。
发明内容
本发明的目的是解决现有技术中存在的缺点,而提出的一种基于采购文本库的招标文件自动生成方法及系统。
为了实现上述目的,本发明采用了如下技术方案:一种基于采购文本库的招标文件自动生成方法,包括以下步骤:
S1:利用自然语言处理技术和机器学习的关键词提取算法,从数据源中提取包括法律法规、需求规格的核心文本信息,形成初步文本库;
S2:基于数据挖掘和知识图谱构建的自动建模算法,从所述初步文本库中挖掘关联信息并构建知识图谱,得到采购知识图谱;
S3:利用基于模板匹配和自动摘要算法,从所述采购知识图谱中筛选和提取关键招标文件模板,产生筛选后的招标模板;
S4:应用预训练语言模型和生成对抗网络,结合所述筛选后的招标模板,自动生成招标文件的初步内容,得到初步招标文件;
S5:结合深度学习和语义理解技术,对所述初步招标文件内容进行细化和优化处理,生成优化后的招标文件;
S6:基于图像处理和文本识别技术,对所述优化后的招标文件中的图表进行处理,采用后台自动化处理算法为文件添加水印和签名信息,完成最终的招标文件。
作为本发明的进一步方案,利用自然语言处理技术和机器学习的关键词提取算法,从数据源中提取包括法律法规、需求规格的核心文本信息,形成初步文本库的步骤具体为:
S101:采用爬虫技术和深度链接遍历算法,从网络资源和数据库中抓取法律法规、需求规格,获取原始数据集;
S102:基于所述原始数据集,使用数据清洗算法,进行数据清洗,得到清洗后的数据集;
S103:基于所述清洗后的数据集,运用中文分词算法和词性标注进行处理,产生处理后的数据集;
S104:基于所述处理后的数据集,使用TF-IDF算法和LDA主题模型,提取核心文本信息,形成初步文本库。
作为本发明的进一步方案,基于数据挖掘和知识图谱构建的自动建模算法,从所述初步文本库中挖掘关联信息并构建知识图谱,得到采购知识图谱的步骤具体为:
S201:基于初步文本库,运用先验算法进行关联规则挖掘,得到关联数据集;
S202:基于所述关联数据集,使用命名实体识别和关系抽取算法,获得图谱元素集;
S203:利用所述图谱元素集和图数据库Neo4j,采用SPARQL查询语言进行实体和关系的链接,形成初步采购知识图谱;
S204:对所述初步采购知识图谱应用图网络优化算法进行优化,得到采购知识图谱。
作为本发明的进一步方案,利用基于模板匹配和自动摘要算法,从所述采购知识图谱中筛选和提取关键招标文件模板,产生筛选后的招标模板的步骤具体为:
S301:基于项目需求和所述采购知识图谱,运用层次分析法确定模板需求指标;
S302:基于所述模板需求指标和采购知识图谱,运用语义搜索算法筛选模块信息,获得模块信息集;
S303:针对所述模块信息集,应用K-最近邻算法进行模板匹配,生成匹配模板;
S304:基于所述匹配模板,使用抽取式自动摘要算法提取核心信息,产生筛选后的招标模板。
作为本发明的进一步方案,应用预训练语言模型和生成对抗网络,结合所述筛选后的招标模板,自动生成招标文件的初步内容,得到初步招标文件的步骤具体为:
S401:运用预训练语言模型,对所述筛选后的招标模板进行语义理解和信息提取,生成模板信息汇总;
S402:根据所述模板信息汇总,在大规模语料库中,用预训练模型输出与模板信息汇总语义关联的文本片段,生成相关文本片段;
S403:利用序列到序列模型,基于所述相关文本片段生成相应的文本内容,形成匹配招标模板的初步内容;
S404:使用生成对抗网络,对匹配模板的初步内容进行优化,得到初步招标文件。
作为本发明的进一步方案,结合深度学习和语义理解技术,对所述初步招标文件内容进行细化和优化处理,生成优化后的招标文件的步骤具体为:
S501:通过深度学习技术的特征提取,对所述初步招标文件进行重要信息提取,生成重要信息概览;
S502:基于所述重要信息概览,运用自然语言处理方法,包括词性标注和实体识别,对所述初步招标文件进行实体关系抽取和语义连贯性分析,生成语义连贯性分析结果;
S503:利用生成对抗网络,基于所述语义连贯性分析结果,生成增强招标文件;
S504:使用自然语言理解技术,对所述增强招标文件进行逻辑性校验和语法纠错,生成优化后的招标文件。
作为本发明的进一步方案,基于图像处理和文本识别技术,对所述优化后的招标文件中的图表进行处理,采用后台自动化处理算法为文件添加水印和签名信息,完成最终的招标文件的步骤具体为:
S601:利用图像处理技术,对所述优化后的招标文件中的图表进行清晰度和格式处理,得到图表处理后的招标文件;
S602:基于光学字符识别技术对所述图表处理后的招标文件进行全文识别,并标记出需要添加水印和签名的位置,生成标记完成的招标文件;
S603:利用数字水印技术和电子签名技术,在所述标记完成的招标文件确定的位置添加水印和签名,完成最终的招标文件。
一种基于采购文本库的招标文件自动生成系统用于执行上述基于采购文本库的招标文件自动生成方法,所述基于采购文本库的招标文件自动生成系统是由数据提取模块、知识图谱模块、模板匹配模块、模板填充模块、内容优化模块、图表处理模块、文件结束处理模块组成。
作为本发明的进一步方案,所述数据提取模块采用爬虫技术和深度链接遍历算法探索数据源,通过文本处理技术获取核心信息,生成初步文本库;
所述知识图谱模块基于初步文本库,进行关联规则挖掘以及命名实体识别和关系抽取,形成并优化采购知识图谱;
所述模板匹配模块基于项目需求和采购知识图谱,确定模板需求指标筛选模块信息,进行模板匹配,提取核心信息,生成筛选后的招标模板;
所述模板填充模块基于筛选后的招标模板,进行语义理解和信息提取,提取关联的文本,并生成初步招标文件;
所述内容优化模块基于初步招标文件,执行重要信息提取、实体关系抽取和语义连贯性分析,进行逻辑性校验和语法纠错,生成优化后的招标文件;
所述图表处理模块基于优化后的招标文件,执行图像处理,进行全文识别并标记需要添加水印和签名的位置,生成标记完成的招标文件;
所述文件结束处理模块基于标记完成的招标文件,执行水印和签名添加操作,生成最终的招标文件。
作为本发明的进一步方案,所述数据提取模块包括数据采集子模块、数据清洗子模块、数据处理子模块、文本信息提取子模块;
所述知识图谱模块包括关联规则挖掘子模块、图谱元素抽取子模块、实体关系链接子模块、图谱优化子模块;
所述模板匹配模块包括需求指标确定子模块、模块信息筛选子模块、模板匹配子模块、核心信息提取子模块;
所述模板填充模块包括模板理解子模块、相关文本提取子模块、文本内容生成子模块、内容优化子模块;
所述内容优化模块包括信息提取子模块、语义分析子模块、文本增强子模块、逻辑校验子模块;
所述图表处理模块包括图表优化子模块、全文识别子模块、位置标记子模块;
所述文件结束处理模块包括水印添加子模块、签名添加子模块。
与现有技术相比,本发明的优点和积极效果在于:
本发明中,通过自然语言处理和机器学习算法对庞大的数据源进行高效、精确的核心信息提取,省去了大量手动筛选信息的时间和劳动。利用知识图谱不仅增加了信息的逻辑性和一致性,而且也使得系统能在多次运行中持续学习和改进。模板匹配和自动摘要算法进一步加快了文本生成速度,同时保证了文本的高质量。图像处理和自动添加水印、签名等后处理步骤进一步提高了文档的专业性和安全性。
附图说明
图1为本发明的工作流程示意图;
图2为本发明的S1细化流程图;
图3为本发明的S2细化流程图;
图4为本发明的S3细化流程图;
图5为本发明的S4细化流程图;
图6为本发明的S5细化流程图;
图7为本发明的S6细化流程图;
图8为本发明的系统流程图;
图9为本发明的系统框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明的描述中,需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
实施例一
请参阅图1,本发明提供一种技术方案:一种基于采购文本库的招标文件自动生成方法,包括以下步骤:
S1:利用自然语言处理技术和机器学习的关键词提取算法,从数据源中提取包括法律法规、需求规格的核心文本信息,形成初步文本库;
S2:基于数据挖掘和知识图谱构建的自动建模算法,从初步文本库中挖掘关联信息并构建知识图谱,得到采购知识图谱;
S3:利用基于模板匹配和自动摘要算法,从采购知识图谱中筛选和提取关键招标文件模板,产生筛选后的招标模板;
S4:应用预训练语言模型和生成对抗网络,结合筛选后的招标模板,自动生成招标文件的初步内容,得到初步招标文件;
S5:结合深度学习和语义理解技术,对初步招标文件内容进行细化和优化处理,生成优化后的招标文件;
S6:基于图像处理和文本识别技术,对优化后的招标文件中的图表进行处理,采用后台自动化处理算法为文件添加水印和签名信息,完成最终的招标文件。
首先,通过自然语言处理技术和机器学习的关键词提取算法,能够高效地提取法律法规和需求规格等核心文本信息,形成初步文本库。其次,通过数据挖掘和知识图谱构建的自动建模算法,可以挖掘关联信息并构建采购知识图谱,为招标文件生成提供结构化的支持。在筛选招标文件模板时,基于模板匹配和自动摘要算法的应用可以提高招标文件的准确性和一致性。应用预训练语言模型和生成对抗网络能够自动生成初步招标文件的内容,节省时间和人力成本。结合深度学习和语义理解技术,对初步招标文件进行细化和优化处理,可以生成更准确、清晰的招标文件。最后,通过图像处理和文本识别技术处理招标文件中的图表,并添加水印和签名信息,确保招标文件的完整性和安全性。
请参阅图2,利用自然语言处理技术和机器学习的关键词提取算法,从数据源中提取包括法律法规、需求规格的核心文本信息,形成初步文本库的步骤具体为:
S101:采用爬虫技术和深度链接遍历算法,从网络资源和数据库中抓取法律法规、需求规格,获取原始数据集;
S102:基于原始数据集,使用数据清洗算法,进行数据清洗,得到清洗后的数据集;
S103:基于清洗后的数据集,运用中文分词算法和词性标注进行处理,产生处理后的数据集;
S104:基于处理后的数据集,使用TF-IDF算法和LDA主题模型,提取核心文本信息,形成初步文本库。
首先,通过采用爬虫技术和深度链接遍历算法获取原始数据集,有效扩展了文本库的范围和内容。其次,应用数据清洗算法进行数据清洗,能够提高数据质量和准确性,确保后续处理步骤的可靠性。此外,运用中文分词算法和词性标注对数据集进行处理,为后续关键词提取和主题模型构建提供了准确的基础信息。最重要的是,利用TF-IDF算法和LDA主题模型提取核心文本信息,形成初步文本库,能够快速准确地筛选相关的关键词和主题,为招标文件自动生成方法提供了有针对性的数据支持。
请参阅图3,基于数据挖掘和知识图谱构建的自动建模算法,从初步文本库中挖掘关联信息并构建知识图谱,得到采购知识图谱的步骤具体为:
S201:基于初步文本库,运用先验算法进行关联规则挖掘,得到关联数据集;
S202:基于关联数据集,使用命名实体识别和关系抽取算法,获得图谱元素集;
S203:利用图谱元素集和图数据库Neo4j,采用SPARQL查询语言进行实体和关系的链接,形成初步采购知识图谱;
S204:对初步采购知识图谱应用图网络优化算法进行优化,得到采购知识图谱。
首先,在S201步骤中,通过关联规则挖掘算法,可以揭示文本之间的隐含关系和相关性,提供更全面的采购信息。其次,在S202步骤中,应用命名实体识别和关系抽取算法可以识别和提取文本中的实体和关系,从而构建起初步的图谱元素集。这有助于从大量文本中快速准确地抽取关键信息。在S203步骤中,通过图数据库Neo4j和SPARQL查询语言,能够对实体和关系进行链接和查询,形成初步的采购知识图谱。这提供了灵活的数据检索和关联操作,帮助用户获取所需的采购信息。最后,应用图网络优化算法在S204步骤中对采购知识图谱进行优化,提高图谱的布局、连接方式和可读性。
请参阅图4,利用基于模板匹配和自动摘要算法,从采购知识图谱中筛选和提取关键招标文件模板,产生筛选后的招标模板的步骤具体为:
S301:基于项目需求和采购知识图谱,运用层次分析法确定模板需求指标;
S302:基于模板需求指标和采购知识图谱,运用语义搜索算法筛选模块信息,获得模块信息集;
S303:针对模块信息集,应用K-最近邻算法进行模板匹配,生成匹配模板;
S304:基于匹配模板,使用抽取式自动摘要算法提取核心信息,产生筛选后的招标模板。
首先,在S301步骤中,通过层次分析法确定模板需求指标,确保所选模板与实际项目需求一致,提高模板的适用性和质量。接着,在S302步骤中,利用语义搜索算法筛选模块信息,从采购知识图谱中获取与需求相关的信息,为模板选择提供有效的候选。S303步骤中,应用K-最近邻算法进行模板匹配,确保所选模板与需求最为相符,提供准确的模板选择。最后,在S304步骤中,运用抽取式自动摘要算法提取核心信息,生成筛选后的招标模板,从而提供更精简而有针对性的模板内容。
请参阅图5,应用预训练语言模型和生成对抗网络,结合筛选后的招标模板,自动生成招标文件的初步内容,得到初步招标文件的步骤具体为:
S401:运用预训练语言模型,对筛选后的招标模板进行语义理解和信息提取,生成模板信息汇总;
S402:根据模板信息汇总,在大规模语料库中,用预训练模型输出与模板信息汇总语义关联的文本片段,生成相关文本片段;
S403:利用序列到序列模型,基于相关文本片段生成相应的文本内容,形成匹配招标模板的初步内容;
S404:使用生成对抗网络,对匹配模板的初步内容进行优化,得到初步招标文件。
首先,在S401步骤中,预训练语言模型能够准确理解和提取招标模板的信息,生成模板信息汇总,确保初步内容的准确性和一致性。其次,在S402步骤中,利用预训练模型输出与模板信息汇总语义关联的文本片段,为初步内容提供丰富的相关文本,丰富招标文件的内容和表达。接着,在S403步骤中,利用序列到序列模型基于相关文本片段生成相应的文本内容,快速完成初步招标文件的生成,提高工作效率和速度。最后,在S404步骤中,应用生成对抗网络对初步内容进行优化,提高生成文本的质量和流畅性,确保招标文件的准确性和可读性。
请参阅图6,结合深度学习和语义理解技术,对初步招标文件内容进行细化和优化处理,生成优化后的招标文件的步骤具体为:
S501:通过深度学习技术的特征提取,对初步招标文件进行重要信息提取,生成重要信息概览;
S502:基于重要信息概览,运用自然语言处理方法,包括词性标注和实体识别,对初步招标文件进行实体关系抽取和语义连贯性分析,生成语义连贯性分析结果;
S503:利用生成对抗网络,基于语义连贯性分析结果,生成增强招标文件;
S504:使用自然语言理解技术,对增强招标文件进行逻辑性校验和语法纠错,生成优化后的招标文件。
通过S501步骤的重要信息提取,可以提高招标文件的准确性和一致性,确保关键信息得到充分呈现。在S502步骤中,实体关系抽取和语义连贯性分析能够增强招标文件的语义表示和逻辑一致性,提高文件的可读性和理解性。通过S503步骤中的生成对抗网络,优化后的招标文件能够具备更高的语义规范性和连贯性,提升文本的质量和逻辑性。最后,在S504步骤中,通过自然语言理解技术进行逻辑性校验和语法纠错,能够修复招标文件中可能存在的逻辑错误和语法不准确之处,提高文档的准确性和流畅性。
请参阅图7,基于图像处理和文本识别技术,对优化后的招标文件中的图表进行处理,采用后台自动化处理算法为文件添加水印和签名信息,完成最终的招标文件的步骤具体为:
S601:利用图像处理技术,对优化后的招标文件中的图表进行清晰度和格式处理,得到图表处理后的招标文件;
S602:基于光学字符识别技术对图表处理后的招标文件进行全文识别,并标记出需要添加水印和签名的位置,生成标记完成的招标文件;
S603:利用数字水印技术和电子签名技术,在标记完成的招标文件确定的位置添加水印和签名,完成最终的招标文件。
首先,在S601步骤中,通过图像处理技术对图表进行清晰化和格式化处理,提高图表的可读性和准确性。其次,在S602步骤中,利用光学字符识别技术对处理后的招标文件进行全文识别,标记需要添加水印和签名的位置,确保水印和签名的准确性和一致性。最后,在S603步骤中,通过数字水印技术和电子签名技术为标记完成的招标文件添加水印和签名,增强文件的真实性和完整性,图表处理的清晰化和格式化可以提高图表信息的可视化效果,方便招标评审人员阅读和理解文件内容。全文识别的应用能够将图表中的文字转换为可编辑的文本,方便后续处理和修改。水印和签名的添加利用数字水印技术和电子签名技术,确保招标文件的真实性和完整性,防止文件被篡改或冒充,增加文档的可信度和权威性。
请参阅图8,一种基于采购文本库的招标文件自动生成系统用于执行上述基于采购文本库的招标文件自动生成方法,基于采购文本库的招标文件自动生成系统是由数据提取模块、知识图谱模块、模板匹配模块、模板填充模块、内容优化模块、图表处理模块、文件结束处理模块组成。
数据提取模块采用爬虫技术和深度链接遍历算法探索数据源,通过文本处理技术获取核心信息,生成初步文本库;
知识图谱模块基于初步文本库,进行关联规则挖掘以及命名实体识别和关系抽取,形成并优化采购知识图谱;
模板匹配模块基于项目需求和采购知识图谱,确定模板需求指标筛选模块信息,进行模板匹配,提取核心信息,生成筛选后的招标模板;
模板填充模块基于筛选后的招标模板,进行语义理解和信息提取,提取关联的文本,并生成初步招标文件;
内容优化模块基于初步招标文件,执行重要信息提取、实体关系抽取和语义连贯性分析,进行逻辑性校验和语法纠错,生成优化后的招标文件;
图表处理模块基于优化后的招标文件,执行图像处理,进行全文识别并标记需要添加水印和签名的位置,生成标记完成的招标文件;
文件结束处理模块基于标记完成的招标文件,执行水印和签名添加操作,生成最终的招标文件。
数据提取模块通过爬虫技术和文本处理技术,从数据源中提取核心信息,生成初步文本库,确保提取的数据准确无误。知识图谱模块利用关联规则挖掘和实体关系抽取等技术,进一步优化文本库,提高了数据的准确性和完整性。模板匹配模块根据项目需求和采购知识图谱,确定适用的招标模板,提取核心信息,生成筛选后的招标模板。模板填充模块利用语义理解和信息提取,自动填充筛选后的模板,生成初步招标文件。这些步骤和模块的应用提升了招标文件生成的效率,节省了时间和人力资源。内容优化模块执行重要信息提取、实体关系抽取和语义连贯性分析,进行逻辑性校验和语法纠错,生成优化后的招标文件。这样的优化过程提高了招标文件的准确性、一致性和可读性,确保了文档的质量。图表处理模块对优化后的招标文件进行图像处理、全文识别和标记水印签名位置,确保图表清晰度,标识需要添加水印和签名的位置。文件结束处理模块负责添加水印和签名,提高文件的真实性和完整性。
请参阅图9,数据提取模块包括数据采集子模块、数据清洗子模块、数据处理子模块、文本信息提取子模块;
知识图谱模块包括关联规则挖掘子模块、图谱元素抽取子模块、实体关系链接子模块、图谱优化子模块;
模板匹配模块包括需求指标确定子模块、模块信息筛选子模块、模板匹配子模块、核心信息提取子模块;
模板填充模块包括模板理解子模块、相关文本提取子模块、文本内容生成子模块、内容优化子模块;
内容优化模块包括信息提取子模块、语义分析子模块、文本增强子模块、逻辑校验子模块;
图表处理模块包括图表优化子模块、全文识别子模块、位置标记子模块;
文件结束处理模块包括水印添加子模块、签名添加子模块。
数据提取模块能够通过数据采集、清洗和处理子模块提取文本数据并进行预处理。文本信息提取子模块能够准确提取核心信息,为后续处理提供可靠的数据来源和基础。
知识图谱模块根据文本数据通过关联规则挖掘、图谱元素抽取和实体关系链接子模块构建和优化采购知识图谱。这样的模块能够提高对采购领域的理解和分析能力,为后续步骤提供丰富的知识支持。
模板匹配模块通过需求指标确定、模块信息筛选和模板匹配子模块确定适用的招标模板,并提取核心信息。这有助于根据项目需求自动匹配适用的模板,并快速提取关键信息,提高招标文件生成的效率和准确性。
模板填充模块通过模板理解、相关文本提取和文本内容生成子模块将关键信息填充到招标模板中,生成初步招标文件。内容优化子模块能够执行信息提取、语义分析、文本增强和逻辑校验等操作,提升招标文件的质量和准确性。
图表处理模块通过图表优化、全文识别和位置标记子模块对优化后的招标文件中的图表进行处理。这有助于提高图表的清晰度和图像信息的完整性,并标记出需要添加水印和签名的位置。
文件结束处理模块通过水印添加和签名添加子模块为标记完成的招标文件添加水印和签名。这样的处理能够增强文件的真实性和完整性,确保文件的合规性和权威性。
以上,仅是本发明的较佳实施例而已,并非对本发明作其他形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其他领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (10)
1.一种基于采购文本库的招标文件自动生成方法,其特征在于,包括以下步骤:
利用自然语言处理技术和机器学习的关键词提取算法,从数据源中提取包括法律法规、需求规格的核心文本信息,形成初步文本库;
基于数据挖掘和知识图谱构建的自动建模算法,从所述初步文本库中挖掘关联信息并构建知识图谱,得到采购知识图谱;
利用基于模板匹配和自动摘要算法,从所述采购知识图谱中筛选和提取关键招标文件模板,产生筛选后的招标模板;
应用预训练语言模型和生成对抗网络,结合所述筛选后的招标模板,自动生成招标文件的初步内容,得到初步招标文件;
结合深度学习和语义理解技术,对所述初步招标文件内容进行细化和优化处理,生成优化后的招标文件;
基于图像处理和文本识别技术,对所述优化后的招标文件中的图表进行处理,采用后台自动化处理算法为文件添加水印和签名信息,完成最终的招标文件。
2.根据权利要求1所述的基于采购文本库的招标文件自动生成方法,其特征在于,利用自然语言处理技术和机器学习的关键词提取算法,从数据源中提取包括法律法规、需求规格的核心文本信息,形成初步文本库的步骤具体为:
采用爬虫技术和深度链接遍历算法,从网络资源和数据库中抓取法律法规、需求规格,获取原始数据集;
基于所述原始数据集,使用数据清洗算法,进行数据清洗,得到清洗后的数据集;
基于所述清洗后的数据集,运用中文分词算法和词性标注进行处理,产生处理后的数据集;
基于所述处理后的数据集,使用TF-IDF算法和LDA主题模型,提取核心文本信息,形成初步文本库。
3.根据权利要求1所述的基于采购文本库的招标文件自动生成方法,其特征在于,基于数据挖掘和知识图谱构建的自动建模算法,从所述初步文本库中挖掘关联信息并构建知识图谱,得到采购知识图谱的步骤具体为:
基于初步文本库,运用先验算法进行关联规则挖掘,得到关联数据集;
基于所述关联数据集,使用命名实体识别和关系抽取算法,获得图谱元素集;
利用所述图谱元素集和图数据库Neo4j,采用SPARQL查询语言进行实体和关系的链接,形成初步采购知识图谱;
对所述初步采购知识图谱应用图网络优化算法进行优化,得到采购知识图谱。
4.根据权利要求1所述的基于采购文本库的招标文件自动生成方法,其特征在于,利用基于模板匹配和自动摘要算法,从所述采购知识图谱中筛选和提取关键招标文件模板,产生筛选后的招标模板的步骤具体为:
基于项目需求和所述采购知识图谱,运用层次分析法确定模板需求指标;
基于所述模板需求指标和采购知识图谱,运用语义搜索算法筛选模块信息,获得模块信息集;
针对所述模块信息集,应用K-最近邻算法进行模板匹配,生成匹配模板;
基于所述匹配模板,使用抽取式自动摘要算法提取核心信息,产生筛选后的招标模板。
5.根据权利要求1所述的基于采购文本库的招标文件自动生成方法,其特征在于,应用预训练语言模型和生成对抗网络,结合所述筛选后的招标模板,自动生成招标文件的初步内容,得到初步招标文件的步骤具体为:
运用预训练语言模型,对所述筛选后的招标模板进行语义理解和信息提取,生成模板信息汇总;
根据所述模板信息汇总,在大规模语料库中,用预训练模型输出与模板信息汇总语义关联的文本片段,生成相关文本片段;
利用序列到序列模型,基于所述相关文本片段生成相应的文本内容,形成匹配招标模板的初步内容;
使用生成对抗网络,对匹配模板的初步内容进行优化,得到初步招标文件。
6.根据权利要求1所述的基于采购文本库的招标文件自动生成方法,其特征在于,结合深度学习和语义理解技术,对所述初步招标文件内容进行细化和优化处理,生成优化后的招标文件的步骤具体为:
通过深度学习技术的特征提取,对所述初步招标文件进行重要信息提取,生成重要信息概览;
基于所述重要信息概览,运用自然语言处理方法,包括词性标注和实体识别,对所述初步招标文件进行实体关系抽取和语义连贯性分析,生成语义连贯性分析结果;
利用生成对抗网络,基于所述语义连贯性分析结果,生成增强招标文件;
使用自然语言理解技术,对所述增强招标文件进行逻辑性校验和语法纠错,生成优化后的招标文件。
7.根据权利要求1所述的基于采购文本库的招标文件自动生成方法,其特征在于,基于图像处理和文本识别技术,对所述优化后的招标文件中的图表进行处理,采用后台自动化处理算法为文件添加水印和签名信息,完成最终的招标文件的步骤具体为:
利用图像处理技术,对所述优化后的招标文件中的图表进行清晰度和格式处理,得到图表处理后的招标文件;
基于光学字符识别技术对所述图表处理后的招标文件进行全文识别,并标记出需要添加水印和签名的位置,生成标记完成的招标文件;
利用数字水印技术和电子签名技术,在所述标记完成的招标文件确定的位置添加水印和签名,完成最终的招标文件。
8.一种基于采购文本库的招标文件自动生成系统,其特征在于,所述基于采购文本库的招标文件自动生成系统用于执行权利要求1-7任一所述的基于采购文本库的招标文件自动生成方法,所述基于采购文本库的招标文件自动生成系统是由数据提取模块、知识图谱模块、模板匹配模块、模板填充模块、内容优化模块、图表处理模块、文件结束处理模块组成。
9.根据权利要求8所述的基于采购文本库的招标文件自动生成系统,其特征在于,所述数据提取模块采用爬虫技术和深度链接遍历算法探索数据源,通过文本处理技术获取核心信息,生成初步文本库;
所述知识图谱模块基于初步文本库,进行关联规则挖掘以及命名实体识别和关系抽取,形成并优化采购知识图谱;
所述模板匹配模块基于项目需求和采购知识图谱,确定模板需求指标筛选模块信息,进行模板匹配,提取核心信息,生成筛选后的招标模板;
所述模板填充模块基于筛选后的招标模板,进行语义理解和信息提取,提取关联的文本,并生成初步招标文件;
所述内容优化模块基于初步招标文件,执行重要信息提取、实体关系抽取和语义连贯性分析,进行逻辑性校验和语法纠错,生成优化后的招标文件;
所述图表处理模块基于优化后的招标文件,执行图像处理,进行全文识别并标记需要添加水印和签名的位置,生成标记完成的招标文件;
所述文件结束处理模块基于标记完成的招标文件,执行水印和签名添加操作,生成最终的招标文件。
10.根据权利要求8所述的基于采购文本库的招标文件自动生成系统,其特征在于,所述数据提取模块包括数据采集子模块、数据清洗子模块、数据处理子模块、文本信息提取子模块;
所述知识图谱模块包括关联规则挖掘子模块、图谱元素抽取子模块、实体关系链接子模块、图谱优化子模块;
所述模板匹配模块包括需求指标确定子模块、模块信息筛选子模块、模板匹配子模块、核心信息提取子模块;
所述模板填充模块包括模板理解子模块、相关文本提取子模块、文本内容生成子模块、内容优化子模块;
所述内容优化模块包括信息提取子模块、语义分析子模块、文本增强子模块、逻辑校验子模块;
所述图表处理模块包括图表优化子模块、全文识别子模块、位置标记子模块;
所述文件结束处理模块包括水印添加子模块、签名添加子模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311351373.9A CN117473971A (zh) | 2023-10-18 | 2023-10-18 | 一种基于采购文本库的招标文件自动生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311351373.9A CN117473971A (zh) | 2023-10-18 | 2023-10-18 | 一种基于采购文本库的招标文件自动生成方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117473971A true CN117473971A (zh) | 2024-01-30 |
Family
ID=89623119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311351373.9A Pending CN117473971A (zh) | 2023-10-18 | 2023-10-18 | 一种基于采购文本库的招标文件自动生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117473971A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118037318A (zh) * | 2024-04-12 | 2024-05-14 | 北京隆道网络科技有限公司 | 基于供应链管理的ai采购业务分析装置及方法 |
-
2023
- 2023-10-18 CN CN202311351373.9A patent/CN117473971A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118037318A (zh) * | 2024-04-12 | 2024-05-14 | 北京隆道网络科技有限公司 | 基于供应链管理的ai采购业务分析装置及方法 |
CN118037318B (zh) * | 2024-04-12 | 2024-06-28 | 北京隆道网络科技有限公司 | 基于供应链管理的ai采购业务分析装置及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110399457B (zh) | 一种智能问答方法和系统 | |
CN107832229A (zh) | 一种基于nlp的系统测试用例自动生成方法 | |
CN111259631B (zh) | 一种裁判文书结构化方法及装置 | |
CN111090986A (zh) | 一种公文文档纠错的方法 | |
CN110609983B (zh) | 一种政策文件结构化分解方法 | |
CN110046261A (zh) | 一种建筑工程多模态双语平行语料库的构建方法 | |
CN110770735A (zh) | 具有嵌入式数学表达式的文档的编码转换 | |
CN113377916B (zh) | 一种面向法律文本的多关系中主要关系的抽取方法 | |
CN116450834A (zh) | 一种基于多模态语义特征的档案知识图谱构建方法 | |
CN117473971A (zh) | 一种基于采购文本库的招标文件自动生成方法及系统 | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN105868187A (zh) | 多译本平行语料库的构建方法 | |
CN112966097A (zh) | 一种基于nlp的上市公司财务快讯自动生成方法及系统 | |
CN113159969A (zh) | 一种金融长文本复核系统 | |
Toselli et al. | Transcribing a 17th-century botanical manuscript: Longitudinal evaluation of document layout detection and interactive transcription | |
CN115618006A (zh) | 一种知识图谱的自动构建系统及其工作方法 | |
CN112015907A (zh) | 一种学科知识图谱快速构建方法、装置及存储介质 | |
Ishihara et al. | Transforming Japanese archives into accessible digital books | |
CN107862045B (zh) | 一种基于多特征的跨语言剽窃检测方法 | |
CN111274354B (zh) | 一种裁判文书结构化方法及装置 | |
CN112632950A (zh) | Ppt生成方法、装置、设备及计算机可读存储介质 | |
CN112749566B (zh) | 一种面向英文写作辅助的语义匹配方法及装置 | |
CN111709221A (zh) | 一种文书生成方法及系统 | |
CN116561594A (zh) | 一种基于Word2vec的法律文件相似度分析方法 | |
Pinheiro et al. | ChartText: Linking Text with Charts in Documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |