CN117408650B - 基于人工智能的数字化招标文件制作和评估系统 - Google Patents

基于人工智能的数字化招标文件制作和评估系统 Download PDF

Info

Publication number
CN117408650B
CN117408650B CN202311726868.5A CN202311726868A CN117408650B CN 117408650 B CN117408650 B CN 117408650B CN 202311726868 A CN202311726868 A CN 202311726868A CN 117408650 B CN117408650 B CN 117408650B
Authority
CN
China
Prior art keywords
bidding
sentence
bid
document
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311726868.5A
Other languages
English (en)
Other versions
CN117408650A (zh
Inventor
张汪洋
佟伟
陈洪岭
杨旭
景莉婷
于雪峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Netcom Digital Technology Industry Co ltd
Original Assignee
Liaoning Netcom Digital Technology Industry Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Netcom Digital Technology Industry Co ltd filed Critical Liaoning Netcom Digital Technology Industry Co ltd
Priority to CN202311726868.5A priority Critical patent/CN117408650B/zh
Publication of CN117408650A publication Critical patent/CN117408650A/zh
Application granted granted Critical
Publication of CN117408650B publication Critical patent/CN117408650B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能领域,具体是指基于人工智能的数字化招标文件制作和评估系统,包括招标文件模版生成模块,智能填充模块,定制化模块和投标文件评估模块,本方案使用DEER方法对BERT模型进行微调优化,对不同招标文件的内容和格式进行学习,根据需求快速,准确的生成不同类型的招标文件模版,在不同的招标项目中使用不同的招标文件模版,让招标文件的制作和填写工作更便捷、快速、准确;采用MFMMR‑BertSum方法提取投标文件的关键信息,生成简练的摘要文案,并根据历史招标过程中的评估方法生成符合相应招标文件的评估办法,对投标文件进行评估,提供了一个高效、便捷、可靠的数字化招标文件制作和评估系统。

Description

基于人工智能的数字化招标文件制作和评估系统
技术领域
本发明涉及人工智能领域,具体是指基于人工智能的数字化招标文件制作和评估系统。
背景技术
随着时代的飞速发展,各种高科技的技术和方法被应用在不同的领域,很多行业都在向信息化,智能化的方向发展,因此,数字化招标技术也开始发展和流行起来,现有的数字化招标缺少智能化制作招标文件功能的系统,不能快速的生成招标文件模版,且招标文件模版过于单一化;缺少智能评估系统,需要大量的人工对投标的文件进行筛选评估,增加了评估的难度。
发明内容
针对上述情况,本发明提供了基于人工智能的数字化招标文件制作和评估系统,针对现有的数字化招标缺少智能化制作招标文件功能的系统,不能快速的生成招标文件模版,且招标文件模版过于单一化的问题,本方案使用DEER方法对BERT模型进行微调优化,对不同招标文件的内容和格式进行学习,根据需求快速、准确的生成不同类型的招标文件模版;针对数字化招标中缺少智能评估系统,需要大量的人工对投标的文件进行筛选评估,增加了评估的难度的问题,采用MFMMR-BertSum方法提取投标文件的关键信息,生成简练的摘要文案,并根据历史招标过程中的评估方法生成符合相应招标文件的评估办法,对投标文件进行评估,提供了一个高效、便捷、可靠的数字化招标文件制作和评估系统。
本发明提供的基于人工智能的数字化招标文件制作和评估系统,包括招标文件模版生成模块、智能填充模块、定制化模块和投标文件评估模块;
所述招标文件模版生成模块使用BERT模型对历史招标项目的基本信息和招标需求的模版进行学习训练,生成不同类型的招标文件模版,并使用DEER方法对BERT模型进行微调优化,历史招标项目的基本信息包括招标单位、联系人信息、招标项目名称、编号、预算金额、招标方式、投标截止时间、开标时间和开标地点,招标需求包括招标范围、招标项目概述、技术规格、技术要求、服务要求、资格要求和评审办法,生成相应的招标文件模板;
所述智能填充模块对已生成的招标文件模版进行填充,生成填充后的招标文件,同时,对填充后的招标文件的语义和语法进行检查、修改和完善;
所述定制化模块根据实际招标项目进行调整和修改,用户能够对已生成的招标文件进行定制,同时也能够对生成的招标文件进行检查;
所述投标文件评估模块根据历史招标过程中的评估方法生成符合相应招标文件的评估办法,采用MFMMR-BertSum方法提取投标文件的关键信息,生成简练的摘要文案,并进行评估,供招标方参考。
进一步的,在招标文件模板生成模块,使用BERT模型对历史招标项目的基本信息和招标需求进行学习训练,具体包括以下步骤:
步骤S1:数据收集,收集历史招标文件和网络上公开的招标文件文本数据;
步骤S2:数据预处理,对收集的历史招标文件文本数据进行整理,删除重复,缺失的招标文件文本数据,得到数据预处理后的招标文件文本数据;
步骤S3:特征提取,提取数据预处理后的招标文件文本数据的关键特征,包括招标文件的基本信息和招标需求,得到特征提取后的招标文件文本数据;
步骤S4:建立数据集,将特征提取后的招标文件文本数据建立数据集,并将数据集的80%作为训练集,20%为验证集;
步骤S5:模型设计与搭建,搭建BERT模型,参数包含12层编码器层,其中12层为多头自注意力层,嵌入尺寸为768,前馈层维数为3072,多头自注意力层包括Query向量、Key向量和Value向量;
步骤S6:模型训练,使用训练集对BERT模型进行训练,直到BERT模型的损失函数收敛;
步骤S7:模型验证,使用验证集对BERT模型进行验证,并使用准确率、精确率、召回率、F1值对BERT模型进行评价;
步骤S8:模型优化,使用DEER方法对BERT模型进行调整优化;
进一步的,在步骤S8中,使用DEER方法对BERT模型进行调整优化,具体包括以下步骤:
步骤S81:生成单步CTC,BERT模型包括堆叠的双向变压器编码器块,其中每个块包含两个子层,分别是多头自注意力层和全连接前馈层,对这两层使用单步CTC方法进行处理,所用公式如下所示:
其中,为第个编码器块,为编码器第层的输出,表示第处理的结果,为多头自注意力层函数,为全连接前馈层函数;
步骤S82:使用潜在对齐模型进行训练,利用特定的输入格式和自注意掩码来控制 上下文信息,将训练集中的源句子序列和伪目标句子序列结合作为输入,在源句子长度 与目标相近时,构建一个特定的注意掩码,使关注,而不能关注,之后,通过潜在对齐 模型来计算目标和CTC的损失函数的对数似然,所用公式如下:
其中,为输入的源句子序列,是与对应的实际的目标句子序列,表示 给定输入的情况下,生成目标句子序列的概率,为伪目标句子序列,函数表示生 成从的所有可能对齐的集合,的子集的第个序列,表示在给定的 下,观测到的可能性,是计算CTC的损失函数的对数似然值;
步骤S83:基于迭代的Levenshtein编辑器,使用Levenshtein编辑器引入迭代细化机制,该机制与CTC共享参数来纠正文本错误;
进一步的,在步骤S83中,使用Levenshtein编辑器引入迭代细化机制的方法,包括以下步骤:
步骤S831:将目标句子序列作为初始状态通过随机删除中的每个标记进 行破坏,通过三个分类器重建原始目标序列,包括占位符分类器、插入分类器和删除分类 器;
步骤S832:占位符分类器,通过相邻的两个标记来预测插入标记的数量,所用 公式如下:
其中,表示占位符分类器的预测结果,是占位符分类器的操作,为BERT模型,为源句子序列的隐藏状态,表示被破坏的目标句子序列,即初始 状态,为占位符分类器的损失函数,为交叉熵计算,为占位符目标标 签;
步骤S833:插入分类器,将占位符添加到中作为插入分类器的输入,预测每个 占位符所需的缺失标记,所用公式如下:
其中,为插入分类器的预测结果,为插入分类器的输入,它是带有占位符 的是插入分类器的操作,为插入分类器的损失函数;
步骤S834:删除分类器,根据前一步结果预测当前标记是否需要保持或删除,所用公式如下:
其中,表示删除分类器的预测结果,为删除分类器的操作,是删 除分类器的损失函数,为删除标签的函数;
步骤S84:动态块修剪,为了实现动态计算规模,引入动态块修剪技术,对BERT模型 进行微调,在每次前向传递过程中都引入分数型权重掩码,从BERT模型中选择重要的 权重,即是每个参数的得分,其中,重要性的参数得分能指导动态调整 BERT模型尺寸,是BERT模型的权重,采用直通估计法进行计算,训练时要求为每个多头自 注意力层和全连接前馈层设置权重掩码,所用公式如下:
其中,是Query向量,是Key向量,是Value向量,表示注意力分数, 为多头自注意力层的权重参数的得分,为全连接前馈层的权重参数的得分,分别是的权重掩码,为当前层的输出, 为下一层的输入,都为投影矩阵,为隐藏状态维数,分别表示不同的激活函数。
进一步的,在投标文件评估模块中,所述MFMMR-BertSum方法,具体包括以下步骤:
步骤N1:输入表示,输入文本文件,并对输入的文本文件的每个句子使用BertSum模型获取句子特征,在每个句子之前添加CLS标签,并在每个句子之后保留SEP标签;
步骤N2:标记嵌入层,使用标记嵌入层将句子中的每个词语转换为一个向量,在片 段嵌入部分,根据句子CLS标签的奇偶性,将奇数值或偶数赋给,从而区分多个句 子的输入,此外,还使用位置嵌入捕获词序列,修改后,每个CLS标签对应的向量就是 BertSum模型捕捉到的句子特征;
步骤N3:分类层,在使用BertSum模型获取句子特征后,构建分类层对句子特征进行训练,确定句子在文本文件中的重要性,分类层内置线性分类器和Transformer分类器,具体包括以下内容:
线性分类器:在BertSum输出后,添加一个或多个线性层,应用Sigmoid函数得到最 终预测值,对于每个句子的分类计算预测值,所用公式如下:
其中,为Sigmoid函数,为权重和偏差,表示来自BertSum的第个CLS符 号,属于自然数;
Transformer分类器:Transformer是一个基于自注意力机制的框架,在 Transformer的输出中加入Sigmoid函数来实现分类,计算预测值,所用公式如下:
其中,是来自Transformer第L层的的矢量;
步骤N4:MMR-based组件,在BertSum模型的预测阶段中加入了MMR-based组件在特征提取过程中利用加权组合多特征作为句子特征;
进一步的,在步骤N4中,加入MMR-based组件,具体包括以下步骤:
步骤N41:使用TF-IDF提取特征,将句子中不同关键词的出现频率记录为句子的得分,所用公式如下:
其中,为第个句子的向量表示,为关键词,表示对出现的进行累积计 算,计算第个关键词的次数特征;
步骤N42:句子位置和数字信息特征,根据句子的位置,确定句子的权重特征,使 用的公式如下:
此外,一些包含数字的句子通常含有关键信息,需将其进行区分,所用公式如下:
其中,表示第个句子是否包含数字特征;
两个特征取平均值后的值为一个特征,所用公式如下:
步骤N43:计算相似度特征,使用Word2vec向量化句子,用文本文件中其他句子的 向量的平均值作为文本文件的向量值,计算句子和文本文件之间的相似度特征,所用公 式如下:
其中,为计算第个句子的相似度特征,是计算相似度的函数;
步骤N44:计算情感特征,通过情感分析计算句子的情感特征,所用公式如下:
其中,为句子的情感特征,表示句子的主观评分;
步骤N45:将上述特征的加权组合作为最终的句子得分,并使用抽取摘要任 务的MFMMR算法,所用公式如下:
其中,是加权系数,为超参数,为文件中待分类的候选句子,代表 摘要句子集,为已被选为摘要的句子。
采用上述方案本发明取得的有益效果如下:
(1)针对现有的数字化招标缺少可以智能化制作招标文件功能的系统,不能快速的生成招标文件模版,且招标文件模版过于单一化的问题,本方案使用DEER方法对BERT模型进行微调优化,对不同招标文件的内容和格式进行学习,根据需求快速、准确的生成不同类型的招标文件模版,在实际的招标中,不同的招标项目中使用不同的招标文件模版,让招标文件的制作和填写工作更便捷、快速、准确;
(2)针对数字化招标中缺少智能评估系统,需要大量的人工对投标的文件进行筛选评估,增加了评估的难度的问题,采用MFMMR-BertSum方法提取投标文件的关键信息,生成简练的摘要文案,并根据历史招标过程中的评估方法生成符合相应招标文件的评估办法对投标文件进行评估,MFMMR-BertSum方法减少了特征提取的时间,使生成的摘要更精确,所用时间更少。
附图说明
图1为本发明提供的基于人工智能的数字化招标文件制作和评估系统的示意图;
图2为BERT模型的流程示意图;
图3为步骤S8的流程示意图;
图4为MFMMR-BertSum方法的流程示意图;
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例一,参阅图1,本发明提供的基于人工智能的数字化招标文件制作和评估系统,包括招标文件模版生成模块、智能填充模块、定制化模块和投标文件评估模块;
所述招标文件模版生成模块使用BERT模型对历史招标项目的基本信息和招标需求的模版进行学习训练,生成不同类型的招标文件模版,并使用DEER方法对BERT模型进行微调优化,历史招标项目的基本信息包括招标单位、联系人信息、招标项目名称、编号、预算金额、招标方式、投标截止时间、开标时间和开标地点,招标需求包括招标范围、招标项目概述、技术规格、技术要求、服务要求、资格要求和评审办法,生成相应的招标文件模板;
所述智能填充模块对已生成的招标文件模版进行填充,生成填充后的招标文件,同时,对填充后的招标文件的语义和语法进行检查、修改和完善;
所述定制化模块根据实际招标项目进行调整和修改,用户能够对已生成的招标文件进行定制,同时也能够对生成的招标文件进行检查;
所述投标文件评估模块根据历史招标过程中的评估方法生成符合相应招标文件的评估办法,采用MFMMR-BertSum方法提取投标文件的关键信息,生成简练的摘要文案,并进行评估,供招标方参考。
实施例二,参阅图1和图2,该实施例基于上述实施例,在招标文件模板生成模块,使用BERT模型对历史招标项目的基本信息和招标需求进行学习训练,具体包括以下步骤:
步骤S1:数据收集,收集历史招标文件和网络上公开的招标文件文本数据;
步骤S2:数据预处理,对收集的历史招标文件文本数据进行整理,删除重复,缺失的招标文件文本数据,得到数据预处理后的招标文件文本数据;
步骤S3:特征提取,提取数据预处理后的招标文件文本数据的关键特征,包括招标文件的基本信息和招标需求,得到特征提取后的招标文件文本数据;
步骤S4:建立数据集,将特征提取后的招标文件文本数据建立数据集,并将数据集的80%作为训练集,20%为验证集;
步骤S5:模型设计与搭建,搭建BERT模型,参数包含12层编码器层,其中12层为多头自注意力层,嵌入尺寸为768,前馈层维数为3072,多头自注意力层包括Query向量、Key向量和Value向量;
步骤S6:模型训练,使用训练集对BERT模型进行训练,直到BERT模型的损失函数收敛;
步骤S7:模型验证,使用验证集对BERT模型进行验证,并使用准确率、精确率、召回率、F1值对BERT模型进行评价;
步骤S8:模型优化,使用DEER方法对BERT模型进行调整优化。
实施例三,参阅图2和图3,该实施例基于上述实施例,在步骤S8中,使用DEER方法对BERT模型进行调整优化,具体包括以下步骤:
步骤S81:生成单步CTC,BERT模型包括堆叠的双向变压器编码器块,其中每个块包含两个子层,分别是多头自注意力层和全连接前馈层,对这两层使用单步CTC方法进行处理,所用公式如下所示:
其中,为第个编码器块,为编码器第层的输出,表示第处理的结果,为多头自注意力层函数,为全连接前馈层函数;
步骤S82:使用潜在对齐模型进行训练,利用特定的输入格式和自注意掩码来控制 上下文信息,将训练集中的源句子序列和伪目标句子序列结合作为输入,在源句子长度 与目标相近时,构建一个特定的注意掩码,使关注,而不能关注,之后,通过潜在对齐 模型来计算目标和CTC的损失函数的对数似然,所用公式如下:
其中,为输入的源句子序列,是与对应的实际的目标句子序列,表示 给定输入的情况下,生成目标句子序列的概率,为伪目标句子序列,函数表示生 成从的所有可能对齐的集合,的子集的第个序列,表示在给定的 下,观测到的可能性,是计算CTC的损失函数的对数似然值;
步骤S83:基于迭代的Levenshtein编辑器,使用Levenshtein编辑器引入迭代细化机制,该机制与CTC共享参数来纠正文本错误;
在步骤S83中,使用Levenshtein编辑器引入迭代细化机制的方法,包括以下步骤:
步骤S831:将目标句子序列作为初始状态通过随机删除中的每个标记进 行破坏,通过三个分类器重建原始目标序列,包括占位符分类器、插入分类器和删除分类 器;
步骤S832:占位符分类器,通过相邻的两个标记来预测插入标记的数量,所用 公式如下:
其中,表示占位符分类器的预测结果,是占位符分类器的操作,为BERT模型,为源句子序列的隐藏状态,表示被破坏的目标句子序列,即初始 状态,为占位符分类器的损失函数,为交叉熵计算,为占位符目标标 签;
步骤S833:插入分类器,将占位符添加到中作为插入分类器的输入,预测每个 占位符所需的缺失标记,所用公式如下:
其中,为插入分类器的预测结果,为插入分类器的输入,它是带有占位符 的是插入分类器的操作,为插入分类器的损失函数;
步骤S834:删除分类器,根据前一步结果预测当前标记是否需要保持或删除,所用公式如下:
其中,表示删除分类器的预测结果,为删除分类器的操作,是删 除分类器的损失函数,为删除标签的函数;
步骤S84:动态块修剪,为了实现动态计算规模,引入动态块修剪技术,对BERT模型 进行微调,在每次前向传递过程中都引入分数型权重掩码,从BERT模型中选择重要的 权重,即是每个参数的得分,其中,重要性的参数得分能指导动态调整 BERT模型尺寸,是BERT模型的权重,采用直通估计法进行计算,训练时要求为每个多头自 注意力层和全连接前馈层设置权重掩码,所用公式如下:
其中,是Query向量,是Key向量,是Value向量,表示注意力分数, 为多头自注意力层的权重参数的得分,为全连接前馈层的权重参数的得分,分别是的权重掩码,为当前层的输出, 为下一层的输入,都为投影矩阵,为隐藏状态维数,分别表示不同的激活函数。
通过执行上述操作,针对现有的数字化招标缺少智能化制作招标文件功能的系统,不能快速的生成招标文件模版,且招标文件模版过于单一化的问题,本方案使用DEER方法对BERT模型进行微调优化,对不同招标文件的内容和格式进行学习,根据需求快速、准确的生成不同类型的招标文件模版,在实际的招标中,不同的招标项目中使用不同的招标文件模版,让招标文件的制作和填写工作更便捷、快速、准确。
实施例四,参阅图1和图4,该实施例基于上述实施例,在投标文件评估模块中,所述MFMMR-BertSum方法,具体包括以下步骤:
步骤N1:输入表示,输入文本文件,并对输入的文本文件的每个句子使用BertSum模型获取句子特征,在每个句子之前添加CLS标签,并在每个句子之后保留SEP标签;
步骤N2:标记嵌入层,使用标记嵌入层将句子中的每个词语转换为一个向量,在片 段嵌入部分,根据句子CLS标签的奇偶性,将奇数值或偶数赋给,从而区分多个句 子的输入,此外,还使用位置嵌入捕获词序列,修改后,每个CLS标签对应的向量就是 BertSum模型捕捉到的句子特征;
步骤N3:分类层,在使用BertSum模型获取句子特征后,构建分类层对句子特征进行训练,确定句子在文本文件中的重要性,分类层内置线性分类器和Transformer分类器,具体包括以下内容:
线性分类器:在BertSum输出后,添加一个或多个线性层,应用Sigmoid函数得到最 终预测值,对于每个句子的分类计算预测值,所用公式如下:
其中,为Sigmoid函数,为权重和偏差,表示来自BertSum的第个CLS符 号,属于自然数;
Transformer分类器:Transformer是一个基于自注意力机制的框架,在 Transformer的输出中加入Sigmoid函数来实现分类,计算预测值,所用公式如下:
其中,是来自Transformer第L层的的矢量;
步骤N4:MMR-based组件,在BertSum模型的预测阶段中加入了MMR-based组件在特征提取过程中利用加权组合的多特征作为句子特征;
在步骤N4中,加入MMR-based组件,具体包括以下步骤:
步骤N41:使用TF-IDF提取特征,将句子中不同关键词的出现频率记录为句子的得分,所用公式如下:
其中,代表第个句子的向量表示,为关键词,表示对出现的进行累积计 算,计算第个关键词的次数特征;
步骤N42:句子位置和数字信息特征,根据句子的位置,确定句子的权重特征,使 用的公式如下:
此外,将包含数字的句子进行区分,所用公式如下:
其中,表示第个句子是否包含数字特征;
两个特征取平均值后的值为一个特征,所用公式如下:
步骤N43:计算相似度特征,使用Word2vec向量化句子,用文本文件中其他句子的 向量的平均值作为文本文件的向量值,计算句子和文本文件之间的相似度特征,所用公 式如下:
其中,为计算第个句子的相似度特征,是计算相似度的函数;
步骤N44:计算情感特征,通过情感分析计算句子的情感特征,所用公式如下:
其中,为句子的情感特征,表示句子的主观评分;
步骤N45:将上述特征的加权组合作为最终的句子得分,并使用抽取摘要任 务的MFMMR算法,所用公式如下:
其中,是加权系数,为超参数,为文件中待分类的候选句子,代表 摘要句子集,为已被选为摘要的句子。
针对数字化招标中缺少智能评估系统,需要大量的人工对投标的文件进行筛选评估,增加了评估的难度的问题,采用MFMMR-BertSum方法提取投标文件的关键信息,生成简练的摘要文案,并根据历史招标过程中的评估方法生成符合相应招标文件的评估办法,对投标文件进行评估,MFMMR-BertSum方法减少了特征提取的时间,使生成的摘要更精确,所用时间更少。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (1)

1.基于人工智能的数字化招标文件制作和评估系统,其特征在于:包括招标文件模版生成模块、智能填充模块、定制化模块和投标文件评估模块;
所述招标文件模版生成模块使用BERT模型对历史招标项目的基本信息和招标需求的模版进行学习训练,生成不同类型的招标文件模版,并使用DEER方法对BERT模型进行微调优化,历史招标项目的基本信息包括招标单位、联系人信息、招标项目名称、编号、预算金额、招标方式、投标截止时间、开标时间和开标地点,招标需求包括招标范围、招标项目概述、技术规格、技术要求、服务要求、资格要求和评审办法,生成相应的招标文件模板;
所述智能填充模块对已生成的招标文件模版进行填充,生成填充后的招标文件,同时,对填充后的招标文件的语义和语法进行检查、修改和完善;
所述定制化模块根据实际招标项目进行调整和修改,用户能够对已生成的招标文件进行定制,同时也能够对生成的招标文件进行检查;
所述投标文件评估模块根据历史招标过程中的评估方法生成符合相应招标文件的评估办法,采用MFMMR-BertSum方法提取投标文件的关键信息,生成简练的摘要文案,并进行评估,供招标方参考;
在招标文件模板生成模块,使用BERT模型对历史招标项目的基本信息和招标需求进行学习训练,具体包括以下步骤:
步骤S1:数据收集,收集历史招标文件和网络上公开的招标文件文本数据;
步骤S2:数据预处理,对收集的历史招标文件文本数据进行整理,删除重复,缺失的招标文件文本数据,得到数据预处理后的招标文件文本数据;
步骤S3:特征提取,提取数据预处理后的招标文件文本数据的关键特征,包括招标文件的基本信息和招标需求,得到特征提取后的招标文件文本数据;
步骤S4:建立数据集,将特征提取后的招标文件文本数据建立数据集,并将数据集的80%作为训练集,20%为验证集;
步骤S5:模型设计与搭建,搭建BERT模型,参数包含12层编码器层,其中12层为多头自注意力层,嵌入尺寸为768,前馈层维数为3072,多头自注意力层包括Query向量、Key向量和Value向量;
步骤S6:模型训练,使用训练集对BERT模型进行训练,直到BERT模型的损失函数收敛;
步骤S7:模型验证,使用验证集对BERT模型进行验证,并使用准确率、精确率、召回率、F1值对BERT模型进行评价;
步骤S8:模型优化,使用DEER方法对BERT模型进行调整优化;
在步骤S8中,使用DEER方法对BERT模型进行调整优化,具体包括以下步骤:
步骤S81:生成单步CTC,BERT模型包括堆叠的双向变压器编码器块,其中每个块包含两个子层,分别是多头自注意力层和全连接前馈层,对这两层使用单步CTC方法进行处理,所用公式如下所示:
其中,为第/>个编码器块,/>为编码器第/>层的输出,/>表示第/>个编码器块处理的结果,为多头自注意力层函数,/>为全连接前馈层函数;
步骤S82:使用潜在对齐模型进行训练,利用特定的输入格式和自注意掩码来控制上下文信息,将训练集中的源句子序列和伪目标句子序列/>结合作为输入,在源句子长度与目标相近时,构建一个特定的注意掩码,使/>关注/>,而/>不能关注/>,之后,通过潜在对齐模型来计算目标和CTC的损失函数的对数似然,所用公式如下:
其中,为输入的源句子序列,/>是与/>对应的实际的目标句子序列,/>表示给定输入/>的情况下,生成目标句子序列/>的概率,/>为伪目标句子序列,函数/>表示生成从到/>的所有可能对齐的集合,/>为/>的子集的第/>个序列,/>表示在给定的/>下,观测到/>的可能性,/>是计算CTC的损失函数的对数似然值;
步骤S83:基于迭代的Levenshtein编辑器,使用Levenshtein编辑器引入迭代细化机制,该机制与CTC共享参数来纠正文本错误;
步骤S84:动态块修剪,为了实现动态计算规模,引入动态块修剪技术,对BERT模型进行微调,在每次前向传递过程中都引入分数型权重掩码,从BERT模型中选择重要的权重,即/>,/>是每个参数的得分,其中,重要性的参数得分能指导动态调整BERT模型尺寸,/>是BERT模型的权重,采用直通估计法进行计算,训练时要求为每个多头自注意力层和全连接前馈层设置权重掩码,所用公式如下:
其中,是Query向量,/>是Key向量,/>是Value向量,/>表示注意力分数,/>、/>和/>为多头自注意力层的权重参数的得分,/>和/>为全连接前馈层的权重参数的得分,/>、/>、/>、/>和/>分别是/>、/>、/>、/>和/>的权重掩码,/>为当前层的输出,/>为下一层的输入,/>、/>、/>、/>、/>和/>都为投影矩阵,/>为隐藏状态维数,/>和/>分别表示不同的激活函数;
在步骤S83中,使用Levenshtein编辑器引入迭代细化机制的方法,包括以下步骤:
步骤S831:将目标句子序列作为初始状态/>通过随机删除/>中的每个标记进行破坏,通过三个分类器重建原始目标序列,包括占位符分类器、插入分类器和删除分类器;
步骤S832:占位符分类器,通过相邻的两个标记来预测插入标记的数量,所用公式如下:
其中,表示占位符分类器的预测结果,/>是占位符分类器的操作,/>为BERT模型,/>为源句子序列的隐藏状态,/>表示被破坏的目标句子序列,即初始状态,为占位符分类器的损失函数,/>为交叉熵计算,/>为占位符目标标签;
步骤S833:插入分类器,将占位符添加到中作为插入分类器的输入,预测每个占位符所需的缺失标记,所用公式如下:
其中,为插入分类器的预测结果,/>为插入分类器的输入,它是带有占位符的/>,/>是插入分类器的操作,/>为插入分类器的损失函数;
步骤S834:删除分类器,根据前一步结果预测当前标记是否需要保持或删除,所用公式如下:
其中,表示删除分类器的预测结果,/>为删除分类器的操作,/>是删除分类器的损失函数,/>为删除标签的函数;
在投标文件评估模块中,所述MFMMR-BertSum方法,具体包括以下步骤:
步骤N1:输入表示,输入文本文件,并对输入的文本文件的每个句子使用BertSum模型获取句子特征,在每个句子之前添加CLS标签,并在每个句子之后保留SEP标签;
步骤N2:标记嵌入层,使用标记嵌入层将句子中的每个词语转换为一个向量,在片段嵌入部分,根据句子CLS标签的奇偶性,将奇数值或偶数/>赋给/>,从而区分多个句子的输入,此外,还使用位置嵌入捕获词序列,修改后,每个CLS标签对应的向量就是BertSum模型捕捉到的句子特征;
步骤N3:分类层,在使用BertSum模型获取句子特征后,构建分类层对句子特征进行训练,确定句子在文本文件中的重要性,分类层内置线性分类器和Transformer分类器,具体包括以下内容:
线性分类器:在BertSum输出后,添加一个或多个线性层,应用Sigmoid函数得到最终预测值,对于每个句子的分类计算预测值,所用公式如下:
其中,为Sigmoid函数,/>和/>为权重和偏差,/>表示来自BertSum的第/>个CLS符号,/>属于自然数;
Transformer分类器:Transformer是一个基于自注意力机制的框架,在Transformer的输出中加入Sigmoid函数来实现分类,计算预测值,所用公式如下:
其中,是来自Transformer第L层的/>的矢量;
步骤N4:MMR-based组件,在BertSum模型的预测阶段中加入了MMR-based组件在特征提取过程中利用加权组合多特征作为句子特征;
在步骤N4中,加入MMR-based组件,具体包括以下步骤:
步骤N41:使用TF-IDF提取特征,将句子中不同关键词的出现频率记录为句子的得分,所用公式如下:
其中,为第/>个句子的向量表示,/>为关键词,/>表示对出现的/>进行累积计算,/>计算第/>个关键词的次数特征;
步骤N42:句子位置和数字信息特征,根据句子的位置,确定句子的权重特征,使用的公式如下:
此外,一些包含数字的句子通常含有关键信息,需将其进行区分,所用公式如下:
其中,表示第/>个句子是否包含数字特征;
两个特征取平均值后的值为一个特征,所用公式如下:
步骤N43:计算相似度特征,使用Word2vec向量化句子,用文本文件中其他句子的向量的平均值作为文本文件的向量值,计算句子和文本文件之间的相似度特征,所用公式如下:
其中,为计算第/>个句子的相似度特征,/>是计算相似度的函数;
步骤N44:计算情感特征,通过情感分析计算句子的情感特征,所用公式如下:
其中,为句子的情感特征,/>表示句子的主观评分;
步骤N45:将上述特征的加权组合作为最终的句子得分,并使用抽取摘要任务的MFMMR算法,所用公式如下:
其中,、/>、/>和/>是加权系数,/>为超参数,/>为文件中待分类的候选句子,/>代表摘要句子集,/>为已被选为摘要的句子。
CN202311726868.5A 2023-12-15 2023-12-15 基于人工智能的数字化招标文件制作和评估系统 Active CN117408650B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311726868.5A CN117408650B (zh) 2023-12-15 2023-12-15 基于人工智能的数字化招标文件制作和评估系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311726868.5A CN117408650B (zh) 2023-12-15 2023-12-15 基于人工智能的数字化招标文件制作和评估系统

Publications (2)

Publication Number Publication Date
CN117408650A CN117408650A (zh) 2024-01-16
CN117408650B true CN117408650B (zh) 2024-03-08

Family

ID=89491180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311726868.5A Active CN117408650B (zh) 2023-12-15 2023-12-15 基于人工智能的数字化招标文件制作和评估系统

Country Status (1)

Country Link
CN (1) CN117408650B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117592458B (zh) * 2024-01-19 2024-04-05 辽宁省网联数字科技产业有限公司 基于人工智能的数字化投标文件盲盒解析方法及系统
CN118052627A (zh) * 2024-04-15 2024-05-17 辽宁省网联数字科技产业有限公司 一种招标方案智能填充方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341619A (zh) * 2017-07-22 2017-11-10 江苏省鸿源招标代理股份有限公司 一种招投标信息采集系统及方法
CN112116222A (zh) * 2020-09-01 2020-12-22 上海康诚建设工程咨询有限公司 一种工程项目招标管理方法、系统、终端设备及存储介质
WO2021184311A1 (zh) * 2020-03-19 2021-09-23 中山大学 一种自动生成可推理问答的方法和装置
CN113655893A (zh) * 2021-07-08 2021-11-16 华为技术有限公司 一种词句生成方法、模型训练方法及相关设备
CN113761890A (zh) * 2021-08-17 2021-12-07 汕头市同行网络科技有限公司 一种基于bert上下文感知的多层级语义信息检索方法
CN115841370A (zh) * 2022-11-04 2023-03-24 辽宁省网联数字科技产业有限公司 电子投标保函全流程公共服务系统
CN116433052A (zh) * 2023-06-14 2023-07-14 鼎信数智技术集团股份有限公司 一种基于智能化的招标信息采集数据分析评价系统
CN116757808A (zh) * 2023-08-18 2023-09-15 江西省精彩纵横采购咨询有限公司 一种基于大数据的投标文件自动生成方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210295956A1 (en) * 2020-03-18 2021-09-23 Eresearchtechnology, Inc. Systems and Methods for Hashing-Based Assessment of Electronic Clinical Trial Outcomes

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341619A (zh) * 2017-07-22 2017-11-10 江苏省鸿源招标代理股份有限公司 一种招投标信息采集系统及方法
WO2021184311A1 (zh) * 2020-03-19 2021-09-23 中山大学 一种自动生成可推理问答的方法和装置
CN112116222A (zh) * 2020-09-01 2020-12-22 上海康诚建设工程咨询有限公司 一种工程项目招标管理方法、系统、终端设备及存储介质
CN113655893A (zh) * 2021-07-08 2021-11-16 华为技术有限公司 一种词句生成方法、模型训练方法及相关设备
CN113761890A (zh) * 2021-08-17 2021-12-07 汕头市同行网络科技有限公司 一种基于bert上下文感知的多层级语义信息检索方法
CN115841370A (zh) * 2022-11-04 2023-03-24 辽宁省网联数字科技产业有限公司 电子投标保函全流程公共服务系统
CN116433052A (zh) * 2023-06-14 2023-07-14 鼎信数智技术集团股份有限公司 一种基于智能化的招标信息采集数据分析评价系统
CN116757808A (zh) * 2023-08-18 2023-09-15 江西省精彩纵横采购咨询有限公司 一种基于大数据的投标文件自动生成方法及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Advancing Acoustic-to-Word CTC Model With Attention and Mixed-Units.《IEEE》.2019,全文. *
Application of Fuzzy Matching Algorithms for Doctors Handwriting Recognition;Riya Patil等;《IEEE》;20221231;全文 *
Extractive social media text summarization based on MFMMR-BertSum;Junqing Fan等;《elsevier》;20231004;全文 *
IA-BERT: Context-Aware Sarcasm Detection by Incorporating Incongruity Attention Layer for Feature Extraction;Ida Ayu Putu Ari Crisdayanti;《ACM》;20221231;全文 *
基于BERT的中文短文本纠错方法研究.《信息科技》.2022,全文. *
基于Levenshtein distance算法的句子相似度计算.《电脑知识与技术》.2009,全文. *

Also Published As

Publication number Publication date
CN117408650A (zh) 2024-01-16

Similar Documents

Publication Publication Date Title
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
CN117408650B (zh) 基于人工智能的数字化招标文件制作和评估系统
CN110674305B (zh) 一种基于深层特征融合模型的商品信息分类方法
CN1945563B (zh) 不流利语句的自然语言处理
CN114298158A (zh) 一种基于图文线性组合的多模态预训练方法
CN112270379A (zh) 分类模型的训练方法、样本分类方法、装置和设备
CN111177326A (zh) 基于精标注文本的关键信息抽取方法、装置及存储介质
CN112817561B (zh) 软件需求文档的事务类功能点结构化抽取方法及系统
CN110532563A (zh) 文本中关键段落的检测方法及装置
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN117151220B (zh) 一种基于实体链接与关系抽取的行业知识库系统及方法
CN111553159B (zh) 一种问句生成方法及系统
CN111930939A (zh) 一种文本检测的方法及装置
CN110472245B (zh) 一种基于层次化卷积神经网络的多标记情绪强度预测方法
CN113627151B (zh) 跨模态数据的匹配方法、装置、设备及介质
CN116432655B (zh) 基于语用知识学习的少样本命名实体识别方法和装置
CN109614611B (zh) 一种融合生成非对抗网络与卷积神经网络的情感分析方法
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN114416159B (zh) 基于信息增强调用序列的api推荐方法及装置
CN117370736A (zh) 一种细粒度情感识别方法、电子设备及存储介质
CN113705207A (zh) 语法错误识别方法及装置
CN116702765A (zh) 一种事件抽取方法、装置及电子设备
CN115310449A (zh) 一种基于小样本的命名实体识别方法、装置及相关介质
CN115840815A (zh) 基于指针关键信息的自动摘要生成方法
CN115422349A (zh) 一种基于预训练生成模型的层次文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant