CN117112782A

CN117112782A - 一种招标公告信息提取方法

Info

Publication number: CN117112782A
Application number: CN202310662369.8A
Authority: CN
Inventors: 田杰; 徐刚; 秦显; 李艳; 钟小波; 代翔宇; 代家豪; 文智星; 宋虎; 吴浪
Original assignee: Sichuan Wenyuange Technology Co ltd
Current assignee: Sichuan Wenyuange Technology Co ltd
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-11-24

Abstract

本发明涉及数据处理技术领域，具体涉及一种招标公告信息提取方法，包括以下步骤：获取原始招标公告文本进行预处理；对预处理后的原始招标公告文本进行文本任务分类；对预处理后的原始招标公告文本进行命名实体识别；将文本任务分类结果与命名实体识别结果进行结合，提取关键信息；将关键信息进行整合和标准化处理，生成结构化的招标公告信息。通过自然语言处理技术对文本进行5个分类任务和命名实体识别，实现快速、准确地提取招标公告中的关键信息，适应不同格式和领域的招标公告，为招标人和投标人提供了更加便捷的服务，具有广泛的应用前景和社会效益。

Description

一种招标公告信息提取方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种招标公告信息提取方法。

背景技术

随着互联网的不断发展，政府和企业发布的招标公告数量越来越多，这些招标公告包含了大量的信息，如招标项目名称、招标人信息、招标文件获取方式、投标截止日期等。然而，由于各种原因，招标公告的信息通常是以非结构化的形式发布，不同的机构和网站也存在着不同的信息格式和内容规范，因此，对于投标商和投标代理机构来说，手动提取和处理招标公告信息是非常耗费时间和精力的。

针对这一问题，已经提出了一些招标公告信息提取方法，但存在以下问题：

1、无法处理不同的招标公告格式，需要手动调整参数；

2、对于特定领域的招标公告(如建筑工程、IT采购等)，需要重新训练模型；

因此，需要一种能够自适应不同格式和领域的招标公告信息提取方法，能够快速、准确地提取出所需信息，便于招标人和投标人进行决策。

发明内容

本发明的目的在于提供一种招标公告信息提取方法，旨在解决目前的招标公告信息提取方法不能够自适应不同格式和领域，不能快速、准确地提取出所需信息，不利于招标人和投标人进行决策的问题。

为实现上述目的，本发明提供了一种招标公告信息提取方法，包括以下步骤：

获取原始招标公告文本进行预处理；

对预处理后的原始招标公告文本进行文本任务分类，文本任务的分类类型包括信息类型分类、招标类型分类、行业分类、招标方式分类和是否接受联合体投标分类；

对预处理后的原始招标公告文本进行命名实体识别；

将文本任务分类结果与命名实体识别结果进行结合，提取关键信息；

将关键信息进行整合和标准化处理，生成结构化的招标公告信息。

在一实施例中，所述获取原始招标公告文本进行预处理，预处理步骤包括：

除HTML标签、提取正文、去除特殊字符。

在一实施例中，所述对预处理后的原始招标公告文本进行文本任务分类，具体步骤包括：

构建基于Longformer的融合全局信息的滑窗机制中文预训练模型；

对于每个分类类型，采用交叉熵损失函数进行基于Longformer的融合全局信息的滑窗机制中文预训练模型训练，使用反向传播算法优化参数；

基于准确率、召回率、F1-score指标对基于Longformer的融合全局信息的滑窗机制中文预训练模型进行评价，选择最优模型作为最终的文本分类器；

基于最终的文本分类器进行分类。

在一实施例中，所述对预处理后的原始招标公告文本进行命名实体识别，具体步骤包括：

构建基于Longformer的中文预训练模型，基于Longformer的中文预训练模型采用BI体系对每个实体创建维度为2*4096的矩阵作为识别层；

对基于Longformer的中文预训练模型进行训练；

采用基于字粒度的文本最大匹配长度计算F1-score指标值对基于Longformer的中文预训练模型进行评价；

对识别出的命名实体进行后处理。

在一实施例中，所述对识别出的命名实体进行后处理，其中，后处理步骤包括：

错误修正、实体合并。

在一实施例中，所述将文本任务分类结果与命名实体识别结果进行结合，提取关键信息，具体步骤包括：

采用深度学习框架PyTorch，构建联合学习模型；

将文本分类和命名实体识别任务的结果进行联合，依据不同任务的难度与重要性，为不同的任务设置权重，并构建联合损失函数；

采用反向传播算法对联合损失函数进行优化，得到最终的联合学习模型；

基于最终的联合学习模型提取关键信息。

在一实施例中，所述将关键信息进行整合和标准化处理，生成结构化的招标公告信息，具体步骤包括：

对于文本中的企业资质证书要求和人员证书要求，用正则表达式顺序抽取证书名称、专业、等级，并拼接为具体证书；

对于日期信息，通过正则表达式在命名实体识别的日期实体中匹配出日期字符串，并将其转换为标准日期格式。

对于金额信息，通过正则表达式在命名实体识别的金额实体中匹配出金额字符串，并将其转换为标准金额格式；

对于地址信息，通过正则表达式在命名实体识别的地址实体中匹配出地址字符串，并将其转换为标准地址格式；

获取证书信息、日期信息、金额信息和地址信息进行整合和汇总，生成招标公告信息提取结果。

本发明的一种招标公告信息提取方法，通过获取原始招标公告文本进行预处理；对预处理后的原始招标公告文本进行文本任务分类；对预处理后的原始招标公告文本进行命名实体识别；将文本任务分类结果与命名实体识别结果进行结合，提取关键信息；将关键信息进行整合和标准化处理，生成结构化的招标公告信息。通过自然语言处理技术对文本进行5个分类任务和命名实体识别，实现快速、准确地提取招标公告中的关键信息，适应不同格式和领域的招标公告，为招标人和投标人提供了更加便捷的服务，具有广泛的应用前景和社会效益。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种招标公告信息提取方法的流程示意图；

图2是本发明提供的一种招标公告信息提取方法的简易流程示意图；

图3是本发明提供的文本分类、命名实体识别、联合学习的示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本发明提供了一种招标公告信息提取方法，旨在利用自然语言处理技术来快速、准确地提取招标公告中的关键信息。该方法涉及五个分类任务和命名实体识别技术，可对招标公告的文本内容进行深度分析，以准确提取关键信息，例如项目名称、招标单位、招标金额、招标期限等。采用该方法可以大大提高处理招标公告的效率和准确性，为相关行业带来显著的经济效益。同时，该方法还具有广泛的适用性，可应用于不同类型的招标公告文本处理中，具有重要的实际应用价值。下面进行具体说明。

请参阅图1，图1是本发明提供的一种招标公告信息提取方法的流程示意图。本发明实施例的所述招标公告信息提取方法可以包括以下步骤：

S101、获取原始招标公告文本进行预处理；

在本实施方式中，所述预处理步骤包括：除HTML标签、提取正文、去除特殊字符，如使用【strip_tags()】函数实现从字符串中去除HTML和PHP标记；可以通过标签定位、标签分布、文本判别、DOM规范、关联计算、信息摘除、视觉定位、反向模板提取正文；。

S102、对预处理后的原始招标公告文本进行文本任务分类；

在本实施方式中，文本任务的分类类型包括信息类型分类、招标类型分类、行业分类、招标方式分类和是否接受联合体投标分类；即针对不同机构和网站发布的招标公告的不同格式和内容规范，通过自然语言处理技术对文本进行五个分类任务，将招标公告按照不同的分类标准进行分类，方便后续处理。请参阅图3，图3是本发明提供的文本分类、命名实体识别、联合学习的示意图。具体的步骤，(1)模型构建：构建基于Longformer的融合全局信息的滑窗机制中文预训练模型；其中，基于Longformer的融合全局信息的滑窗机制中文预训练模型中，对于每个分类任务，分别构建一个全连接层，Longformer用于捕获文本的基础信息，全连接层用于分类；由于招标公告通常比较长，经典的self-attention是一种“全看型”的self-attention，即每个token都要和序列中的其他所有token进行交互，因此它的时空复杂度均是O(n2)，对于长文本会存在显存占用过大和速度慢的问题，因此提出采用Longformer的Global Attention+Sliding Window Attention的方式捕获文本特征。具体来说，经典self-attention的公式如下：

即将原始的输入分别映射到了Q、K、V三个空间后进行Attention计算。

Sliding Window attention设定了一个窗口，它规定序列中的每个token只能看到w个token，其左右两侧能看到1/2w个token，因此它的时间复杂度是O(n*w)。

Global+Sliding Window这里涉及到两种Attention，Longformer中分别将这两种Attention映射到了两个独立的空间，即使用Qs、Ks、Vs来计算Sliding Window Attention，使用Qg、Kg、Vg来计算Global Attention。

(2)模型训练：对于每个分类类型，采用交叉熵损失函数进行基于Longformer的融合全局信息的滑窗机制中文预训练模型训练，通过使用反向传播算法优化神经网络中的参数。具体而言，反向传播算法通过计算模型对训练数据的损失函数的梯度，从而更新各层间的权重和偏置，以最小化损失函数。这样不断迭代更新，可以使得模型越来越接近于最优状态，提高模型拟合能力和泛化能力，进而提高信息提取效果。相比传统的基于规则的方法，神经网络可以更好地利用大规模数据集中的信息，提高信息提取的准确性，并能自动学习到特征和规律。因此，在该专利中使用反向传播算法可以有效地提升模型性能，为招标公告信息提取领域的进一步发展注入新的动力。具体的，交叉熵损失函数公式如下：

其中，N表示本批次样本数量，Li表示每个样本的交叉熵损失，M表示类别的数量，y_ic是符号函数(0或1)，如果样本i的真实类别等于c取1，否则取0，p_ic表示观察样本i属于类别c的预测概率。

交叉熵损失函数与现有技术相比，具有以下优点：

1.提高了信息提取的准确率：通过采用交叉熵损失函数，可以有效地衡量网络输出结果与真实标签之间的差距，进而优化模型参数，提高信息提取的准确率。

2.减少了过拟合的风险：交叉熵损失函数能够有效地控制模型的复杂度，避免过拟合现象的发生，提升模型的泛化能力。

3.改善了模型的鲁棒性：交叉熵损失函数能够抑制训练数据中的噪声和异常点的影响，从而提高模型对于不同数据、不同情况的鲁棒性。

4.提升了信息提取的效率：采用深度学习方法，通过分层抽象特征的方式可以有效地提取招标公告中的关键信息，避免了传统手工规则的繁琐，提升了信息提取的效率。

相比于现有技术，本专利方法具有更高的准确率和效率，并且对于招标公告的不同形式和格式也具有较好的适应性，可以满足日益增长的招标信息提取需求。

然而，深度学习模型训练通常需要耗费大量时间和计算资源。因此，我们可以采用批量训练和随机梯度下降算法来加速模型训练。

具体来说，批量训练可以利用并行计算的优势，将大量数据分成多个小批次进行训练，从而缩短了训练时间。而随机梯度下降算法则可以通过随机抽取样本进行训练，最终达到相同的效果，同时也减少了计算开销。

(3)模型评价：基于准确率、召回率、F1-score指标对基于Longformer的融合全局信息的滑窗机制中文预训练模型进行评价，选择最优模型作为最终的文本分类器。具体而言：

1.准确率：衡量模型在所有提取出来的信息中，有多少是正确的。提高准确率可以降低误差和误判的风险，提升模型的可靠性和鲁棒性。

2.召回率：衡量模型在所有真实信息中，有多少被成功提取出来。提高召回率可以保证尽可能地捕捉所有信息，增强模型对于信息的全面性和覆盖率。

3.F1-score：是准确率和召回率的加权平均数，它综合了这两个指标的表现，适用于对模型整体性能的评估。在本发明的招标公告信息提取方法中，利用F1-score可以综合考虑模型的精准度和全面性，并且对于比较不平衡的数据集也有较好的评价效果。

(4)分类：基于最终的文本分类器进行分类。

该专利模型基于深度学习算法，对招标公告文本数据进行处理并分类，主要包括以下5个分类任务：

1.信息类型分类：模型通过对招标公告文本中的关键词和短语进行提取和分析，将招标公告信息分为不同的类型，例如招标、招标变更、中标等。

2.招标类型分类：模型通过对招标公告文本中的招标类型(如设计、施工、供应等)进行分析，将招标公告按照不同的招标类型进行分类。

3.行业分类：模型通过对招标公告文本中的行业分类词汇(如房地产、医疗、交通运输等)进行分析，将招标公告按照不同的行业进行分类。

4.招标方式分类：模型通过对招标公告文本中的招标方式(如公开招标、邀请招标、竞争性谈判等)进行分析，将招标公告按照不同的招标方式进行分类。

5.是否接受联合体投标分类：模型通过对招标公告文本中的联合体投标相关信息进行分析，将招标公告按照是否接受联合体投标进行分类。

通过以上步骤，本发明能够快速、准确地对招标公告进行分类，为后续的命名实体识别提供了基础。同时，基于深度学习的文本分类方法具有很强的泛化能力和可扩展性，能够适应不同格式和领域的招标公告，具有很高的应用价值。

S103、对预处理后的原始招标公告文本进行命名实体识别；

在本实施方式中，通过命名实体识别可以抽取关键信息，如项目名称、项目招标编号、建设地点、预算、报名开始时间、报名结束时间、招标文件领取开始时间、招标文件领取结束时间、招标文件获取网址、开标时间、投标截止时间、招标单位、招标单位地址、招标单位联系人、招标单位联系电话、招标代理机构、招标代理机构地址、代理机构联系人、代理联系人电话、投标企业资质要求、投标企业注册地要求、投标企业备案要求、投标企业财务要求、投标企业业绩要求、项目负责人资质要求、项目负责人业绩要求、项目负责人职称要求等。请参阅图3，图3是本发明提供的文本分类、命名实体识别、联合学习的示意图。具体步骤，(1)构建模型：构建基于Longformer的中文预训练模型，基于Longformer的中文预训练模型采用BI体系对每个实体创建维度为2*4096的矩阵作为识别层；其中一个4096维的向量预测实体的开始B，另一个4096维向量预测实体的中间I。并将N个待识别实体识别层拼接为(N*2)*4096维。相比于现有的技术，这种方法有以下优势：

1.提高了信息提取的准确性和效率。采用预训练模型，可以避免重复的语料学习，提高了模型的泛化能力；使用BI体系对每个实体创建的矩阵能够更准确地捕捉实体在文本中的位置信息，提高了实体的识别效率和准确性。

2.降低了人工干预的成本。采用自动化的信息提取方法，减少了人工标注和干预的步骤，节省了人力资源和时间成本。

3.增加了信息提取的扩展性和灵活性。采用预训练模型进行信息提取，同时可以通过对模型进行微调或者迁移学习等方式来应对不同的信息提取任务，从而增加了信息提取的扩展性和适应性。

因此可以认为，采用基于Longformer的中文预训练模型+BI体系的信息提取方法，优化了现有技术在提取招标公告信息方面的准确性、效率、成本、扩展性和适应性。

(2)模型训练：对基于Longformer的中文预训练模型进行训练；具体的，将招标公告文本输入模型中，并采用BCELoss损失函数对各个实体的开始(B)和中间(I)进行分类，识别文本中的命名实体，得到每个字的标签，最后根据标签序列确定命名实体的边界。

(3)模型评价：采用基于字粒度的文本最大匹配长度计算F1-score值对基于Longformer的中文预训练模型进行评价；F1-score被用来对基于Longformer的中文预训练模型进行评价。这是因为在信息提取任务中，一般需要识别和提取出目标信息，而这些信息可能存在于长文本中。使用基于字粒度的文本最大匹配长度计算F1-score值，可以更好地考虑到长文本中字符的组合和匹配，从而有效评估模型的预测准确性。这样可以更好地验证模型在招标公告等信息提取任务中的实际应用效果，并为进一步改进和优化提供参考。

(4)后处理：对识别出的命名实体进行后处理。后处理步骤包括：错误修正、实体合并。

S104、将文本任务分类结果与命名实体识别结果进行结合，提取关键信息；

在本实施方式中，通过联合学习，将以上5个分类任务与命名实体识别任务进行结合，提高信息提取的准确性和效率。具体步骤，(1)采用深度学习框架PyTorch，构建联合学习模型；(2)将文本分类和命名实体识别任务的结果进行联合，依据不同任务的难度与重要性，为不同的任务设置权重，并构建联合损失函数；(3)采用反向传播算法对联合损失函数进行优化，得到最终的联合学习模型；(4)基于最终的联合学习模型提取关键信息。将得到的联合学习模型应用于招标公告信息提取，实现快速、准确的信息提取。

S105、将关键信息进行整合和标准化处理，生成结构化的招标公告信息。

在本实施方式中，根据预设整理的标准证书名称、专业、等级形成的证书标准知识库，对于文本中的企业资质证书要求和人员证书要求，用正则表达式顺序抽取证书名称、专业、等级，并拼接为具体证书；对于日期信息，通过正则表达式在命名实体识别的日期实体中匹配出日期字符串，并将其转换为标准日期格式。对于金额信息，通过正则表达式在命名实体识别的金额实体中匹配出金额字符串，并将其转换为标准金额格式；对于地址信息，通过正则表达式在命名实体识别的地址实体中匹配出地址字符串，并将其转换为标准地址格式；获取证书信息、日期信息、金额信息和地址信息进行整合和汇总，生成招标公告信息提取结果。该方法可以快速、准确地提取招标公告中的关键信息，提高了信息提取的效率和准确性。

另外，在获取证书信息、日期信息、金额信息和地址信息进行整合和汇总，生成招标公告信息提取结果之前，所述方法还包括根据预设条件，对对应位置进行标识处理、前置处理和关联处理，标识投标人的重点关注项，有利于投标人快速做出决策。举例说明，A投标企业人手不够，投标完成时间有限，对投标时间较为重视，筛选时间信息，对其进行标识处理，如加粗，颜色标识、字体放大；前置处理即将其布局在生成的招标公告的靠前位置；关联处理即获取当前时间，与完成时间作差，计算出能够使用的时间，获取预设数据库内同类型招标项目处理情况，制作出一份简易的计划书，包括每一时间段所需处理事项、所需人手等，便于投标人快速准备了解招标信息，进行准确快速的决策，如放弃此次投标，寻找另一投标或快速招聘借调人员开展工作。

综上所述，请参阅图2，图2是本发明提供的一种招标公告信息提取方法的简易流程示意图；(1)输入招标公告；(2)数据预处理；(3)信息类型分类、招标类型分类、行业分类、招标方式分类和是否接受联合体投标分类；命名识别识别，识别招标项目名称、招标人信息、招标文件获取方式、投标截止日期等；(4)联合学习；(5)输出标准化招标公告。本发明的一种招标公告信息提取方法具有以下有益效果：1、提高信息提取准确性：通过自然语言处理技术对文本进行5个分类任务和命名实体识别，能够准确地提取招标公告中的关键信息，避免了人工提取信息的误差和遗漏。2、提高信息提取效率：自动化地对招标公告进行分类和命名实体识别，大大减少了人工干预的工作量，提高了信息提取的效率。3、适应不同格式和领域的招标公告：本发明能够自适应不同机构和网站发布的招标公告的不同格式和内容规范，具有很强的通用性和扩展性，适用于各种类型的招标公告。5、提供便捷服务：通过将提取出的关键信息进行整合和标准化处理，生成结构化的招标公告信息，便于招标人和投标人进行决策，提供了更加便捷的服务。本发明能够提高信息提取的准确性和效率，适应不同格式和领域的招标公告，为招标人和投标人提供了更加便捷的服务，具有广泛的应用前景和社会效益。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种招标公告信息提取方法，其特征在于，包括以下步骤：

获取原始招标公告文本进行预处理；

对预处理后的原始招标公告文本进行命名实体识别；

2.如权利要求1的所述招标公告信息提取方法，其特征在于，所述获取原始招标公告文本进行预处理，预处理步骤包括：

除HTML标签、提取正文、去除特殊字符。

3.如权利要求2的所述招标公告信息提取方法，其特征在于，所述对预处理后的原始招标公告文本进行文本任务分类，具体步骤包括：

基于最终的文本分类器进行分类。

4.如权利要求3的所述招标公告信息提取方法，其特征在于，所述对预处理后的原始招标公告文本进行命名实体识别，具体步骤包括：

对基于Longformer的中文预训练模型进行训练；

对识别出的命名实体进行后处理。

5.如权利要求4的所述招标公告信息提取方法，其特征在于，所述对识别出的命名实体进行后处理，其中，后处理步骤包括：

错误修正、实体合并。

6.如权利要求1的所述招标公告信息提取方法，其特征在于，所述将文本任务分类结果与命名实体识别结果进行结合，提取关键信息，具体步骤包括：

采用深度学习框架PyTorch，构建联合学习模型；

基于最终的联合学习模型提取关键信息。

7.如权利要求6的所述招标公告信息提取方法，其特征在于，所述将关键信息进行整合和标准化处理，生成结构化的招标公告信息，具体步骤包括：