CN116244438A

CN116244438A - 基于深度学习bert模型的招投标文本数据分类方法、系统、存储介质及计算机设备

Info

Publication number: CN116244438A
Application number: CN202310202970.9A
Authority: CN
Inventors: 王丽娜; 高海涛
Original assignee: Inner Mongolia Blue Ocean Digital Intelligence Information Consulting Co ltd
Current assignee: Inner Mongolia Blue Ocean Digital Intelligence Information Consulting Co ltd
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-06-09

Abstract

本发明涉及文本数据分类领域，具体涉及一种基于深度学习BERT模型的招投标文本数据分类方法，包括如下步骤：步骤S1，采集招投标文本数据，对所采集数据进行预处理；步骤S2，根据预处理后的招投标文本数据，利用BERT模型提取文本特征，并利用Transformer作为特征提取器，考虑上下文信息，提取文本特征的语义信息；步骤S3,根据文本特征的语义信息，搭建招投标文本数据分类模型；步骤S4,根据预处理后的招投标文本数据设置训练集及测试集，对招投标文本数据分类模型进行训练，并利用测试集对训练模型进行测试；步骤S5,获取待分类的招投标文本数据，利用训练完成的招投标文本数据分类模型对待分类的招投标文本数据进行类别划分，得到分类结果。

Description

基于深度学习BERT模型的招投标文本数据分类方法、系统、存储介质及计算机设备

技术领域

本发明涉及文本数据分类领域，具体涉及一种基于深度学习BERT模型的招投标文本数据分类方法、系统、存储介质及计算机设备。

背景技术

在投标端竞争端越来越大的市场环境，如果能够智能监测招投标市场、大数据分析对手以及挖掘商机等，便可以使投标端更加及时地发现投标商机，从而使投标端的投标中标率得到提升。而这些场景都需要对从各个平台获取的招标公告信息、中标公告信息进行结构化，以及从招标公告提取招标人、控制价、项目编号等，从中标公告中提取中标人、中标价、项目经理、项目经理编号、项目编号等。

互联网数据大多以文本形式进行展示，企业进行投标时，需要从大量格式不一的投标信息资源中人工筛选可投标的投标文档，无法及时准确获取项目重点信息及分类，进而需要耗费大量的人力成本和时间成本，因此，针对以上问题，本发明提供一种基于深度学习BERT模型的招投标文本数据分类方法及模型。

发明内容

本发明的目的在于提供一种基于深度学习BERT模型的招投标文本数据分类方法、系统、存储介质及计算机设备，解决现有技术中，人工从互联网上大量格式不一的招投标数据中筛选出可投标的投标文档效率低下的问题。

为解决上述的技术问题，本发明采用的第一种技术方案为：

一种基于深度学习BERT模型的招投标文本数据分类方法，包括如下步骤：步骤S1，采集招投标文本数据，对所采集数据进行预处理；步骤S2，根据预处理后的招投标文本数据，利用BERT模型提取文本特征，并利用Transformer作为特征提取器，考虑上下文信息，提取文本特征的语义信息；步骤S3, 根据文本特征的语义信息，搭建招投标文本数据分类模型；步骤S4, 根据预处理后的招投标文本数据设置训练集及测试集，对招投标文本数据分类模型进行训练，并利用测试集对训练模型进行测试；步骤S5, 获取待分类的招投标文本数据，利用训练完成的招投标文本数据分类模型对待分类的招投标文本数据进行类别划分，得到分类结果。

本发明采用的第二种技术方案为：

一种基于深度学习BERT模型的招投标文本数据分类系统，包括预处理模块、文本特征处理模块、模型搭建模块、模型训练模块以及招投标文本数据分类模块；预处理模块用于采集招投标文本数据，对招投标文本数据进行预处理；文本特征处理模块用于根据预处理后的招投标文本数据，利用BERT模型提取文本特征，并利用Transformer Encoder作为特征提取器，提取文本特征的语义信息；模型搭建模块用于根据文本特征的语义信息，考虑上下文信息，搭建招投标文本数据分类模型；模型训练模块用于根据预处理后的招投标文本数据设置训练集及测试集，对招投标文本数据分类模型进行训练，并利用测试集对训练模型进行测试；招投标文本数据分类模块用于获取待分类的招投标文本数据，利用训练完成的招投标文本数据分类模型对待分类的招投标文本数据进行类别划分，得到分类结果。

本发明采用的第三种技术方案为：

一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如权利要求1的基于深度学习BERT模型的招投标文本数据分类方法。

本发明采用的第四种技术方案为：

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行时实现如权利要求1的基于深度学习BERT模型的招投标文本数据分类方法。

与现有技术相比，本发明的有益效果是：通过BERT模型提取文本特征，利用Transformer特征提取器提取文本特征的语义信息，充分考虑了每个特征上下文信息，用法简单和使用便捷，具有提高信息利用率和分析效率、节约时间成本和人力成本、改善招投标文本数据分类模型性能，提高招投标文本数据分类准确率的有益效果。本发明利用人工智能技术对招投标历史招投标信息标题和中标通知标题进行处理，通过提取标题文本中信息，对其进行加工后进行招投标类型分类，大大提高了分类处理效率。

附图说明

图1为本发明一种基于深度学习BERT模型的招投标文本数据分类方法的原理图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1：

如图1所示，一种基于深度学习BERT模型的招投标文本数据分类方法，包括如下步骤：步骤S1，采集招投标文本数据，对所采集数据进行预处理；步骤S2，根据预处理后的招投标文本数据，利用BERT模型提取文本特征，并利用Transformer作为特征提取器，考虑上下文信息，提取文本特征的语义信息；步骤S3, 根据文本特征的语义信息，搭建招投标文本数据分类模型；步骤S4, 根据预处理后的招投标文本数据设置训练集及测试集，对招投标文本数据分类模型进行训练，并利用测试集对训练模型进行测试；步骤S5, 获取待分类的招投标文本数据，利用训练完成的招投标文本数据分类模型对待分类的招投标文本数据进行类别划分，得到分类结果。通过BERT模型提取文本特征，利用Transformer特征提取器提取文本特征的语义信息，充分考虑了每个特征上下文信息，用法简单和使用便捷，具有提高信息利用率和分析效率、节约时间成本和人力成本、改善招投标文本数据分类模型性能，提高招投标文本数据分类准确率的有益效果。本发明利用人工智能技术对招投标历史招投标信息标题和中标通知标题进行处理，通过提取标题文本中信息，对其进行加工后进行招投标类型分类，大大提高了分类处理效率。BERT的全称是Bidirectional EncoderRepresentation from Transformers，即双向Transformer的Encoder，因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上，即用了Masked LM和NextSentence Prediction两种方法分别捕捉词语和句子级别的representation。trasnformer可以说是完全基于自注意力机制的一个深度学习模型，因为它适用于并行化计算，和它本身模型的复杂程度导致它在精度和性能上都要高于之前流行的RNN循环神经网络。

实施例2：

一种基于深度学习BERT模型的招投标文本数据分类系统，包括预处理模块、文本特征处理模块、模型搭建模块、模型训练模块以及招投标文本数据分类模块；预处理模块用于采集招投标文本数据，对招投标文本数据进行预处理；文本特征处理模块用于根据预处理后的招投标文本数据，利用BERT模型提取文本特征，并利用TransformerEncoder作为特征提取器，提取文本特征的语义信息；模型搭建模块用于根据文本特征的语义信息，考虑上下文信息，搭建招投标文本数据分类模型；模型训练模块用于根据预处理后的招投标文本数据设置训练集及测试集，对招投标文本数据分类模型进行训练，并利用测试集对训练模型进行测试；招投标文本数据分类模块用于获取待分类的招投标文本数据，利用训练完成的招投标文本数据分类模型对待分类的招投标文本数据进行类别划分，得到分类结果。

实施例3：

实施例4：

尽管这里参照本发明的多个解释性实施例对本发明进行了描述，但是，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。更具体地说，在本申请公开、附图和权利要求的范围内，可以对主题组合布局的组成部件和/或布局进行多种变型和改进。除了对组成部件和/或布局进行的变形和改进外，对于本领域技术人员来说，其他的用途也将是明显的。

Claims

1.一种基于深度学习BERT模型的招投标文本数据分类方法，其特征在于，包括如下步骤：

步骤S1，采集招投标文本数据，对所采集数据进行预处理；

步骤S2，根据预处理后的招投标文本数据，利用BERT模型提取文本特征，并利用Transformer作为特征提取器，考虑上下文信息，提取文本特征的语义信息；

步骤S3, 根据文本特征的语义信息，搭建招投标文本数据分类模型；

步骤S4, 根据预处理后的招投标文本数据设置训练集及测试集，对招投标文本数据分类模型进行训练，并利用测试集对训练模型进行测试；

步骤S5, 获取待分类的招投标文本数据，利用训练完成的招投标文本数据分类模型对待分类的招投标文本数据进行类别划分，得到分类结果。

2.一种基于深度学习BERT模型的招投标文本数据分类系统，其特征在于，包括预处理模块、文本特征处理模块、模型搭建模块、模型训练模块以及招投标文本数据分类模块；

所述预处理模块用于采集招投标文本数据，对所述招投标文本数据进行预处理；

所述文本特征处理模块用于根据预处理后的招投标文本数据，利用BERT模型提取文本特征，并利用Transformer Encoder作为特征提取器，提取文本特征的语义信息；

所述模型搭建模块用于根据文本特征的语义信息，考虑上下文信息，搭建招投标文本数据分类模型；

所述模型训练模块用于根据预处理后的招投标文本数据设置训练集及测试集，对招投标文本数据分类模型进行训练，并利用测试集对训练模型进行测试；

所述招投标文本数据分类模块用于获取待分类的招投标文本数据，利用训练完成的招投标文本数据分类模型对待分类的招投标文本数据进行类别划分，得到分类结果。

3.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1所述的基于深度学习BERT模型的招投标文本数据分类方法。

4.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现如权利要求1所述的基于深度学习BERT模型的招投标文本数据分类方法。