CN116244438A - 基于深度学习bert模型的招投标文本数据分类方法、系统、存储介质及计算机设备 - Google Patents
基于深度学习bert模型的招投标文本数据分类方法、系统、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN116244438A CN116244438A CN202310202970.9A CN202310202970A CN116244438A CN 116244438 A CN116244438 A CN 116244438A CN 202310202970 A CN202310202970 A CN 202310202970A CN 116244438 A CN116244438 A CN 116244438A
- Authority
- CN
- China
- Prior art keywords
- text data
- bidding
- model
- data classification
- bidding text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0611—Request for offers or quotes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Finance (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Accounting & Taxation (AREA)
- General Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及文本数据分类领域,具体涉及一种基于深度学习BERT模型的招投标文本数据分类方法,包括如下步骤:步骤S1,采集招投标文本数据,对所采集数据进行预处理;步骤S2,根据预处理后的招投标文本数据,利用BERT模型提取文本特征,并利用Transformer作为特征提取器,考虑上下文信息,提取文本特征的语义信息;步骤S3,根据文本特征的语义信息,搭建招投标文本数据分类模型;步骤S4,根据预处理后的招投标文本数据设置训练集及测试集,对招投标文本数据分类模型进行训练,并利用测试集对训练模型进行测试;步骤S5,获取待分类的招投标文本数据,利用训练完成的招投标文本数据分类模型对待分类的招投标文本数据进行类别划分,得到分类结果。
Description
技术领域
本发明涉及文本数据分类领域,具体涉及一种基于深度学习BERT模型的招投标文本数据分类方法、系统、存储介质及计算机设备。
背景技术
在投标端竞争端越来越大的市场环境,如果能够智能监测招投标市场、大数据分析对手以及挖掘商机等,便可以使投标端更加及时地发现投标商机,从而使投标端的投标中标率得到提升。而这些场景都需要对从各个平台获取的招标公告信息、中标公告信息进行结构化,以及从招标公告提取招标人、控制价、项目编号等,从中标公告中提取中标人、中标价、项目经理、项目经理编号、项目编号等。
互联网数据大多以文本形式进行展示,企业进行投标时,需要从大量格式不一的投标信息资源中人工筛选可投标的投标文档,无法及时准确获取项目重点信息及分类,进而需要耗费大量的人力成本和时间成本,因此,针对以上问题,本发明提供一种基于深度学习BERT模型的招投标文本数据分类方法及模型。
发明内容
本发明的目的在于提供一种基于深度学习BERT模型的招投标文本数据分类方法、系统、存储介质及计算机设备,解决现有技术中,人工从互联网上大量格式不一的招投标数据中筛选出可投标的投标文档效率低下的问题。
为解决上述的技术问题,本发明采用的第一种技术方案为:
一种基于深度学习BERT模型的招投标文本数据分类方法,包括如下步骤:步骤S1,采集招投标文本数据,对所采集数据进行预处理;步骤S2,根据预处理后的招投标文本数据,利用BERT模型提取文本特征,并利用Transformer作为特征提取器,考虑上下文信息,提取文本特征的语义信息;步骤S3, 根据文本特征的语义信息,搭建招投标文本数据分类模型;步骤S4, 根据预处理后的招投标文本数据设置训练集及测试集,对招投标文本数据分类模型进行训练,并利用测试集对训练模型进行测试;步骤S5, 获取待分类的招投标文本数据,利用训练完成的招投标文本数据分类模型对待分类的招投标文本数据进行类别划分,得到分类结果。
本发明采用的第二种技术方案为:
一种基于深度学习BERT模型的招投标文本数据分类系统,包括预处理模块、文本特征处理模块、模型搭建模块、模型训练模块以及招投标文本数据分类模块;预处理模块用于采集招投标文本数据,对招投标文本数据进行预处理;文本特征处理模块用于根据预处理后的招投标文本数据,利用BERT模型提取文本特征,并利用Transformer Encoder作为特征提取器,提取文本特征的语义信息;模型搭建模块用于根据文本特征的语义信息,考虑上下文信息,搭建招投标文本数据分类模型;模型训练模块用于根据预处理后的招投标文本数据设置训练集及测试集,对招投标文本数据分类模型进行训练,并利用测试集对训练模型进行测试;招投标文本数据分类模块用于获取待分类的招投标文本数据,利用训练完成的招投标文本数据分类模型对待分类的招投标文本数据进行类别划分,得到分类结果。
本发明采用的第三种技术方案为:
一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如权利要求1的基于深度学习BERT模型的招投标文本数据分类方法。
本发明采用的第四种技术方案为:
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行时实现如权利要求1的基于深度学习BERT模型的招投标文本数据分类方法。
与现有技术相比,本发明的有益效果是:通过BERT模型提取文本特征,利用Transformer特征提取器提取文本特征的语义信息,充分考虑了每个特征上下文信息,用法简单和使用便捷,具有提高信息利用率和分析效率、节约时间成本和人力成本、改善招投标文本数据分类模型性能,提高招投标文本数据分类准确率的有益效果。本发明利用人工智能技术对招投标历史招投标信息标题和中标通知标题进行处理,通过提取标题文本中信息,对其进行加工后进行招投标类型分类,大大提高了分类处理效率。
附图说明
图1为本发明一种基于深度学习BERT模型的招投标文本数据分类方法的原理图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1:
如图1所示,一种基于深度学习BERT模型的招投标文本数据分类方法,包括如下步骤:步骤S1,采集招投标文本数据,对所采集数据进行预处理;步骤S2,根据预处理后的招投标文本数据,利用BERT模型提取文本特征,并利用Transformer作为特征提取器,考虑上下文信息,提取文本特征的语义信息;步骤S3, 根据文本特征的语义信息,搭建招投标文本数据分类模型;步骤S4, 根据预处理后的招投标文本数据设置训练集及测试集,对招投标文本数据分类模型进行训练,并利用测试集对训练模型进行测试;步骤S5, 获取待分类的招投标文本数据,利用训练完成的招投标文本数据分类模型对待分类的招投标文本数据进行类别划分,得到分类结果。通过BERT模型提取文本特征,利用Transformer特征提取器提取文本特征的语义信息,充分考虑了每个特征上下文信息,用法简单和使用便捷,具有提高信息利用率和分析效率、节约时间成本和人力成本、改善招投标文本数据分类模型性能,提高招投标文本数据分类准确率的有益效果。本发明利用人工智能技术对招投标历史招投标信息标题和中标通知标题进行处理,通过提取标题文本中信息,对其进行加工后进行招投标类型分类,大大提高了分类处理效率。BERT的全称是Bidirectional EncoderRepresentation from Transformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上,即用了Masked LM和NextSentence Prediction两种方法分别捕捉词语和句子级别的representation。trasnformer可以说是完全基于自注意力机制的一个深度学习模型,因为它适用于并行化计算,和它本身模型的复杂程度导致它在精度和性能上都要高于之前流行的RNN循环神经网络。
实施例2:
一种基于深度学习BERT模型的招投标文本数据分类系统,包括预处理模块、文本特征处理模块、模型搭建模块、模型训练模块以及招投标文本数据分类模块;预处理模块用于采集招投标文本数据,对招投标文本数据进行预处理;文本特征处理模块用于根据预处理后的招投标文本数据,利用BERT模型提取文本特征,并利用TransformerEncoder作为特征提取器,提取文本特征的语义信息;模型搭建模块用于根据文本特征的语义信息,考虑上下文信息,搭建招投标文本数据分类模型;模型训练模块用于根据预处理后的招投标文本数据设置训练集及测试集,对招投标文本数据分类模型进行训练,并利用测试集对训练模型进行测试;招投标文本数据分类模块用于获取待分类的招投标文本数据,利用训练完成的招投标文本数据分类模型对待分类的招投标文本数据进行类别划分,得到分类结果。
实施例3:
一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如权利要求1的基于深度学习BERT模型的招投标文本数据分类方法。
实施例4:
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行时实现如权利要求1的基于深度学习BERT模型的招投标文本数据分类方法。
尽管这里参照本发明的多个解释性实施例对本发明进行了描述,但是,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。更具体地说,在本申请公开、附图和权利要求的范围内,可以对主题组合布局的组成部件和/或布局进行多种变型和改进。除了对组成部件和/或布局进行的变形和改进外,对于本领域技术人员来说,其他的用途也将是明显的。
Claims (4)
1.一种基于深度学习BERT模型的招投标文本数据分类方法,其特征在于,包括如下步骤:
步骤S1,采集招投标文本数据,对所采集数据进行预处理;
步骤S2,根据预处理后的招投标文本数据,利用BERT模型提取文本特征,并利用Transformer作为特征提取器,考虑上下文信息,提取文本特征的语义信息;
步骤S3, 根据文本特征的语义信息,搭建招投标文本数据分类模型;
步骤S4, 根据预处理后的招投标文本数据设置训练集及测试集,对招投标文本数据分类模型进行训练,并利用测试集对训练模型进行测试;
步骤S5, 获取待分类的招投标文本数据,利用训练完成的招投标文本数据分类模型对待分类的招投标文本数据进行类别划分,得到分类结果。
2.一种基于深度学习BERT模型的招投标文本数据分类系统,其特征在于,包括预处理模块、文本特征处理模块、模型搭建模块、模型训练模块以及招投标文本数据分类模块;
所述预处理模块用于采集招投标文本数据,对所述招投标文本数据进行预处理;
所述文本特征处理模块用于根据预处理后的招投标文本数据,利用BERT模型提取文本特征,并利用Transformer Encoder作为特征提取器,提取文本特征的语义信息;
所述模型搭建模块用于根据文本特征的语义信息,考虑上下文信息,搭建招投标文本数据分类模型;
所述模型训练模块用于根据预处理后的招投标文本数据设置训练集及测试集,对招投标文本数据分类模型进行训练,并利用测试集对训练模型进行测试;
所述招投标文本数据分类模块用于获取待分类的招投标文本数据,利用训练完成的招投标文本数据分类模型对待分类的招投标文本数据进行类别划分,得到分类结果。
3.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1所述的基于深度学习BERT模型的招投标文本数据分类方法。
4.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如权利要求1所述的基于深度学习BERT模型的招投标文本数据分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310202970.9A CN116244438A (zh) | 2023-03-06 | 2023-03-06 | 基于深度学习bert模型的招投标文本数据分类方法、系统、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310202970.9A CN116244438A (zh) | 2023-03-06 | 2023-03-06 | 基于深度学习bert模型的招投标文本数据分类方法、系统、存储介质及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116244438A true CN116244438A (zh) | 2023-06-09 |
Family
ID=86632881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310202970.9A Pending CN116244438A (zh) | 2023-03-06 | 2023-03-06 | 基于深度学习bert模型的招投标文本数据分类方法、系统、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116244438A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118446271A (zh) * | 2024-07-10 | 2024-08-06 | 中建五局第三建设(深圳)有限公司 | 围标检测模型的训练方法、预测方法、装置、设备及介质 |
-
2023
- 2023-03-06 CN CN202310202970.9A patent/CN116244438A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118446271A (zh) * | 2024-07-10 | 2024-08-06 | 中建五局第三建设(深圳)有限公司 | 围标检测模型的训练方法、预测方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109960810B (zh) | 一种实体对齐方法及装置 | |
US20230052903A1 (en) | System and method for multi-task lifelong learning on personal device with improved user experience | |
CN110598620B (zh) | 基于深度神经网络模型的推荐方法和装置 | |
CN113836925B (zh) | 预训练语言模型的训练方法、装置、电子设备及存储介质 | |
EP3916584A1 (en) | Information processing method and apparatus, electronic device and storage medium | |
CN110705255B (zh) | 检测语句之间的关联关系的方法和装置 | |
CN104881458A (zh) | 一种网页主题的标注方法和装置 | |
CN116862243B (zh) | 一种基于神经网络的企业风险分析预测方法、系统及介质 | |
CN111144079A (zh) | 一种智能获取学习资源的方法、装置、打印机和存储介质 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN113704420A (zh) | 文本中的角色识别方法、装置、电子设备及存储介质 | |
CN116244438A (zh) | 基于深度学习bert模型的招投标文本数据分类方法、系统、存储介质及计算机设备 | |
CN116881395A (zh) | 一种舆情信息检测方法和装置 | |
CN114970540A (zh) | 训练文本审核模型的方法和装置 | |
CN111160959A (zh) | 一种用户点击转化预估方法及装置 | |
CN114385694A (zh) | 一种数据加工处理方法、装置、计算机设备及存储介质 | |
CN113033536A (zh) | 工作笔记生成方法及装置 | |
CN109726938B (zh) | 一种基于深度学习的学生思政状况预警方法 | |
WO2024098282A1 (zh) | 一种几何解题方法、装置、设备及存储介质 | |
CN116225848A (zh) | 日志监测方法、装置、设备和介质 | |
CN114492310B (zh) | 文本标注方法、文本标注装置、电子设备和存储介质 | |
CN116092101A (zh) | 训练方法、图像识别方法、装置、设备及可读存储介质 | |
US11762939B2 (en) | Measure GUI response time | |
KR20230059364A (ko) | 언어 모델을 이용한 여론조사 시스템 및 운영 방법 | |
CN114331740A (zh) | 产业图谱大数据分析及扫描的数字化投资价值管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |