CN116775872A - 一种文本处理方法、装置、电子设备及存储介质 - Google Patents

一种文本处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116775872A
CN116775872A CN202310728221.XA CN202310728221A CN116775872A CN 116775872 A CN116775872 A CN 116775872A CN 202310728221 A CN202310728221 A CN 202310728221A CN 116775872 A CN116775872 A CN 116775872A
Authority
CN
China
Prior art keywords
text
bidding
bid
processing
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310728221.XA
Other languages
English (en)
Inventor
肖斌
李晶伟
董平
曹玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202310728221.XA priority Critical patent/CN116775872A/zh
Publication of CN116775872A publication Critical patent/CN116775872A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种文本处理方法、装置、电子设备及存储介质,方法包括:获取招标文本数据;对第一招标文本进行预处理,得到预处理文本;对预处理文本进行文本特征提取处理,得到文本特征集合;根据文本特征集合对语言模型进行无监督训练,再结合第二招标文本对无监督训练后的语言模型进行监督学习,得到文本处理模型;获取待处理的招标文本,将待处理的招标文本输入文本处理模型进行招标文本分析处理,得到分析报告。本发明实施例通过文本处理模型对招标文本进行分析处理,能够提高招标文本处理的效率和准确率,可广泛应用于人工智能技术领域。

Description

一种文本处理方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其是一种文本处理方法、装置、电子设备及存储介质。
背景技术
在项目全生命周期中,招投标阶段是不可或缺的重要环节;在招投标阶段,采购方通常会在公共资源交易中心网站上公开发布招标公告,公告内包含对项目信息的基本说明和招标文本等。目前,对招标文本的处理主要依赖于人工,由人工识别或筛选相应的招标信息。由于每天有大量新发布的招标项目,每个项目的招标文本内包含大量的专业信息和重要的投标资质要求,因此依赖于人工的招标文本处理过程不仅造成大量人力资源的浪费,并且招标文本处理效率和准确率均较低。综合上述,相关技术中存在的技术问题亟需得到解决。
发明内容
有鉴于此,本发明实施例提供一种文本处理方法、装置、电子设备及存储介质,以提高文本处理效率和准确率。
一方面,本发明提供了一种文本处理方法,包括:
获取招标文本数据,所述招标文本数据包括第一招标文本和第二招标文本,所述第一招标文本为未进行标注处理的招标文本,所述第二招标文本为进行标注处理的招标文本;
对所述第一招标文本进行预处理,得到预处理文本;
对所述预处理文本进行文本特征提取处理,得到文本特征集合;
根据所述文本特征集合对语言模型进行无监督训练,再结合所述第二招标文本对无监督训练后的语言模型进行监督学习,得到文本处理模型;
获取待处理的招标文本,将所述待处理的招标文本输入所述文本处理模型进行招标文本分析处理,得到分析报告。
可选地,所述获取招标文本数据,包括:
通过爬虫技术对招标网站进行爬取处理,得到招标数据集合,所述招标数据集合包括多个招标数据,每个所述招标数据包括项目信息和项目文件;
根据所述项目信息对所述招标数据集合进行筛选处理,将筛选得到的招标数据对应的项目文件确定为所述招标文本数据。
可选地,所述对所述第一招标文本进行预处理,得到预处理文本,包括:
对所述第一招标文本进行分词处理,得到分词文本;
对所述分词文本进行句法和语义分析处理,得到分析结果;
根据所述分析结果对所述分词文本进行歧义分析处理,得到预处理文本。
可选地,所述对所述预处理文本进行文本特征提取处理,得到文本特征集合,包括:
对所述预处理文本进行向量映射处理,得到文本向量集合;
根据词向量库对所述文本向量集合进行相似度判断处理,得到匹配向量;
根据所述匹配向量从所述文本向量集合中提取得到文本特征集合。
可选地,所述根据所述文本特征集合对语言模型进行无监督训练的步骤,包括:
根据上下文窗口对所述文本特征集合进行划分处理,得到上下文向量和预测向量;
将所述上下文向量输入所述语言模型进行向量预测处理,得到第一预测结果;
根据所述预测向量和所述第一预测结果进行误差计算处理,并根据计算得到的误差结合第一损失函数通过随机梯度下降对所述语言模型进行训练。
可选地,所述再结合所述第二招标文本对无监督训练后的语言模型进行监督学习的步骤,包括:
获取与所述第二招标文本对应的标注参数;
将所述第二招标文本输入经过无监督训练后的所述语言模型进行标注预测处理,得到第二预测结果;
根据所述标注参数对所述第二预测结果结合所述第一损失函数和第二损失函数计算损失值,根据所述损失值对所述语言模型的参数进行微调。
可选地,所述将所述待处理的招标文本输入所述文本处理模型进行招标文本分析处理,得到分析报告,包括:
通过所述文本处理模型对所述待处理的招标文本进行语义分析处理,得到语义分析结果;
根据所述语义分析结果对所述待处理的招标文本进行文本编排处理,得到分析报告。
另一方面,本发明实施例还提供了一种文本处理装置,所述装置包括:
第一模块,用于获取待处理的招标文本;
第二模块,用于对所述第一招标文本进行预处理,得到预处理文本;
第三模块,用于对所述预处理文本进行文本特征提取处理,得到文本特征集合;
第四模块,用于根据所述文本特征集合对语言模型进行无监督训练,再结合所述第二招标文本对无监督训练后的语言模型进行监督学习,得到文本处理模型;
第五模块,用于获取待处理的招标文本,将所述待处理的招标文本输入所述文本处理模型进行招标文本分析处理,得到分析报告。
可选地,所述第一模块,用于获取招标文本数据,包括:
第一单元,用于通过爬虫技术对招标网站进行爬取处理,得到招标数据集合,所述招标数据集合包括多个招标数据,每个所述招标数据包括项目信息和项目文件;
第二单元,用于根据所述项目信息对所述招标数据集合进行筛选处理,将筛选得到的招标数据对应的项目文件确定为所述招标文本数据。
可选地,所述第二模块,用于对所述第一招标文本进行预处理,得到预处理文本,包括:
第三单元,用于对所述第一招标文本进行分词处理,得到分词文本;
第四单元,用于对所述分词文本进行句法和语义分析处理,得到分析结果;
第五单元,用于根据所述分析结果对所述分词文本进行歧义分析处理,得到预处理文本。
可选地,所述第三模块,用于对所述预处理文本进行文本特征提取处理,得到文本特征集合,包括:
第六单元,用于对所述预处理文本进行向量映射处理,得到文本向量集合;
第七单元,用于根据词向量库对所述文本向量集合进行相似度判断处理,得到匹配向量;
第八单元,用于根据所述匹配向量从所述文本向量集合中提取得到文本特征集合。
可选地,所述第四模块,用于根据所述文本特征集合对语言模型进行无监督训练,包括:
第九单元,用于根据上下文窗口对所述文本特征集合进行划分处理,得到上下文向量和预测向量;
第十单元,用于将所述上下文向量输入所述语言模型进行向量预测处理,得到第一预测结果;
第十一单元,用于根据所述预测向量和所述第一预测结果进行误差计算处理,并根据计算得到的误差结合第一损失函数通过随机梯度下降对所述语言模型进行训练。
可选地,第四模块,用于再结合所述第二招标文本对无监督训练后的语言模型进行监督学习,包括:
第十二单元,用于获取与所述第二招标文本对应的标注参数;
第十三单元,用于将所述第二招标文本输入经过无监督训练后的所述语言模型进行标注预测处理,得到第二预测结果;
第十四单元,用于根据所述标注参数对所述第二预测结果结合所述第一损失函数和第二损失函数计算损失值,根据所述损失值对所述语言模型的参数进行微调。
可选地,第五模块,用于将所述待处理的招标文本输入所述文本处理模型进行招标文本分析处理,得到分析报告,包括:
第十五单元,用于通过所述文本处理模型对所述待处理的招标文本进行语义分析处理,得到语义分析结果;
第十六单元,用于根据所述语义分析结果对所述待处理的招标文本进行文本编排处理,得到分析报告。
另一方面,本发明实施例还公开了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
另一方面,本发明实施例还公开了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
另一方面,本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明实施例对第一招标文本进行预处理得到预处理文本,对预处理文本进行文本特征提取处理得到文本特征集合,根据文本特征集合对语言模型进行无监督训练,再结合第二招标文本对无监督训练后的语言模型进行监督学习,得到文本处理模型,能够对招标文本进行结构化处理,通过语言模块筛选过滤招标文本中的重要信息输出得到分析报告,减少了人工成本,并通过文本处理模型提高对招标文本处理的效率和准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文本处理方法的流程图;
图2是图1中的步骤101的一种实现方式的流程图;
图3是图1中的步骤102的一种实现方式的流程图;
图4是图1中的步骤103的一种实现方式的流程图;
图5是本发明实施例提供的一种语言模型的结构示意图;
图6是本发明实施例提供的一种对语言模型进行微调的结构示意图;
图7是本发明实施例提供的一种对招标文本进行解析的流程图;
图8是本发明实施例提供的一种对语言模型进行预训练的流程图;
图9是本发明实施例提供的一种文本处理装置的结构示意图;
图10是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
首先,对本发明中涉及的若干名词进行解析:
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。NLP使计算机能够执行大量自然语言相关的任务,如句子结构解析、词性标注、机器翻译和对话系统等。
深度学习(Deep Learning,DL)是机器学习(Machine Learning,ML)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(ArtificialIntelligence,AI)。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。
跟随深度学习发展趋势,现在NLP研究越来越多地使用新的深度学习方法。之前数十年,用于解决NLP问题的机器学习方法一般都基于浅层模型(如SVM和logistic回归),这些模型都在非常高维和稀疏的特征(one-hot encoding)上训练得到。而近年来,基于稠密向量表征的神经网络在多种NLP任务上得到了不错结果。这一趋势取决了词嵌入和深度学习方法的成功。深度学习使多级自动特征表征学习成为可能。而基于传统机器学习的NLP系统严重依赖手动制作的特征,它们及其耗时,且通常并不完备。
相关技术中,在招投标阶段,采购方通常会在各省市的公共资源交易中心网站上公开发布招标公告,公告内包含对项目信息的基本说明和招标文本等。有投标意向的公司需要专业的员工去筛选有价值招标项目去投标,但是每天有大量新发布的招标项目,每个项目的招标文本内包含大量的专业信息和重要的投标资质要求,因此对于筛选的员工来说压力巨大,需要大量的有经验的员工才能完成。采用深度学习技术,使NLP任务从招标文本中是否能够有效学习依赖于监督学习,对于深度学习来说,需要依赖大量手工标注的数据,由于缺乏标注的数据,限制了其在招标文本分析处理的应用。
有鉴于此,本发明实施例提供一种文本处理方法,通过语言模型对招标文本进行解析,从而提取相应文本信息,生成招标文本分析报告,用于辅助对项目是否进行投标做出科学决策。本发明实施例中的文本处理方法,可应用于终端中,也可应用于服务器中,还可以是运行于终端或服务器中的软件等。终端可以是平板电脑、笔记本电脑、台式计算机等,但并不局限于此。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1,本发明实施例提供一种文本处理方法,包括:
S101、获取招标文本数据,所述招标文本数据包括第一招标文本和第二招标文本,所述第一招标文本为未进行标注处理的招标文本,所述第二招标文本为进行标注处理的招标文本;
S102、对所述第一招标文本进行预处理,得到预处理文本;
S103、对所述预处理文本进行文本特征提取处理,得到文本特征集合;
S104、根据所述文本特征集合对语言模型进行无监督训练,再结合所述第二招标文本对无监督训练后的语言模型进行监督学习,得到文本处理模型;
S105、获取待处理的招标文本,将所述待处理的招标文本输入所述文本处理模型进行招标文本分析处理,得到分析报告。
在本发明实施例中,首先获取待处理的招标文本,该待处理的招标文本为需要进行语义分析或项目分析的招标文本或招标文件或招标书,其中,招标文本是招标人利用投标者之间的竞争达到优选买主或承包方的目的,从而利用和吸收各地优势于一家的交易行为所形成的书面文件。由于招标文本包括标人须知、评标办法、合同条件及格式、工程量清单、图纸、技术标准和要求、投标文件格式和投标人须知前附表规定的其他材料等内容,阅读内容较多,需要对招标文本中的要点进行分析。接着,对获取得到的招标文本进行预处理得到预处理文本,该预处理主要是通过深度学习的方法对招标文本进行分类处理,其中,待处理的招标文本为未经过标注处理的招标文件文本,深度学习可采用fastText,TextCNN等基于深度学习的文本分类模型进行处理。然后,根据文本特征集合对语言模型进行无监督训练,再结合第二招标文本对无监督训练后的语言模型进行监督学习,得到文本处理模型。其中,语言模型可采用生成式预训练模型(Generative Pre-Trained Transformer,GPT),该GPT模型是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型。本发明实施例学习和利用深度人工神经网络,通过深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)的机器学习技术构建GPT模型并应用于自然语言处理中,实现端到端训练和表征学习使深度学习区别于传统的机器学习方法,使之成为自然语言处理的强大工具。深度学习中通常可以执行端到端的训练。GPT模型能够提供充足的可表征性,数据中的信息能够在模型中得到高效“编码”。比如,在神经机器翻译中,模型完全利用平行语料库自动构建而成,且通常不需要人工干预。与传统的统计机器翻译相比,是非常明显的优势。使用深度学习,数据可以有不同形式的表征,比如,文本和图像都可以作为真值向量被学习,这使之能够多模态执行信息处理。比如,在图像检索任务中,将查询(文本)与图像匹配并找到最相关的图像变得可行,因为所有这些都可以用向量来表征。因此,本发明实施例中语言模型采用GPT模型并应用于自然语言处理中,通过文本特征集合对语言模型进行无监督训练,再结合第二招标文本对无监督训练后的语言模型进行监督学习,得到文本处理模型。最后,获取待处理的招标文本,将待处理的招标文本输入文本处理模型进行招标文本分析处理,通过结合深度学习的自然语言处理进行文本分析得到分析报告。
参照图2,进一步作为可选的实时方式,上述步骤S101中,所述获取招标文本数据,包括:
S201、通过爬虫技术对招标网站进行爬取处理,得到招标数据集合,所述招标数据集合包括多个招标数据,每个所述招标数据包括项目信息和项目文件;
S202、根据所述项目信息对所述招标数据集合进行筛选处理,将筛选得到的招标数据对应的项目文件确定为所述招标文本数据。
在本发明实施例中,获取招标文本数据的方法为对数据进行采集的过程,可采用爬虫获取、OCR识别等多种数据采集方法获取得到相关的招标文本数据,本发明实施例提供了一种通过爬虫技术获取招标文本数据的实施例,其中,通过爬虫技术对招标网站进行爬取处理得到招标数据集合,招标网站为公共资源交易中心网站等公开发布招标公告的网站。招标数据集合包括多个招标数据,每一个招标数据都包括项目信息和项目文件,项目信息为对项目的基本说明,项目问价为对应的招标文本。由于项目信息中会对相应招标领域进行说明,可根据实际业务或招标领域结合项目信息对招标数据集合进行筛选处理,如本次需要投标的领域为金融领域,即可从招标数据集合中对项目信息为金融领域的招标数据进行筛选获取,在将筛选得到的招标数据对应的项目文件确定为招标文本数据。另外,本发明实施例在获取招标文本数据后,还需对少量招标文本数据进行标注处理,可采用标签等方式进行标注得到第二招标文本,剩余未进行标注处理的招标文本数据为第一招标文本。
需要补充说明的是,在本发明的各个具体实施方式中,当涉及到需要根据目标对象的信息、目标对象的行为数据、目标对象的历史数据以及目标对象的位置信息等与目标对象身份或特性相关的数据进行相关处理时,都会先获得目标对象的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关法律法规和标准。此外,当本发明实施例需要获取目标对象的敏感信息时,会通过弹窗或者跳转到确认页面等方式获得目标对象的单独许可或者单独同意,在明确获得目标对象的单独许可或者单独同意之后,再获取用于使本发明实施例能够正常运行的必要的目标对象相关数据。
参照图3,进一步作为可选的实施方式,上述步骤S102中,所述对所述第一招标文本进行预处理,得到预处理文本,包括:
S301、对所述第一招标文本进行分词处理,得到分词文本;
S302、对所述分词文本进行句法和语义分析处理,得到分析结果;
S303、根据所述分析结果对所述分词文本进行歧义分析处理,得到预处理文本。
在本发明实施例中,对第一招标文本进行预处理为对未标注的招标文本通过深度学习方法进行语义分析、分词等处理,具体对第一招标文本进行分词处理,使用通过理解的分词方法让计算机模拟人对句子的理解,达到识别词的效果。在分词的同时进行句法、语义分析处理得到分析结果,利用句法信息和语义信息来处理歧义现象,根据分析结果对分词文本进行歧义分析处理得到预处理文本。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即模拟了人对句子的理解过程。在一个可行的实施例中,招标文本中出现“采购预算:10000.00元,最高限价:9999.00元(★注:投标报价不得超过最高限价,否则作废标处理)”,则在预处理环节会对招标文本中的这段语句进行句法、语义分析,分析判断此语句是否合理。可以想到的是,本发明实施例还可以从中提取匹配关联到“投标报价≤9999.00”。本发明实施例通过使用深度学习的方法对第一招标文本进行预处理得到预处理文本,能够对招标文本进行语义分析,可剔除出错误信息或不相关信息,得到更精准的预处理文本。
参照图4,进一步作为可选的实施方式,上述步骤S103中,所述对所述预处理文本进行文本特征提取处理,得到文本特征集合,包括:
S401、对所述预处理文本进行向量映射处理,得到文本向量集合;
S402、根据词向量库对所述文本向量集合进行相似度判断处理,得到匹配向量;
S403、根据所述匹配向量从所述文本向量集合中提取得到文本特征集合。
在本发明实施例中,对预处理文本进行文本特征提取,首先对预处理文本进行向量映射处理,可通过大量的文本语料库对神经网络模型进行训练,将文本语料库中的每个词语映射成一个确定维度的向量。该向量的维度在几十到几百维之间,每个向量就代表着这个词语,得到文本向量集合。再根据词向量库对上述得到的文本向量集合进行相似度判断,即对文本向量集合中词语的语义和语法相似性进行判断,具体通过文本向量集合中的文本向量与词向量库中的词向量之间的相似度进行判断,相似度判断方法可采用余弦相似度、欧氏距离、曼哈顿距离等方法进行判断,最终匹配得到匹配向量,根据匹配向量从文本向量集合中提取得到文本特征集合。在一种可行的实施方式中,招标文本中出现“采购预算:10000.00元,最高限价:9999.00元(★注:投标报价不得超过最高限价,否则作废标处理)”,对该语句进行文本特征提取处理,能够通过词向量库精准提取得到:采购预算、最高限价、★、不得、超过、废标,最终得到文本特征集合。
进一步作为可选的实施方式,上述步骤S104中,所述根据所述文本特征集合对语言模型进行无监督训练的步骤,包括:
根据上下文窗口对所述文本特征集合进行划分处理,得到上下文向量和预测向量;
将所述上下文向量输入所述语言模型进行向量预测处理,得到第一预测结果;
根据所述预测向量和所述第一预测结果进行误差计算处理,并根据计算得到的误差结合第一损失函数通过随机梯度下降对所述语言模型进行训练。
在本发明实施例中,由于NLP任务从招标文本中是否能够有效学习依赖于监督学习,对于深度学习来说,需要依赖大量手工标注的数据,而缺乏标注的数据限制了自然语言处理领域的使用。在这种情况下,通过利用语言模型在未标注的招标文本进行无监督训练,再结合标注的招标文本进行监督学习,得到的文本处理模型可结合深度学习方法应用于自然语言处理领域。监督学习在自然语言训练中是一个有效的办法,再结合无监督学习,从大量未标注的招标文本中学习特征会给系统带来很大的性能提升。在未标注的招标文本上进行无监督学习即预训练,在标注的招标文本进行监督学习称为微调(fine-tune),本发明实施例中的语言模型采用GPT模型,通过在未标注的招标文本上预训练、然后在特定招标文本任务fine-tune得到文本处理模型。
本发明实施例利用未标记的第一招标文本数据通过深度神经网络(DNN)进行学习得到GPT模型的初始参数,参照图5,图5为GPT模型的结构示意图,其中间部分主要由12个Transformer Decoder的block堆叠而成。训练GPT模型的第一阶段是无监督预训练过程,训练的方法是让GPT模型预测向量,具体通过上下文窗口对文本特征集合进行划分处理,得到上下文向量和预测向量,其中,上下文窗口的大小为正整数,可根据实际情况进行设置,预测向量为GPT模型需要预测的向量。无监督预训练使用的GPT模型的目标函数是以对数求和的似然函数,该目标函数的公式如下所示:
L1(U)=∑logP(ui|ui-k,...,ui-1;Θ)
其中,k是上下文的窗口大小,条件概率p是权重参数为Θ的神经网络。
上述目标函数的目标是最大化上面的似然函数,这个式子的本质是让模型看到前面k个词,然后预测下一个词是什么,再根据真实的下一个词来计算误差,并使用随机梯度下降来训练。如,给定文本特征集合的一个序列为(u1、u2,...,un),p(ui)表示语言模型,按照语言模型的概念,即根据上下文预测ui的概率。在GPT模型中,语言模型是通过多层transformer学习得到的:
h0=UWe+Wp
式中,h0是词向量层的输出,U表示上下文向量,hl是transformer的输出,We是输入token的embeding,Wp是当前输入的位置编码,n表示层数。每一层的transformer的输入都是上一层的transformer输入,每一层都是用transformer提取特征。最后,使用softmax归一化得到语言模型pu。
具体通过将上下文向量输入所述语言模型进行向量预测处理,得到第一预测结果;根据预测向量和第一预测结果进行误差计算处理,并根据计算得到的误差结合第一损失函数通过随机梯度下降对语言模型进行训练,第一损失函数为上述目标函数L1(U)。
进一步作为可选的实施方式,上述步骤S104中,所述再结合所述第二招标文本对无监督训练后的语言模型进行监督学习的步骤,包括:
获取与所述第二招标文本对应的标注参数;
将所述第二招标文本输入经过无监督训练后的所述语言模型进行标注预测处理,得到第二预测结果;
根据所述标注参数对所述第二预测结果结合所述第一损失函数和第二损失函数计算损失值,根据所述损失值对所述语言模型的参数进行微调。
在本发明实施例中,在对语言模型完成无监督训练后,用无监督训练得到的语言模型的参数进行有监督的任务,通过数据集C,该数据集为带有经过标注处理的第二招标文本的数据集,y是标注好的数据,输入通过无监督训练后的语言模型得到最后的输出hl m,为最后一层的transformer模型输出的结果,然后把这个结果输出到全连接神经网络来预测标注好的数据。
其中,hl m是最后一层transformer的输出结果,wy是全连接神经网络的权重。
然后得到微调阶段的最大化目标函数L2(C):
L2(C)=∑x,ylogP(y|x1,...,xm)
结合预训练阶段的第一目标函数L1(C),得到最终的目标函数L3(C):
L3(C)=L2(C)+λ*L1(C)
其中,最后一层全连接神经网络的权重Wy就是微调阶段要学习的参数。
参照图6,由于预训练的语言模型是在连续的文本序列上训练的,所以需要对第二招标文本进行一些修改才能将其应用于不同的NLP任务。其中,分类任务(textclassification):给一句话或者一段文本,判断一个标签。蕴含(textual entailment):给一段话,和一个假设,看看前面这段话有没有蕴含后面的假设。相似(Similarity):判断两段文字是否相似。多选题(Multiple Choice):给个问题,从多个答案中选出正确答案。可以看出,随着任务类型的变化,就需要构造不同的输入形式,把不同的子任务统一成相同的输入形式。但是,不变的是Transformer模型的结构。所有转换都包括添加随机初始化的开始(Start)和结束(Extract)tokens,有的包括分隔符Delimiter tokens(Delim)。
进一步作为可选的实施方式,上述步骤S105中,所述将所述待处理的招标文本输入所述文本处理模型进行招标文本分析处理,得到分析报告,包括:
通过所述文本处理模型对所述待处理的招标文本进行语义分析处理,得到语义分析结果;
根据所述语义分析结果对所述待处理的招标文本进行文本编排处理,得到分析报告。
在本发明实施例中,通过文本处理模型对待处理的招标文本进行语义判断和解读,根据语义分析结果对文本进行编排,分析得出报告。一种可行的实施例中,招标文本中出现“采购预算:10000.00元,最高限价:9999.00元(★注:投标报价不得超过最高限价,否则作废标处理)”,通过输入文本处理模型分析,能够分析得到“投标报价≤9999.00”这一关键词语。本发明实施例通过文本处理模型对招标文本中的内容进行分析,提取关键内容,并对关键内容进行组合编排等方式形成分析报告。可以想到的是,本发明实施例中的分析报告还可以包括图表等分析结果。
参照图7,本发明实施例中一种文本处理方法应用于招标文本的分析处理,对招标文本进行解析的流程为:通过招标文件解析系统对未标注的招标文件文本进行解析,该招标文件解析系统用于对未标注的招标文件文本进行预处理、特征提取等处理,然后将系统处理后的数据输入基于NLP深度学习的GPT模型进行无监督训练。参照图8,本发明实施例通过基于深度学习的NLP技术对招标文本进行解析,从而提取相应文本信息,生成招标文本分析报告,对项目是否进行投标做出科学决策,其实现流程为对训练集进行特征工程处理,特征工程处理包括文本预处理、特征提取、文本表示,再将特征工程处理后的数据输入分类器进行预训练。再通过已标注的招标文件文本对GTP模型进行优化微调,得到文本处理模型。该文本处理模型能够确定标准词向量,学习或提取招标文件中关键信息,从而输出招标文件分析报告。
参照图9,本发明实施例还提供了一种文本处理装置,所述装置包括:
第一模块901,用于获取待处理的招标文本;
第二模块902,用于对所述第一招标文本进行预处理,得到预处理文本;
第三模块903,用于对所述预处理文本进行文本特征提取处理,得到文本特征集合;
第四模块904,用于根据所述文本特征集合对语言模型进行无监督训练,再结合所述第二招标文本对无监督训练后的语言模型进行监督学习,得到文本处理模型;
第五模块905,用于获取待处理的招标文本,将所述待处理的招标文本输入所述文本处理模型进行招标文本分析处理,得到分析报告。
可以理解的是,上述文本处理方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述文本处理方法实施例相同,并且达到的有益效果与上述文本处理方法实施例所达到的有益效果也相同。
参照图10,本发明实施例还提供了一种电子设备,包括处理器1002以及存储器1001;所述存储器用于存储程序;所述处理器执行所述程序实现如前面所述的方法。
同理,上述文本处理方法实施例中的内容均适用于本电子设备实施例中,本电子设备实施例所具体实现的功能与上述文本处理方法实施例相同,并且达到的有益效果与上述文本处理方法实施例所达到的有益效果也相同。
与图1的方法相对应,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
同理,上述文本处理方法实施例中的内容均适用于本计算机可读存储介质实施例中,本计算机可读存储介质实施例所具体实现的功能与上述文本处理方法实施例相同,并且达到的有益效果与上述文本处理方法实施例所达到的有益效果也相同。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
同理,上述文本处理方法实施例中的内容均适用于本计算机程序产品或计算机程序实施例中,本计算机程序产品或计算机程序实施例所具体实现的功能与上述文本处理方法实施例相同,并且达到的有益效果与上述文本处理方法实施例所达到的有益效果也相同。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims (10)

1.一种文本处理方法,其特征在于,所述方法包括:
获取招标文本数据,所述招标文本数据包括第一招标文本和第二招标文本,所述第一招标文本为未进行标注处理的招标文本,所述第二招标文本为进行标注处理的招标文本;
对所述第一招标文本进行预处理,得到预处理文本;
对所述预处理文本进行文本特征提取处理,得到文本特征集合;
根据所述文本特征集合对语言模型进行无监督训练,再结合所述第二招标文本对无监督训练后的语言模型进行监督学习,得到文本处理模型;
获取待处理的招标文本,将所述待处理的招标文本输入所述文本处理模型进行招标文本分析处理,得到分析报告。
2.根据权利要求1所述的方法,其特征在于,所述获取招标文本数据,包括:
通过爬虫技术对招标网站进行爬取处理,得到招标数据集合,所述招标数据集合包括多个招标数据,每个所述招标数据包括项目信息和项目文件;
根据所述项目信息对所述招标数据集合进行筛选处理,将筛选得到的招标数据对应的项目文件确定为所述招标文本数据。
3.根据权利要求1所述的方法,其特征在于,所述对所述第一招标文本进行预处理,得到预处理文本,包括:
对所述第一招标文本进行分词处理,得到分词文本;
对所述分词文本进行句法和语义分析处理,得到分析结果;
根据所述分析结果对所述分词文本进行歧义分析处理,得到预处理文本。
4.根据权利要求1所述的方法,其特征在于,所述对所述预处理文本进行文本特征提取处理,得到文本特征集合,包括:
对所述预处理文本进行向量映射处理,得到文本向量集合;
根据词向量库对所述文本向量集合进行相似度判断处理,得到匹配向量;
根据所述匹配向量从所述文本向量集合中提取得到文本特征集合。
5.根据权利要求1所述的方法,其特征在于,所述根据所述文本特征集合对语言模型进行无监督训练的步骤,包括:
根据上下文窗口对所述文本特征集合进行划分处理,得到上下文向量和预测向量;
将所述上下文向量输入所述语言模型进行向量预测处理,得到第一预测结果;
根据所述预测向量和所述第一预测结果进行误差计算处理,并根据计算得到的误差结合第一损失函数通过随机梯度下降对所述语言模型进行训练。
6.根据权利要求5所述的方法,其特征在于,所述再结合所述第二招标文本对无监督训练后的语言模型进行监督学习的步骤,包括:
获取与所述第二招标文本对应的标注参数;
将所述第二招标文本输入经过无监督训练后的所述语言模型进行标注预测处理,得到第二预测结果;
根据所述标注参数对所述第二预测结果结合所述第一损失函数和第二损失函数计算损失值,根据所述损失值对所述语言模型的参数进行微调。
7.根据权利要求1所述的方法,其特征在于,所述将所述待处理的招标文本输入所述文本处理模型进行招标文本分析处理,得到分析报告,包括:
通过所述文本处理模型对所述待处理的招标文本进行语义分析处理,得到语义分析结果;
根据所述语义分析结果对所述待处理的招标文本进行文本编排处理,得到分析报告。
8.一种文本处理装置,其特征在于,所述装置包括:
第一模块,用于招标文本数据,所述招标文本数据包括第一招标文本和第二招标文本,所述第一招标文本为未进行标注处理的招标文本,所述第二招标文本为进行标注处理的招标文本;
第二模块,用于对所述第一招标文本进行预处理,得到预处理文本;
第三模块,用于对所述预处理文本进行文本特征提取处理,得到文本特征集合;
第四模块,用于根据所述文本特征集合对语言模型进行无监督训练,再结合所述第二招标文本对无监督训练后的语言模型进行监督学习,得到文本处理模型;
第五模块,用于获取待处理的招标文本,将所述待处理的招标文本输入所述文本处理模型进行招标文本分析处理,得到分析报告。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器;
所述存储器用于存储程序;
所述处理器执行所述程序实现权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。
CN202310728221.XA 2023-06-19 2023-06-19 一种文本处理方法、装置、电子设备及存储介质 Pending CN116775872A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310728221.XA CN116775872A (zh) 2023-06-19 2023-06-19 一种文本处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310728221.XA CN116775872A (zh) 2023-06-19 2023-06-19 一种文本处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116775872A true CN116775872A (zh) 2023-09-19

Family

ID=87994238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310728221.XA Pending CN116775872A (zh) 2023-06-19 2023-06-19 一种文本处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116775872A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117251559A (zh) * 2023-09-20 2023-12-19 广东筑小宝人工智能科技有限公司 基于自然语言大模型的工程标准规范获取方法及系统
CN117332180A (zh) * 2023-12-01 2024-01-02 浙商期货有限公司 基于大语言模型的研报智能写作方法、设备和存储介质
CN117453903A (zh) * 2023-12-22 2024-01-26 深圳市智慧城市科技发展集团有限公司 信息推送方法、终端设备及可读存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117251559A (zh) * 2023-09-20 2023-12-19 广东筑小宝人工智能科技有限公司 基于自然语言大模型的工程标准规范获取方法及系统
CN117251559B (zh) * 2023-09-20 2024-04-26 广东筑小宝人工智能科技有限公司 基于自然语言大模型的工程标准规范获取方法及系统
CN117332180A (zh) * 2023-12-01 2024-01-02 浙商期货有限公司 基于大语言模型的研报智能写作方法、设备和存储介质
CN117332180B (zh) * 2023-12-01 2024-03-12 浙商期货有限公司 基于大语言模型的研报智能写作方法、设备和存储介质
CN117453903A (zh) * 2023-12-22 2024-01-26 深圳市智慧城市科技发展集团有限公司 信息推送方法、终端设备及可读存储介质
CN117453903B (zh) * 2023-12-22 2024-04-12 深圳市智慧城市科技发展集团有限公司 信息推送方法、终端设备及可读存储介质

Similar Documents

Publication Publication Date Title
Chen et al. Ensemble application of convolutional and recurrent neural networks for multi-label text categorization
CN112084337B (zh) 文本分类模型的训练方法、文本分类方法及设备
US11436487B2 (en) Joint embedding of corpus pairs for domain mapping
Lopez et al. Deep Learning applied to NLP
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
Collobert et al. A unified architecture for natural language processing: Deep neural networks with multitask learning
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
US10657189B2 (en) Joint embedding of corpus pairs for domain mapping
CN112818093B (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN116775872A (zh) 一种文本处理方法、装置、电子设备及存储介质
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN110457585B (zh) 负面文本的推送方法、装置、系统及计算机设备
CN113065358B (zh) 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法
CN110866542A (zh) 一种基于特征可控融合的深度表示学习方法
CN112101031B (zh) 一种实体识别方法、终端设备及存储介质
CN110188195A (zh) 一种基于深度学习的文本意图识别方法、装置及设备
US10642919B2 (en) Joint embedding of corpus pairs for domain mapping
CN114547315A (zh) 一种案件分类预测方法、装置、计算机设备及存储介质
CN116975199A (zh) 一种文本预测方法、装置、设备和存储介质
Kiyak et al. Comparison of image-based and text-based source code classification using deep learning
Parvin et al. Transformer-based local-global guidance for image captioning
Xue et al. Intent-enhanced attentive Bert capsule network for zero-shot intention detection
CN116595979A (zh) 一种基于标签提示的命名实体识别方法、装置及介质
CN116663539A (zh) 基于RoBERTa和指针网络的中文实体与关系联合抽取方法及系统
Ma et al. Mscoa: Multi-step co-attention model for multi-label classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination