CN113515629A - 一种文档分类方法、装置、计算机设备及存储介质 - Google Patents

一种文档分类方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113515629A
CN113515629A CN202110614052.8A CN202110614052A CN113515629A CN 113515629 A CN113515629 A CN 113515629A CN 202110614052 A CN202110614052 A CN 202110614052A CN 113515629 A CN113515629 A CN 113515629A
Authority
CN
China
Prior art keywords
classification
document
feature vector
bidding
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110614052.8A
Other languages
English (en)
Inventor
严蕾
苏晓辉
任泽
沈志远
李维盈
陈建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Shenhua International Engineering Co ltd
Original Assignee
China Shenhua International Engineering Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Shenhua International Engineering Co ltd filed Critical China Shenhua International Engineering Co ltd
Priority to CN202110614052.8A priority Critical patent/CN113515629A/zh
Publication of CN113515629A publication Critical patent/CN113515629A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文档分类方法、装置、计算机设备及存储介质,涉及计算机及招标技术领域,该文档分类方法包括:获取待分类的目标招标文档;基于目标招标文档的文本内容提取分类特征向量;所述分类特征向量至少包括所述目标招标文档的标的物及分类信息;所述分类特征向量输入预先建立的文档分类模型,得到针对所述目标招标文档的分类结果;所述文档分类模型是以历史招标文档为训练数据、利用XGBoost算法对所述训练数据进行机器学习、并建立分类特征向量与分类结果之间的映射关系的分类器。可见,本发明实现了招标业务的自动高效管理,无需工作人员进行复杂操作,使得招标业务更加智能化和电子化,在提高效率的同时还降低了人力成本。

Description

一种文档分类方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机及招标技术领域,特别涉及一种文档分类方法、装置、计算机设备及存储介质。
背景技术
现有的文档归档应用中,利用计算机对自然语言进行分类的技术已经涉及多个行业,然而,对于招标业务领域而言,由于招标业务数据繁多,使得工作人员难以实现对招标文档的高效管理,因此,有必要提出一种适用于招标业务领域的文档分类方案,以实现招标业务自动高效的管理,使得招标业务更加智能化、电子化。
发明内容
本发明要解决的技术问题是:提出一种适用于招标业务领域的文档分类方案,以实现招标业务自动高效的管理,使得招标业务更加智能化、电子化。
为解决上述技术问题,本发明提供了一种文档分类方法,包括:
获取待分类的目标招标文档;
基于所述目标招标文档的文本内容提取分类特征向量;其中,所述分类特征向量至少包括所述目标招标文档的标的物及分类信息;
将所述分类特征向量输入预先建立的文档分类模型,得到针对所述目标招标文档的分类结果;其中,所述文档分类模型是以历史招标文档为训练数据、利用XGBoost算法对所述训练数据进行机器学习、并建立分类特征向量与分类结果之间的映射关系的分类器。
可选地,所述基于所述目标招标文档的文本内容提取分类特征向量,包括:
对所述目标招标文档的文本内容进行预处理;
对预处理后的文本内容进行分词处理并得到多个分词;
基于所述多个分词提取分类特征向量。
可选地,所述基于所述多个分词提取分类特征向量,包括:
对所述多个分词进行向量化表示,得到多个特征向量;
利用词性级TF-IDF算法对多个特征向量进行加权处理,并得到各特征向量对应的文档频率;
根据所述文档频率从所述多个特征向量中确定分类特征向量。
可选地,所述分类信息至少包括行业类别和项目类型。
可选地,所述对预处理后的文本内容进行分词处理并得到多个分词,包括:
基于N-Gram语言模型以滑动窗口方式对预处理后的文本内容进行分词处理,并得到多个分词。
可选地,所述N-Gram语言模型中N的取值为2和/或3。
可选地,所述根据所述文档频率从所述多个特征向量中确定分类特征向量,包括:
逐一判断各特征向量的文档频率是否大于设定值;
保留文档频率不大于设定值的特征向量,作为分类特征向量。
为解决上述技术问题,本发明提供了一种文档分类装置,包括:
文档获取模块,用于获取待分类的目标招标文档;
向量提取模块,用于基于所述目标招标文档的文本内容提取分类特征向量;其中,所述分类特征向量至少包括所述目标招标文档的标的物及分类信息;
分类模块,用于将所述分类特征向量输入预先建立的文档分类模型,得到针对所述目标招标文档的分类结果;其中,所述文档分类模型是以历史招标文档为训练数据、利用XGBoost算法对所述训练数据进行机器学习、并建立分类特征向量与分类结果之间的映射关系的分类器。
可选地,所述向量提取模块,包括:预处理单元、分词处理单元和向量提取单元;其中,
所述预处理单元,用于对所述目标招标文档的文本内容进行预处理;
所述分词处理单元,用于对预处理后的文本内容进行分词处理并得到多个分词;
所述向量提取单元,用于基于所述多个分词提取分类特征向量。
可选地,所述向量提取单元用于:对所述多个分词进行向量化表示,得到多个特征向量;利用词性级TF-IDF算法对多个特征向量进行加权处理,并得到各特征向量对应的文档频率;根据所述文档频率从所述多个特征向量中确定分类特征向量。
可选地,所述分类信息至少包括行业类别和项目类型。
可选地,所述分词处理单元用于:基于N-Gram语言模型以滑动窗口方式对预处理后的文本内容进行分词处理,并得到多个分词。
可选地,所述N-Gram语言模型中N的取值为2和/或3。
可选地,所述所述向量提取单元具体用于:逐一判断各特征向量的文档频率是否大于设定值;保留文档频率不大于设定值的特征向量,作为分类特征向量。
为解决上述技术问题,本发明提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
为解决上述技术问题,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述方法。
与现有技术相比,上述方案中的一个或多个实施例可以具有如下优点或有益效果:
应用本发明的文档分类方案进行招标文档分类时,先获取待分类的目标招标文档,基于目标招标文档的文本内容提取分类特征向量,再将分类特征向量输入预先建立的文档分类模型,得到针对所述目标招标文档的分类结果,所述文档分类模型是以历史招标文档为训练数据、利用XGBoost算法对所述训练数据进行机器学习、并建立档训练数据与所述历史招标文档分类结果之间的映射关系的分类器,可以看出,本发明实现了招标业务的自动高效管理,无需工作人员进行复杂操作,使得招标业务更加智能化和电子化,在提高效率的同时还降低了人力成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的文档分类方法的一种流程图;
图2为本发明实施例提供的文档分类方法的另一种流程图;
图3为本发明实施例提供的基于N-Gram语言模型进行分词的分词效果;
图4为本发明实施例提供的基于多个分词提取分类特征向量的流程图;
图5为本发明实施例提供的基于Xgboos构建的文档分类模型的示意图;
图6为本发明实施例提供的对目标招标文档的文本内容进行预处理的示意图;
图7为本发明实施例提供的基于计数向量、TF-IDF、N-Gram结合TF-IDF三种方式的体征提取对比示意图;
图8为本发明实施例提供的随机森林、线性分类器、朴素贝叶斯、XGBoost四种模型构建算法建立的文档分类模型针对行业类别的分类评价示意图;
图9a为本发明实施例提供的针对行业类别的XGBoost文档分类模型的查全率收敛示意图;
图9b为本发明实施例提供的针对行业类别的XGBoost文档分类模型的准确率收敛示意图;
图10为本发明实施例提供的随机森林、线性分类器、朴素贝叶斯、XGBoost四种模型构建算法建立的文档分类模型针对项目类型的分类评价示意图;
图11a为本发明实施例提供的针对项目类型的XGBoost文档分类模型的查全率收敛示意图;
图11b为本发明实施例提供的针对项目类型的XGBoost文档分类模型的准确率收敛示意图;
图12为本发明实施例提供的文档分类装置的一种结构示意图;
图13为本发明实施例提供的计算机设备的一种结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
招标行业其业务范围的广泛性决定了所涉及行业领域也很广泛,招标文档的文本也比较特殊,一份招标文件通常包含的有用数据量不大,因此,由于招标文档包含的特征数量不够,容易出现测试招标文档和参与训练的招标文档中的特征分布无法保持一致,根据行业对招标文件进行分类时,又由于行业类别数量较多,使得招标文档的数量分布不均匀,导致分类准确性影响。由于不同招标项目涉及众多行业领域和不同的招标企业,而行业领域、企业管理方式、企业文化等各个方面的差异又都会导致招标文件文本中往往存在丰富多样的实体描述和多样化的表达方式等,这对技术实现提出了重大挑战。
目前计算机领域对自然语言分类技术的研究已经涉及各个行业,但大多都是针对某一个特定的行业领域,现有的方法的可扩展性和普适性也普遍不高,因此本文提出一种基于N-Gram算法和TF-IDF算法相结合的特征提取方法以及基于XGBoost算法的招标文档分类方法,填补了招标业务领域自然语言处理研究的空白。
为了实现招标业务自动高效的管理,使得招标业务更加智能化、电子化,本发明提出一种适用于招标业务领域的文档分类方法、装置、计算机设备及存储介质。下面先对本发明提供的文档分类方法进行详细说明。
实施例一
如图1所示,为本发明实施例提供的文档分类方法的一种流程图,该文档分类方法可以包括以下步骤:
步骤S101:获取待分类的目标招标文档。
步骤S102:基于所述目标招标文档的文本内容提取分类特征向量。
其中,所述分类特征向量至少包括所述目标招标文档的标的物及分类信息。
一种实施方式中,所述分类信息至少包括行业类别和项目类型。
步骤S103:将所述分类特征向量输入预先建立的文档分类模型,得到针对所述目标招标文档的分类结果。
其中,所述文档分类模型是以历史招标文档为训练数据、利用XGBoost算法对所述训练数据进行机器学习、并建立分类特征向量与分类结果之间的映射关系的分类器。
在建立基于XGBoost算法的文档分类模型时,先构造文档分类的模型结构,该模型结构可根据需要选择是否使用交叉验证并对数据集进行划分,然后对招标文档分类目标列进行标签编码,接着将提取出的特征向量和分类标签输入构建好的XGBoost分类器进行训练得到招标文档分类模型,模型参数优化使用的是基于树的上升,使用sklearn的网格搜索(GridSearchCV)对参数进行优化,模型调优过程中使用的K折交叉验证是把样本集划分为K份,其中每次选择不同的K-1份作为训练集,最后一份用于模型验证,这个过程循环K次后,一般对K个结果求平均得到最终的评价结果。
需要说明的是,XGBoost是一个优化的分布式梯度增强库,旨在实现高效、灵活和便携。它在Gradient Boosting框架下实现机器学习算法。XGBoost集成不同的弱学习器进行预测,通过集成多种学习器的结果来提升准确率,其中有支持向量机SVM、决策树、逻辑回归等基学习器可供选择,每一次迭代会增加一个CART来拟合上一次迭代中得到的结果预测值与真实值之间的残差,进而逐渐去靠近实际值,最后每一个样本的结果就是其在每个CART中得到的结果相加。而模型训练就是为了得到最优模型参数,使得训练数据与分类标签之间的映射关系处于最优状态,即:使得分类特征向量与分类结果的映射关系处于最优状态。
应用本发明的文档分类方案进行招标文档分类时,先获取待分类的目标招标文档,基于目标招标文档的文本内容提取分类特征向量,再将分类特征向量输入预先建立的文档分类模型,得到针对所述目标招标文档的分类结果,所述文档分类模型是以历史招标文档为训练数据、利用XGBoost算法对所述训练数据进行机器学习、并建立档训练数据与所述历史招标文档分类结果之间的映射关系的分类器。可以看出,本发明通过对行业类别和项目类型进行分类,取得了较好的效果,使得所建立的文档分类模型在招标文档分类应用上具有良好的扩展性,实现了招标业务的自动高效管理,无需工作人员进行复杂操作,使得招标业务更加智能化和电子化,在提高效率的同时还降低了人力成本。
实施例二
如图2所示,为本发明实施例提供的文档分类方法的另一种流程意图,该方法可以包括如下步骤:
步骤S201:获取待分类的目标招标文档。
步骤S202:对所述目标招标文档的文本内容进行预处理。
在对文本内容进行预处理时,一般可以包括分类信息表清洗和信息整合两个过程。具体而言,第一步分类信息表清洗,是将目标招标文档的信息表中项目编号、标段编号等无用信息删除,主要考虑的是项目缺少分类信息或某些类别信息量过少时对模型训练效果的评价不具备参考价值,因此对这部分数据进行了清洗;第二步信息整合,在得到相对标准化的数据以及标的物之后进行信息整合,根据标的物进行“项目名称+委托单位+标的物”的结构进行联合,得到预处理后的文本内容。
请参见图3,目标招标文档为html网页文档时,提取html网页文档内容到txt文本文档,可以看出,本发明所获取的语料为将招标文档按照日期分别存放的文件夹列表,先通过批处理将所有文件夹内容进行了合并。得到招标公告的文本内容后,通过对招标文档的文本内容进行分析发现,在招标文档中项目名称、招标公告时间、项目招标编号、招标条件、招标范围、项目概况、资质要求、招标文件的获取及递交、联系方式等各项内容中,仅有项目名称、招标条件、项目概况、招标范围几项分类信息,这里的分类信息指对特征提取和招标文件分类结果有显著影响的数据。因此本文首先将这些“分类信息”提取出来。此外在分类阶段采用有监督学习模型实现,因此每份招标文档需要有对应分类结果,本文对招标文档的文本内容进行分类信息抽取后将这些数据与招标项目信息表进行对比整合,主要是通过对项目名称进行匹配,但是因为招标文档中的项目名称与分类信息表中的项目名称在语言表述上有微小差异,因此在合并时是采用近似匹配的方式将两者对应起来,最后得到了含有项目名称、分类信息、委托单位、行业分类、项目类型分类几项主要内容的规范数据格式,并清除了招标文档中多余(无用)的数据。
步骤S203:对预处理后的文本内容进行分词处理并得到多个分词。
一种实现方式中,可以基于N-Gram语言模型以滑动窗口方式对预处理后的文本内容进行分词处理,并得到多个分词。
优选地,所述N-Gram语言模型中N的取值为2和/或3,请参见图3,为本发明实施例提供的基于N-Gram语言模型进行分词的分词效果。本实施例使用Bi-Gram二元模型以及Tri-Gram三元模型,即通过滑动窗口的方式令招标文件中的汉语文本、数字、其他字符以2和3为单位进行分词,可以理解的是,也可以只以Bi-Gram二元模型或者只以Tri-Gram三元模型来进行分词。
需要说明的是,N-Gram是大词汇连续语音识别中常用的一种语言模型,属于统计语言模型的一种,在中文NLP中得到较广泛应用,应用到中文分词中也有很好的效果。基本的思想是:将自然语言看作随机过程,字、词、段等每个语言单元看作随机变量并且满足一定概率分布。语言单元的上下文决定了判断其是否出现在文本中的结果。N-Gram使用长为N的一个固定滑动窗口将文本内容切分,形成长为N的字符串序列,每个字符串序列叫作Gram,然后统计分析全部Gram出现的频度,根据提前设定的阈值来筛选过滤,形成一个关键Gram的词频度列表,也就是一个特征向量空间。N-Gram因其模型简单且分词质量和效率相对良好而在中文文本处理中应用广泛。
步骤S204:基于所述多个分词提取分类特征向量。
其中,所述分类特征向量至少包括所述目标招标文档的标的物及分类信息。
一种实现方式中,可以采用TF-IDF算法进行特征选择,如图4所示,步骤S204可以包括如下子步骤:
步骤S2041:对所述多个分词进行向量化表示,得到多个特征向量;
步骤S2042:利用词性级TF-IDF算法对多个特征向量进行加权处理,并得到各特征向量对应的文档频率;
步骤S2043:根据所述文档频率从所述多个特征向量中确定分类特征向量。
需要说明的是,TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。也就是说,TF-IDF算法由TF和IDF两部分组成,是一种用来评估某一个分词对语料库或文本集中的一份文档的重要程度的统计方法,常被用作文本挖掘、信息检索、及用户模型的权重因素。计算分词(单词或短语)重要程度的基本原理是:与分词在文档中出现的次数成正相关,与分词在文本集中出现的次数成负相关。
一种优选的实现方式中,可以按照如下方式根据所述文档频率从所述多个特征向量中确定分类特征向量:逐一判断各特征向量的文档频率是否大于设定值;保留文档频率不大于设定值的特征向量,作为分类特征向量。优选地,文档频率上界阈值经实验设定为0.91,文档频率高于该阈值的特征因在招标文件中出现次数过多而对招标文件的分类结果贡献不大,词汇表长度经实验设定为7000。
需要说明的是,上述文档频率上界阈值经验值和词汇表长度经验值均为本发明实施例提供的一种优选方式,均不应理解为对本发明实施例的限定,本领域内的技术人员还可以根据实际应用中的具体情况对文档频率上界阈值和词汇表长度进行设置。
另一种实现方式中,可以采用TF-IDF算法提取分类特征向量,通过基于TfidfVectorizer进行参数调整提取出对分类结果贡献作用最大的招标文件特征集。
步骤S205:将所述分类特征向量输入预先建立的文档分类模型,得到针对所述目标招标文档的分类结果。
其中,所述文档分类模型是以历史招标文档为训练数据、利用XGBoost算法对所述训练数据进行机器学习、并建立分类特征向量与分类结果之间的映射关系的分类器。
由以上可知,图2所示的方法实施例具备图1所示的方法实施例的全部有益效果,并且,招标文档的文本内容使用N-Gram分词,并使用TF-IDF对分词特征进行提取,在进行特征提取之后使用XGBoost算法进行机器学习。
进一步的,在进行特征提取之后使用多种机器学习算法对特征进行训练和分类通过将XGBoost算法与计数向量、词语级TF-IDF特征提取对比实验,发现XGBoost算法特征提取效果较好,并且通过与随机森林、线性分类器、朴素贝叶斯几种分类算法对比发现图2所示方法实施例建立的文档分类模型效果更好。
实施例三
请参见图5,下面结合一个具体实例对本发明实施例提供的基于XGBoost构建的文档分类模型进行说明。
a.将预处理好的数据读入模型,指定训练文本内容和对应的分类标签并存储到pandas的DataFrame结构中;
b.在根据行业类别进行分类时,使用包含分类信息的文本、项目名称、项目单位作为训练文本内容;
c.根据项目类型进行分类时,招标文档的文本内容中提取出的分类信息虽然依然存在数据冗余,但因数据量的扩充包含到了更多关于项目类型的有用信息,因此基于项目类型对招标文档进行分类时还可以使用招标文件分类信息集作为训练文本内容;
d.文档分类模型可根据实际需要来选择是否使用交叉验证并对数据集进行划分,然后对招标文档分类的目标列进行标签编码(LabelEncoder),接着对文本数据进行TF-IDF特征提取,将提取出的特征和分类标签输入构建好的XGBoost分类器进行训练得到文档分类模型;
e.由于gbtree的表现一般明显优于gblinear,所以使用树的上升,并且,使用的上升模型为依托,学习任务参数决定模型每一步的结果如何度量,控制文档分类模型的优化目标;
f.在使用sklearn的网格搜索(GridSearchCV)对参数进行优化的模型调优过程中,利用K折交叉验证是把样本集划分为K份,其中每次选择不同的K-1份作为训练集,最后一份用于模型验证,这个过程循环K次后一般对K个结果求平均得到最终的分类结果。
实施例四
为了对招标文档的标的物及分类信息提取对文档分类准确性进行验证,下面结合具体实验数据进行说明,请参见图6。
①实验所用数据集:
完整招标文档共计有33586份,来自国家能源招标网,其中部分招标文档所对应招投标项目有分类结果等更详细的信息,部分没有分类结果等信息。有招标项目名称和委托单位等信息、且已知对应的分类结果的项目资料共计19980条,且在完整招标文档集中均有对应招标文档,为保证资料信息数量一致,本发明在后期进行了信息整合。
②实验设置:
编程语言为Python3,由于实验过程中需要使用不同的第三方库,因此实验中用到了不同的解释器,集成工具使用的是PyCharm社区版。
③实验结果:
数据预处理,对招标文档和分类信息表预处理后得到的最终信息格式,在评价本发明招标文档的分类效果时主要使用精确率、准确率、查全率、F1值几个评价指标,本发明选择使用了宏平均方式进行计算,根据每个类计算出F1等值然后取平均。
评估基于词性的TF-IDF特征提取算法的效果,使用基于项目类型进行分类的XGBoost分类模型,分别配合基于计数向量、基于词语级TF-IDF、N-Gram结合词性级TF-IDF三种特征提取方式实现招标文档分类,并且分别计算出了分类准确率、精确率、召回率和F1值进行比较分析,详细结果如图7所示,不论从哪个评价指标来看,使用基于词性级TF-IDF的特征提取方法都具有最大优势。其中Accuracy值达到了96.14%,其他指标值也都在94.4%以上。
基于行业对招标文档进行分类时,文档分类模型在测试集上运行得到的混淆矩阵如表1所示,可以看出总体上表格对角线上的数值明显高于其他项数值,说明大多数测试样本的类别均能被正确预测,模型分类效果良好。
表1:基于行业分类的混淆矩阵
Figure BDA0003097291550000111
如图8所示,为分别使用随机森林算法、线性分类器、朴素贝叶斯算法、以及XGBoost对招标文件基于行业进行分类的评价结果,其中随机森林算法在招标文档分类上也表现出较好的效果。
基于项目类型对招标文档进行分类时,所构建的文档分类模型在测试集上运行得到的混淆矩阵如图9a和图9b所示。同样可以看出总体上表格对角线上的数值明显高于其他项数值,模型在基于项目类型进行分类时效果也很好,从表格中还可以看出工程类招标文件与服务类招标文件存在一定相似性。
如图10所示为使用其他分类算法对招标文档进行分类的评价结果与对本文实现的基于词性级TF-IDF的XGBoost分类模型的评价结果的比较。可以看到,XGBoost模型在基于项目类型的招标文档分类上也具有很好的效果,其中准确率达到了96.63%左右。
如图11a和图11b所示为基于项目类型的招标文档分类模型的收敛情况,可以看到模型在训练集和测试集上均能比基于行业的模型更快速的收敛,其中在训练上的分类准确率约在140次迭代后趋于稳定,此时分类准确率达到96.6%左右。
实施例五
下面再对本法实施例提供的文档分类装置进行说明,如图12所示,可以包括以下模块:文档获取模块310、向量提取模块320和分类模块330。
其中,文档获取模块310,用于获取待分类的目标招标文档;
向量提取模块320,用于基于所述目标招标文档的文本内容提取分类特征向量;其中,所述分类特征向量至少包括所述目标招标文档的标的物及分类信息;
分类模块340,用于将所述分类特征向量输入预先建立的文档分类模型,得到针对所述目标招标文档的分类结果;其中,所述文档分类模型是以历史招标文档为训练数据、利用XGBoost算法对所述训练数据进行机器学习、并建立分类特征向量与分类结果之间的映射关系的分类器。
一种优选的实现方式中,所述分类信息至少包括行业类别和项目类型。
应用本发明的文档分类方案进行招标文档分类时,文档获取模块先获取待分类的目标招标文档,向量提取模块基于目标招标文档的文本内容提取分类特征向量,再将分类特征向量输入预先建立的文档分类模型,由分类模块得到针对所述目标招标文档的分类结果,所述文档分类模型是以历史招标文档为训练数据、利用XGBoost算法对所述训练数据进行机器学习、并建立档训练数据与所述历史招标文档分类结果之间的映射关系的分类器。可以看出,本发明实现了招标业务的自动高效管理,无需工作人员进行复杂操作,使得招标业务更加智能化和电子化,在提高效率的同时还降低了人力成本。
一种实现方式中,所述向量提取模块320包括:预处理单元321、分词处理单元322和向量提取单元323。
其中,所述预处理单元321,用于对所述目标招标文档的文本内容进行预处理;所述分词处理单元322,用于对预处理后的文本内容进行分词处理并得到多个分词;所述向量提取单元323,用于基于所述多个分词提取分类特征向量。
另一种实现方式中,所述向量提取单元323用于:对所述多个分词进行向量化表示,得到多个特征向量;利用词性级TF-IDF算法对多个特征向量进行加权处理,并得到各特征向量对应的文档频率;根据所述文档频率从所述多个特征向量中确定分类特征向量。
优选地,所述所述向量提取单元323具体用于:对所述多个分词进行向量化表示,得到多个特征向量;利用词性级TF-IDF算法对多个特征向量进行加权处理,并得到各特征向量对应的文档频率;逐一判断各特征向量的文档频率是否大于设定值;保留文档频率不大于设定值的特征向量,作为分类特征向量。
又一种实现方式中,所述分词处理单元322用于:基于N-Gram语言模型以滑动窗口方式对预处理后的文本内容进行分词处理,并得到多个分词。
优选地,所述N-Gram语言模型中N的取值为2和/或3。
实施例五
为解决上述技术问题,本发明提供了一种计算机设备,如图13所示,包括存储器410、处理器420及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的方法。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可包括,但不仅限于处理器420、存储器410。本领域技术人员可以理解,图9仅仅是计算机设备的示例,并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器420可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器410可以是所述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。所述存储器410也可以是计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器410还可以既包括所述计算机设备的内部存储单元也包括外部存储设备。所述存储器410用于存储所述计算机程序以及所述计算机设备所需的其它程序和数据。所述存储器410还可以用于暂时地存储已经输出或者将要输出的数据。
实施例六
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在、未装配入计算机设备中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上计算机程序,所述程序被处理器执行时实现上述所述的方法。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器410、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
应当理解,在本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到所描述条件或事件”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到所描述条件或事件”或“响应于检测到所描述条件或事件”。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种文档分类方法,其特征在于,包括:
获取待分类的目标招标文档;
基于所述目标招标文档的文本内容提取分类特征向量;其中,所述分类特征向量至少包括所述目标招标文档的标的物及分类信息;
将所述分类特征向量输入预先建立的文档分类模型,得到针对所述目标招标文档的分类结果;其中,所述文档分类模型是以历史招标文档为训练数据、利用XGBoost算法对所述训练数据进行机器学习、并建立分类特征向量与分类结果之间的映射关系的分类器。
2.根据权利要求1所述的文档分类方法,其特征在于,所述基于所述目标招标文档的文本内容提取分类特征向量,包括:
对所述目标招标文档的文本内容进行预处理;
对预处理后的文本内容进行分词处理并得到多个分词;
基于所述多个分词提取分类特征向量。
3.根据权利要求2所述的文档分类方法,其特征在于,所述基于所述多个分词提取分类特征向量,包括:
对所述多个分词进行向量化表示,得到多个特征向量;
利用词性级TF-IDF算法对多个特征向量进行加权处理,并得到各特征向量对应的文档频率;
根据所述文档频率从所述多个特征向量中确定分类特征向量。
4.根据权利要求1-3任一项所述的文档分类方法,其特征在于,所述分类信息至少包括行业类别和项目类型。
5.根据权利要求2所述的文档分类方法,其特征在于,所述对预处理后的文本内容进行分词处理并得到多个分词,包括:
基于N-Gram语言模型以滑动窗口方式对预处理后的文本内容进行分词处理,并得到多个分词。
6.根据权利要求5所述的文档分类方法,其特征在于,所述N-Gram语言模型中N的取值为2和/或3。
7.根据权利要求3所述的文档分类方法,其特征在于,所述根据所述文档频率从所述多个特征向量中确定分类特征向量,包括:
逐一判断各特征向量的文档频率是否大于设定值;
保留文档频率不大于设定值的特征向量,作为分类特征向量。
8.一种文档分类装置,其特征在于,包括:
文档获取模块,用于获取待分类的目标招标文档;
向量提取模块,用于基于所述目标招标文档的文本内容提取分类特征向量;其中,所述分类特征向量至少包括所述目标招标文档的标的物及分类信息;
分类模块,用于将所述分类特征向量输入预先建立的文档分类模型,得到针对所述目标招标文档的分类结果;其中,所述文档分类模型是以历史招标文档为训练数据、利用XGBoost算法对所述训练数据进行机器学习、并建立分类特征向量与分类结果之间的映射关系的分类器。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
CN202110614052.8A 2021-06-02 2021-06-02 一种文档分类方法、装置、计算机设备及存储介质 Pending CN113515629A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110614052.8A CN113515629A (zh) 2021-06-02 2021-06-02 一种文档分类方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110614052.8A CN113515629A (zh) 2021-06-02 2021-06-02 一种文档分类方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN113515629A true CN113515629A (zh) 2021-10-19

Family

ID=78065416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110614052.8A Pending CN113515629A (zh) 2021-06-02 2021-06-02 一种文档分类方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113515629A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114254109A (zh) * 2021-12-15 2022-03-29 北京金堤科技有限公司 用于确定行业类别的方法及装置
CN114997338A (zh) * 2022-07-19 2022-09-02 成都数之联科技股份有限公司 一种项目分类及分类模型训练方法、装置、介质和设备
CN115292498A (zh) * 2022-08-19 2022-11-04 北京华宇九品科技有限公司 一种文档分类方法、系统、计算机设备及存储介质
CN115329169A (zh) * 2022-06-27 2022-11-11 海南电网有限责任公司信息通信分公司 一种基于深度神经模型的档案归档计算方法
CN115329751A (zh) * 2022-10-17 2022-11-11 广州数说故事信息科技有限公司 针对网络平台发文的关键词提取方法、装置、介质及设备
CN115861606A (zh) * 2022-05-09 2023-03-28 北京中关村科金技术有限公司 一种针对长尾分布文档的分类方法、装置及存储介质
CN116188091A (zh) * 2023-05-04 2023-05-30 品茗科技股份有限公司 造价清单自动匹配单价引用的方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN110162590A (zh) * 2019-02-22 2019-08-23 北京捷风数据技术有限公司 一种工程招标文本结合经济要素的数据库显示方法及其装置
CN110222182A (zh) * 2019-06-06 2019-09-10 腾讯科技(深圳)有限公司 一种语句分类方法及相关设备
CN110472053A (zh) * 2019-08-05 2019-11-19 广联达科技股份有限公司 一种面向公共资源招投标公告数据的自动分类方法及其系统
US20200279105A1 (en) * 2018-12-31 2020-09-03 Dathena Science Pte Ltd Deep learning engine and methods for content and context aware data classification
CN111708868A (zh) * 2020-01-15 2020-09-25 国网浙江省电力有限公司杭州供电公司 电力运检事件的文本分类方法及装置、设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
US20200279105A1 (en) * 2018-12-31 2020-09-03 Dathena Science Pte Ltd Deep learning engine and methods for content and context aware data classification
CN110162590A (zh) * 2019-02-22 2019-08-23 北京捷风数据技术有限公司 一种工程招标文本结合经济要素的数据库显示方法及其装置
CN110222182A (zh) * 2019-06-06 2019-09-10 腾讯科技(深圳)有限公司 一种语句分类方法及相关设备
CN110472053A (zh) * 2019-08-05 2019-11-19 广联达科技股份有限公司 一种面向公共资源招投标公告数据的自动分类方法及其系统
CN111708868A (zh) * 2020-01-15 2020-09-25 国网浙江省电力有限公司杭州供电公司 电力运检事件的文本分类方法及装置、设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
方侠旋: "基于XGBoost 模型的文本多分类研究", 网络安全技术与应用, no. 06, pages 1 - 3 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114254109A (zh) * 2021-12-15 2022-03-29 北京金堤科技有限公司 用于确定行业类别的方法及装置
CN114254109B (zh) * 2021-12-15 2023-09-19 北京金堤科技有限公司 用于确定行业类别的方法及装置
CN115861606A (zh) * 2022-05-09 2023-03-28 北京中关村科金技术有限公司 一种针对长尾分布文档的分类方法、装置及存储介质
CN115861606B (zh) * 2022-05-09 2023-09-08 北京中关村科金技术有限公司 一种针对长尾分布文档的分类方法、装置及存储介质
CN115329169A (zh) * 2022-06-27 2022-11-11 海南电网有限责任公司信息通信分公司 一种基于深度神经模型的档案归档计算方法
CN115329169B (zh) * 2022-06-27 2023-10-20 海南电网有限责任公司信息通信分公司 一种基于深度神经模型的档案归档计算方法
CN114997338A (zh) * 2022-07-19 2022-09-02 成都数之联科技股份有限公司 一种项目分类及分类模型训练方法、装置、介质和设备
CN115292498A (zh) * 2022-08-19 2022-11-04 北京华宇九品科技有限公司 一种文档分类方法、系统、计算机设备及存储介质
CN115329751A (zh) * 2022-10-17 2022-11-11 广州数说故事信息科技有限公司 针对网络平台发文的关键词提取方法、装置、介质及设备
CN115329751B (zh) * 2022-10-17 2023-01-17 广州数说故事信息科技有限公司 针对网络平台发文的关键词提取方法、装置、介质及设备
CN116188091A (zh) * 2023-05-04 2023-05-30 品茗科技股份有限公司 造价清单自动匹配单价引用的方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN113515629A (zh) 一种文档分类方法、装置、计算机设备及存储介质
CN110032639B (zh) 将语义文本数据与标签匹配的方法、装置及存储介质
US10755045B2 (en) Automatic human-emulative document analysis enhancements
CN104834651B (zh) 一种提供高频问题回答的方法和装置
US11734782B2 (en) Automated document analysis for varying natural languages
US11429810B2 (en) Question answering method, terminal, and non-transitory computer readable storage medium
US11393237B1 (en) Automatic human-emulative document analysis
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN110222192A (zh) 语料库建立方法及装置
CN113987174A (zh) 分类标签的核心语句提取方法、系统、设备及存储介质
Jo Using K Nearest Neighbors for text segmentation with feature similarity
CN114722198A (zh) 产品分类编码确定方法、系统及相关装置
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN115098619A (zh) 资讯去重方法、装置、电子设备及计算机可读取存储介质
CN115099832A (zh) 异常用户检测方法及其装置、设备、介质、产品
CN111782601A (zh) 电子文件的处理方法、装置、电子设备及机器可读介质
CN113377910A (zh) 情感评价方法、装置、电子设备和存储介质
CN113515587A (zh) 一种标的物信息提取方法、装置、计算机设备及存储介质
CN111382247A (zh) 一种内容推送优化方法、内容推送优化装置及电子设备
CN116932487B (zh) 一种基于数据段落划分的量化式数据分析方法及系统
Nielbo et al. Mining the past–data-intensive knowledge discovery in the study of historical textual traditions
US11995401B1 (en) Systems and methods for identifying a name
US11868859B1 (en) Systems and methods for data structure generation based on outlier clustering
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination