CN110472053A - 一种面向公共资源招投标公告数据的自动分类方法及其系统 - Google Patents
一种面向公共资源招投标公告数据的自动分类方法及其系统 Download PDFInfo
- Publication number
- CN110472053A CN110472053A CN201910715867.8A CN201910715867A CN110472053A CN 110472053 A CN110472053 A CN 110472053A CN 201910715867 A CN201910715867 A CN 201910715867A CN 110472053 A CN110472053 A CN 110472053A
- Authority
- CN
- China
- Prior art keywords
- data
- bidding
- words
- categorizer
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/08—Auctions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Evolutionary Computation (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种面向公共资源招投标公告数据的自动分类方法及其系统,该自动分类方法包括学习过程以及测试过程或称生产过程,该学习过程包括:基于领域词典,采用LDA结合PMI技术对招投标数据进行自动标注,获得招投标标注数据;将获得招投标标注数据输入字符级别的CNN网络,获得多分类器模型;将获得的多分类器模型保存到文件中,获得多分类器模型文件。测试过程或生产过程包括:将用于测试或待分类的招投标数据输入到通过调用多分类器模型文件所得到的多分类器模型中;输出该用于测试或待分类的招投标数据的分类结果。该自动分类方法及其系统能够针对海量招投标公告内容本身进行数据挖掘,经智能分类提取出及时、精准的项目信息。
Description
技术领域
本发明涉及一种数据处理技术,尤其涉及一种招投标公告数据的自动分类方法和系统,具体涉及一种面向公共资源招投标公告数据的自动分类方法和系统,特别适用于对建筑工程大数据,即海量招投标公告等信息,进行数据处理和交易之前的数据标引和分类。
背景技术
公共资源交易是指市政公用事业特许经营权、行政事业单位后勤社会化服务经营权、户外广告牌经营权、缉私罚没公物拍卖、房产及办公楼等物业租赁、出租小汽车营运牌照、汽车吉祥号牌、行政事业单位废旧物资处理等由公共资源管理部门所掌控的公益性、垄断性、专有性的社会公共资源进行交易和提供咨询、服务等业务。
对公共资源交易数据进行挖掘、分析和处理有助于提高交易效率,有助于降低制度性交易成本、提高资源配置效率、推动政府职能转变上不断取得成果,从而助力供给侧结构性改革。
应国家政策要求,凡符合《招标投标法》和相关部门或行业规定的项目,均要进行招投标公示公告。面对成千上万的招投标公告发布渠道,以及各式各样的数据发布形式(如文本、图片、PDF等),在互联网上产生了海量的招投标公告数据。这些公告数据规范不统一,主要是一些非结构化、半结构化数据,如图1所示。
在构建公共资源交易数据平台,例如建筑工程大数据平台的过程中,还存在一个重要的数据处理环节,即面向顶层应用的需求,需要对海量招投标公告数据进行业务分类,例如土地招拍挂类、建设工程类、采购类招投标公告,如图2所示,即需要在自然语言的语义层面识别不同公告文本所报告的信息以便进行归类和处理,这也是公共资源交易和建筑工程信息服务行业的现实需求。
发明内容
为了解决上述技术问题,本发明提供了一种面向公共资源招投标公告数据的自动分类方法,包括学习过程以及测试过程和/或生产过程,其中:
所述学习过程包括:
步骤110,基于领域词典,采用LDA结合PMI技术对招投标数据进行自动标注,获得招投标标注数据;其中,LDA为文档主题生成模型,PMI为点间互信息技术;
步骤120,将获得招投标标注数据输入字符级别的CNN网络,训练获得多分类器模型;
步骤130,将获得的多分类器模型保存到文件中,获得多分类器模型文件;
其中,所述测试过程包括:
步骤210,将用于测试的招投标数据输入到通过调用多分类器模型文件所得到的多分类器模型中;
步骤220,多分类器模型输出该用于测试的招投标数据的分类结果;
其中,所述生产过程包括:
步骤310,将待分类的招投标数据输入到通过调用多分类器模型文件所得到的多分类器模型中;
步骤320,多分类器模型输出该待分类的招投标数据的分类结果。
在上述技术方案中,所述步骤120通过构建字符级别的CNN网络,训练篇章级的多分类器模型;该通过字符级别的CNN网络训练得到的多分类器模型包括:。
字符层,是以SL×VN的矩阵作为该多分类器模型的输入,其中SL是指一次输入句子的长度(字符数量),VN是指每个字符的向量维度,SL和VN根据待分类的数据长度来确定;
字符embedding层,对字符层输入的SL×VN矩阵进行嵌入映射;
卷积层,对字符embedding层内容进行卷积操作,卷积层的卷积核的尺寸为CL×VN×CD,其中CL代表卷积核的长度,即每次处理文本中字符的数量,CD代表卷积核的深度,即卷积核的数量;CL和CD根据计算数据的长度和计算机的处理能力来确定;
池化层,采用了max-pooling方法对卷积层输出进行池化,得到特征向量表示,池化层的卷积核尺寸为CL×1×CD;
第一全链接层;
第二全链接层;
Softmax层,得到了归属于不同类别的概率向量;
标签层,根据概率向量确定归属的分类结果及标签。
在上述技术方案中,所述测试过程还包括对所述步骤220中输出的分类结果进行评估,以对所述学习过程中的LDA结合PMI技术自动标注和字符级别的CNN网络进行调整。
在上述技术方案中,在上述步骤210中,包括:
步骤211,读取上述步骤130中保存的多分类器模型文件,得到相应的多分类模型;
步骤212,将待分类的招投标数据输入到步骤211所得到的多分类器模型中;
步骤213,多分类器模型的字符层将待分类的招投标数据转换为SL×VN的输入矩阵以作为多分类器模型的输入数据;
步骤214,输入数据依次经过多分类模型的字符embedding层、卷积层、池化层、第一全链接层、第二全链接层、softmax层,得到待分类的招投标数据对应属于各个分类类别的概率向量;
在上述步骤310中,包括:
步骤311,读取上述步骤130中保存的多分类器模型文件,得到相应的多分类器模型;
步骤312,将待分类的招投标数据输入到步骤311所得到的多分类器模型中;
步骤313,多分类器模型的字符层将待分类的招投标数据转换为SL×VN的输入矩阵以作为多分类器模型的输入数据;
步骤314,输入数据依次经过多分类器模型的字符embedding层、卷积层、池化层、第一全链接层、第二全链接层、softmax层,得到待分类的招投标数据对应属于各个分类类别的概率向量。
在上述技术方案中,所述步骤110包括:
将每个文档定义为d,文档d中的每个单词定义为w,将文档集合定义为D,将主题集合定义为T;
通过上述定义,可将文档集合D中每个文档d看作一个单词序列<w1,w2,...,wn>,wi表示第i个单词,设d有n个单词;
文档集合D中涉及的所有不同单词组成全体单词集合VOCABULARY,简称VOC,LDA方法以文档集合D作为输入,训练出的两个结果向量,设聚成k个主题,VOC中共包含m个单词:
则对文档集合D中的每个文档d,对应到不同主题的概率为θd<pt1,...,ptk>,其中,pti表示d对应T中第i个topic的概率,pti=nti/n,其中nti表示d中对应第i个topic的词的数目,n是d中所有词的总数;
对每个主题集合T中的主题t,生成不同单词wi的概率φt<pw1,...,pwm>,其中,pwi表示t生成VOC中第i个单词的概率,pwi=Nwi/N,其中Nwi表示对应到主题t的VOC中第i个单词wi的数目,N表示所有对应到主题t的单词总数;
则有条件概率:p(w|d)=p(w|t)*p(t|d)
以主题作为中间层,通过当前的θd和φt给出了文档d中出现单词w的概率;其中p(t|d)利用θd计算得到,p(w|t)利用φt计算得到;
根据需要自动标注的标签类型设置LDA的初始主题数量,每个主题取一定数量的主题词,分别与每类招投标数据的种子词计算PMI值,PMI值最大的种子词对应的标签即为相应主题的分类标签。
在上述技术方案中,PMI值计算公式如下
上式中,n表示每一分类数据的种子词数量,m表示LDA模型输出的每一个主题的主题词数量,twi表示某一个主题的第i个主题词,swj表示某一分类数据第j个种子词;
其中:
式中,p(w1&w2)表示两个词语共同出现的概率,p(w1)和p(w2)分别表示两个词语单独出现在文本中的概率。
在上述技术方案中,根据以下公式确定输出的分类标签:
上式中,k表示分类数据对应的标签数量,Sc表示与第c类分类数据的种子词计算出的PMI值。
本发明还提供了一种面向公共资源招投标公告数据的自动分类方法,包括步骤:
提取招投标数据中的纯文本信息,基于建筑招投标行业的领域词典,对于招投标数据的文本进行分词;
对分词后的结果去除停用词;然后采用TF-IDF方法进行特征词提取,其中TF指词频、IDF指逆文本频率指数;
对提取到的特征词进行T检验,将提取到的特征词的T检验值按从大到小进行排序,剔除不具有显著性的特征词;
采用随机森林分类器方法对获得的具有显著性的特征词进行分类,输出分类结果;
其中随机森林分类器方法建造每棵树的步骤包括:用N来表示训练用例的个数,M表示特征数量,这里的训练用例即为样本;输入特征数目m,用于确定决策树上一个节点的决策结果;其中m应远小于M;从N个样本中以有放回抽样的方式取样N次,形成一个训练集,并用未抽到的样本作预测,评估其误差;对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的;根据这m个特征,计算其最佳的分裂方式;其中,每棵树都会完整成长而不会被剪枝,这棵树的每一分支都有可能在建完一棵正常树状分类器后会被采用。
本发明取得了以下技术效果:
1、能够针对海量招投标公告内容本身进行数据挖掘,经智能分类提取出及时的、精准的项目信息。
2、汇聚互联网多通道、多模态招投标公告数据,能够提供集清洗、加工、应用于一体的服务平台。提供及时的、精准的招投标项目信息给产品和服务供应商,帮助供应商做出市场决策。
附图说明
图1为公共资源招投标公告数据中的某招投标公告示意图(对项目的具体名称进行了模糊化处理);
图2为某招投标公告信息公示网站提供的检索页面的局部视图;
图3为基于机器学习方法的招投标公告信息数据的文本自动分类方法的流程图;
图4为基于深度学习的招投标公告信息数据的文本自动分类方法的流程图;
图5为字符级CNN网络构建的多分类器模型示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及具体实施方式对本发明作进一步的详细描述。
以往,为了对建筑工程施工行业的海量招投标公告数据进行业务分类,例如将招投标公告按业务类型划分为土地招拍挂类、建设工程类、采购类招投标公告,往往需要人工进行筛选或者标引,相关工作量大,工作内容枯燥,效率低下。因此业界尝试引入自然语言处理(NLP)技术中的文本分类来实现这种针对投标公告数据按照业务类型的自动分类标引。
需要进行自动分类标引的数据源通常是采用网页爬虫技术从相关数据平台或信息发布网站获取的公共资源招投标公告数据,经过数据清洗以及去重等处理得到基础的原始数据信息。
对于所获得的上述招投标公告信息数据,采用机器学习方法进行自动分类的流程图如图3所示。提取招投标数据中的纯文本信息,基于建筑招投标行业的领域词典,对于招投标数据的文本进行分词;对分词后的结果去除停用词;然后采用TF-IDF方法进行特征词提取;对提取到的特征词进行T检验,剔除不具有显著性的特征词;采用随机森林分类器方法对获得的具有显著性的特征词进行分类,输出分类结果。
在图3所示流程中,TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的加权技术,TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。该算法用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,其主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
在图3所示流程中,T检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著,主要用于样本含量较小(例如样本数小于30),总体标准差σ未知的正态分布。具体来说,特征词的T检验值代表了其显著性,由此可将提取到的特征词的T检验值按从大到小进行排序,去除一定阈值/比例以下T检验值的特征词以剔除不具有显著性的特征词。例如,可以保留排序前50%的特征词作为具有显著性的特征词。
在图3所示流程中,随机森林是利用多棵决策树对样本进行训练并预测的一种算法,其输出的类别是由个别决策树输出的类别的众树来决定的。其建造每棵树的步骤包括:用N来表示训练用例(样本)的个数,M表示特征数目;输入特征数目m,用于确定决策树上一个节点的决策结果;其中m应远小于M;从N个样本中以有放回抽样的方式,取样N次,形成一个训练集(即bootstrap取样),并用未抽到的样本作预测,评估其误差;对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的;根据这m个特征,计算其最佳的分裂方式。每棵树都会完整成长而不会剪枝,这棵树的每一分支有可能在建完一棵正常树状分类器后会被采用。
通过图3所示流程的处理后,招投标公告内容的三类标签(即土地招拍挂类、建设工程类、采购类)分类结果正确率均在85%以上(即经大量数据测试,分类结果的错误率约在10%左右,不超过15%),能够基本满足自动分类标引的业务需求。
对图3所示流程方法所存在的错误率进行分析,其原因一方面是领域词典的容量大小会在一定程度上影响正确率;另一方面是由于招投标公告内容的用词/表达方式所引起的,例如对于招投标数据中的文本“北京市顺义区顺义新城第13街区SY00-0013-6022等地块R2二类居住用地、A61机构养老用地、A33基础教育用地”为例,即使基于合适的领域词典进行分词,其结果为“北京市顺义区顺义新城第13街区SY00-0013-6022等地块R2二类居住用地、A61机构养老用地、A33基础教育用地”,其中在分词结果中“用地”一词出现了多次,影响了后续分类处理中对应特征词的特征权重的计算,直接影响了分类结果。
基于上述分析,针对招投标公告的数据特点,本发明提供了一种基于深度学习的自动分类方法,其具体流程步骤如图4所示,其包括学习过程和测试过程(或称生产过程)。
上述基于深度学习的面向公共资源招投标公告数据的自动分类方法中的学习过程方法,包括:
步骤110,基于领域词典,采用LDA+PMI技术对招投标数据进行自动标注,获得招投标标注数据。
LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,是包含词、主题和文档三层结构的三层贝叶斯概率模型,其中假设从文档到主题服从多项式分布,从主题到词服从多项式分布。LDA采用词袋(bag of words)的方法,将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息,其不考虑词与词之间的顺序,简化了复杂性,这样使得每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。
具体来说,将每个文档定义为d,文档d中的每个单词定义为w,将文档集合定义为D,将主题(topic)集合定义为T。
通过上述定义,可将文档集合D中每个文档d看作一个单词序列<w1,w2,...,wn>,wi表示第i个单词,设d有n个单词。这个单词序列可称为一个词袋(word bag),通过该定义可知,每个单词wi的出现位置对LDA算法无影响。
文档集合D中涉及的所有不同单词组成全体单词集合VOCABULARY(简称VOC),LDA方法以文档集合D作为输入,训练出的两个结果向量(设聚成k个主题(topic),VOC中共包含m个单词):
则对文档集合D中的每个文档d,对应到不同主题(topic)的概率为θd<pt1,...,ptk>,其中,pti表示d对应T中第i个topic的概率,pti=nti/n,其中nti表示d中对应第i个topic的词的数目,n是d中所有词的总数。
对每个主题集合T中的主题(topic)t,生成不同单词wi的概率φt<pw1,...,pwm>,其中,pwi表示t生成VOC中第i个单词的概率,pwi=Nwi/N,其中Nwi表示对应到主题(topic)t的VOC中第i个单词wi的数目,N表示所有对应到主题(topic)t的单词总数。
则有条件概率:p(w|d)=p(w|t)*p(t|d)
就是以topic作为中间层,通过当前的θd和φt给出了文档d中出现单词w的概率。其中p(t|d)利用θd计算得到,p(w|t)利用φt计算得到。利用当前的θd和φt,可以为一个文档中的每一个单词w计算它对应任意一个主题t时的概率p(w|d),然后根据这些概率来更新这个词w应该对应的主题t。然后,如果这个更新改变了这个单词w所对应的主题t,就会反过来影响θd和φt。
PMI(Pointwise Mutual Information),即点间互信息,是两个随机变量统计相关性的度量。本发明引入该方法以统计两个词语在文本中共现的概率,共现的概率值越大,说明两个词语的相关性越紧密,关联度越高。两个词语w1和w2间的PMI值计算公式如下所示:
其中,p(w1&w2)表示两个词语共同出现在文本中的概率,p(w1)和p(w2)分别表示两个词语单独出现在文本中的概率。在本发明中采用前述计算p(w|d)的条件概率公式来计算各个待分类数据下按特定主题约束的p(w1&w2)、p(w1)和p(w2)从而实现LDA+PMI技术的深度结合。
本发明通过结合LDA主题模型与PMI词语相关性度量技术,实现弱监督的字符级CNN分类器所需要的训练数据自动标注。下面以土地招拍挂、建设工程、物资采购三类招投标数据自动标注为例进行具体说明:根据需要自动分类标注的标签类型(即土地招拍挂、建设工程、物资采购这三类)设置LDA的初始主题数量为3,每个主题取TOP100的主题词,这些主题词均来自训练数据集的LDA主题模型计算输出,并分别与每类招投标数据的种子词(由业务专家指定)计算PMI值,PMI值最大的种子词对应的标签即为相应主题的分类标签。计算过程如下:
上式中,n表示每一分类数据(标签)的种子词数量,m表示LDA模型输出的每一个主题的主题词数量,twi表示某一个主题的第i个主题词,swj表示某一类标签招投标数据第j个种子词。
上式中,k表示该数据对应的分类标签数量,Sc表示与第c类分类标签种子词计算出的PMI分数值。LabelT表示LDA主题模型输出的某一主题的标签,该标签与S计算值最大的标签保持一致。即,对于招投标公告数据集中待分类的数据(即文档集合D)计算得到其在LDA模型下每一个主题(即主题集合T中的每一topic)下的所有主题词(即单词w),根据这些主题词(twi)与相应招投标类型的种子词(swj)计算Sc值,选取使得Sc值最大的招投标类型作为该待分类的数据的标签,从而实现招投标数据的自动标注。
自动标注结果优化过程:如果在第一次自动标注的数据集基础上,弱监督的字符级CNN分类器的正确率未达到预期,则以步长为1增加LDA的主题数量,通过改变训练数据的自动标注精度提升分类器的准确率。
步骤120,将获得招投标标注数据输入字符级别的CNN网络,获得多分类器模型。
上述步骤中通过构建字符级别的CNN网络,训练篇章级的多分类器模型,其构建过程如图5所示。
字符层是以SL×VN的矩阵作为该模型的输入,其中SL是指一次输入句子的长度(字符数量),VN是指每个字符的向量维度,从而获得大小为SL×VN的字符embedding层,SL和VN根据待分类的数据长度来确定,在本实施例中SL优选为60,VN优选为50。
接下来对字符embedding层内容进行卷积操作,即卷积层,本发明中卷积层的卷积核的尺寸为CL×VN×CD,其中CL代表卷积核的长度,即每次处理文本中字符的数量,VN即前述的字符的向量维度,CD代表卷积核的深度,即卷积核的数量;根据计算数据的长度和计算机的处理能力来确定,在本实施例中CL优选为5,CD优选为256。
同时池化层采用了max-pooling的方法,相对应地池化层的卷积核大小定义为CL×1×CD,经过池化后得到整个文档的特征表示。
经过卷积池化后得到表示文档的特征向量,然后再经过两个全链接层和Softmax层,就得到了代表属于不同招投标公告类别的概率向量,即完成了招投标公告的多分类器模型。
步骤130,将获得的多分类器模型保存到文件中,获得多分类器模型文件。
上述基于深度学习的面向公共资源招投标公告数据的自动分类方法中的测试过程方法,包括:
步骤210,将用于测试的招投标数据输入到通过调用多分类器模型文件所得到的多分类器模型中。
在上述步骤210中,包括:
步骤211,读取上述步骤130中保存的多分类器模型文件,得到相应的多分类模型;
步骤212,将待分类的招投标数据输入到步骤211所得到的多分类器模型中;
步骤213,多分类器模型的字符层将待分类的招投标数据转换为SL×VN的输入矩阵以作为多分类器模型的输入数据;
步骤214,输入数据依次经过多分类模型的字符embedding层、卷积层、池化层、第一全链接层、第二全链接层、softmax层,得到待分类的招投标数据对应属于各个分类类别的概率向量。
步骤220,多分类器模型输出该招投标数据的分类结果。
多分类器模型的标签层根据待分类的招投标数据对应的分类类别的概率向量输出该招投标数据的分类结果,即属于哪一类招投标公告类型。上述测试过程还包括对步骤220中输出的分类结果进行评估,以对学习过程中的LDA+PMI自动标注和CNN网络进行调整。
上述基于深度学习的面向公共资源招投标公告数据的自动分类方法中的生产过程方法,包括:
步骤310,将待分类的招投标数据输入到通过调用多分类器模型文件所得到的多分类器模型中。
在上述步骤310中,包括:
步骤311,读取上述步骤130中保存的多分类器模型文件,得到相应的多分类器模型;
步骤312,将待分类的招投标数据输入到步骤311所得到的多分类器模型中;
步骤313,多分类器模型的字符层将待分类的招投标数据转换为SL×VN的输入矩阵以作为多分类器模型的输入数据;
步骤314,输入数据依次经过多分类器模型的字符embedding层、卷积层、池化层、第一全链接层、第二全链接层、softmax层,得到待分类的招投标数据对应属于各个分类类别的概率向量。
步骤320,多分类器模型输出该招投标数据的分类结果。
多分类器模型的标签层根据待分类的招投标数据对应的分类类别的概率向量输出该招投标数据的分类结果,即属于哪一类招投标公告类型。
从以上描述可以看出,本发明提供了一种面向公共资源招投标公告数据的自动分类方法,实现该方法的计算机系统,应用该计算机系统可以对面向公共资源交易数据,尤其是涉及建筑工程的招投标数据,进行自动分类,得到各个招投标数据所对应的业务类别,为相关的公共资源交易数据平台提供了准确的数据基础,解决了现有技术所存在的人工数据标引工作量大、效率不高,自动分类技术处理性能不高、分类结果不准确,不适用于对海量数据进行自动分类的技术问题。
为了实现上述目的,根据本申请的另一方面,还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述面向公共资源招投标公告数据的自动分类方法中的步骤。
处理器可以为中央处理器(Central Processing Unit,CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及单元,如本发明上述方法实施例中对应的程序单元。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及作品数据处理,即实现上述方法实施例中的方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个单元存储在所述存储器中,当被所述处理器执行时,执行上述实施例中的方法。
上述计算机设备具体细节可以对应参阅上述实施例中对应的相关描述和效果进行理解,此处不再赘述。
为了实现上述目的,根据本申请的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在计算机处理器中执行时实现上述面向公共资源招投标公告数据的数据清洗方法中的步骤。本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的构思和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种面向公共资源招投标公告数据的自动分类方法,包括学习过程以及测试过程和/或生产过程,其特征在于:
所述学习过程包括:
步骤110,基于领域词典,采用LDA结合PMI技术对招投标数据进行自动标注,获得招投标标注数据;其中,LDA为文档主题生成模型,PMI为点间互信息技术;
步骤120,将获得招投标标注数据输入字符级别的CNN网络,训练获得多分类器模型;
步骤130,将获得的多分类器模型保存到文件中,获得多分类器模型文件;
其中,所述测试过程包括:
步骤210,将用于测试的招投标数据输入到通过调用多分类器模型文件所得到的多分类器模型中;
步骤220,多分类器模型输出该用于测试的招投标数据的分类结果;
其中,所述生产过程包括:
步骤310,将待分类的招投标数据输入到通过调用多分类器模型文件所得到的多分类器模型中;
步骤320,多分类器模型输出该待分类的招投标数据的分类结果。
2.如权利要求1所述的面向公共资源招投标公告数据的自动分类方法,其特征在于:所述步骤120通过构建字符级别的CNN网络,训练篇章级的多分类器模型;该通过字符级别的CNN网络训练得到的多分类器模型包括:。
字符层,是以SL×VN的矩阵作为该多分类器模型的输入,其中SL是指一次输入句子的长度(字符数量),VN是指每个字符的向量维度,SL和VN根据待分类的数据长度来确定;
字符embedding层,对字符层输入的SL×VN矩阵进行嵌入映射;
卷积层,对字符embedding层内容进行卷积操作,卷积层的卷积核的尺寸为CL×VN×CD,其中CL代表卷积核的长度,即每次处理文本中字符的数量,CD代表卷积核的深度,即卷积核的数量;CL和CD根据计算数据的长度和计算机的处理能力来确定;
池化层,采用了max-pooling方法对卷积层输出进行池化,得到特征向量表示,池化层的卷积核尺寸为CL×1×CD;
第一全链接层;
第二全链接层;
Softmax层,得到了归属于不同类别的概率向量;
标签层,根据概率向量确定归属的分类结果及标签。
3.如权利要求1-2任一项所述的面向公共资源招投标公告数据的自动分类方法,其特征在于:所述测试过程还包括对所述步骤220中输出的分类结果进行评估,以对所述学习过程中的LDA结合PMI技术自动标注和字符级别的CNN网络进行调整。
4.如权利要求1-3任一项所述的面向公共资源招投标公告数据的自动分类方法,其特征在于:
在上述步骤210中,包括:
步骤211,读取上述步骤130中保存的多分类器模型文件,得到相应的多分类模型;
步骤212,将待分类的招投标数据输入到步骤211所得到的多分类器模型中;
步骤213,多分类器模型的字符层将待分类的招投标数据转换为SL×VN的输入矩阵以作为多分类器模型的输入数据;
步骤214,输入数据依次经过多分类模型的字符embedding层、卷积层、池化层、第一全链接层、第二全链接层、softmax层,得到待分类的招投标数据对应属于各个分类类别的概率向量;
在上述步骤310中,包括:
步骤311,读取上述步骤130中保存的多分类器模型文件,得到相应的多分类器模型;
步骤312,将待分类的招投标数据输入到步骤311所得到的多分类器模型中;
步骤313,多分类器模型的字符层将待分类的招投标数据转换为SL×VN的输入矩阵以作为多分类器模型的输入数据;
步骤314,输入数据依次经过多分类器模型的字符embedding层、卷积层、池化层、第一全链接层、第二全链接层、softmax层,得到待分类的招投标数据对应属于各个分类类别的概率向量。
5.如权利要求1-4任一项所述的面向公共资源招投标公告数据的自动分类方法,其特征在于:
所述步骤110包括:
将每个文档定义为d,文档d中的每个单词定义为w,将文档集合定义为D,将主题集合定义为T;
通过上述定义,可将文档集合D中每个文档d看作一个单词序列<w1,w2,...,wn>,wi表示第i个单词,设d有n个单词;
文档集合D中涉及的所有不同单词组成全体单词集合VOCABULARY,简称VOC,LDA方法以文档集合D作为输入,训练出的两个结果向量,设聚成k个主题,VOC中共包含m个单词:
则对文档集合D中的每个文档d,对应到不同主题的概率为θd<pt1,...,ptk>,其中,pti表示d对应T中第i个topic的概率,pti=nti/n,其中nti表示d中对应第i个topic的词的数目,n是d中所有词的总数;
对每个主题集合T中的主题t,生成不同单词wi的概率φt<pw1,...,pwm>,其中,pwi表示t生成VOC中第i个单词的概率,pwi=Nwi/N,其中Nwi表示对应到主题t的VOC中第i个单词wi的数目,N表示所有对应到主题t的单词总数;
则有条件概率:p(w|d)=p(w|t)*p(t|d)
以主题作为中间层,通过当前的θd和φt给出了文档d中出现单词w的概率;其中p(t|d)利用θd计算得到,p(w|t)利用φt计算得到;
根据需要自动标注的标签类型设置LDA的初始主题数量,每个主题取一定数量的主题词,分别与每类招投标数据的种子词计算PMI值,PMI值最大的种子词对应的标签即为相应主题的分类标签。
6.如权利要求5所述的面向公共资源招投标公告数据的自动分类方法,其特征在于:PMI值计算公式如下
上式中,n表示每一分类数据的种子词数量,m表示LDA模型输出的每一个主题的主题词数量,twi表示某一个主题的第i个主题词,swj表示某一分类数据第j个种子词;
其中:
式中,p(w1&w2)表示两个词语共同出现的概率,p(w1)和p(w2)分别表示两个词语单独出现在文本中的概率。
7.如权利要求6所述的面向公共资源招投标公告数据的自动分类方法,其特征在于:根据以下公式确定输出的分类标签:
上式中,k表示分类数据对应的标签数量,Sc表示与第c类分类数据的种子词计算出的PMI值。
8.一种面向公共资源招投标公告数据的自动分类方法,其特征在于包括步骤:
提取招投标数据中的纯文本信息,基于建筑招投标行业的领域词典,对于招投标数据的文本进行分词;
对分词后的结果去除停用词;然后采用TF-IDF方法进行特征词提取,其中TF指词频、IDF指逆文本频率指数;
对提取到的特征词进行T检验,将提取到的特征词的T检验值按从大到小进行排序,剔除不具有显著性的特征词;
采用随机森林分类器方法对获得的具有显著性的特征词进行分类,输出分类结果;
其中随机森林分类器方法建造每棵树的步骤包括:用N来表示训练用例的个数,M表示特征数量,这里的训练用例即为样本;输入特征数目m,用于确定决策树上一个节点的决策结果;其中m应远小于M;从N个样本中以有放回抽样的方式取样N次,形成一个训练集,并用未抽到的样本作预测,评估其误差;对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的;根据这m个特征,计算其最佳的分裂方式;其中,每棵树都会完整成长而不会被剪枝,这棵树的每一分支都有可能在建完一棵正常树状分类器后会被采用。
9.一种面向公共资源招投标公告数据的自动分类系统,包括存储器、处理器、以及存储在所述存储器上的计算机程序,其特征在于,所述计算机程序被所述处理器运行时执行如权利要求1-8中任一项所述的方法步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910715867.8A CN110472053A (zh) | 2019-08-05 | 2019-08-05 | 一种面向公共资源招投标公告数据的自动分类方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910715867.8A CN110472053A (zh) | 2019-08-05 | 2019-08-05 | 一种面向公共资源招投标公告数据的自动分类方法及其系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110472053A true CN110472053A (zh) | 2019-11-19 |
Family
ID=68509371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910715867.8A Pending CN110472053A (zh) | 2019-08-05 | 2019-08-05 | 一种面向公共资源招投标公告数据的自动分类方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110472053A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111366816A (zh) * | 2020-04-26 | 2020-07-03 | 华北电力大学 | 一种基于机器学习的电网故障诊断方法 |
CN111626874A (zh) * | 2020-05-25 | 2020-09-04 | 泰康保险集团股份有限公司 | 理赔数据处理方法、装置、设备及存储介质 |
CN113515629A (zh) * | 2021-06-02 | 2021-10-19 | 中国神华国际工程有限公司 | 一种文档分类方法、装置、计算机设备及存储介质 |
CN113590819A (zh) * | 2021-06-30 | 2021-11-02 | 中山大学 | 一种大规模类别层级文本分类方法 |
CN113704471A (zh) * | 2021-08-26 | 2021-11-26 | 唯品会(广州)软件有限公司 | 语句的分类方法、装置、设备和存储介质 |
CN115311061A (zh) * | 2022-08-08 | 2022-11-08 | 公诚管理咨询有限公司 | 基于数字认证的电子交易管理方法、装置、设备及存储介质 |
CN116303406A (zh) * | 2023-05-16 | 2023-06-23 | 河北中废通网络技术有限公司 | 废旧物数据的清洗方法、装置、电子设备及存储介质 |
CN117541366A (zh) * | 2023-10-20 | 2024-02-09 | 网麒科技(北京)有限责任公司 | 一种中标概率的预测方法、装置、电子设备及存储介质 |
CN118410775A (zh) * | 2024-07-01 | 2024-07-30 | 国泰新点软件股份有限公司 | 面向招投标领域大模型预训练的表格数据处理方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103970863A (zh) * | 2014-05-08 | 2014-08-06 | 清华大学 | 基于lda主题模型的微博用户兴趣的挖掘方法及系统 |
US20180357531A1 (en) * | 2015-11-27 | 2018-12-13 | Devanathan GIRIDHARI | Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof |
CN109189925A (zh) * | 2018-08-16 | 2019-01-11 | 华南师范大学 | 基于点互信息的词向量模型和基于cnn的文本分类方法 |
CN109299253A (zh) * | 2018-09-03 | 2019-02-01 | 华南理工大学 | 一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法 |
CN109739986A (zh) * | 2018-12-28 | 2019-05-10 | 合肥工业大学 | 一种基于深度集成学习的投诉短文本分类方法 |
CN109918500A (zh) * | 2019-01-17 | 2019-06-21 | 平安科技(深圳)有限公司 | 基于卷积神经网络的文本分类方法及相关设备 |
CN109977413A (zh) * | 2019-03-29 | 2019-07-05 | 南京邮电大学 | 一种基于改进cnn-lda的情感分析方法 |
-
2019
- 2019-08-05 CN CN201910715867.8A patent/CN110472053A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103970863A (zh) * | 2014-05-08 | 2014-08-06 | 清华大学 | 基于lda主题模型的微博用户兴趣的挖掘方法及系统 |
US20180357531A1 (en) * | 2015-11-27 | 2018-12-13 | Devanathan GIRIDHARI | Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof |
CN109189925A (zh) * | 2018-08-16 | 2019-01-11 | 华南师范大学 | 基于点互信息的词向量模型和基于cnn的文本分类方法 |
CN109299253A (zh) * | 2018-09-03 | 2019-02-01 | 华南理工大学 | 一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法 |
CN109739986A (zh) * | 2018-12-28 | 2019-05-10 | 合肥工业大学 | 一种基于深度集成学习的投诉短文本分类方法 |
CN109918500A (zh) * | 2019-01-17 | 2019-06-21 | 平安科技(深圳)有限公司 | 基于卷积神经网络的文本分类方法及相关设备 |
CN109977413A (zh) * | 2019-03-29 | 2019-07-05 | 南京邮电大学 | 一种基于改进cnn-lda的情感分析方法 |
Non-Patent Citations (6)
Title |
---|
DEQING WANG ET AL.: "t-Test feature selection approach based on term frequency for text categorization", 《PATTERN RECOGNITION LETTERS》 * |
RALF KRESTEL AND STEFAN SIERSDORFER: "Generating contextualized sentiment lexica based on latent topics and user ratings", 《PROCEEDINGS OF THE 24TH ACM CONFERENCE ON HYPERTEXT AND SOCIAL MEDIA (HT "13)》 * |
XIUXIU179: "随机森林", 《CSDN》 * |
ZOECHEN: "LDA(Latent Dirichlet Allocation)主题模型算法", 《新浪博客》 * |
李湘东等: "一种基于加权LDA模型和多粒度的文本特征选择方法", 《现代图书情报技术》 * |
杨秀璋等: "基于随机森林和LDA的论文自动分类及主题挖掘研究", 《计算机时代》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111366816A (zh) * | 2020-04-26 | 2020-07-03 | 华北电力大学 | 一种基于机器学习的电网故障诊断方法 |
CN111626874A (zh) * | 2020-05-25 | 2020-09-04 | 泰康保险集团股份有限公司 | 理赔数据处理方法、装置、设备及存储介质 |
CN113515629A (zh) * | 2021-06-02 | 2021-10-19 | 中国神华国际工程有限公司 | 一种文档分类方法、装置、计算机设备及存储介质 |
CN113590819B (zh) * | 2021-06-30 | 2024-01-02 | 中山大学 | 一种大规模类别层级文本分类方法 |
CN113590819A (zh) * | 2021-06-30 | 2021-11-02 | 中山大学 | 一种大规模类别层级文本分类方法 |
CN113704471A (zh) * | 2021-08-26 | 2021-11-26 | 唯品会(广州)软件有限公司 | 语句的分类方法、装置、设备和存储介质 |
CN113704471B (zh) * | 2021-08-26 | 2024-02-02 | 唯品会(广州)软件有限公司 | 语句的分类方法、装置、设备和存储介质 |
CN115311061A (zh) * | 2022-08-08 | 2022-11-08 | 公诚管理咨询有限公司 | 基于数字认证的电子交易管理方法、装置、设备及存储介质 |
CN115311061B (zh) * | 2022-08-08 | 2023-04-18 | 公诚管理咨询有限公司 | 基于数字认证的电子交易管理方法、装置、设备及存储介质 |
CN116303406A (zh) * | 2023-05-16 | 2023-06-23 | 河北中废通网络技术有限公司 | 废旧物数据的清洗方法、装置、电子设备及存储介质 |
CN116303406B (zh) * | 2023-05-16 | 2023-08-04 | 河北中废通网络技术有限公司 | 废旧物数据的清洗方法、装置、电子设备及存储介质 |
CN117541366A (zh) * | 2023-10-20 | 2024-02-09 | 网麒科技(北京)有限责任公司 | 一种中标概率的预测方法、装置、电子设备及存储介质 |
CN117541366B (zh) * | 2023-10-20 | 2024-07-23 | 网麒科技(北京)有限责任公司 | 一种中标概率的预测方法、装置、电子设备及存储介质 |
CN118410775A (zh) * | 2024-07-01 | 2024-07-30 | 国泰新点软件股份有限公司 | 面向招投标领域大模型预训练的表格数据处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472053A (zh) | 一种面向公共资源招投标公告数据的自动分类方法及其系统 | |
Swathi et al. | An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis | |
Wei et al. | Developing a hierarchical system for energy corporate risk factors based on textual risk disclosures | |
Hidayat et al. | Sentiment analysis of twitter data related to Rinca Island development using Doc2Vec and SVM and logistic regression as classifier | |
Rustam et al. | Classification of shopify app user reviews using novel multi text features | |
CN104951548B (zh) | 一种负面舆情指数的计算方法及系统 | |
CN106919619A (zh) | 一种商品聚类方法、装置及电子设备 | |
CN110377696A (zh) | 一种商品期货新闻舆情分析方法及系统 | |
CN110188047A (zh) | 一种基于双通道卷积神经网络的重复缺陷报告检测方法 | |
Righi et al. | The AI techno-economic complex System: Worldwide landscape, thematic subdomains and technological collaborations | |
CN110717654B (zh) | 基于用户评论的产品质量评价方法和系统 | |
CN112419029B (zh) | 类金融机构风险监控方法、风险模拟系统及存储介质 | |
CN112925908A (zh) | 一种基于Attention的图注意力网络的文本分类方法及系统 | |
Athani et al. | Student academic performance and social behavior predictor using data mining techniques | |
Li et al. | Stock price prediction incorporating market style clustering | |
CN108470022A (zh) | 一种基于运维管理的智能工单质检方法 | |
CN111651270B (zh) | 对法律数据完成多任务语义标注的可视化方法和装置 | |
CN107844558A (zh) | 一种分类信息的确定方法以及相关装置 | |
Alzaeemi et al. | Examining the forecasting movement of palm oil price using RBFNN-2SATRA metaheuristic algorithms for logic mining | |
CN109933783A (zh) | 一种不良资产经营领域的合同要素化方法 | |
CN111626331B (zh) | 一种自动化行业分类装置及其工作方法 | |
CN109710725A (zh) | 一种基于文本分类的中文表格列标签恢复方法和系统 | |
CN110781297A (zh) | 基于层次判别树的多标签科研论文的分类方法 | |
Rahkovsky et al. | AI research funding portfolios and extreme growth | |
CN112579784B (zh) | 一种基于深度强化学习的云边协同文档分类系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191119 |
|
WD01 | Invention patent application deemed withdrawn after publication |