CN113420145B - 一种基于半监督学习的招标文本分类方法与系统 - Google Patents
一种基于半监督学习的招标文本分类方法与系统 Download PDFInfo
- Publication number
- CN113420145B CN113420145B CN202110512134.1A CN202110512134A CN113420145B CN 113420145 B CN113420145 B CN 113420145B CN 202110512134 A CN202110512134 A CN 202110512134A CN 113420145 B CN113420145 B CN 113420145B
- Authority
- CN
- China
- Prior art keywords
- word
- tfs
- seed
- class
- word stock
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 239000013598 vector Substances 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000010276 construction Methods 0.000 claims abstract description 18
- 238000001914 filtration Methods 0.000 claims abstract description 18
- 238000013145 classification model Methods 0.000 claims abstract description 10
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 10
- 238000012216 screening Methods 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 5
- 238000004806 packaging method and process Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000004566 building material Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及招标文本分类技术领域,更为具体来说,本申请涉及一种基于半监督学习的招标文本分类方法与系统。所述方法包括以下步骤:种子词库构建步骤,借助大规模语料库生成词嵌入向量和类别TFS‑IDF值,基于所述词嵌入向量和类别TFS‑IDF值获得领域种子词库;无监督学习步骤,基于所述种子词库构建无监督分类模型,过滤掉负样本,并将疑似正样本输入到有监督模型中;有监督学习步骤,对所述疑似正样本进行少量标注,训练文本卷积神经网络模型进行预测,得到最终文本分类标签。本申请提出的招标文本分类方法与系统能有效地解决招标文本分类任务中数据不平衡性问题,并能在少量的标注数据下取得可观的识别效果,进而提高企业商情挖掘的质量与效率。
Description
技术领域
本申请涉及招标文本分类技术领域,更为具体来说,本申请涉及一种基于半监督学习的招标文本分类方法与系统。
背景技术
目前越来越多企业通过招标方式进行商情挖掘,而每日全网有近10万条的招标信息发布,其中大部分信息跟企业的业务不相关。如何准确地过滤掉不相关的招标信息并对相关的招标信息进行有效分类是提高企业商情挖掘效率的一个关键要素。这在技术上可转化为招标文本的分类问题。主流的分类方法主要分为监督学习模型(如决策树、TextCNN等)和无监督学习模型(如KMeans、基于规则等)。监督模型存在分类更准确的优点,但存在需要大量的标签数据、模型更为复杂、分类效率较低等缺点。无监督模型存在分类效率高、不需要标签数据等优点,但分类的准确率往往没有监督模型好。
因此,结合招标数据存在的样本不平衡性问题,以及两类分类方法的优点,本申请提出一种基于半监督学习的招标文本分类方法,以至少部分地解决上述技术问题。
发明内容
本发明的核心是先构建领域词库,生成一个基于规则的无监督模型进行样本筛选,过滤掉大量明显与企业业务不相关的负样本,同时也筛出疑似正样本;接着标注少量样本,训练一个监督模型(TextCNN)对疑似正样本进行分类,最后得到具有不同类别的正样本。通过该模型,能有效的处理样本不平衡性问题,并得到可观的准确度和分类效率,同时也大大减少标注数据带来的人力成本,提高企业商情挖掘的质量与效率。
为实现上述技术目的,本申请提供了一种基于半监督学习的招标文本分类方法,包括以下步骤:
种子词库构建步骤,借助大规模语料库生成词嵌入向量和类别TFS-IDF值,基于所述词嵌入向量和类别TFS-IDF值获得领域种子词库;
无监督学习步骤,基于所述种子词库构建无监督分类模型,过滤掉负样本,并将疑似正样本输入到有监督模型中;
有监督学习步骤,对所述疑似正样本进行少量标注,训练文本卷积神经网络模型进行预测,得到最终文本分类标签。
具体地,所述种子词库构建步骤具体包括:
指定几个与业务强相关的行业关键词作为初始类别种子词库,将所述初始类别种子词库输入到领域种子词库;
对大规模语料库中所有语料进行分词,对分词后的语料库进行预训练,得到具有上下文表征的词嵌入向量;
使用所述词嵌入向量对初始类别种子词库计算出前10个最相似的关键词放入备选词库;
利用初始类别种子词库对大规模语料库计算类别TFS-IDF值,利用所述类别TFS-IDF值扩充所述备选词库;
对扩充后的备选词库进行筛选,将筛选结果输入到领域种子词库。
优选地,所述几个为3个、4个或5个。
优选地,对分词后的语料库进行预训练使用Word2vec模型。
具体地,所述利用初始类别种子词库对大规模语料库计算类别TFS-IDF值,包括:
使用初始种子词库对大规模语料库进行匹配筛选,将包含种子词的文本放入一个集合中作为正类别,将不包含种子词的文本放入另一集合中作为负类别;
计算正类别的类别TFS_IDF值,其中TFS代表词频分数,IDF代表逆文档频率。
进一步地,所述计算正类别的类别TFS_IDF值的方法为:
其中,TFS(Cpos,ω)代表词ω在正类别中的词频指标,IDF(ω)代表词ω的逆文档频率。
再进一步地,所述的TFS(Cpos,ω)方法为:
所述IDF(ω)方法为:
其中,n代表语料库D中的文本总数,fD,ω代表语料库D中包含词ω的文本数。
优选地,利用所述类别TFS-IDF值扩充所述备选词库的方法为将所述类别TFS-IDF值最大的前100个词扩充到所述备选词库中。
具体地,所述对扩充后的备选词库进行筛选的方法为:
具体地,所述无监督学习步骤中过滤掉负样本的方法为:
其中,Seed(lp)表示种子词库中代表正标签的关键词,lp代表正标签,ln代表负标签,match操作表示当词ωi与正标签的种子词库中的任意一个关键词匹配时,返回True,否则返回False,any表示任意一个match返回True则整体返回True,否则返回False。
选择性地,所述有监督学习步骤中,使用3个卷积层,分别对应2-gram,3-gram,4-gram的n-gram信息,其中n代表当前单词依赖其前面的单词的个数,每一个卷积层后接了一个最大池化层,以选择包含信息最多的单词对,每一个池化层的输出都会被标准化以加快模型的训练速度。
本发明第二方面提出一种基于半监督学习的招标文本分类系统,包括:
种子词库构建模块,借助大规模语料库生成词嵌入向量和类别TFS-IDF值,基于所述词嵌入向量和类别TFS-IDF值获得领域种子词库;
无监督学习模块,基于所述种子词库构建无监督分类模型,过滤掉负样本,并将疑似正样本输入到有监督模型中;
有监督学习模块,对所述疑似正样本进行少量标注,训练文本卷积神经网络模型进行预测,得到最终文本分类标签。
优选地,所述系统的有监督学习模块还包括词嵌入层、N-gram卷积层、池化层和全连接层。
本申请的有益效果为:本申请提出的基于半监督学习的招标文本分类方法与系统能有效地解决招标文本分类任务中数据不平衡性问题,并能在少量的标注数据下取得可观的识别效果,进而提高企业商情挖掘的质量与效率。
附图说明
图1示出了本申请实施例1的方法流程示意图;
图2示出了本申请实施例2的系统模块示意图;
图3示出了本申请实施例3的模型结构示意图。
具体实施方式
文本分类任务是对输入文本预测出特定标签的学习过程。常见解决文本分类的方法可以分为二类,即无监督学习和有监督学习。在无监督学习中,通过提取各个类别文本的关键字,使用关键字匹配方法,将文本分配到含有关键字的对应类别中。这种方法建立在文本语义可以由关键字完全表征的假设上,而在实际情况中,文本语义不仅与关键字有关,还与关键字前后的词组有关。
表1在过滤出“纸箱”采购相关的招标信息示例
从实际统计中发现,绝大部分招标信息跟所在行业是不相关的,而在相关中也会存在不少噪声的样例,例如表1显示,在过滤出“纸箱”采购相关的招标信息中,不相关的(负样本)绝大部分都是其他行业的招标信息,且在与包装印刷行业相关招标信息中,也存在“废纸箱”类似的伪相关的信息(疑似正样本)。所以,若采用无监督学习的方法,可以利用招标文本隐含的行业特征快速高效地识别出负样本,但却不能很好地解决疑似正样本之类带来的噪声影响。
有监督学习可分机器学习方法和深度学习两种方法。传统的机器学习方法使用构造的统计特征如Bag-of-Words和TFS-IDF等对文本进行分类,这些方法仅以单个词语的重要性进行分析判断,而没有考虑到词语与词语之间的关联信息,无法很好地学习文本内容。深度学习模型中,常见的有TextCNN、TextRNN和TextRCNN等模型。相比于传统的机器学习方法,深度学习模型具有更强的表征学习能力,且不需要人工额外地构造特征等优势。但在面向业务场景的招标文本分类任务时,存在严重的样本不平衡问题,有的业务场景能达到9:1(负样本:正样本)的比例,甚至更高。这为在训练深度模型带来一系列问题,包括需考虑标注数据的样本分布、模型更偏向负样本的学习、正样本预测效果很差等。
针对上述问题,本发明结合应用场景特点及两类方法的优缺点,提出一种基于半监督学习的招标文本分类方法,先利用无监督模型进行第一层筛选,过滤掉80%以上的显著负样本,剩下作为疑似正样本,接着利用TextCNN有监督模型对疑似正样本进行第二层分类预测。本发明能有效地解决招标文本分类任务中数据不平衡性问题,并能在少量的标注数据下取得可观的识别效果,进而提高企业商情挖掘的质量与效率。
以下,将参照附图来描述本申请的实施例。但是应该理解的是,这些描述只是示例性的,而并非要限制本申请的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本申请的概念。对于本领域技术人员来说显而易见的是,本申请可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本申请发生混淆,对于本领域公知的一些技术特征未进行描述。
应予以注意的是,这里所使用的术语仅是为了描述具体实施例,而非意图限制根据本申请的示例性实施例。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式。此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或附加一个或多个其他特征、整体、步骤、操作、元件、组件和/或它们的组合。
现在,将参照附图更详细地描述根据本申请的示例性实施例。然而,这些示例性实施例可以多种不同的形式来实施,并且不应当被解释为只限于这里所阐述的实施例。附图并非是按比例绘制的,其中为了清楚表达的目的,可能放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
实施例1:
本实施例实施了一种基于半监督学习的招标文本分类方法,如图1所示,包括以下步骤:
S1、种子词库构建步骤,借助大规模语料库生成词嵌入向量和类别TFS-IDF值,基于所述词嵌入向量和类别TFS-IDF值获得领域种子词库;
S2、无监督学习步骤,基于所述种子词库构建无监督分类模型,过滤掉负样本,并将疑似正样本输入到有监督模型中;
S3、有监督学习步骤,对所述疑似正样本进行少量标注,训练文本卷积神经网络模型进行预测,得到最终文本分类标签。
其中,Term Frequency Score(TFS)代表词频分数,Inverse Document Frequency(IDF)代表逆文档频率。
具体地,所述种子词库构建步骤具体包括:
指定几个与业务强相关的行业关键词作为初始类别种子词库,将所述初始类别种子词库输入到领域种子词库;
对大规模语料库中所有语料进行分词,对分词后的语料库进行预训练,得到具有上下文表征的词嵌入向量;
使用所述词嵌入向量对初始类别种子词库计算出前10个最相似的关键词放入备选词库;
利用初始类别种子词库对大规模语料库计算类别TFS-IDF值,利用所述类别TFS-IDF值扩充所述备选词库;
对扩充后的备选词库进行筛选,将筛选结果输入到领域种子词库。
优选地,所述几个为3个、4个或5个;对分词后的语料库进行预训练使用Word2vec模型。
具体地,所述利用初始类别种子词库对大规模语料库计算类别TFS-IDF值,包括:
使用初始种子词库对大规模语料库进行匹配筛选,将包含种子词的文本放入一个集合中作为正类别,将不包含种子词的文本放入另一集合中作为负类别;
计算正类别的类别TFS_IDF值,其中TFS代表词频分数,IDF代表逆文档频率。
进一步地,所述计算正类别的类别TFS_IDF值的方法为:
其中,TFS(Cpos,ω)代表词ω在正类别中的词频指标,IDF(ω)代表词ω的逆文档频率。
再进一步地,所述的TFS(Cpos,ω)方法为:
所述IDF(ω)方法为:
其中,n代表语料库D中的文本总数,fD,ω代表语料库D中包含词ω的文本数。
通过上述计算筛选出与行业相关的文本,仅需计算正类别中词的TFS_IDF值。TFS_IDF值越大,代表词ω在正类别文本中的影响越大。将正类别文本中的所有词按照TFS_IDF值进行降序排序,将TFS_IDF值最大的前100个词扩充到备选词库中。
具体地,所述对扩充后的备选词库进行筛选的方法为:
具体地,所述无监督学习步骤中过滤掉负样本的方法为:
其中,Seed(lp)表示种子词库中代表正标签的关键词,lp代表正标签,ln代表负标签,match操作表示当词ωi与正标签的种子词库中的任意一个关键词匹配时,返回True,否则返回False,any表示任意一个match返回True则整体返回True,否则返回False。
选择性地,所述有监督学习步骤中,使用3个卷积层,分别对应2-gram,3-gram,4-gram的n-gram信息,其中n代表当前单词依赖其前面的单词的个数,每一个卷积层后接了一个最大池化层,以选择包含信息最多的单词对,每一个池化层的输出都会被标准化以加快模型的训练速度。
实施例2:
实施例实施了一种基于半监督学习的招标文本分类系统,如图2所示,包括:
种子词库构建模块,借助大规模语料库生成词嵌入向量和类别TFS-IDF值,基于所述词嵌入向量和类别TFS-IDF值获得领域种子词库;
无监督学习模块,基于所述种子词库构建无监督分类模型,过滤掉负样本,并将疑似正样本输入到有监督模型中;
有监督学习模块,对所述疑似正样本进行少量标注,训练文本卷积神经网络即TextCNN模型进行预测,得到最终文本分类标签。
进一步地,所述装置的有监督学习模块还包括词嵌入层、N-gram卷积层、池化层和全连接层。
所述种子词库构建模块在获得领域种子词库过程中包括数据预处理、建立初始种子词库、建立备选词库、扩充备选词库及过滤并构建最终的种子词库等步骤。
数据预处理时,首先整理招投标数据,形成一个大规模语料库;接着对语料库进行数据清洗,由于停顿词,英文,数字,日期等大量无效字符对招标行业文本分类没有影响,因此在数据清洗步骤中,使用哈工大停词表对停顿词进行了删除,并且删除了所有英文,数字以及代表日期的关键字如“年”,“月”,“日”;最后,使用jieba包对所有语料进行分词。
建立初始种子词库时,首先由行业专家对特定行业指定3-5个强相关的关键词,将行业关键词放入初始词库。例如对于“包装印刷”行业来说,可形成[“纸箱”,“纸板”,“印刷品”]初始词库,对于“家居建材”行业来说,可形成[“灯具”,“瓷砖”,“天花板”]初始词库。虽然本实施例仅针对“包装印刷”行业形成种子词库对行业内文本进行筛选,但是本实施方式可适用于其他任何行业。行业初始种子词库有以下几个性质:i)种子词库具有高度区分性,包含种子词的文本可以较为准确的判定为正样本;ii)种子词库具有语义一致性,即种子词不存在多种语义。初始种子词库需要输入到种子词库中,而同时初始种子词库还要进一步为备选词库的建立及最终种子词库构建完成做相关工作。
建立备选词库时,使用Word2vec模型对分词后的语料库进行预训练,得到具有上下文表征的词嵌入向量(Word Embedding Vector)。由于每一个词向量代表每个词的词义,因此可以计算每个词向量之间的相似度,得到指定词的相似词。对每一个专家提供的行业关键词,使用Word2vec得到的词嵌入向量,计算出前10个最相似的关键词形成备选词库。
扩充备选词库时,为了找到更多与行业相关的词,本实施例引入了词的类别TFS_IDF指标进行备选词库的扩充。
(1)生成类别样本
使用初始种子词库对大规模语料库进行匹配筛选,将包含种子词的文本放入一个集合中作为正类别,将不包含种子词的文本放入另一集合中作为负类别。使用数学公式可以表达为Di={S1,S2,...,Sn},其中i∈{pos,neg},Di代表第i类样本数据集,Sj代表Di中的第j个文本。
(2)计算类别TFS_IDF值
在分词后的语料库中计算每个词的类别TFS_IDF值。其中,Term FrequencyScore(TFS)代表词频分数,一般而言,属于某个文本类别的关键词会在该类别的文本中有较高的出现频率,因此在该类别文本中出现次数较多的词会拥有较高的类别TFS值。将类别集合定义为C={Cpos,Cneg},正、负类别TFS值的计算公式如下:
以正类别的TFS值为例,首先将词ω在正类别的文本中出现的次数与正类别的总文本个数求平均,考虑到每个文本的长短不一,出现词的频率没有上限,对词频还进行了tanh标准化处理。公式中,代表词ω在正类别中出现的次数,/>代表正类别中的总文本个数,TFS(Cpos,ω)表词ω在正类别中的词频指标。
有标签区分性的关键词应该是不常见的,因此在词频分数的基础上引入InverseDocument Frequency(IDF)逆文档频率。IDF的计算公式如下:
器中,n代表语料库D中的文本总数,fD,ω代表语料库D中包含词ω的文本数,IDF(ω)代表词ω的逆文档频率。正类别的TFS_IDF值的计算公式如下:
为了筛选出与行业相关的文本,因此仅需计算正类别中词的TFS_IDF值。TFS_IDF值越大,代表词ω在正类别文本中的影响越大。将正类别文本中的所有词按照TFS_IDF值进行降序排序,将TFS_IDF值最大的前100个词扩充到备选词库中。
过滤并构建最终的种子词库时使用Function-aware Component(FAC)功能感知系数对扩充后的备选词库进行筛选,将区分能力弱的关键字排除。这里,过滤并构建最终的种子词库也就是选出了高质量种子词库,FAC的数学方法如下:
设置FAC的阈值对扩充备选词库进行筛选,将筛选后的高质量备选词库与初始种子词库融合形成最终的种子词库,利用种子词库生成无监督模型。
接着执行无监督学习步骤,基于所述种子词库构建无监督分类模型,过滤掉负样本,并将疑似正样本输入到有监督模型中。
所述无监督学习步骤中过滤掉负样本的方法为:
其中,Seed(lp)表示种子词库中代表正标签的关键词,lp代表正标签,ln代表负标签,match操作表示当词ωi与正标签的种子词库中的任意一个关键词匹配时,返回True,否则返回False,any表示任意一个match返回True则整体返回True,否则返回False。
最后执行有监督学习步骤,对所述疑似正样本进行少量标注,训练文本卷积神经网络模型进行预测,得到最终文本分类标签。
有监督学习模块在得到最终文本分类标签的过程中,首先需要生成训练数据。在训练有监督模型前,需标注少量训练样本进行识别分类,该分类任务可为二分类(YES/NO),或者更细粒度的分类,根据业务场景制定。比如将包装印刷行业的招标文本细分为4大类,包括与“纸箱”招标高度相关的correspond类,与“纸箱”招标中等相关的related类,与“纸箱”招标低相关的possible类和与“纸箱”招标不相关的no类。通过无监督模型将大部分负样本去除后,将疑似正样本作为训练数据。
有监督学习模块功能实现所涉及的词嵌入层、N-gram卷积层与池化层、全连接层、损失函数与指标具体如下:
(1)词嵌入层
招标文本需要通过预处理才可以被模型进行学习与训练。传统的文本预处理方法包括独热编码,整数编码。独热编码会生成巨大的系数矩阵,效率低下;整数编码将一段文本用整数向量进行表示,缺点在于无法获得单词之间的任何关系。使用固定维度,可学习的密集向量进行文本表征,能够提高模型训练效率与分类性能。初始化词嵌入向量有两种方法:一种是通过不同的概率分布如均匀分布、正态分布等对单词进行随机建模;另一种是通过无监督学习对所有单词进行预训练,得到符合语言习惯、连接单词关系的单词向量,常见的方法包括Bert预训练模型,Word2vec预训练模型,GloVe预训练模型。不同于构建种子词库阶段,为了平衡有监督学习的生产效率与预测精度,本实施例中使用均匀分布词向量对单词进行嵌入。
(2)N-gram卷积层与池化层
假设每一个单词的出现概率仅与前面的n-1个单词相关,则每一个单词的出现概率p(ωi)可以表示为:
p(ωi)=p(ωi|ωi-n+1,...,ωi-1)
本实施例中使用卷积层对每一个单词的出现概率进行建模。本实施例中一共使用了3个卷积层,分别对应2-gram,3-gram,4-gram的n-gram信息。其中n代表当前单词依赖它前面的单词的个数。每一个卷积层后接了一个最大池化层,目的是选择包含信息最多的单词对。每一个池化层的输出都会被标准化以加快模型的训练速度。整个卷积网络的流程表示如下:
将卷积网络的输出拼接起来,可以得到包含2-gram,3-gram,4-gram信息的文本向量,表示为[h1;h2;h3]。将文本信息向量输入至全连接层可以对文本标签进行预测。
(3)全连接层
全连接层被广泛应用于作为分类器。将文本信息向量映射到标签维度,使用softmax函数对每一个标签维度的数值进行归一化,得到每一个标签的概率,得到概率最大的标签即为模型预测标签。
(4)损失函数与指标
模型通过梯度下降法最优化真实标签与预测标签之间的误差,因此选择合适的损失函数非常重要。交叉熵函数(CE)可以衡量两个概率分布之间的差异性信息,并且其求导函数在任何时候都为凸函数,因此本实施例使用CE作为模型学习的损失函数。CE的数学公式如下:
其中,yi代表真实标签为i的概率,pi代表预测标签为i的概率。最后,使用文本预测的准确率作为衡量指标。
本实施例中,使用包装行业“纸箱”招标分类任务中标注好的数据作为实验数据,以只使用有监督模型和只使用无监督模型作为baselines,将本实施例提出的半监督模型与baselines进行对比实验。
表2整体实验数据表
No | Possible | Related | Correspond | Total |
46582 | 821 | 362 | 638 | 48403 |
实验数据中的各类标签含义如下:“Correspond”代表文本与“纸箱”招标行业相关性高,“Related”代表文本与“纸箱”招标行业相关性中等,“Possible”代表文本与“纸箱”招标行业相关性低,“No”代表文本与“纸箱”招标行业没有相关性。在实际中,95%的文本数据为与“纸箱”招标行业没有相关性,为无效信息,导致负样本(标签为“No”)与正样本(标签为非“No”)之间存在严重的类别不平衡性。
在进行对比实验之前,首先将数据集分为训练集,验证集和测试集,比例为8:1:1,并且每个标签的样本数量在各个数据集的比例也为8:1:1。模型训练到验证集损失不再下降时停止,模型的好坏以最优验证集对应的测试集的正样本准确率作为评判标准,实验结果如表3所示:
表3对比实验精度与学习效率表
本实施例模型 | 纯有监督模型 | 纯无监督模型 | |
整体精度(%) | 97.88 | 92.31 | 89.41 |
正样本精度(%) | 91.26 | 87.55 | 85.68 |
运行时间(秒) | 29.33 | 169.80 | 0.02 |
从表3中可以发现,使用本实施例的模型,相比纯有监督学习整体精度提升了5%以上,相比纯使用无监督模型整体精度提升了8%以上;同样,正样本精度分别有约4%、6%的提升。本实施例模型和纯监督模型相比,运行效率提升了5倍以上,虽然纯无监督的运行效率远远高于本实施例模型,但是其精度远远不能满足实际生产需求。从实验中可看出,本实施例构建的模型有着最佳的识别效果,并具备可落地的运行效率。同时表明本实施例提出方法的有效性,以及对提高企业在招标信息进行商情挖掘的价值。
实施例3:
本实施例实施了一种基于半监督学习的招标文本分类方法,该方法结合了无监督学习和有监督学习,通过构建领域种子词库,利用领域种子词库中的关键词进行匹配筛选,去除掉大部分无效负样本,得到疑似正样本,然后输入有监督学习模块做最终的分类预测。包括种子词库构建步骤、无监督学习步骤和有监督学习步骤。
种子词库构建步骤,借助大规模语料库生成词嵌入向量和类别TFS-IDF值,基于所述词嵌入向量和类别TFS-IDF值获得领域种子词库;
无监督学习步骤,基于所述种子词库构建无监督分类模型,过滤掉负样本,并将疑似正样本输入到有监督模型中;
有监督学习步骤,对所述疑似正样本进行少量标注,训练文本卷积神经网络即TextCNN模型进行预测,得到最终文本分类标签。
执行无监督学习步骤时,基于所述种子词库构建无监督分类模型,过滤掉负样本,并将疑似正样本输入到有监督模型中。
所述无监督学习步骤中过滤掉负样本的方法为:
其中,Seed(lp)表示种子词库中代表正标签的关键词,lp代表正标签,ln代表负标签,match操作表示当词ωi与正标签的种子词库中的任意一个关键词匹配时,返回True,否则返回False,any表示任意一个match返回True则整体返回True,否则返回False。
为了提升无监督模型的性能以及增加此方法的泛化性,本实施方式中使用了一种新的种子词库构建方法,使其更适用于招标文本处理,具体的模型结构如图3所示。
另外,本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机设备及可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (9)
1.一种基于半监督学习的招标文本分类方法,其特征在于,包括以下步骤:
种子词库构建步骤,借助大规模语料库生成词嵌入向量和类别TFS-IDF值,基于所述词嵌入向量和类别TFS-IDF值获得领域种子词库;
无监督学习步骤,基于所述种子词库构建无监督分类模型,过滤掉负样本,并将疑似正样本输入到有监督模型中;
有监督学习步骤,对所述疑似正样本进行少量标注,训练文本卷积神经网络模型进行预测,得到最终文本分类标签;
其中,所述种子词库构建步骤具体包括:
指定几个与业务强相关的行业关键词作为初始类别种子词库,将所述初始类别种子词库输入到领域种子词库;
对大规模语料库中所有语料进行分词,对分词后的语料库进行预训练,得到具有上下文表征的词嵌入向量;
使用所述词嵌入向量对初始类别种子词库计算出前10个最相似的关键词放入备选词库;
利用初始类别种子词库对大规模语料库计算类别TFS-IDF值,利用所述类别TFS-IDF值扩充所述备选词库;
对扩充后的备选词库进行筛选,将筛选结果输入到领域种子词库;
其中,所述利用初始类别种子词库对大规模语料库计算类别TFS-IDF值,包括:
使用初始种子词库对大规模语料库进行匹配筛选,将包含种子词的文本放入一个集合中作为正类别,将不包含种子词的文本放入另一集合中作为负类别;
计算正类别的类别TFS_IDF值,其中TFS代表词频分数,IDF代表逆文档频率;
所述计算正类别的类别TFS_IDF值的方法为:
其中,TFS(Cpos,ω)代表词ω在正类别中的词频指标,IDF(ω)代表词ω的逆文档频率;
所述对扩充后的备选词库进行筛选的方法为:
2.根据权利要求1所述的基于半监督学习的招标文本分类方法,其特征在于,所述几个为3个、4个或5个。
3.根据权利要求1所述的基于半监督学习的招标文本分类方法,其特征在于,对分词后的语料库进行预训练使用Word2vec模型。
5.根据权利要求4所述的基于半监督学习的招标文本分类方法,其特征在于,利用所述类别TFS-IDF值扩充所述备选词库的方法为将所述类别TFS-IDF值最大的前100个词扩充到所述备选词库中。
7.根据权利要求1至6任一所述的基于半监督学习的招标文本分类方法,其特征在于,所述有监督学习步骤中,使用3个卷积层,分别对应2-gram,3-gram,4-gram的n-gram信息,其中n代表当前单词依赖其前面的单词的个数,每一个卷积层后接了一个最大池化层,以选择包含信息最多的单词对,每一个池化层的输出都会被标准化以加快模型的训练速度。
8.一种基于半监督学习的招标文本分类系统,其特征在于,包括:
种子词库构建模块,借助大规模语料库生成词嵌入向量和类别TFS-IDF值,基于所述词嵌入向量和类别TFS-IDF值获得领域种子词库;
无监督学习模块,基于所述种子词库构建无监督分类模型,过滤掉负样本,并将疑似正样本输入到有监督模型中;
有监督学习模块,对所述疑似正样本进行少量标注,训练文本卷积神经网络模型进行预测,得到最终文本分类标签;
其中,种子词库构建模块具体执行以下步骤:
指定几个与业务强相关的行业关键词作为初始类别种子词库,将所述初始类别种子词库输入到领域种子词库;
对大规模语料库中所有语料进行分词,对分词后的语料库进行预训练,得到具有上下文表征的词嵌入向量;
使用所述词嵌入向量对初始类别种子词库计算出前10个最相似的关键词放入备选词库;
利用初始类别种子词库对大规模语料库计算类别TFS-IDF值,利用所述类别TFS-IDF值扩充所述备选词库;
对扩充后的备选词库进行筛选,将筛选结果输入到领域种子词库;
其中,所述利用初始类别种子词库对大规模语料库计算类别TFS-IDF值,包括:
使用初始种子词库对大规模语料库进行匹配筛选,将包含种子词的文本放入一个集合中作为正类别,将不包含种子词的文本放入另一集合中作为负类别;
计算正类别的类别TFS_IDF值,其中TFS代表词频分数,IDF代表逆文档频率;
所述计算正类别的类别TFS_IDF值的方法为:
其中,TFS(Cpos,ω)代表词ω在正类别中的词频指标,IDF(ω)代表词ω的逆文档频率;
所述对扩充后的备选词库进行筛选的方法为:
9.根据权利要求8所述基于半监督学习的招标文本分类系统,其特征在于,所述系统的有监督学习模块还包括词嵌入层、N-gram卷积层、池化层和全连接层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110512134.1A CN113420145B (zh) | 2021-05-11 | 2021-05-11 | 一种基于半监督学习的招标文本分类方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110512134.1A CN113420145B (zh) | 2021-05-11 | 2021-05-11 | 一种基于半监督学习的招标文本分类方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113420145A CN113420145A (zh) | 2021-09-21 |
CN113420145B true CN113420145B (zh) | 2023-05-23 |
Family
ID=77712223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110512134.1A Active CN113420145B (zh) | 2021-05-11 | 2021-05-11 | 一种基于半监督学习的招标文本分类方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420145B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114022737A (zh) * | 2021-11-16 | 2022-02-08 | 胜斗士(上海)科技技术发展有限公司 | 对训练数据集进行更新的方法和设备 |
CN114238573B (zh) * | 2021-12-15 | 2023-09-22 | 平安科技(深圳)有限公司 | 基于文本对抗样例的信息推送方法及装置 |
CN114254109B (zh) * | 2021-12-15 | 2023-09-19 | 北京金堤科技有限公司 | 用于确定行业类别的方法及装置 |
CN116303909B (zh) * | 2023-04-26 | 2023-08-22 | 山东齐鲁电子招标采购服务有限公司 | 一种电子投标文件与条款的匹配方法、设备及介质 |
CN116304717B (zh) * | 2023-05-09 | 2023-12-15 | 北京搜狐新媒体信息技术有限公司 | 文本分类方法及装置、存储介质及电子设备 |
CN116737969A (zh) * | 2023-08-11 | 2023-09-12 | 河北省科学院应用数学研究所 | 测评机构市场竞争特征数据的处理方法、装置及终端设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107944480A (zh) * | 2017-11-16 | 2018-04-20 | 广州探迹科技有限公司 | 一种企业行业分类方法 |
CN107978373A (zh) * | 2017-11-23 | 2018-05-01 | 吉林大学 | 一种基于共训练的半监督生物医学事件抽取方法 |
CN110826303A (zh) * | 2019-11-12 | 2020-02-21 | 中国石油大学(华东) | 一种基于弱监督学习的联合信息抽取方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577739B (zh) * | 2017-08-28 | 2020-04-10 | 广东惠禾科技发展有限公司 | 一种半监督的领域词挖掘与分类的方法和设备 |
CN108399230A (zh) * | 2018-02-13 | 2018-08-14 | 上海大学 | 一种基于卷积神经网络的中文财经新闻文本分类方法 |
CN109508374B (zh) * | 2018-11-19 | 2021-12-21 | 云南电网有限责任公司信息中心 | 基于遗传算法的文本数据半监督聚类方法 |
-
2021
- 2021-05-11 CN CN202110512134.1A patent/CN113420145B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107944480A (zh) * | 2017-11-16 | 2018-04-20 | 广州探迹科技有限公司 | 一种企业行业分类方法 |
CN107978373A (zh) * | 2017-11-23 | 2018-05-01 | 吉林大学 | 一种基于共训练的半监督生物医学事件抽取方法 |
CN110826303A (zh) * | 2019-11-12 | 2020-02-21 | 中国石油大学(华东) | 一种基于弱监督学习的联合信息抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113420145A (zh) | 2021-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113420145B (zh) | 一种基于半监督学习的招标文本分类方法与系统 | |
CN110532542B (zh) | 一种基于正例与未标注学习的发票虚开识别方法及系统 | |
CN107944480B (zh) | 一种企业行业分类方法 | |
US10089581B2 (en) | Data driven classification and data quality checking system | |
CN107491531B (zh) | 基于集成学习框架的中文网络评论情感分类方法 | |
CN107633007B (zh) | 一种基于层次化ap聚类的商品评论数据标签化系统和方法 | |
CN108446271B (zh) | 基于汉字部件特征的卷积神经网络的文本情感分析方法 | |
CN109657947B (zh) | 一种面向企业行业分类的异常检测方法 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN112784578B (zh) | 法律要素提取方法、装置和电子设备 | |
CN110457676B (zh) | 评价信息的提取方法及装置、存储介质、计算机设备 | |
US10083403B2 (en) | Data driven classification and data quality checking method | |
CN113761218A (zh) | 一种实体链接的方法、装置、设备及存储介质 | |
CN111460820A (zh) | 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置 | |
CN111158641B (zh) | 基于语义分析和文本挖掘的事务类功能点自动识别方法 | |
CN107391565B (zh) | 一种基于主题模型的跨语言层次分类体系匹配方法 | |
CN108596637B (zh) | 一种电商服务问题自动发现系统 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN110110087A (zh) | 一种基于二分类器的用于法律文本分类的特征工程方法 | |
CN115859980A (zh) | 一种半监督式命名实体识别方法、系统及电子设备 | |
CN114722198A (zh) | 产品分类编码确定方法、系统及相关装置 | |
CN110287495A (zh) | 一种电力营销专业词识别方法及系统 | |
CN111191029B (zh) | 基于监督学习和文本分类的ac构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |