CN113420145B - 一种基于半监督学习的招标文本分类方法与系统 - Google Patents

一种基于半监督学习的招标文本分类方法与系统 Download PDF

Info

Publication number
CN113420145B
CN113420145B CN202110512134.1A CN202110512134A CN113420145B CN 113420145 B CN113420145 B CN 113420145B CN 202110512134 A CN202110512134 A CN 202110512134A CN 113420145 B CN113420145 B CN 113420145B
Authority
CN
China
Prior art keywords
word
tfs
seed
class
word stock
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110512134.1A
Other languages
English (en)
Other versions
CN113420145A (zh
Inventor
陈家银
潘帅
张伟
陈曦
麻志毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Original Assignee
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Institute of Information Technology AIIT of Peking University, Hangzhou Weiming Information Technology Co Ltd filed Critical Advanced Institute of Information Technology AIIT of Peking University
Priority to CN202110512134.1A priority Critical patent/CN113420145B/zh
Publication of CN113420145A publication Critical patent/CN113420145A/zh
Application granted granted Critical
Publication of CN113420145B publication Critical patent/CN113420145B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及招标文本分类技术领域,更为具体来说,本申请涉及一种基于半监督学习的招标文本分类方法与系统。所述方法包括以下步骤:种子词库构建步骤,借助大规模语料库生成词嵌入向量和类别TFS‑IDF值,基于所述词嵌入向量和类别TFS‑IDF值获得领域种子词库;无监督学习步骤,基于所述种子词库构建无监督分类模型,过滤掉负样本,并将疑似正样本输入到有监督模型中;有监督学习步骤,对所述疑似正样本进行少量标注,训练文本卷积神经网络模型进行预测,得到最终文本分类标签。本申请提出的招标文本分类方法与系统能有效地解决招标文本分类任务中数据不平衡性问题,并能在少量的标注数据下取得可观的识别效果,进而提高企业商情挖掘的质量与效率。

Description

一种基于半监督学习的招标文本分类方法与系统
技术领域
本申请涉及招标文本分类技术领域,更为具体来说,本申请涉及一种基于半监督学习的招标文本分类方法与系统。
背景技术
目前越来越多企业通过招标方式进行商情挖掘,而每日全网有近10万条的招标信息发布,其中大部分信息跟企业的业务不相关。如何准确地过滤掉不相关的招标信息并对相关的招标信息进行有效分类是提高企业商情挖掘效率的一个关键要素。这在技术上可转化为招标文本的分类问题。主流的分类方法主要分为监督学习模型(如决策树、TextCNN等)和无监督学习模型(如KMeans、基于规则等)。监督模型存在分类更准确的优点,但存在需要大量的标签数据、模型更为复杂、分类效率较低等缺点。无监督模型存在分类效率高、不需要标签数据等优点,但分类的准确率往往没有监督模型好。
因此,结合招标数据存在的样本不平衡性问题,以及两类分类方法的优点,本申请提出一种基于半监督学习的招标文本分类方法,以至少部分地解决上述技术问题。
发明内容
本发明的核心是先构建领域词库,生成一个基于规则的无监督模型进行样本筛选,过滤掉大量明显与企业业务不相关的负样本,同时也筛出疑似正样本;接着标注少量样本,训练一个监督模型(TextCNN)对疑似正样本进行分类,最后得到具有不同类别的正样本。通过该模型,能有效的处理样本不平衡性问题,并得到可观的准确度和分类效率,同时也大大减少标注数据带来的人力成本,提高企业商情挖掘的质量与效率。
为实现上述技术目的,本申请提供了一种基于半监督学习的招标文本分类方法,包括以下步骤:
种子词库构建步骤,借助大规模语料库生成词嵌入向量和类别TFS-IDF值,基于所述词嵌入向量和类别TFS-IDF值获得领域种子词库;
无监督学习步骤,基于所述种子词库构建无监督分类模型,过滤掉负样本,并将疑似正样本输入到有监督模型中;
有监督学习步骤,对所述疑似正样本进行少量标注,训练文本卷积神经网络模型进行预测,得到最终文本分类标签。
具体地,所述种子词库构建步骤具体包括:
指定几个与业务强相关的行业关键词作为初始类别种子词库,将所述初始类别种子词库输入到领域种子词库;
对大规模语料库中所有语料进行分词,对分词后的语料库进行预训练,得到具有上下文表征的词嵌入向量;
使用所述词嵌入向量对初始类别种子词库计算出前10个最相似的关键词放入备选词库;
利用初始类别种子词库对大规模语料库计算类别TFS-IDF值,利用所述类别TFS-IDF值扩充所述备选词库;
对扩充后的备选词库进行筛选,将筛选结果输入到领域种子词库。
优选地,所述几个为3个、4个或5个。
优选地,对分词后的语料库进行预训练使用Word2vec模型。
具体地,所述利用初始类别种子词库对大规模语料库计算类别TFS-IDF值,包括:
使用初始种子词库对大规模语料库进行匹配筛选,将包含种子词的文本放入一个集合中作为正类别,将不包含种子词的文本放入另一集合中作为负类别;
计算正类别的类别TFS_IDF值,其中TFS代表词频分数,IDF代表逆文档频率。
进一步地,所述计算正类别的类别TFS_IDF值的方法为:
Figure BDA0003060695880000031
其中,TFS(Cpos,ω)代表词ω在正类别中的词频指标,IDF(ω)代表词ω的逆文档频率。
再进一步地,所述的TFS(Cpos,ω)方法为:
Figure BDA0003060695880000032
其中,Cpos表示正类别,tanh表示标准化处理,
Figure BDA0003060695880000033
代表词ω在正类别中出现的次数;
所述IDF(ω)方法为:
Figure BDA0003060695880000041
其中,n代表语料库D中的文本总数,fD,ω代表语料库D中包含词ω的文本数。
优选地,利用所述类别TFS-IDF值扩充所述备选词库的方法为将所述类别TFS-IDF值最大的前100个词扩充到所述备选词库中。
具体地,所述对扩充后的备选词库进行筛选的方法为:
Figure BDA0003060695880000042
其中,FAC表示功能感知系数,TFS(Cneg,ω)代表负类别的类别TFS_IDF值,计算方法为
Figure BDA0003060695880000043
具体地,所述无监督学习步骤中过滤掉负样本的方法为:
Figure BDA0003060695880000044
其中,Seed(lp)表示种子词库中代表正标签的关键词,lp代表正标签,ln代表负标签,match操作表示当词ωi与正标签的种子词库中的任意一个关键词匹配时,返回True,否则返回False,any表示任意一个match返回True则整体返回True,否则返回False。
选择性地,所述有监督学习步骤中,使用3个卷积层,分别对应2-gram,3-gram,4-gram的n-gram信息,其中n代表当前单词依赖其前面的单词的个数,每一个卷积层后接了一个最大池化层,以选择包含信息最多的单词对,每一个池化层的输出都会被标准化以加快模型的训练速度。
本发明第二方面提出一种基于半监督学习的招标文本分类系统,包括:
种子词库构建模块,借助大规模语料库生成词嵌入向量和类别TFS-IDF值,基于所述词嵌入向量和类别TFS-IDF值获得领域种子词库;
无监督学习模块,基于所述种子词库构建无监督分类模型,过滤掉负样本,并将疑似正样本输入到有监督模型中;
有监督学习模块,对所述疑似正样本进行少量标注,训练文本卷积神经网络模型进行预测,得到最终文本分类标签。
优选地,所述系统的有监督学习模块还包括词嵌入层、N-gram卷积层、池化层和全连接层。
本申请的有益效果为:本申请提出的基于半监督学习的招标文本分类方法与系统能有效地解决招标文本分类任务中数据不平衡性问题,并能在少量的标注数据下取得可观的识别效果,进而提高企业商情挖掘的质量与效率。
附图说明
图1示出了本申请实施例1的方法流程示意图;
图2示出了本申请实施例2的系统模块示意图;
图3示出了本申请实施例3的模型结构示意图。
具体实施方式
文本分类任务是对输入文本预测出特定标签的学习过程。常见解决文本分类的方法可以分为二类,即无监督学习和有监督学习。在无监督学习中,通过提取各个类别文本的关键字,使用关键字匹配方法,将文本分配到含有关键字的对应类别中。这种方法建立在文本语义可以由关键字完全表征的假设上,而在实际情况中,文本语义不仅与关键字有关,还与关键字前后的词组有关。
表1在过滤出“纸箱”采购相关的招标信息示例
Figure BDA0003060695880000061
从实际统计中发现,绝大部分招标信息跟所在行业是不相关的,而在相关中也会存在不少噪声的样例,例如表1显示,在过滤出“纸箱”采购相关的招标信息中,不相关的(负样本)绝大部分都是其他行业的招标信息,且在与包装印刷行业相关招标信息中,也存在“废纸箱”类似的伪相关的信息(疑似正样本)。所以,若采用无监督学习的方法,可以利用招标文本隐含的行业特征快速高效地识别出负样本,但却不能很好地解决疑似正样本之类带来的噪声影响。
有监督学习可分机器学习方法和深度学习两种方法。传统的机器学习方法使用构造的统计特征如Bag-of-Words和TFS-IDF等对文本进行分类,这些方法仅以单个词语的重要性进行分析判断,而没有考虑到词语与词语之间的关联信息,无法很好地学习文本内容。深度学习模型中,常见的有TextCNN、TextRNN和TextRCNN等模型。相比于传统的机器学习方法,深度学习模型具有更强的表征学习能力,且不需要人工额外地构造特征等优势。但在面向业务场景的招标文本分类任务时,存在严重的样本不平衡问题,有的业务场景能达到9:1(负样本:正样本)的比例,甚至更高。这为在训练深度模型带来一系列问题,包括需考虑标注数据的样本分布、模型更偏向负样本的学习、正样本预测效果很差等。
针对上述问题,本发明结合应用场景特点及两类方法的优缺点,提出一种基于半监督学习的招标文本分类方法,先利用无监督模型进行第一层筛选,过滤掉80%以上的显著负样本,剩下作为疑似正样本,接着利用TextCNN有监督模型对疑似正样本进行第二层分类预测。本发明能有效地解决招标文本分类任务中数据不平衡性问题,并能在少量的标注数据下取得可观的识别效果,进而提高企业商情挖掘的质量与效率。
以下,将参照附图来描述本申请的实施例。但是应该理解的是,这些描述只是示例性的,而并非要限制本申请的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本申请的概念。对于本领域技术人员来说显而易见的是,本申请可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本申请发生混淆,对于本领域公知的一些技术特征未进行描述。
应予以注意的是,这里所使用的术语仅是为了描述具体实施例,而非意图限制根据本申请的示例性实施例。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式。此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或附加一个或多个其他特征、整体、步骤、操作、元件、组件和/或它们的组合。
现在,将参照附图更详细地描述根据本申请的示例性实施例。然而,这些示例性实施例可以多种不同的形式来实施,并且不应当被解释为只限于这里所阐述的实施例。附图并非是按比例绘制的,其中为了清楚表达的目的,可能放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
实施例1:
本实施例实施了一种基于半监督学习的招标文本分类方法,如图1所示,包括以下步骤:
S1、种子词库构建步骤,借助大规模语料库生成词嵌入向量和类别TFS-IDF值,基于所述词嵌入向量和类别TFS-IDF值获得领域种子词库;
S2、无监督学习步骤,基于所述种子词库构建无监督分类模型,过滤掉负样本,并将疑似正样本输入到有监督模型中;
S3、有监督学习步骤,对所述疑似正样本进行少量标注,训练文本卷积神经网络模型进行预测,得到最终文本分类标签。
其中,Term Frequency Score(TFS)代表词频分数,Inverse Document Frequency(IDF)代表逆文档频率。
具体地,所述种子词库构建步骤具体包括:
指定几个与业务强相关的行业关键词作为初始类别种子词库,将所述初始类别种子词库输入到领域种子词库;
对大规模语料库中所有语料进行分词,对分词后的语料库进行预训练,得到具有上下文表征的词嵌入向量;
使用所述词嵌入向量对初始类别种子词库计算出前10个最相似的关键词放入备选词库;
利用初始类别种子词库对大规模语料库计算类别TFS-IDF值,利用所述类别TFS-IDF值扩充所述备选词库;
对扩充后的备选词库进行筛选,将筛选结果输入到领域种子词库。
优选地,所述几个为3个、4个或5个;对分词后的语料库进行预训练使用Word2vec模型。
具体地,所述利用初始类别种子词库对大规模语料库计算类别TFS-IDF值,包括:
使用初始种子词库对大规模语料库进行匹配筛选,将包含种子词的文本放入一个集合中作为正类别,将不包含种子词的文本放入另一集合中作为负类别;
计算正类别的类别TFS_IDF值,其中TFS代表词频分数,IDF代表逆文档频率。
进一步地,所述计算正类别的类别TFS_IDF值的方法为:
Figure BDA0003060695880000101
其中,TFS(Cpos,ω)代表词ω在正类别中的词频指标,IDF(ω)代表词ω的逆文档频率。
再进一步地,所述的TFS(Cpos,ω)方法为:
Figure BDA0003060695880000102
其中,Cpos表示正类别,tanh表示标准化处理,
Figure BDA0003060695880000103
代表词ω在正类别中出现的次数;
所述IDF(ω)方法为:
Figure BDA0003060695880000104
其中,n代表语料库D中的文本总数,fD,ω代表语料库D中包含词ω的文本数。
通过上述计算筛选出与行业相关的文本,仅需计算正类别中词的TFS_IDF值。TFS_IDF值越大,代表词ω在正类别文本中的影响越大。将正类别文本中的所有词按照TFS_IDF值进行降序排序,将TFS_IDF值最大的前100个词扩充到备选词库中。
具体地,所述对扩充后的备选词库进行筛选的方法为:
Figure BDA0003060695880000111
其中,FAC表示功能感知系数,TFS(Cneg,ω)代表负类别的类别TFS_IDF值,计算方法为
Figure BDA0003060695880000112
具体地,所述无监督学习步骤中过滤掉负样本的方法为:
Figure BDA0003060695880000113
其中,Seed(lp)表示种子词库中代表正标签的关键词,lp代表正标签,ln代表负标签,match操作表示当词ωi与正标签的种子词库中的任意一个关键词匹配时,返回True,否则返回False,any表示任意一个match返回True则整体返回True,否则返回False。
选择性地,所述有监督学习步骤中,使用3个卷积层,分别对应2-gram,3-gram,4-gram的n-gram信息,其中n代表当前单词依赖其前面的单词的个数,每一个卷积层后接了一个最大池化层,以选择包含信息最多的单词对,每一个池化层的输出都会被标准化以加快模型的训练速度。
实施例2:
实施例实施了一种基于半监督学习的招标文本分类系统,如图2所示,包括:
种子词库构建模块,借助大规模语料库生成词嵌入向量和类别TFS-IDF值,基于所述词嵌入向量和类别TFS-IDF值获得领域种子词库;
无监督学习模块,基于所述种子词库构建无监督分类模型,过滤掉负样本,并将疑似正样本输入到有监督模型中;
有监督学习模块,对所述疑似正样本进行少量标注,训练文本卷积神经网络即TextCNN模型进行预测,得到最终文本分类标签。
进一步地,所述装置的有监督学习模块还包括词嵌入层、N-gram卷积层、池化层和全连接层。
所述种子词库构建模块在获得领域种子词库过程中包括数据预处理、建立初始种子词库、建立备选词库、扩充备选词库及过滤并构建最终的种子词库等步骤。
数据预处理时,首先整理招投标数据,形成一个大规模语料库;接着对语料库进行数据清洗,由于停顿词,英文,数字,日期等大量无效字符对招标行业文本分类没有影响,因此在数据清洗步骤中,使用哈工大停词表对停顿词进行了删除,并且删除了所有英文,数字以及代表日期的关键字如“年”,“月”,“日”;最后,使用jieba包对所有语料进行分词。
建立初始种子词库时,首先由行业专家对特定行业指定3-5个强相关的关键词,将行业关键词放入初始词库。例如对于“包装印刷”行业来说,可形成[“纸箱”,“纸板”,“印刷品”]初始词库,对于“家居建材”行业来说,可形成[“灯具”,“瓷砖”,“天花板”]初始词库。虽然本实施例仅针对“包装印刷”行业形成种子词库对行业内文本进行筛选,但是本实施方式可适用于其他任何行业。行业初始种子词库有以下几个性质:i)种子词库具有高度区分性,包含种子词的文本可以较为准确的判定为正样本;ii)种子词库具有语义一致性,即种子词不存在多种语义。初始种子词库需要输入到种子词库中,而同时初始种子词库还要进一步为备选词库的建立及最终种子词库构建完成做相关工作。
建立备选词库时,使用Word2vec模型对分词后的语料库进行预训练,得到具有上下文表征的词嵌入向量(Word Embedding Vector)。由于每一个词向量代表每个词的词义,因此可以计算每个词向量之间的相似度,得到指定词的相似词。对每一个专家提供的行业关键词,使用Word2vec得到的词嵌入向量,计算出前10个最相似的关键词形成备选词库。
扩充备选词库时,为了找到更多与行业相关的词,本实施例引入了词的类别TFS_IDF指标进行备选词库的扩充。
(1)生成类别样本
使用初始种子词库对大规模语料库进行匹配筛选,将包含种子词的文本放入一个集合中作为正类别,将不包含种子词的文本放入另一集合中作为负类别。使用数学公式可以表达为Di={S1,S2,...,Sn},其中i∈{pos,neg},Di代表第i类样本数据集,Sj代表Di中的第j个文本。
(2)计算类别TFS_IDF值
在分词后的语料库中计算每个词的类别TFS_IDF值。其中,Term FrequencyScore(TFS)代表词频分数,一般而言,属于某个文本类别的关键词会在该类别的文本中有较高的出现频率,因此在该类别文本中出现次数较多的词会拥有较高的类别TFS值。将类别集合定义为C={Cpos,Cneg},正、负类别TFS值的计算公式如下:
Figure BDA0003060695880000141
Figure BDA0003060695880000142
以正类别的TFS值为例,首先将词ω在正类别的文本中出现的次数与正类别的总文本个数求平均,考虑到每个文本的长短不一,出现词的频率没有上限,对词频还进行了tanh标准化处理。公式中,
Figure BDA0003060695880000143
代表词ω在正类别中出现的次数,/>
Figure BDA0003060695880000144
代表正类别中的总文本个数,TFS(Cpos,ω)表词ω在正类别中的词频指标。
有标签区分性的关键词应该是不常见的,因此在词频分数的基础上引入InverseDocument Frequency(IDF)逆文档频率。IDF的计算公式如下:
Figure BDA0003060695880000145
器中,n代表语料库D中的文本总数,fD,ω代表语料库D中包含词ω的文本数,IDF(ω)代表词ω的逆文档频率。正类别的TFS_IDF值的计算公式如下:
Figure BDA0003060695880000146
为了筛选出与行业相关的文本,因此仅需计算正类别中词的TFS_IDF值。TFS_IDF值越大,代表词ω在正类别文本中的影响越大。将正类别文本中的所有词按照TFS_IDF值进行降序排序,将TFS_IDF值最大的前100个词扩充到备选词库中。
过滤并构建最终的种子词库时使用Function-aware Component(FAC)功能感知系数对扩充后的备选词库进行筛选,将区分能力弱的关键字排除。这里,过滤并构建最终的种子词库也就是选出了高质量种子词库,FAC的数学方法如下:
Figure BDA0003060695880000151
设置FAC的阈值对扩充备选词库进行筛选,将筛选后的高质量备选词库与初始种子词库融合形成最终的种子词库,利用种子词库生成无监督模型。
接着执行无监督学习步骤,基于所述种子词库构建无监督分类模型,过滤掉负样本,并将疑似正样本输入到有监督模型中。
所述无监督学习步骤中过滤掉负样本的方法为:
Figure BDA0003060695880000152
其中,Seed(lp)表示种子词库中代表正标签的关键词,lp代表正标签,ln代表负标签,match操作表示当词ωi与正标签的种子词库中的任意一个关键词匹配时,返回True,否则返回False,any表示任意一个match返回True则整体返回True,否则返回False。
最后执行有监督学习步骤,对所述疑似正样本进行少量标注,训练文本卷积神经网络模型进行预测,得到最终文本分类标签。
有监督学习模块在得到最终文本分类标签的过程中,首先需要生成训练数据。在训练有监督模型前,需标注少量训练样本进行识别分类,该分类任务可为二分类(YES/NO),或者更细粒度的分类,根据业务场景制定。比如将包装印刷行业的招标文本细分为4大类,包括与“纸箱”招标高度相关的correspond类,与“纸箱”招标中等相关的related类,与“纸箱”招标低相关的possible类和与“纸箱”招标不相关的no类。通过无监督模型将大部分负样本去除后,将疑似正样本作为训练数据。
有监督学习模块功能实现所涉及的词嵌入层、N-gram卷积层与池化层、全连接层、损失函数与指标具体如下:
(1)词嵌入层
招标文本需要通过预处理才可以被模型进行学习与训练。传统的文本预处理方法包括独热编码,整数编码。独热编码会生成巨大的系数矩阵,效率低下;整数编码将一段文本用整数向量进行表示,缺点在于无法获得单词之间的任何关系。使用固定维度,可学习的密集向量进行文本表征,能够提高模型训练效率与分类性能。初始化词嵌入向量有两种方法:一种是通过不同的概率分布如均匀分布、正态分布等对单词进行随机建模;另一种是通过无监督学习对所有单词进行预训练,得到符合语言习惯、连接单词关系的单词向量,常见的方法包括Bert预训练模型,Word2vec预训练模型,GloVe预训练模型。不同于构建种子词库阶段,为了平衡有监督学习的生产效率与预测精度,本实施例中使用均匀分布词向量对单词进行嵌入。
(2)N-gram卷积层与池化层
假设每一个单词的出现概率仅与前面的n-1个单词相关,则每一个单词的出现概率p(ωi)可以表示为:
p(ωi)=p(ωii-n+1,...,ωi-1)
本实施例中使用卷积层对每一个单词的出现概率进行建模。本实施例中一共使用了3个卷积层,分别对应2-gram,3-gram,4-gram的n-gram信息。其中n代表当前单词依赖它前面的单词的个数。每一个卷积层后接了一个最大池化层,目的是选择包含信息最多的单词对。每一个池化层的输出都会被标准化以加快模型的训练速度。整个卷积网络的流程表示如下:
Figure BDA0003060695880000171
将卷积网络的输出拼接起来,可以得到包含2-gram,3-gram,4-gram信息的文本向量,表示为[h1;h2;h3]。将文本信息向量输入至全连接层可以对文本标签进行预测。
(3)全连接层
全连接层被广泛应用于作为分类器。将文本信息向量映射到标签维度,使用softmax函数对每一个标签维度的数值进行归一化,得到每一个标签的概率,得到概率最大的标签即为模型预测标签。
(4)损失函数与指标
模型通过梯度下降法最优化真实标签与预测标签之间的误差,因此选择合适的损失函数非常重要。交叉熵函数(CE)可以衡量两个概率分布之间的差异性信息,并且其求导函数在任何时候都为凸函数,因此本实施例使用CE作为模型学习的损失函数。CE的数学公式如下:
Figure BDA0003060695880000172
其中,yi代表真实标签为i的概率,pi代表预测标签为i的概率。最后,使用文本预测的准确率作为衡量指标。
本实施例中,使用包装行业“纸箱”招标分类任务中标注好的数据作为实验数据,以只使用有监督模型和只使用无监督模型作为baselines,将本实施例提出的半监督模型与baselines进行对比实验。
表2整体实验数据表
No Possible Related Correspond Total
46582 821 362 638 48403
实验数据中的各类标签含义如下:“Correspond”代表文本与“纸箱”招标行业相关性高,“Related”代表文本与“纸箱”招标行业相关性中等,“Possible”代表文本与“纸箱”招标行业相关性低,“No”代表文本与“纸箱”招标行业没有相关性。在实际中,95%的文本数据为与“纸箱”招标行业没有相关性,为无效信息,导致负样本(标签为“No”)与正样本(标签为非“No”)之间存在严重的类别不平衡性。
在进行对比实验之前,首先将数据集分为训练集,验证集和测试集,比例为8:1:1,并且每个标签的样本数量在各个数据集的比例也为8:1:1。模型训练到验证集损失不再下降时停止,模型的好坏以最优验证集对应的测试集的正样本准确率作为评判标准,实验结果如表3所示:
表3对比实验精度与学习效率表
本实施例模型 纯有监督模型 纯无监督模型
整体精度(%) 97.88 92.31 89.41
正样本精度(%) 91.26 87.55 85.68
运行时间(秒) 29.33 169.80 0.02
从表3中可以发现,使用本实施例的模型,相比纯有监督学习整体精度提升了5%以上,相比纯使用无监督模型整体精度提升了8%以上;同样,正样本精度分别有约4%、6%的提升。本实施例模型和纯监督模型相比,运行效率提升了5倍以上,虽然纯无监督的运行效率远远高于本实施例模型,但是其精度远远不能满足实际生产需求。从实验中可看出,本实施例构建的模型有着最佳的识别效果,并具备可落地的运行效率。同时表明本实施例提出方法的有效性,以及对提高企业在招标信息进行商情挖掘的价值。
实施例3:
本实施例实施了一种基于半监督学习的招标文本分类方法,该方法结合了无监督学习和有监督学习,通过构建领域种子词库,利用领域种子词库中的关键词进行匹配筛选,去除掉大部分无效负样本,得到疑似正样本,然后输入有监督学习模块做最终的分类预测。包括种子词库构建步骤、无监督学习步骤和有监督学习步骤。
种子词库构建步骤,借助大规模语料库生成词嵌入向量和类别TFS-IDF值,基于所述词嵌入向量和类别TFS-IDF值获得领域种子词库;
无监督学习步骤,基于所述种子词库构建无监督分类模型,过滤掉负样本,并将疑似正样本输入到有监督模型中;
有监督学习步骤,对所述疑似正样本进行少量标注,训练文本卷积神经网络即TextCNN模型进行预测,得到最终文本分类标签。
执行无监督学习步骤时,基于所述种子词库构建无监督分类模型,过滤掉负样本,并将疑似正样本输入到有监督模型中。
所述无监督学习步骤中过滤掉负样本的方法为:
Figure BDA0003060695880000191
其中,Seed(lp)表示种子词库中代表正标签的关键词,lp代表正标签,ln代表负标签,match操作表示当词ωi与正标签的种子词库中的任意一个关键词匹配时,返回True,否则返回False,any表示任意一个match返回True则整体返回True,否则返回False。
为了提升无监督模型的性能以及增加此方法的泛化性,本实施方式中使用了一种新的种子词库构建方法,使其更适用于招标文本处理,具体的模型结构如图3所示。
另外,本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机设备及可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (9)

1.一种基于半监督学习的招标文本分类方法,其特征在于,包括以下步骤:
种子词库构建步骤,借助大规模语料库生成词嵌入向量和类别TFS-IDF值,基于所述词嵌入向量和类别TFS-IDF值获得领域种子词库;
无监督学习步骤,基于所述种子词库构建无监督分类模型,过滤掉负样本,并将疑似正样本输入到有监督模型中;
有监督学习步骤,对所述疑似正样本进行少量标注,训练文本卷积神经网络模型进行预测,得到最终文本分类标签;
其中,所述种子词库构建步骤具体包括:
指定几个与业务强相关的行业关键词作为初始类别种子词库,将所述初始类别种子词库输入到领域种子词库;
对大规模语料库中所有语料进行分词,对分词后的语料库进行预训练,得到具有上下文表征的词嵌入向量;
使用所述词嵌入向量对初始类别种子词库计算出前10个最相似的关键词放入备选词库;
利用初始类别种子词库对大规模语料库计算类别TFS-IDF值,利用所述类别TFS-IDF值扩充所述备选词库;
对扩充后的备选词库进行筛选,将筛选结果输入到领域种子词库;
其中,所述利用初始类别种子词库对大规模语料库计算类别TFS-IDF值,包括:
使用初始种子词库对大规模语料库进行匹配筛选,将包含种子词的文本放入一个集合中作为正类别,将不包含种子词的文本放入另一集合中作为负类别;
计算正类别的类别TFS_IDF值,其中TFS代表词频分数,IDF代表逆文档频率;
所述计算正类别的类别TFS_IDF值的方法为:
Figure FDA0003896109290000021
其中,TFS(Cpos,ω)代表词ω在正类别中的词频指标,IDF(ω)代表词ω的逆文档频率;
所述对扩充后的备选词库进行筛选的方法为:
Figure FDA0003896109290000022
其中,FAC表示功能感知系数,TFS(Cneg,ω)代表负类别的类别TFS_IDF值,计算方法为
Figure FDA0003896109290000023
2.根据权利要求1所述的基于半监督学习的招标文本分类方法,其特征在于,所述几个为3个、4个或5个。
3.根据权利要求1所述的基于半监督学习的招标文本分类方法,其特征在于,对分词后的语料库进行预训练使用Word2vec模型。
4.根据权利要求1所述的基于半监督学习的招标文本分类方法,其特征在于,所述的TFS(Cpos,ω)方法为:
Figure FDA0003896109290000024
其中,Cpos表示正类别,tanh表示标准化处理,
Figure FDA0003896109290000025
代表词ω在正类别中出现的次数;
所述IDF(ω)方法为:
Figure FDA0003896109290000031
其中,n代表语料库D中的文本总数,fD,ω代表语料库D中包含词ω的文本数。
5.根据权利要求4所述的基于半监督学习的招标文本分类方法,其特征在于,利用所述类别TFS-IDF值扩充所述备选词库的方法为将所述类别TFS-IDF值最大的前100个词扩充到所述备选词库中。
6.根据权利要求1所述的基于半监督学习的招标文本分类方法,其特征在于,所述无监督学习步骤中过滤掉负样本的方法为:
Figure FDA0003896109290000032
其中,Seed(lp)表示种子词库中代表正标签的关键词,Ip代表正标签,In代表负标签,match操作表示当词ωi与正标签的种子词库中的任意一个关键词匹配时,返回True,否则返回False,any表示任意一个match返回True则整体返回True,否则返回False。
7.根据权利要求1至6任一所述的基于半监督学习的招标文本分类方法,其特征在于,所述有监督学习步骤中,使用3个卷积层,分别对应2-gram,3-gram,4-gram的n-gram信息,其中n代表当前单词依赖其前面的单词的个数,每一个卷积层后接了一个最大池化层,以选择包含信息最多的单词对,每一个池化层的输出都会被标准化以加快模型的训练速度。
8.一种基于半监督学习的招标文本分类系统,其特征在于,包括:
种子词库构建模块,借助大规模语料库生成词嵌入向量和类别TFS-IDF值,基于所述词嵌入向量和类别TFS-IDF值获得领域种子词库;
无监督学习模块,基于所述种子词库构建无监督分类模型,过滤掉负样本,并将疑似正样本输入到有监督模型中;
有监督学习模块,对所述疑似正样本进行少量标注,训练文本卷积神经网络模型进行预测,得到最终文本分类标签;
其中,种子词库构建模块具体执行以下步骤:
指定几个与业务强相关的行业关键词作为初始类别种子词库,将所述初始类别种子词库输入到领域种子词库;
对大规模语料库中所有语料进行分词,对分词后的语料库进行预训练,得到具有上下文表征的词嵌入向量;
使用所述词嵌入向量对初始类别种子词库计算出前10个最相似的关键词放入备选词库;
利用初始类别种子词库对大规模语料库计算类别TFS-IDF值,利用所述类别TFS-IDF值扩充所述备选词库;
对扩充后的备选词库进行筛选,将筛选结果输入到领域种子词库;
其中,所述利用初始类别种子词库对大规模语料库计算类别TFS-IDF值,包括:
使用初始种子词库对大规模语料库进行匹配筛选,将包含种子词的文本放入一个集合中作为正类别,将不包含种子词的文本放入另一集合中作为负类别;
计算正类别的类别TFS_IDF值,其中TFS代表词频分数,IDF代表逆文档频率;
所述计算正类别的类别TFS_IDF值的方法为:
Figure FDA0003896109290000051
其中,TFS(Cpos,ω)代表词ω在正类别中的词频指标,IDF(ω)代表词ω的逆文档频率;
所述对扩充后的备选词库进行筛选的方法为:
Figure FDA0003896109290000052
其中,FAC表示功能感知系数,TFS(Cneg,ω)代表负类别的类别TFS_IDF值,计算方法为
Figure FDA0003896109290000053
9.根据权利要求8所述基于半监督学习的招标文本分类系统,其特征在于,所述系统的有监督学习模块还包括词嵌入层、N-gram卷积层、池化层和全连接层。
CN202110512134.1A 2021-05-11 2021-05-11 一种基于半监督学习的招标文本分类方法与系统 Active CN113420145B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110512134.1A CN113420145B (zh) 2021-05-11 2021-05-11 一种基于半监督学习的招标文本分类方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110512134.1A CN113420145B (zh) 2021-05-11 2021-05-11 一种基于半监督学习的招标文本分类方法与系统

Publications (2)

Publication Number Publication Date
CN113420145A CN113420145A (zh) 2021-09-21
CN113420145B true CN113420145B (zh) 2023-05-23

Family

ID=77712223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110512134.1A Active CN113420145B (zh) 2021-05-11 2021-05-11 一种基于半监督学习的招标文本分类方法与系统

Country Status (1)

Country Link
CN (1) CN113420145B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114022737A (zh) * 2021-11-16 2022-02-08 胜斗士(上海)科技技术发展有限公司 对训练数据集进行更新的方法和设备
CN114238573B (zh) * 2021-12-15 2023-09-22 平安科技(深圳)有限公司 基于文本对抗样例的信息推送方法及装置
CN114254109B (zh) * 2021-12-15 2023-09-19 北京金堤科技有限公司 用于确定行业类别的方法及装置
CN116303909B (zh) * 2023-04-26 2023-08-22 山东齐鲁电子招标采购服务有限公司 一种电子投标文件与条款的匹配方法、设备及介质
CN116304717B (zh) * 2023-05-09 2023-12-15 北京搜狐新媒体信息技术有限公司 文本分类方法及装置、存储介质及电子设备
CN116737969A (zh) * 2023-08-11 2023-09-12 河北省科学院应用数学研究所 测评机构市场竞争特征数据的处理方法、装置及终端设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944480A (zh) * 2017-11-16 2018-04-20 广州探迹科技有限公司 一种企业行业分类方法
CN107978373A (zh) * 2017-11-23 2018-05-01 吉林大学 一种基于共训练的半监督生物医学事件抽取方法
CN110826303A (zh) * 2019-11-12 2020-02-21 中国石油大学(华东) 一种基于弱监督学习的联合信息抽取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577739B (zh) * 2017-08-28 2020-04-10 广东惠禾科技发展有限公司 一种半监督的领域词挖掘与分类的方法和设备
CN108399230A (zh) * 2018-02-13 2018-08-14 上海大学 一种基于卷积神经网络的中文财经新闻文本分类方法
CN109508374B (zh) * 2018-11-19 2021-12-21 云南电网有限责任公司信息中心 基于遗传算法的文本数据半监督聚类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944480A (zh) * 2017-11-16 2018-04-20 广州探迹科技有限公司 一种企业行业分类方法
CN107978373A (zh) * 2017-11-23 2018-05-01 吉林大学 一种基于共训练的半监督生物医学事件抽取方法
CN110826303A (zh) * 2019-11-12 2020-02-21 中国石油大学(华东) 一种基于弱监督学习的联合信息抽取方法

Also Published As

Publication number Publication date
CN113420145A (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
CN113420145B (zh) 一种基于半监督学习的招标文本分类方法与系统
CN110532542B (zh) 一种基于正例与未标注学习的发票虚开识别方法及系统
CN107944480B (zh) 一种企业行业分类方法
US10089581B2 (en) Data driven classification and data quality checking system
CN107491531B (zh) 基于集成学习框架的中文网络评论情感分类方法
CN107633007B (zh) 一种基于层次化ap聚类的商品评论数据标签化系统和方法
CN108446271B (zh) 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN109657947B (zh) 一种面向企业行业分类的异常检测方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN112818093B (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN112784578B (zh) 法律要素提取方法、装置和电子设备
CN110457676B (zh) 评价信息的提取方法及装置、存储介质、计算机设备
US10083403B2 (en) Data driven classification and data quality checking method
CN113761218A (zh) 一种实体链接的方法、装置、设备及存储介质
CN111460820A (zh) 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置
CN111158641B (zh) 基于语义分析和文本挖掘的事务类功能点自动识别方法
CN107391565B (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
CN108596637B (zh) 一种电商服务问题自动发现系统
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
CN115859980A (zh) 一种半监督式命名实体识别方法、系统及电子设备
CN114722198A (zh) 产品分类编码确定方法、系统及相关装置
CN110287495A (zh) 一种电力营销专业词识别方法及系统
CN111191029B (zh) 基于监督学习和文本分类的ac构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant