CN107633009A - 一种基于标记置信度的弱监督文档分类方法 - Google Patents
一种基于标记置信度的弱监督文档分类方法 Download PDFInfo
- Publication number
- CN107633009A CN107633009A CN201710690612.1A CN201710690612A CN107633009A CN 107633009 A CN107633009 A CN 107633009A CN 201710690612 A CN201710690612 A CN 201710690612A CN 107633009 A CN107633009 A CN 107633009A
- Authority
- CN
- China
- Prior art keywords
- document
- confidence level
- sample
- mark
- classification method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于标记置信度的弱监督文档分类方法,该方法适用于主题有歧义的样例文档的文档分类方法。该方法包括以下步骤:(1)用户从包含主题的歧义的文档库中选择样例文档,其中样例文档需要涵盖各个类型文档,且数目大致均衡;(2)使用标记置信度的方式表示标记信息;(3)使用预设的分类方法对转换后的文档对象进行学习;(4)根据学习所得的预测模型对文档存储设备中的文档进行分类;(5)如果用户对上一步预测的结果满意则结束,否则从有歧义的文档库中选择更多的样例进行反馈,转到步骤(2)。
Description
技术领域
本发明涉及一种文档分类方法,具体是一种基于标记置信度的弱监督文档分类方法,属于弱监督文档分类技术领域。
背景技术
随着互联网技术的高速发展与普及,web文档以指数量级增长。海量的文档更好更准确地满足用户的需求的同时,文档的管理和分类已然成为一个重要的研究课题。文档分类技术是一种高效地对未分类文档进行归类的技术,该方法根据用户提交给分类装置的样例文档,对文档库中未被分类的文档进行快速、准确地分类。一种行之有效的策略是将分类过程看成学习的过程,使用机器学习的技术对用户提交的样例文档进行学习,最终得到一个分类模型。最后使用这个经过训练得到的模型对文档进行分类。
使用机器学习的技术进行文档分类需要有大量的已分类样例文档,而这些已分类文档需要耗费人力进行标注。但是实际上获取大量主题不明确或者是有歧义的样例文档很容易,例如一篇新闻报道中出现了经济、体育和科技等领域词汇,可以很容易确定这篇报道是属于经济、体育或者科技三者之一为主题的文档,但是更加精确的主题则需要人工标注。而现有的一些文档分类技术需要类别明确的样例文档,需要耗费较大的代价,无法利用这类主题有歧义的样例文档实现文档自动分类。
发明内容
发明目的:本发明针对现有的文档分类技术依赖大量的已正确、精确分类的样例文档的问题,提出一种能够利用有歧义类别的样例文档的文档分类方法。该方法使用置信度的方式表示样例文档的各个候选类别是其真实类别的概率,使用迭代学习的方法在每轮学习过程中更新各个样例文档的候选类别置信度,然后再在更新标记置信度后的样例文档上进行学习如此进行T次,从而提高文档分类装置的性能。
技术方案:一种基于标记置信度的弱监督文档分类方法,利用大量的具有模糊类别的样例文档,采用适用于文档类别信息较少的弱监督文档分类技术。该方法包括以下步骤:(1)用户从已有的具有模糊类别的文档库中选择样例文档,其中样例文档需涵盖各种类型的文档;(2)在这些类别信息模糊的样例文档上使用弱监督学习技术进行学习得到一个预测模型;(3)利用上一步中得到的预测模型对用户提交的类别未知的文档进行预测,得到一个预测类别;(4)如果用户对分类结果满意,则执行步骤5,否则从多主题文档库中选择更多的样例文档进行反馈,执行步骤2;(5)结束。
有益效果:现有的基于机器学习的文档分类技术都需要大量的正确、精确分类的样例文档。本发明基于标记置信度的弱监督文档分类方法,其使用大量主题有歧义的样例文档进行学习,最后获得性能较好的模型。由于这些主题有歧义的样例文档不需要人工标注,相比于其他基于传统监督学习的方法节省了大量人力成本。
附图说明
图1是文档分类装置的工作流程图;
图2是本发明方法的流程图;
图3是对初始样本构造标记置信度的流程图;
图4是本发明采用的分类方法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,文档存储设备中存放的是待分类的文档,此外有一个包含大量主题有歧义的文档库,每篇主题有歧义的文档对应多个概念标记但是其中只有一个是该文档的真实标记。用户从主题有歧义的文档库中选取M篇样例文档提交给文档分类装置,选取的各个类型的文档数目应大致均衡。目前大多数中文文本分类系统都采用词作为特征项,而实际由于将所有的词作为特征词将会使得特征向量的维度很大给计算带来很大的困扰,常常会使用一些针对文本的特征降维的技术例如词频(Term Frequency,记为TF)、词频-逆文档词频(Term Frequency-Inverse Document Frequency,记为TF-IDF)等。在文档特征抽取后,将主题有歧义的样例文档的类别信息转化成标记置信度形式,然后使用预设的分类方法训练得到相应的预测模型,最后利用上一步得到的模型对文档存储设备中未分类的文档进行分类,如图1所示。如果用户对所得结果不满意,可以从文档库中选取更多的样例文档反馈给文档分类装置。
本发明涉及的方法如图2所示。步骤10是起始动作。假设用户提交的样例文档对应集合其中Si是与文档xi对应的候选标记集合 (Si={1,...,ri}),文档xi的真实标记记为yi(yi∈Si),是未知的。在步骤11中,样例文档的候选标记集合信息转化成标记置信度的形式,具体转化在图3中介绍。在步骤12中,使用预设的分类方法在基于标记置信度的样例文档上进行迭代学习,得到预测模型,具体学习过程在图4中进行介绍。在步骤13中,利用步骤 12得到的预测模型对文档存储设备中的未分类文档进行分类。最后进入步骤14 结束状态。
图3给出了步骤11的详细描述。具体对于一个标记有歧义的文档(xi,Si)来说,本算法将原来包含真实标记的候选标记集合Si转化成标记置信度 pi=[pi1,…,piq],其中pij表示样例文档xi的真实标记是j的概率。从1101到1103 构成一个循环,在循环中每一次会将一个样例文档的候选标记集合转化成置信度的形式。1104步骤是结束。
图4给出了步骤12的具体实现,描述了如何使用预设的分类方法在有歧义的文档库中学习得到相应的预测模型。图4的步骤1201到1206构成一个循环,每一轮利用上轮经过调整的标记置信度进行训练,得到一个基分类模型。如此经过T轮迭代后得到T个基分类模型,将这T个基分类模型组合起来得到最终的分类模型。其中,1203步骤是通过优化基于标记置信度的损失函数(目标函数):
θ(t)指的是在第t轮训练的模型参数,g(.)是基分类器,是在t轮迭代中pij表示样例文档xi的真实标记是j的概率,
Si是样例文档xi的类别,是在第t轮训练中样本xi的权重系数,其初始值为步骤1204是计算上一步中计算得到的模型在训练集上的误差率r(t)和因子α(t):
在训练集上的误差率在一定程度上表示了本轮训练得到的基分类器在用户提交的文档库的拟合程度。步骤1205是根据本轮训练的结果对样本权重(w(t))和置信度(P(t))矩阵进行更新:
步骤1207是结束状态。经过T轮迭代学习后最终的分类模型是前面T次学习的基分类模型的线性组合:
本发明在训练过程中可以使用主题有歧义的样例文档进行训练,不需要用户提交主题明确的样例文档作为训练集,如此可以减少大量的人力成本。
Claims (5)
1.一种基于标记置信度的弱监督文档分类方法,其特征在于:包括以下步骤:
1)用户从包含主题的歧义的文档库中选择样例文档,其中样例文档需要涵盖各个类型文档,且数目均衡;
2)使用标记置信度的方式表示标记信息;
3)使用预设的分类方法对转换后的文档对象进行学习;
4)根据学习所得的预测模型对文档存储设备中的文档进行分类;
5)如果用户对上一步预测的结果满意则转到步骤6,否则从有歧义的文档库中选择更多的样例进行反馈,转到步骤2;
6)结束。
2.如权利要求1所述的基于标记置信度的弱监督文档分类方法,其特征在于:步骤2使用标记置信度表示主题有歧义的文档的标记信息,具体包括:
假设用户提交的样例文档对应集合其中Si是与文档xi对应的候选标记集合(Si={1,…,ri},ri是样本xi的对应的候选标记数目),文档xi的真实标记记为yi(yi∈Si),是未知的;记pij为样本xi的标记为yj的概率,计算公式如下所示:
3.如权利要求1所述的基于标记置信度的弱监督文档分类方法,其特征在于:步骤3使用预设的算法对转换后的文档进行学习;具体过程如下所示:循环调整的标记置信度,每一轮利用上轮经过调整的标记置信度进行训练,得到一个基分类模型;如此经过T轮迭代后得到T个基分类模型,将这T个基分类模型组合起来得到最终的分类模型。
4.如权利要求3所述的基于标记置信度的弱监督文档分类方法,其特征在于:初始化权重矩阵w(0):
优化基于标记置信度的损失函数
计算上一步中计算得到的模型在训练集上的误差率r(t)和因子α(t):
5.如权利要求4所述的基于标记置信度的弱监督文档分类方法,其特征在于:在训练集上的误差率在一定程度上表示了本轮训练得到的基分类器在用户提交的文档库的拟合程度;根据本轮训练的结果对样本权重(w(t))和置信度(P(t))矩阵进行更新:
经过T轮迭代学习后最终的分类模型是前面T次学习的基分类模型的线性组合:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710690612.1A CN107633009A (zh) | 2017-08-14 | 2017-08-14 | 一种基于标记置信度的弱监督文档分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710690612.1A CN107633009A (zh) | 2017-08-14 | 2017-08-14 | 一种基于标记置信度的弱监督文档分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107633009A true CN107633009A (zh) | 2018-01-26 |
Family
ID=61099401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710690612.1A Pending CN107633009A (zh) | 2017-08-14 | 2017-08-14 | 一种基于标记置信度的弱监督文档分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107633009A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829490A (zh) * | 2019-01-22 | 2019-05-31 | 上海鹰瞳医疗科技有限公司 | 修正向量搜索方法、目标分类方法及设备 |
CN110427973A (zh) * | 2019-07-09 | 2019-11-08 | 东南大学 | 一种面向歧义标注样本的分类方法 |
-
2017
- 2017-08-14 CN CN201710690612.1A patent/CN107633009A/zh active Pending
Non-Patent Citations (5)
Title |
---|
唐才智 等: "Confidence-Rated Discriminative Partial Label Learning", 《THIRTY-FIRST AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
张敏灵: "偏标记学习研究综述", 《数据采集与处理》 * |
徐涛: "基于局部特征的图像分类研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
李宗民 等: "结合空间上下文的局部约束线性特征编码", 《计算机辅助设计与图形学学报》 * |
李阳: "局部时空特征及部件的视频人体动作识别方法研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829490A (zh) * | 2019-01-22 | 2019-05-31 | 上海鹰瞳医疗科技有限公司 | 修正向量搜索方法、目标分类方法及设备 |
CN109829490B (zh) * | 2019-01-22 | 2022-03-22 | 上海鹰瞳医疗科技有限公司 | 修正向量搜索方法、目标分类方法及设备 |
CN110427973A (zh) * | 2019-07-09 | 2019-11-08 | 东南大学 | 一种面向歧义标注样本的分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191732B (zh) | 一种基于全自动学习的目标检测方法 | |
CN109376242B (zh) | 基于循环神经网络变体和卷积神经网络的文本分类方法 | |
CN110489523B (zh) | 一种基于网购评价的细粒度情感分析方法 | |
CN106611052A (zh) | 文本标签的确定方法及装置 | |
CN115331088B (zh) | 基于带有噪声和不平衡的类标签的鲁棒学习方法 | |
CN110197286A (zh) | 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法 | |
CN103559504A (zh) | 图像目标类别识别方法及装置 | |
CN110362723A (zh) | 一种题目特征表示方法、装置及存储介质 | |
CN112417381B (zh) | 应用于图像版权保护的快速定位侵权图像的方法及装置 | |
CN110825850B (zh) | 一种自然语言主题分类方法及装置 | |
CN107004141A (zh) | 对大样本组的高效标注 | |
CN105095494A (zh) | 一种对分类数据集进行测试的方法 | |
CN111325264A (zh) | 一种基于熵的多标签数据分类方法 | |
CN107526805B (zh) | 一种基于权重的ML-kNN多标签中文文本分类方法 | |
CN113128478A (zh) | 模型训练方法、行人分析方法、装置、设备及存储介质 | |
Wang et al. | Research on maize disease recognition method based on improved resnet50 | |
CN111914159A (zh) | 一种信息推荐方法及终端 | |
CN105701225A (zh) | 一种基于统一关联超图规约的跨媒体检索方法 | |
CN111026887A (zh) | 一种跨媒体检索的方法及系统 | |
CN114863175A (zh) | 一种无监督多源部分域适应图像分类方法 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN107633009A (zh) | 一种基于标记置信度的弱监督文档分类方法 | |
CN105678340B (zh) | 一种基于增强型栈式自动编码器的自动图像标注方法 | |
CN101226521A (zh) | 一种用于多义性数据对象预测建模的机器学习方法 | |
CN110795410A (zh) | 一种多领域文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |