CN110609895B - 一种主动选择示例以进行高效文本分类的样本自动生成方法 - Google Patents

一种主动选择示例以进行高效文本分类的样本自动生成方法 Download PDF

Info

Publication number
CN110609895B
CN110609895B CN201910633261.XA CN201910633261A CN110609895B CN 110609895 B CN110609895 B CN 110609895B CN 201910633261 A CN201910633261 A CN 201910633261A CN 110609895 B CN110609895 B CN 110609895B
Authority
CN
China
Prior art keywords
words
marked
text classification
sample
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910633261.XA
Other languages
English (en)
Other versions
CN110609895A (zh
Inventor
黄圣君
李国翔
李想
赵子渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201910633261.XA priority Critical patent/CN110609895B/zh
Publication of CN110609895A publication Critical patent/CN110609895A/zh
Application granted granted Critical
Publication of CN110609895B publication Critical patent/CN110609895B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种主动选择示例以进行高效文本分类的样本自动生成方法。文本分类问题是自然语言处理领域中一个非常经典的问题。基于机器学习技术的一系列方法已在文本分类领域取得了很好的应用。但是随着学习模型的复杂化以及文本数据量的增加,对文本训练集进行人工标注的需求量急剧增大。本发明通过结合机器学习中的神经网络和主动学习技术,在分类模型建立后自动生成信息量最丰富的样本,在增加少量用户标注代价的前提下,提升文本分类精度,此外本发明还通过稀疏重建近似生成一些摘要性的词,使得用户通过总结词即可进行标注,有效减少了用户的参与代价。

Description

一种主动选择示例以进行高效文本分类的样本自动生成方法
技术领域
本发明属于文本自动分类领域,具体涉及一种主动选择示例以进行高效文本分类的样本自动生成方法。
背景技术
文本分类在一些实际应用中扮演着非常重要的角色,如:情感分析,新闻主题标记,垃圾邮件检测等等。通常通过传统监督学习的方法来训练分类器,这种模型的好坏取决于训练数据的质量。但是实际中,标记过的数据是有限的,而未标记的数据是巨大的,并且文本标注需要标注者仔细阅读全文,因此标记成本很高。主动学习旨在通过主动选择要查询的最有价值的实例来降低标注成本。主动学习已被广泛运用于文本分类,其中不确定性抽样是最常用的,结合多重标准的方法也用于文本分类的主动学习中。最近也有研究尝试生成新实例并直接标注新实例,然后添加到训练数据中。但是该方法设计用于图像分类,无法直接应用于文本分类。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种主动选择示例以进行高效文本分类的样本自动生成方法,结合机器学习中的支持向量机模型,神经网络和主动学习技术,在增加少量用户标注代价的前提下,提升文本分类精度
技术方案:为实现上述目的,本发明采用的技术方案为:
一种主动选择示例以进行高效文本分类的样本自动生成方法,包括以下步骤:
(一)根据已标记数据D训练初始分类器f;
(二)根据步骤(一)中所训练得到的分类器f生成大小为b未被标注的新示例集合X*={x1,x2,...,xb};
(三)将步骤(二)中所生成X*中的每个新示例xi归纳为一些总结词,并将示例及总结词交于用户等待标注;
(四)将标注后的新示例加入已标记数据集合D;
(五)返回步骤(一)或结束并输出分类模型。
进一步的,所述步骤(一)对文本数据进行分类模型的价值评分的具体方法为:
D={(o1,y1),...(on,yn)}为初始有标记样本集,n为有标记样本个数,每个样本oi为d维特征向量,yi为已标记数据的第i个样本oi的类别,假设总共有K类标记;
基于已标记的数据集D,训练出支持向量机模型f(o)=w0φ(o)+b0。其中w0,b0为步骤(一)中通过支持向量机模型计算出的参数,φ(·)为特征映射函数。
进一步的,所述步骤(二)在给定分类器f的条件下,查询生成大小为b的新示例集合X*={x1,x2,...,xb}的具体方法为:
建立一个只有一层隐含层的神经网络,其输入为大小固定的随机向量,输出为查询生成的新示例xi。基于目标函进行优化,最终能够使得输出b个新示例{x1,x2,...,xb}让目标函数达到最小值,所述目标函数为:
Figure BDA0002129353440000021
其中,w0,b0为步骤(一)中通过支持向量机模型计算出的参数,φ(·)为特征映射函数。λ为用于折衷的超参数,b为生成新示例的个数,n为已有标记数据集D的样本个数,
Figure BDA0002129353440000022
为生成的数据的核矩阵,/>
Figure BDA0002129353440000023
为初始数据的核矩阵,
Figure BDA0002129353440000024
为生成数据和初始数据之间的核矩阵,tr(A)为迹函数,即对矩阵A主对角线上的元素求和。
进一步的,所述步骤(三)归纳总结文本的具体方法为:
给定文章xi中的q个词汇w*,其词汇向量W=[w1,w2,…,wq]T,利用Word2Vec方法,将每个词汇wi转化为一个d维向量,代表了每个词汇wi在与文章xi相同特征空间中的映射。给W中每个词汇随机分配一个初始重要值αi,并且满足
Figure BDA0002129353440000025
则W的词汇重要值向量α=[α1,α2,…,αq]T。采用机器学习中经典的随机梯度下降方法,最小化目标函数,所述目标函数为:
Figure BDA0002129353440000031
Figure BDA0002129353440000032
其中,η是用于折衷的超参数。
最后,根据数值大小选取α中前m大的元素所对应的词汇作为归纳文章的稀疏重建词,即总结词,其中m为总结词个数。
有益效果:本发明提供的主动选择示例以进行高效文本分类的自动生成方法,结合机器学习中的支持向量机模型,神经网络和主动学习技术,在增加少量用户标注代价的前提下,提升文本分类精度,此外本发明还通过稀疏重建近似生成一些摘要性的词,使得用户通过少量文本即可进行标注,有效减少了用户的参与代价。具体的,本发明每次挑选出对于提升分类装置精度最有帮助的一批文本进行查询,不仅提供用户这些文本,还提供给用户对应原文的总结词以减少用户的标记代价。而为了在挑选文本的过程充分满足多样性需求,本发明结合机器学习中的神经网络和主动学习技术,使得选取的未标注文本之间是多样的,未标注文本与已标注文本之间也是多样的。
附图说明
图1是本发明机制流程图;
图2是示例生成神经网络构建的流程图;
图3是文本稀疏重构装置的流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
实施例
如图1所示为本发明的一种主动选择示例以进行高效文本分类的样本自动生成方法。由步骤1开始,步骤2中先对原数据D中文本信息提取出特征向量,每个特征向量称为一个示例。特征向量提取可以使用机器学习教科书中的经典方法每份数据进行语料处理,特征提取,最后向量化将每个样本oi转换为d维特征向量。然后再对D的数据利用RBF核函数和SMO算法训练得到支持向量机分类器。步骤3再根据这个分类器训练一个只有一个隐含层的神经网络,随机生成长度固定的向量作为神经网络的输入,根据神经网络的输出就可以生成一批大小为b的待标注示例,具体过程见图2。步骤4所示装置将这b个生成的新示例所在文章稀疏重构为一些摘要性的词语,步骤5将神经网络输出的示例及摘要词提供给用户,用户根据摘要词和示例进行标注后,步骤6根据用户的标注更新支持向量机分类器,如果此时用户标注次数还未达到上限,则返回步骤3,否则进入步骤8,输出生成的文本分类器,在步骤9结束。
图2所示是图1中步骤3的具体过程,由步骤31开始,步骤32建立神经网络结构,具体的,输入层含十个神经元,隐含层含两百个神经元,输出层神经元个数为特征空间大小d,目标函数为:
Figure DA00021293534457507606
其中,w0,b0为步骤2中通过支持向量机模型计算出的参数,φ(·)为特征映射函数。λ为用于折衷的超参数,b为生成新示例的个数,n为已有标记数据集D的样本个数,
Figure BDA0002129353440000042
为生成的数据的核矩阵,/>
Figure BDA0002129353440000043
为初始数据的核矩阵,
Figure BDA0002129353440000044
为生成数据和初始数据之间的核矩阵,tr(A)为迹函数,即对矩阵A主对角线上的元素求和。
由步骤33开始训练神经网络,经由步骤34前向传播,步骤35反向传播后计算梯度以更新神经网络参数,步骤37判断是否达到训练次数上限,若未达到上限,则返回步骤34开始新一轮训练,否则进入步骤38根据神经网络输出层输出生成的b个示例,在步骤39结束。
图3所示是图1中步骤4的具体过程,由步骤41开始,在步骤42中利用经典词汇向量化方法Word2vec将每个词汇映射到与文章xi相同特征空间中,将每个词汇wi转化为一个d维向量。步骤43每个词汇随机分配一个初始重要值αi,需保证
Figure BDA0002129353440000045
进入步骤44开始随机梯度下降过程,随机选取α中的一个元素,并计算关于这个元素的梯度,步骤45根据步骤44选取的元素及计算出的梯度进行梯度下降,更新重要值αi,步骤46再计算目标(损失)函数值,步骤47判断步骤46计算出的值是否满足低于一个特定的值,这个值可以根据用户的需求动态调整,如果不满足则返回步骤44进行进一步梯度下降,否则进入步骤48,选择重要值最高的m个词汇,即作为总结词输出,其中m为总结词个数。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (1)

1.一种主动选择示例以进行高效文本分类的样本自动生成方法,包括以下步骤:
(一)根据已标记数据集D训练初始分类器f;
(二)根据步骤(一)中所训练得到的分类器f生成大小为b未被标注的新示例集合X*={x1,x2,…,xb};
(三)将步骤(二)中所生成X*中的每个新示例xi归纳为一些总结词,并将示例及总结词交于用户等待标注;
(四)将标注后的新示例加入已标记数据集合D;
(五)返回步骤(一)或结束并输出分类模型;
所述步骤(一)训练初始分类器f是指基于初始有标记样本训练分类模型,具体方法为:
D={(o1,y1),…(on,yn)}为初始有标记样本集,n为有标记样本个数,每个样本oi为d维特征向量,yi为已标记数据的第i个样本oi的类别,假设总共有K类标记;
基于已标记的数据集D,训练出支持向量机模型f(o)=w0φ(o)+b0,其中w0,b0为步骤(一)中通过支持向量机模型计算出的参数,φ(·)为特征映射函数;
所述步骤(二)在给定分类器f的条件下,查询生成大小为b的新示例集合X*={x1,x2,…,xb}的具体方法为:
建立一个只有一层隐含层的神经网络,其输入为大小固定的随机向量,输出为查询生成的新示例xi;基于目标函进行优化,最终能够使得输出b个新示例{x1,x2,…,xb}让目标函数达到最小值,所述目标函数为:
Figure FDA0004132836740000011
其中,w0,b0为步骤(一)中通过支持向量机模型计算出的参数,φ(·)为特征映射函数;λ为用于折衷的超参数,b为生成新示例的个数,n为已有标记数据集D的样本个数,
Figure FDA0004132836740000012
为生成的数据的核矩阵,/>
Figure FDA0004132836740000013
为初始数据的核矩阵,
Figure FDA0004132836740000014
为生成数据和初始数据之间的核矩阵,tr(A)为迹函数,即对矩阵A主对角线上的元素求和;
所述步骤(三)中归纳总结词的具体方法为:
给定文章xi中的q个词汇w*,其词汇向量W=[w1,w2,…,wq]T,利用Word2Vec方法,将每个词汇wi转化为一个d维向量,代表了每个词汇wi在与文章xi相同特征空间中的映射;给W中每个词汇随机分配一个初始权重αi,则W的词汇重要值向量α=[α12,…,αq]T,并且满足
Figure FDA0004132836740000021
采用随机梯度下降方法,最小化目标函数,所述目标函数为:
Figure FDA0004132836740000022
Figure FDA0004132836740000023
其中,η是用于折衷的超参数;
最后,根据数值大小选取α中前m大的元素所对应的词汇作为归纳文章的稀疏重建词,即为总结词,其中m为总结词个数。
CN201910633261.XA 2019-07-15 2019-07-15 一种主动选择示例以进行高效文本分类的样本自动生成方法 Active CN110609895B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910633261.XA CN110609895B (zh) 2019-07-15 2019-07-15 一种主动选择示例以进行高效文本分类的样本自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910633261.XA CN110609895B (zh) 2019-07-15 2019-07-15 一种主动选择示例以进行高效文本分类的样本自动生成方法

Publications (2)

Publication Number Publication Date
CN110609895A CN110609895A (zh) 2019-12-24
CN110609895B true CN110609895B (zh) 2023-05-23

Family

ID=68889953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910633261.XA Active CN110609895B (zh) 2019-07-15 2019-07-15 一种主动选择示例以进行高效文本分类的样本自动生成方法

Country Status (1)

Country Link
CN (1) CN110609895B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313178B (zh) * 2021-06-03 2024-05-03 南京航空航天大学 一种跨域图像示例级主动标注方法
CN117574146B (zh) * 2023-11-15 2024-05-28 广州方舟信息科技有限公司 文本分类标注方法、装置、电子设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100169243A1 (en) * 2008-12-27 2010-07-01 Kibboko, Inc. Method and system for hybrid text classification
CN107169001A (zh) * 2017-03-31 2017-09-15 华东师范大学 一种基于众包反馈和主动学习的文本分类模型优化方法
US10896385B2 (en) * 2017-07-27 2021-01-19 Logmein, Inc. Real time learning of text classification models for fast and efficient labeling of training data and customization
CN109918642A (zh) * 2019-01-23 2019-06-21 重庆恢恢信息技术有限公司 基于委员会查询的主动学习框架的情感分析方法及系统

Also Published As

Publication number Publication date
CN110609895A (zh) 2019-12-24

Similar Documents

Publication Publication Date Title
CN111160037B (zh) 一种支持跨语言迁移的细粒度情感分析方法
CN110298033B (zh) 关键词语料标注训练提取系统
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN109858041B (zh) 一种半监督学习结合自定义词典的命名实体识别方法
CN109002473B (zh) 一种基于词向量与词性的情感分析方法
CN110489523B (zh) 一种基于网购评价的细粒度情感分析方法
CN110825850B (zh) 一种自然语言主题分类方法及装置
CN110851594A (zh) 一种基于多通道深度学习模型的文本分类方法及其装置
CN113128557B (zh) 基于胶囊网络融合模型的新闻文本分类方法、系统及介质
CN109522415B (zh) 一种语料标注方法及装置
CN110609895B (zh) 一种主动选择示例以进行高效文本分类的样本自动生成方法
CN112070139A (zh) 基于bert与改进lstm的文本分类方法
CN113590778A (zh) 智能客服意图理解方法、装置、设备及存储介质
CN112417132A (zh) 一种利用谓宾信息筛选负样本的新意图识别方法
CN115965818A (zh) 一种基于相似度特征融合的小样本图像分类方法
CN111291168A (zh) 图书检索方法、装置及可读存储介质
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN114937465A (zh) 一种基于自监督学习的语音情感识别方法和计算机设备
CN111444720A (zh) 一种英文文本的命名实体识别方法
CN110222339B (zh) 基于改进XGBoost算法的意图识别方法及装置
TWI734085B (zh) 使用意圖偵測集成學習之對話系統及其方法
CN110472032A (zh) 医疗自定义实体词词性标签的多分类智能问答检索方法
CN109902174A (zh) 一种基于方面依赖的记忆网络的情感极性检测方法
CN111797622B (zh) 用于生成属性信息的方法和装置
CN113823292A (zh) 基于通道注意力深度可分卷积网络的小样本话者辨认方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant