CN111177374B - 一种基于主动学习的问答语料情感分类方法及系统 - Google Patents

一种基于主动学习的问答语料情感分类方法及系统 Download PDF

Info

Publication number
CN111177374B
CN111177374B CN201911283416.8A CN201911283416A CN111177374B CN 111177374 B CN111177374 B CN 111177374B CN 201911283416 A CN201911283416 A CN 201911283416A CN 111177374 B CN111177374 B CN 111177374B
Authority
CN
China
Prior art keywords
classifier
data set
data
similar
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911283416.8A
Other languages
English (en)
Other versions
CN111177374A (zh
Inventor
刘振宇
王亚平
杨硕
孙科武
王芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN201911283416.8A priority Critical patent/CN111177374B/zh
Publication of CN111177374A publication Critical patent/CN111177374A/zh
Application granted granted Critical
Publication of CN111177374B publication Critical patent/CN111177374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model

Abstract

本发明公开了一种基于主动学习的问答语料情感分类方法及系统,包括:对语料库中的训练语句进行分词,确定TF‑IDF值,根据TF‑IDF值构建句子相量样本,确定训练数据;将训练数据与人工标注数据集合、伪标签数据集、相似数据集分别组合训练,得到人工标注分类器,伪标签分类器和相似分类器;对训练数据中的未标签数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器;利用人工标注分类器,伪标签分类器和相似分类器分别对未标注数据进行分类,并根据投票策略更新投票数据集、伪标签数据集和未标注数据集;利用投票数据集和人工标注数据集对综合分类器进行训练;根据待分类语料确定句子相量,并利用已训练好的综合分类器确定情感分类结果。

Description

一种基于主动学习的问答语料情感分类方法及系统
技术领域
本发明涉及计量主动学习技术领域,并且更具体地,涉及一种基于主动学习的问答语料情感分类方法及系统。
背景技术
智能客服随着机器学习和自然语言处理的发展极大地提高了企业的效率,方便用户询问的同时减轻了客服人员的压力,帮助企业实现了全新的客服行为体系框架,普遍应用于电信、银行等诸多领域。在智能客服的主要应用中,情感分类占据着越来越重要的位置。早期的大部分工作都是利用监督学习方法对社交数据进行训练,如神经网络和支持向量机。然而,有监督学习需要大量的数据进行训练,但是客服问答数据并没有社交数据那么多。针对数据集少,数据标注困难的情况,主动学习和迁移学习被提出,并情感分析中取得了较好的效果。
主动学习和迁移学习在面对少量标注数据时都可以取得较好的效果,但是迁移学习需要大量的预训练才能获得较好的参数。主动学习则是通过训练初始小数据集,然后不断抽样进行人工标注的方法获取更好的效果。现有的主动学习在自然语言处理的应用当中主要是通过调整采样策略来提高文本分类的准确率,这种方法针对不同的分类问题以及数据集时的效果不一致,一种选择策略仅仅能用在某些特定的领域。
因此,需要一种问答语料情感分类方法,以研究基于税务问答数据的用户情感的预测,构造用户问题与用户情感之间的分类模型,利用自然语言处理相关技术以及主动学习和半监督学习方法,构造机器学习训练模型,预测情感极性。
发明内容
本发明提出一种基于主动学习的问答语料情感分类方法及系统,以解决如何准确地对问答语句进行情感分类的问题。
为了解决上述问题,根据本发明的一个方面,提供了一种基于主动学习的问答语料情感分类方法,所述方法包括:
步骤1,对语料库中的训练语句进行分词,并根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化词频-逆文档频率TF-IDF值,根据词语的优化TF-IDF值构建句子相量样本,确定训练数据;
步骤2,将训练数据与人工标注数据集合、伪标签数据集、相似数据集分别组合训练,得到人工标注分类器,伪标签分类器和相似分类器;
步骤3,对训练数据中根据抽样策略抽取的未标签数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器;
步骤4,利用人工标注分类器,伪标签分类器和相似分类器分别对未标注数据进行分类,并根据投票策略更新投票数据集、伪标签数据集和未标注数据集;
步骤5,利用投票数据集和人工标注数据集对综合分类器进行训练,若未标注数据集已标注完成或分类准确率不变,则确定当前的综合分类器为已训练好的综合分类器;反之,则返回步骤2;
步骤6,根据待分类语料确定对应的句子相量,并利用所述已训练好的综合分类器确定情感分类结果。
优选地,其中所述根据词语的位置加权值、词性加权值,利用优化的TF-lDF计算公式确定语句的优化TF-IDF值,包括:
TFIDF=(ω1p)·ωtf·ωdif
其中,ni,j是词i才文档j中出现的次数,是文档j中所有词语出现次数和,TF的值越大说明词语在文档中越重要;D是总文档数,/>是包含词语wi的总文档数;loc表示词语是否在开头结尾和标点前后,句子开头结尾和标点前后的词语默认为1,句子中间的词语默认为0;sub和obj代表主客观中词语n词性的比重;ω1为位置加权值;ωp为词性加权值;TFIDF为词语的优化TF-IDF值。
优选地,其中所述对训练数据中的未标注数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器,包括:
计算所有未标注数据集合的后验概率{Pθ(y1,y2…yn|xj)};
依据Margin挑选标准计算所有未标注数据集的并升序排序;
根据排序结果选取预设个数的伪标签数据样本,并确定其样本标签相似度simlabel,包括:
其中,xj是n个样本中初始随机选取的核心点;设置样本相似阈值Y,通过样本标签相似度simlabel构造聚类簇Ck
根据优化TF-IDF值计算得到的文本向量,计算出文本的余弦相似度simt,从聚类簇Ck中找到Maxsimt、Minsimt以及中间点并输出至相似数据集。
根据当前的相似数据集重新训练相似分类器。
优选地,其中所述方法还包括:
将选取的预设个数的未标注数据进行人工标注,并放入人工标注数据集中。
优选地,其中所述根据投票策略更新投票数据集、伪标签数据集和未标注数据集,包括:
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果一致,则将该数据加入到投票数据集中;
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果超过分类器半数,则将该数据加入到伪标签数据集中;反之,则返回未标注数据集中。
根据本发明的另一个方面,提供了一种基于主动学习的问答语料情感分类系统,所述系统包括:
处理计算单元,用于对语料库中的训练语句进行分词,并根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化词频-逆文档频率TF-IDF值,根据词语的优化TF-IDF值构建句子相量样本,确定训练数据;
分类器训练单元,用于将训练数据与人工标注数据集合、伪标签数据集、相似数据集分别组合训练,得到人工标注分类器,伪标签分类器和相似分类器;
聚类单元,用于对训练数据中根据抽样策略抽取的未标签数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器;
数据集更新单元,用于利用人工标注分类器,伪标签分类器和相似分类器分别对未标注数据进行分类,并根据投票策略更新投票数据集、伪标签数据集和未标注数据集;
综合分类器训练单元,用于利用投票数据集和人工标注数据集对综合分类器进行训练,若未标注数据集已标注完成或分类准确率不变,则确定当前的综合分类器为已训练好的综合分类器;反之,则进入分类器训练单元;
情感分类结果确定单元,用于根据待分类语料确定对应的句子相量,并利用所述已训练好的综合分类器确定情感分类结果。
优选地,其中所述处理计算单元,根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化TF-IDF值,包括:
TFIDF=(ω1p)·ωtf·ωdif
其中,ni,j是词i才文档j中出现的次数,是文档j中所有词语出现次数和,TF的值越大说明词语在文档中越重要;D是总文档数,/>是包含词语wi的总文档数;loc表示词语是否在开头结尾和标点前后,句子开头结尾和标点前后的词语默认为1,句子中间的词语默认为0;sub和obj代表主客观中词语n词性的比重;ω1为位置加权值;ωp为词性加权值;TFIDF为词语的优化TF-IDF值。
优选地,其中所述聚类单元,对训练数据中根据抽样策略抽取的未标注数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器,包括:
计算所有未标注数据集合的后验概率{Pθ(y1,y2…yn|xj)};
依据Margin挑选标准计算所有未标注数据集的并升序排序;
根据排序结果选取预设个数的伪标签数据样本,并确定其样本标签相似度simlabel,包括:
其中,xj是n个样本中初始随机选取的核心点;设置样本相似阈值Y,通过样本标签相似度simlabel构造聚类簇Ck
根据优化TF-IDF值计算得到的文本向量,计算出文本的余弦相似度simt,从聚类簇Ck中找到Maxsimt、Minsimt以及中间点并输出至相似数据集。
根据当前的相似数据集重新训练相似分类器。
优选地,其中所述系统还包括:
标注单元,用于将选取的预设个数的未标注数据进行人工标注,并放入人工标注数据集中。
优选地,其中所述数据集更新单元,根据投票策略更新投票数据集、伪标签数据集和未标注数据集,包括:
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果一致,则将该数据加入到投票数据集中;
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果超过分类器半数,则将该数据加入到伪标签数据集中;反之,则返回未标注数据集中。
本发明提供了一种基于主动学习的问答语料情感分类方法及系统,从智能客服对话系统出发,为提升智能问答中用户体验,利用主动学习和多监督学习训练器投票的方式,增强情感分析多分类的准确率,提出了基于主动学习的问答语料情感分类模型。与传统的机器学习和神经网络相比,处理小数据量时能更快的达到更高的准确率,在处理稀疏性强的小数据集时可以获得很好的效果。用于税务问答等专业领域问答语料的情感极性分析,在数据积累初期以及缺乏人工标注时,能很好的分辨用户情感,进行情感极性分类。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明实施方式的基于主动学习的问答语料情感分类方法100的流程图;
图2为根据本发明实施方式的问答情感分析系统架构图;
图3为根据本发明实施方式的半监督多分类器投票流程的示意图;以及
图4为根据本发明实施方式的基于主动学习的问答语料情感分类系统400的结构示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为根据本发明实施方式的基于主动学习的问答语料情感分类方法100的流程图。如图1所示,本发明实施方式提供的基于主动学习的问答语料情感分类方法,从智能客服对话系统出发,为提升智能问答中用户体验,利用主动学习和多监督学习训练器投票的方式,增强情感分析多分类的准确率,提出了基于主动学习的问答语料情感分类模型。与传统的机器学习和神经网络相比,处理小数据量时能更快的达到更高的准确率,在处理稀疏性强的小数据集时可以获得很好的效果。用于税务问答等专业领域问答语料的情感极性分析,在数据积累初期以及缺乏人工标注时,能很好的分辨用户情感,进行情感极性分类。本发明实施方式提供的基于主动学习的问答语料情感分类方法100从步骤101处开始,在步骤101,对语料库中的训练语句进行分词,并根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化词频-逆文档频率TF-IDF值,根据词语的优化TF-IDF值构建句子相量样本,确定训练数据。
优选地,其中所述根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化TF-IDF值,包括:
TFIDF=(ω1p)·ωtf·ωdif
其中,ni,j是词i才文档j中出现的次数,是文档j中所有词语出现次数和,TF的值越大说明词语在文档中越重要;D是总文档数,/>是包含词语wi的总文档数;loc表示词语是否在开头结尾和标点前后,句子开头结尾和标点前后的词语默认为1,句子中间的词语默认为0;sub和obj代表主客观中词语n词性的比重;ω1为位置加权值;ωp为词性加权值;TFIDF为词语的优化TF-IDF值。
图2为根据本发明实施方式的问答情感分析系统架构图。如图2所示,系统架构分为向量空间模块,主客观分类模块,情感分类模块和主动学习模块四部分,各部分之间的联系见附图,各部分功能如下:
向量空间模块(Vector space model,VSM)将语料库进行分词训练获得句子的特征,并根据句子中不同的分词词性给予权重的体现,这一模块能有效的根据语料的特点获得不同的权重,由于税务客服问答语料是一种弱情感语料,没有明显的情感词,因此针对词性和位置的不同权重的TF-IDF方法能有效的描述文本特征。
主客观分类模块(sub-object Classification,SOC)的任务是进行一次文本分类,筛选出包含主观意图的句子,主要是根据VSM提取的特征进行主客观的训练和分类。由于智能客服问答系统中,只有尽可能准确的获取用户情感才能生成相应的回答来进行情感回复,因此情感分类的准确率比召回率要更重要,所以进过二分类后的数据在进行多标签的情感分类能获得更好的效果。
情感分类模块(Multi-emotion Classification,MEC)将从SOC获取的主观情感通过多个二分类的支持向量机进行多标签分类,MEC模块的目的是通过多标签分类获得不同的用户情感,并根据不同情感在对应的机器回答中添加相应的情感回复,达到智能客服情感互动和情感安抚的目的。
主动学习模块(Active Learning),智能问答语料不平衡性极强,主观情感语料不足整体语料的1%,因此常规的标注方法很难获取大量均匀的标注语料,从而很难获得较好训练结果,通过主动学习采样规则,从未标注库中抽取不确定性最大的数据进行标注,将标注中非情感的句子单独作为新类添加到下一轮主动学习中,获得更好的多标签分类效果,计算用户的真实情感。
TF-IDF是一种常用的词向量空间模型,基于统计理论从特定类别文档的词频以及该词语在整个文档集合中出现的频率可以得到TD-IDF值,一般较高的词频(TF)和较低的逆文档频率(IDF)可以得到较高的权重。TF表示一篇文档中某个词出现的频率,因为文档的长短不同,经过归一化处理后如公式1所示:
其中,ni,j是词i才文档j中出现的次数,是文档j中所有词语出现次数和。TF的值越大说明词语在文档中越重要。
IDF是逆文档频率,IDF越大表明包含该词语的文档越少,说明该词区别该类文档的效果越好,当IDF等于1时,表示所有文档都包含该词,无法用来区分文档类别,如公式2所示:
其中D是总文档数,是包含词语wi的总文档数,一般为了便于计算,通常使用/>来表示IDF。
但是传统的TF-IDF方法有许多不足,首先,没有考虑特征词的位置因素对文本分类的区分度,不同位置的词语对文本的影响力是不一样的,在有专业性的税务智能问答中用户的问题主体部分是税务领域的专业词语,这些词语对用户的情感表达基本没有帮助,而用户语句中标点符号旁边的词语即每个短句的开头和结尾往往能包含更多的情感主旨,例如“您好”、“谢谢”等表达用户礼貌的情感主题,“啊”、“怎么办”、“为什么”等表达用户焦急的情感主体。其次,TF-IDF的方法不考虑词性因素,而对出现较少的生僻词汇认为是文本的关键词。为了获得税务客服问答数据主客观语料词性比重的区别,本产品通过对人工标注的1000条数据进行传统贝叶斯分类训练,主客观训练结果准确率在80%以上,通过训练得到的模型对四十万税务智能客服问答数据进行分类,分类后发现主观情感具有较高比重的连词、代词和语气词等,客观情感具有较高比重的名称,而形容词、动词等所占的比例基本一致,如表1所示:
表1主客观语料词性比重对比
弱情感语言缺少明显的情感形容词和动词,所以需要从词语位置以及主客观词性的分布来进行改进加权,位置加权函数如公式3所示:
其中,loc表示词语是否在开头结尾和标点前后,句子开头结尾和标点前后的词语默认为1,句子中间的词语默认为0,用来限制过长的词语和过短的单词句子的影响。
词性方面根据实验获得的主客观语料词性比重对名词等词语采用降权处理,对连词代词和状态词等采用增权处理,如公式4所示:
其中,sub和obj代表主客观中词语n词性的比重。
优化后的TF-IDF综合加权公式如下所示:
TFIDF=(ω1p)·ωtf·ωdif
通过TF-IDF综合加权计算公式可以获得句子中每个词的词频-逆文档频率值,将分词后的句子构造成由01组成的句子向量,1代表句子中包含某个词语,0代表该句子中不包含这个位置的词语,根据词语的词性和位置对每个句子向量中的TF-IDF值进行加权修改,将句子向量中的词语用综合加权的TF-IDF值表示,构成句子向量和句子。多个句子向量构成句子矩阵。
优化后的TF-IDF公式能更好的在向量空间中表示出词性的影响,同时能对弱情感语句中不同位置词语给予不同的权重,只有更能表示出用户情感的词性的单词在文档的重要位置才能获得较高的TFIDF值。可以更好的用于多标签情感分类。
在步骤102,将训练数据与人工标注数据集合、伪标签数据集、相似数据集分别组合训练,得到人工标注分类器,伪标签分类器和相似分类器。
在步骤103,对训练数据中根据抽样策略抽取的未标签数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器。
优选地,其中所述对训练数据中根据抽样策略抽取的未标注数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器,包括:
计算所有未标注数据集合的后验概率{Pθ(y1,y2…yn|xj)};
依据Margin挑选标准计算所有未标注数据集的并升序排序;
根据排序结果选取预设个数的伪标签数据样本,并确定其样本标签相似度simlabel,包括:
其中,xj是n个样本中初始随机选取的核心点;设置样本相似阈值Y,通过样本标签相似度simlabel构造聚类簇Ck
根据优化TF-IDF值计算得到的文本向量,计算出文本的余弦相似度simt,从聚类簇Ck中找到Maxsimt、Minsimt以及中间点并输出至相似数据集。
根据当前的相似数据集重新训练相似分类器。
优选地,其中所述方法还包括:
将选取的预设个数的未标注数据进行人工标注,并放入人工标注数据集中。
在步骤104,利用人工标注分类器,伪标签分类器和相似分类器分别对未标注数据进行分类,并根据投票策略更新投票数据集、伪标签数据集和未标注数据集。
优选地,其中所述根据投票策略更新投票数据集、伪标签数据集和未标注数据集,包括:
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果一致,则将该数据加入到投票数据集中;
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果超过分类器半数,则将该数据加入到伪标签数据集中;反之,则返回未标注数据集中。
在步骤105,利用投票数据集和人工标注数据集对综合分类器进行训练,若未标注数据集已标注完成或分类准确率不变,则确定当前的综合分类器为已训练好的综合分类器;反之,则返回步骤102。
基于单SVM分类器无法保证在迭代过程中保证分类准确度的问题,本发明实施方式提出一种多策略投票的半监督训练方式,在最大化训练数据的同时确保了一定的伪标签的正确性。首先,设置多个SVM训练器分别用来训练伪标签集合、专家标注集合、相似集合。然后,根据主动学习采样策略获得人工标注集合,并根据相似度和投票机制分别更新相似集合和伪标签集合。最后,通过不断迭代直到所有数据标注完毕或者准确率不再增长。
本发明实施方式的半监督多分类器投票流程如图3所示。其中,半监督的多分类器投票流程需要构造多个不同策略的分类器,用来保证自动添加的伪标签数据标签的准确性,首先构造两个空集合,伪标签数据集P和相似数据集S。开始迭代,将训练数据T与人工标注数据集合L、伪标签数据集P、相似数据集S分别组合训练出人工标注分类器,伪标签分类器以及相似分类器。然后,对采样池中的未标注数据进行抽取,对抽取的数据进行无监督的聚类,并将相似数据加入相似数据集并重新训练相似分类器。然后,根据投票策略当三个SVM分类器对未标注数据的分类结果一致时就将该数据加入到投票数据集V中,若投票结果超过分类器半数一样,就将该数据加入到伪标签数据集P中,若未达到半数则返回未标注数据集U中。然后,根据投票数据集合P和人工标注数据集L进行训练综合分类器的训练。若未标注数据集已标注完成或分类准确率不变,则确定当前的综合分类器为已训练好的综合分类器。反之,则进行下一轮的迭代,重新确定人工标注分类器,伪标签分类器以及相似分类器,直到未标注数据集标注完成或者分类准确率不再增长为止。
主动学习是为了解决机器学习中数据标注困难、数据标签不足而被提出的一种从未标记样例池中根据后验概率抽取数据并进行人工标注的启发式方法。旨在快速提高分类器的效果和减少人工标注的工作。目前主动学习根据选择样本的方式可以分为基于流的主动学习、基于池的主动学习和成员查询综合主动学习。根据采样池的策略又可以分为不确定采样、基于期望模型、基于空间模型等多种采样方式。
基于池的不确定性采样策略MS(Margin Sample Heuristic)依据多标签不确定性的最小差值选择抽样的伪标签数据,如下公式:
其中,y表示分类类别,P(y|x)代表x的置信标签是y。但是这种方法本质上任然忽略了绝大部分输出的剩余类别的分布情况。
本发实施方式在此基础上引入了标签聚类和文本向量空间选择两个步骤,提出了优化的不确定性抽样策略,在对采样池中的未标注数据进行抽取时,具体步骤如下:
(1)根据已训练模型计算所有未标签数据集合的后验概率{Pθ(y1,y2…yn|xj)}。
(2)依据Margin挑选标准计算所有未标注数据集的并升序排序。
(3)根据预设取样个数取前n个样本,此时取出的样本数据是由TF-IDF构成的句子向量,因为句子向量中词语的位置顺序是一致的,不同的是句子在该位置是否包含该词语,所以可以用向量相似度的方式比较两个句子向量的相似性。取前n个样本并定义他们的样本标签相似度simlabel为:
其中,xj是n个样本中初始随机选取的核心点。设置样本相似阈值Y,通过样本标签相似度simi构造聚类簇Ck
(4)根据优化TF-IDF计算得到的文本向量,计算出文本的余弦相似度simt,从聚类簇Ck中找到Maxsimt、Minsimt以及中间点并输出,以重新确定相似分类器。
另外,将选取的预设个数的未标注数据进行人工标注,并放入人工标注数据集中。
优化的主动学习方法更好的结合了原始数据与伪标签数据的信息,通过聚类的方法减少了重复数据的采样,通过相似度计算从同一类的簇中获取了最能代表簇的伪标签数据,增加分类器泛化能力的同时提高了采样能力。
在步骤106,根据待分类语料确定对应的句子相量,并利用所述已训练好的综合分类器确定情感分类结果。
在本发明的实施方式中,综合分类器完成最终训练后,用户输入新的情感语料,逐步经过分词和TF-IDF模型转换成词向量,最后构造出句子向量,输入句子向量后经过训练好的SVM综合分类器判别后得到最终的分类结果。在小数据量下该主动学习的情感识别分类器比神经网络的训练方式能更快的达到收敛效果,相同的准确率下使用主动学习问答语料情感分类模型仅需要一半左右的标签数据;而结合主动学习和多种监督学习的情感分析模型采用的多种训练器投票的机制,比传统主动学习的训练方式具有更好的分类效果,五分类情感分析结果平均准确率提高3%以上。
在本发明实施方式的半监督分类器投票流程中,伪标签数据集和相似数据集可以随着人工标注的更新而不断更新,这样避免了固定添加伪标签方式导致的错误,同时通过投票机制保证一定的准确度。半监督的分类机制将人工标记的数据及其相似数据以及上一轮迭代的伪标签数据共同作为训练数据,理论上能加快训练速度,同时投票机制的引入可以在一定程度上保证半监督训练的准确率。
图4为根据本发明实施方式的基于主动学习的问答语料情感分类系统400的结构示意图。如图4所示,本发明实施方式提供的基于主动学习的问答语料情感分类系统400,包括:处理计算单元401、分类器训练单元402、聚类单元403、数据集更新单元404、综合分类器训练单元405和情感分类结果确定单元406。
优选地,所述处理计算单元401,用于对语料库中的训练语句进行分词,并根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化词频-逆文档频率TF-IDF值,根据词语的优化TF-IDF值构建句子相量样本,确定训练数据。
优选地,其中所述处理计算单元401,根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化TF-IDF值,包括:
TFIDF=(ω1p)·ωtf·ωdif
其中,ni,j是词i才文档j中出现的次数,是文档j中所有词语出现次数和,TF的值越大说明词语在文档中越重要;D是总文档数,/>是包含词语wi的总文档数;loc表示词语是否在开头结尾和标点前后,句子开头结尾和标点前后的词语默认为1,句子中间的词语默认为0;sub和obj代表主客观中词语n词性的比重;ω1为位置加权值;ωp为词性加权值;TFIDF为词语的优化TF-IDF值。
优选地,所述分类器训练单元402,用于将训练数据与人工标注数据集合、伪标签数据集、相似数据集分别组合训练,得到人工标注分类器,伪标签分类器和相似分类器。
优选地,所述聚类单元403,用于对训练数据中根据抽样策略抽取的未标签数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器。
优选地,其中所述聚类单元403,对训练数据中根据抽样策略抽取的未标注数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器,包括:
计算所有未标注数据集合的后验概率{Pθ(y1,y2…yn|xj)};
依据Margin挑选标准计算所有未标注数据集的并升序排序;
根据排序结果选取预设个数的伪标签数据样本,并确定其样本标签相似度simlabel,包括:
其中,xj是n个样本中初始随机选取的核心点;设置样本相似阈值Y,通过样本标签相似度simlabel构造聚类簇Ck
根据优化TF-IDF值计算得到的文本向量,计算出文本的余弦相似度simt,从聚类簇Ck中找到Maxsimt、Minsimt以及中间点并输出至相似数据集。
根据当前的相似数据集重新训练相似分类器。
优选地,其中所述系统还包括:标注单元,用于将选取的预设个数的未标注数据进行人工标注,并放入人工标注数据集中。
优选地,所述数据集更新单元404,用于利用人工标注分类器,伪标签分类器和相似分类器分别对未标注数据进行分类,并根据投票策略更新投票数据集、伪标签数据集和未标注数据集。
优选地,其中所述数据集更新单元404,根据投票策略更新投票数据集、伪标签数据集和未标注数据集,包括:
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果一致,则将该数据加入到投票数据集中;
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果超过分类器半数,则将该数据加入到伪标签数据集中;反之,则返回未标注数据集中。
优选地,所述综合分类器训练单元405,用于利用投票数据集和人工标注数据集对综合分类器进行训练,若未标注数据集已标注完成或分类准确率不变,则确定当前的综合分类器为已训练好的综合分类器;反之,则进入分类器训练单元。
优选地,所述情感分类结果确定单元406,用于根据待分类语料确定对应的句子相量,并利用所述已训练好的综合分类器确定情感分类结果。
本发明的实施例的基于主动学习的问答语料情感分类系统400与本发明的另一个实施例的基于主动学习的问答语料情感分类方法100相对应,在此不再赘述。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (8)

1.一种基于主动学习的问答语料情感分类方法,其特征在于,所述方法包括:
步骤1,对语料库中的训练语句进行分词,并根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化词频-逆文档频率TF-IDF值,根据词语的优化TF-IDF值构建句子相量样本,确定训练数据;
步骤2,将训练数据与人工标注数据集合、伪标签数据集、相似数据集分别组合训练,得到人工标注分类器,伪标签分类器和相似分类器;
步骤3,对训练数据中根据抽样策略抽取的未标签数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器;
步骤4,利用人工标注分类器,伪标签分类器和相似分类器分别对未标注数据进行分类,并根据投票策略更新投票数据集、伪标签数据集和未标注数据集;
步骤5,利用投票数据集和人工标注数据集对综合分类器进行训练,若未标注数据集已标注完成或分类准确率不变,则确定当前的综合分类器为已训练好的综合分类器;反之,则返回步骤2;
步骤6,根据待分类语料确定对应的句子相量,并利用所述已训练好的综合分类器确定情感分类结果;
其中,所述根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化TF-IDF值,包括:
TFIDF=(ω1p)·ωtf·ωdif
其中,ni,j是词i才文档j中出现的次数,是文档j中所有词语出现次数和,TF的值越大说明词语在文档中越重要;D是总文档数,/>是包含词语wi的总文档数;loc表示词语是否在开头结尾和标点前后,句子开头结尾和标点前后的词语默认为1,句子中间的词语默认为0;sub和obj代表主客观中词语n词性的比重;ω1为位置加权值;ωp为词性加权值;TFIDF为词语的优化TF-IDF值。
2.根据权利要求1所述的方法,其特征在于,所述对训练数据中根据抽样策略抽取的未标注数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器,包括:
计算所有未标注数据集合的后验概率{Pθ(y1,y2…yn|xj)};
依据Margin挑选标准计算所有未标注数据集的并升序排序;
根据排序结果选取预设个数的伪标签数据样本,并确定其样本标签相似度simlabel,包括:
其中,xj是n个样本中初始随机选取的核心点;设置样本相似阈值γ,通过样本标签相似度simlabel构造聚类簇Ck
根据优化TF-IDF值计算得到的文本向量,计算出文本的余弦相似度simt,从聚类簇Ck中找到Maxsimt、Minsimt以及中间点并输出至相似数据集;
根据当前的相似数据集重新训练相似分类器。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将选取的预设个数的未标注数据进行人工标注,并放入人工标注数据集中。
4.根据权利要求1所述的方法,其特征在于,所述根据投票策略更新投票数据集、伪标签数据集和未标注数据集,包括:
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果一致,则将该数据加入到投票数据集中;
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果超过分类器半数,则将该数据加入到伪标签数据集中;反之,则返回未标注数据集中。
5.一种基于主动学习的问答语料情感分类系统,其特征在于,所述系统包括:
处理计算单元,用于对语料库中的训练语句进行分词,并根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化词频-逆文档频率TF-IDF值,根据词语的优化TF-IDF值构建句子相量样本,确定训练数据;
分类器训练单元,用于将训练数据与人工标注数据集合、伪标签数据集、相似数据集分别组合训练,得到人工标注分类器,伪标签分类器和相似分类器;
聚类单元,用于对训练数据中根据抽样策略抽取的未标签数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器;
数据集更新单元,用于利用人工标注分类器,伪标签分类器和相似分类器分别对未标注数据进行分类,并根据投票策略更新投票数据集、伪标签数据集和未标注数据集;
综合分类器训练单元,用于利用投票数据集和人工标注数据集对综合分类器进行训练,若未标注数据集已标注完成或分类准确率不变,则确定当前的综合分类器为已训练好的综合分类器;反之,则进入分类器训练单元;
情感分类结果确定单元,用于根据待分类语料确定对应的句子相量,并利用所述已训练好的综合分类器确定情感分类结果;
其中,所述处理计算单元,根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化TF-IDF值,包括:
TFIDF=(ω1p)·ωtf·ωdif
其中,ni,j是词i才文档j中出现的次数,是文档j中所有词语出现次数和,TF的值越大说明词语在文档中越重要;D是总文档数,/>是包含词语wi的总文档数;loc表示词语是否在开头结尾和标点前后,句子开头结尾和标点前后的词语默认为1,句子中间的词语默认为0;sub和obj代表主客观中词语n词性的比重;ω1为位置加权值;ωp为词性加权值;TFIDF为词语的优化TF-IDF值。
6.根据权利要求5所述的系统,其特征在于,所述聚类单元,对训练数据中根据抽样策略抽取的未标注数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器,包括:
计算所有未标注数据集合的后验概率{Pθ(y1,y2…yn|xj)};
依据Margin挑选标准计算所有未标注数据集的并升序排序;
根据排序结果选取预设个数的伪标签数据样本,并确定其样本标签相似度simlabel,包括:
其中,xj是n个样本中初始随机选取的核心点;设置样本相似阈值γ,通过样本标签相似度simlabel构造聚类簇Ck
根据优化TF-IDF值计算得到的文本向量,计算出文本的余弦相似度simt,从聚类簇Ck中找到Maxsimt、Minsimt以及中间点并输出至相似数据集;
根据当前的相似数据集重新训练相似分类器。
7.根据权利要求6所述的系统,其特征在于,所述系统还包括:
标注单元,用于将选取的预设个数的未标注数据进行人工标注,并放入人工标注数据集中。
8.根据权利要求5所述的系统,其特征在于,所述数据集更新单元,根据投票策略更新投票数据集、伪标签数据集和未标注数据集,包括:
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果一致,则将该数据加入到投票数据集中;
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果超过分类器半数,则将该数据加入到伪标签数据集中;反之,则返回未标注数据集中。
CN201911283416.8A 2019-12-13 2019-12-13 一种基于主动学习的问答语料情感分类方法及系统 Active CN111177374B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911283416.8A CN111177374B (zh) 2019-12-13 2019-12-13 一种基于主动学习的问答语料情感分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911283416.8A CN111177374B (zh) 2019-12-13 2019-12-13 一种基于主动学习的问答语料情感分类方法及系统

Publications (2)

Publication Number Publication Date
CN111177374A CN111177374A (zh) 2020-05-19
CN111177374B true CN111177374B (zh) 2024-01-19

Family

ID=70646277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911283416.8A Active CN111177374B (zh) 2019-12-13 2019-12-13 一种基于主动学习的问答语料情感分类方法及系统

Country Status (1)

Country Link
CN (1) CN111177374B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743096A (zh) * 2020-05-27 2021-12-03 南京大学 一种基于自然语言处理的众包测试报告相似度检测的方法
CN112069310B (zh) * 2020-06-18 2023-05-02 中国科学院计算技术研究所 基于主动学习策略的文本分类方法及系统
CN111813944A (zh) * 2020-09-09 2020-10-23 北京神州泰岳智能数据技术有限公司 一种直播评论分析方法、装置、电子设备及存储介质
CN112214576B (zh) * 2020-09-10 2024-02-06 深圳价值在线信息科技股份有限公司 舆情分析方法、装置、终端设备及计算机可读存储介质
CN112101184B (zh) * 2020-09-11 2022-03-15 电子科技大学 一种基于半监督学习的无线跨域动作识别方法
CN112200245A (zh) * 2020-10-10 2021-01-08 深圳市华付信息技术有限公司 一种基于半监督的图像分类方法
CN112163081A (zh) * 2020-10-14 2021-01-01 网易(杭州)网络有限公司 标签确定方法、装置、介质及电子设备
CN113407713B (zh) * 2020-10-22 2024-04-05 腾讯科技(深圳)有限公司 基于主动学习的语料挖掘方法、装置及电子设备
CN112396094B (zh) * 2020-11-02 2022-05-20 华中科技大学 同时用于情感分类和回归的多任务主动学习方法和系统
CN112329877A (zh) * 2020-11-16 2021-02-05 山西三友和智慧信息技术股份有限公司 一种基于投票机制的web服务分类方法及系统
CN112632284A (zh) * 2020-12-30 2021-04-09 上海明略人工智能(集团)有限公司 用于未标注文本数据集的信息抽取方法及系统
CN112837701B (zh) * 2020-12-31 2022-12-27 西安电子科技大学 基于多分类器交互学习的语音情感识别方法
CN112883173A (zh) * 2021-02-08 2021-06-01 联想(北京)有限公司 一种文本应答方法及装置
CN113065341A (zh) * 2021-03-14 2021-07-02 北京工业大学 一种环境类投诉举报文本自动标注和分类方法
CN113792659B (zh) * 2021-09-15 2024-04-05 上海金仕达软件科技股份有限公司 文档识别方法、装置及电子设备
CN114003725A (zh) * 2021-12-30 2022-02-01 深圳佑驾创新科技有限公司 信息标注模型的构建方法以及信息标注的生成方法
CN114637848A (zh) * 2022-03-15 2022-06-17 美的集团(上海)有限公司 语义分类方法及装置
CN115617975B (zh) * 2022-12-20 2023-04-18 国家电网有限公司客户服务中心 针对少样本多轮对话的意图识别方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228569A (zh) * 2018-01-30 2018-06-29 武汉理工大学 一种基于松散条件下协同学习的中文微博情感分析方法
CN108804417A (zh) * 2018-05-21 2018-11-13 山东科技大学 一种基于特定领域情感词的文档级情感分析方法
CN109918642A (zh) * 2019-01-23 2019-06-21 重庆恢恢信息技术有限公司 基于委员会查询的主动学习框架的情感分析方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10394959B2 (en) * 2017-12-21 2019-08-27 International Business Machines Corporation Unsupervised neural based hybrid model for sentiment analysis of web/mobile application using public data sources

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228569A (zh) * 2018-01-30 2018-06-29 武汉理工大学 一种基于松散条件下协同学习的中文微博情感分析方法
CN108804417A (zh) * 2018-05-21 2018-11-13 山东科技大学 一种基于特定领域情感词的文档级情感分析方法
CN109918642A (zh) * 2019-01-23 2019-06-21 重庆恢恢信息技术有限公司 基于委员会查询的主动学习框架的情感分析方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于情感词向量和BLSTM的评论文本情感倾向分析;邓楠;余本功;;计算机应用研究(第12期);全文 *

Also Published As

Publication number Publication date
CN111177374A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN111177374B (zh) 一种基于主动学习的问答语料情感分类方法及系统
CN108399228B (zh) 文章分类方法、装置、计算机设备及存储介质
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
US11379668B2 (en) Topic models with sentiment priors based on distributed representations
CN110502749A (zh) 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN109299271A (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
CN111126067B (zh) 实体关系抽取方法及装置
Kosmopoulos et al. Biomedical semantic indexing using dense word vectors in bioasq
Qu et al. Improved Bayes method based on TF-IDF feature and grade factor feature for chinese information classification
CN112417894A (zh) 一种基于多任务学习的对话意图识别方法及识别系统
Alwan et al. Political Arabic articles orientation using rough set theory with sentiment lexicon
CN115309910B (zh) 语篇要素和要素关系联合抽取方法、知识图谱构建方法
CN115238040A (zh) 一种钢铁材料学知识图谱构建方法及系统
Tao et al. News text classification based on an improved convolutional neural network
CN113934835A (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
Ali et al. K-means clustering to improve the accuracy of decision tree response classification
CN109284392B (zh) 一种文本分类方法、装置、终端及存储介质
Siddique et al. Bilingual word embeddings for cross-lingual personality recognition using convolutional neural nets
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质
CN115292492A (zh) 意图分类模型的训练方法、装置、设备及存储介质
CN114969324A (zh) 基于主题词特征扩展的中文新闻标题分类方法
CN107729509A (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN117291192B (zh) 一种政务文本语义理解分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant