CN113392642A - 一种基于元学习的育人案例自动标注系统及方法 - Google Patents
一种基于元学习的育人案例自动标注系统及方法 Download PDFInfo
- Publication number
- CN113392642A CN113392642A CN202110622821.9A CN202110622821A CN113392642A CN 113392642 A CN113392642 A CN 113392642A CN 202110622821 A CN202110622821 A CN 202110622821A CN 113392642 A CN113392642 A CN 113392642A
- Authority
- CN
- China
- Prior art keywords
- sentences
- model
- layer
- statement
- child
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于元学习的育人案例自动标注系统及方法,系统包括:预处理模块,用于对接收的育人案例文本进行处理,以获得育人案例语句;问题描述语句识别模块,用于接收育人案例语句,通过调用第一模型进行识别,生成待标注语句;影响因素分类模块,用于接收待标注语句,调用第二模型进行分类,获取该语句所属的影响因素类别信息;具体标注类别分类模块,用于接收带有影响因素类别信息的待标注语句,调用影响因素类别对应的分类器,生成待标注语句的具体标注类别。本发明能够对育人案例实现快速自动标注,便于提高育人案例数据的标注效率及标注准确度。
Description
技术领域
本发明属于文本自动标注领域,尤其涉及一种基于元学习的育人案例自动标注系统及方法。
背景技术
育人案例也称德育教育案例,是指关于中小学生德育教育相关的案例文本数据,其特点在于在案例中有关于学生所表现出的问题行为的文本描述、学生个人情况的文本描述以及针对这些问题表现,老师和家长所采取的解决办法。这些育人案例数据中蕴含了丰富的知识及经验,对于解决学生经常遇到的德育问题具有很重要的作用。
一个典型的育人案例如下:
对单亲家庭孩子的教育
陕西省
我是一名青年教师,在党的阳光雨露沐浴下幸福的成长起来。做教师是我儿时的理想,当我真的踏上三尺讲台的时候,感到由衷的幸福和喜悦,而后的岁月里,也使我饱尝了作为一名教师的艰辛。
在教师心目中,学生就像一棵棵茁壮成长的幼苗,需要施以爱心,才能使其健康成长,对于单亲家庭的儿童来说,我认为我们就更要加倍的呵护。记得我所带过的班级里,有这样一个单亲儿童,她是在三年级的时候后插到我们班级的。初次见到这个学生的时候,是九十月份,天气已经有些凉了,女孩子穿的很薄,留着短发,明显是很久没剪了,已经长得直戳脖子,不像样子了,而且还留着鼻涕。在短短的谈话中,孩子从没直视过我的眼睛,眼神游离,满脸透着不屑和叛逆,因此她给我留下的第一印象就是个″不服天照管″的学生。
果不其然,上课扔纸团,科任老师批评她,她就出言顶撞,当我找到她的时候,她也一副″爱怎样就怎样的″样子。当时我真是有些不知所措,对于这样″油盐不进″的孩子,我该怎么教育她呢?一时间我真的觉得我没有办法去感化她,和她沟通。那段时间里,我真是恼火透了。但恼火归恼火,教育好孩子,是咱的责任,这个不能忘,我必须得把她拉回来,她把我关在了心门的外面,我就要千方百计找到能够走进她心里的″缝隙″。
有一天,在她值日的时候,我就假装无意的喊:慧慧,值日后,帮老师把门锁好″我故意将她的姓氏省去,直呼她的小名。我发现她一点没有迟疑,很痛快的就答应了。从那以后我就一直叫她″慧慧″再也没直呼过地的全名。我和她说话的时候,她的眼神不再是游离的,她会直视我的眼睛。我知道:我已经找到能够走进她心里的″缝隙″了。直到一次作文课上,作文的题目是《我的母亲》。
课程伊始,我先是让学生说说自己的母亲。于是大家都争相说,有的孩子说自己的母亲很勤劳,有的孩子称赞自己的母亲很伟大,唯独慧慧默不作声。当天的语文作业就是完成作文。第二天我批改作文,当我翻开慧慧的作文本的时候,我看见了,整篇作文纸上,写着很大的五个字:″我没有母亲。″一时间,这个孩子成长过程中所有的辛酸全都充到了我的脑袋里。于是我在紧挨着″我没有母亲″那五个字的旁边用红笔写到:″那我希望你是我的女儿。
″当她收到作文本看到评语后,下意识的抬头看我,我也在看着她,四目相对的瞬间,她一下子用双手把眼泪按了回去。从那以后,慧慧真的变了,我经常能在作业里看到写着心里话的纸条,也没有科任老师在反应她如何搅闹课堂,期末的时候她被同学们评为″进步最快的人。″
从学生转变的过程中,我深深体会到:″爱″就是点亮学生心灵之灯的火花!我愿做一辈子用心点灯的人,在照亮学生未来的同时,也绚丽着自己的一生!|
其中有关于学生的个人信息如“单亲家庭”、“女生”以及表现出的学生问题行为如“眼神游离,满脸透着不屑和叛逆,因此她给我留下的第一印象就是个“不服天照管”的学生。”,以及老师对其采取的帮助方法如“千方百计找到能够走进她心里的“缝隙””。
在百度中搜索育人案例,可以看到很多范文、育人案例写法的心得体会。例如:如何撰写教育案例——我的专题讲座_追梦教师袁建国_新浪博客(sina.com.cn)。
在人工智能时代,我们已经积累了海量的数据,但是不论是文本数据还是图片数据及其他格式的数据,如果要有效利用这些数据,挖掘数据背后所蕴含的知识信息并对我们的实际工作产生积极的推进作用,那么就需要对数据进行标注。
当前对数据的标注工作在许多领域已经可以有自动标注工具来完成,但是在育人案例的标注中却仍然需要采用人工标注的方式并借助相应的标注工具对案例数据进行标注。常用的标注工具如BRAT、Prodigy、YEDDA、IEPY等,这些标注工具可以通过图形化的操作方式对文本中的语句及词进行标注,如图1所示。
在标注的过程中,需要将育人案例数据中描述学生问题行为的相关描述进行标注,且标注为预定义的类别,将育人案例数据中描述学生个人信息的相关描述及描述家长及老师所采取的解决策略等信息进行标注。注意同一个语句可能会有多个标签信息,这样标注好的数据才可以在接下来便于我们对育人案例数据进行分析及知识挖掘。
通过借助标注工具采用人工标注对案例数据进行标注的优点在于标注数据质量较高,但也存在一些缺点。一方面是需要投入大量的人力物力,同时需要有掌握相关专业知识的人员进行标注,且标注人员的标注能力会影响最终的标注结果,并带有一定的主观性;另一方面是这种标注效率较低,不适合对大量文本数据的标注。
另外,当前整理获取的育人案例数据较少,在其分类类别较多的情况下,如果直接基于这些标注数据而训练一个分类模型,则无法对模型进行充分训练,导致其模型分类的准确度较低。
基于以上在标注中遇到的问题,因此亟需一种可以对育人案例进行自动标注的系统及方法。
发明内容
针对以上问题,本发明提出一种基于元学习的育人案例自动标注系统和方法,用于育人案例的自动标注工作,能够提高育人案例的文本标注效率及准确度,降低由于人工标注所需要的人力物力的损耗。
一种基于元学习的育人案例自动标注系统,包括:
预处理模块,用于对接收的育人案例文本进行处理,以获得育人案例语句;
问题描述语句识别模块,用于接收育人案例语句,通过调用第一模型进行识别,生成待标注语句;
影响因素分类模块,用于接收待标注语句,调用第二模型进行分类,获取所述待标注语句对应的影响因素;
具体标注类别分类模块,用于接收带有影响因素的待标注语句,调用所述影响因素对应的第三模型,生成待标注语句的具体标注类别。
进一步地,所述第一模型包括顺次连接的输入层、双层LSTM、MaxPooling层、两层全连接网络层FC和输出层,在输出层使用Sigmoid获取分类结果。
进一步地,所述第二模型包括:输入层、支撑集特征提取层、查询集特征提取层、注意力计算层以及输出层。
进一步地,所述第二模型的训练方法为:
(1)构建任务集,任务包括支撑数据和查询数据,抽取m类影响因素对应的一条语句组成支撑数据,从支撑数据中随机选取一条语句作为查询数据,m<n,n为影响因素的数量;
(2)在输入层,将任务中的支撑数据转换为向量表示Rzi,其中,i为1~k,k为支撑数据的数量,将所述任务中的查询数据转换为向量表示Rc,将支撑数据的影响因素表示为Yzi;然后将Rzi和Rc分别输入支撑集特征提取层G和查询集特征提取层F,以提取支撑数据与查询数据的文本语义特征向量表示Hzi和Hc;然后将Hzi和Hc输入注意力参数计算层进行基于注意力的计算,以获取支撑数据中每条语句的相似系数ai;
(3)在输出层,计算查询数据向量表示Rc属于影响因素Yzi的概率Si,Si=ai×Yzi;,选取Si中最大值所对应的影响因素作为查询数据的影响因素,对比查询数据所属的真实影响因素,然后通过反向传播算法训练第二模型的参数;
(4)对任务集中的所有任务重复执行步骤(2)和(3),获得第二模型。
进一步地,所述支撑集特征提取层G、查询集特征提取层F为双向LSTM层。
进一步地,所述第三模型包括:输入层、LSTM网络、用于对比损失计算的全连接层及输出层。
进一步地,所述第三模型的训练方法包括:
(1)构建训练数据集,包括正例样本集和负例样本集;
(2)将训练数据集中每个语句对中的语句在输入层转换为向量表示,并送入LSTM网络层,并通过全连接网络计算向量的对比损失距离,并将所述损失距离传送入输出层;
(3)在输出层使用Sigmoid计算语句对的相似度,对于相似度大于预定第一阈值的语句对,将输出层的结果与所述语句对所属的真实相似情况进行对比,之后再通过反向传播算法训练所述第三模型的参数,从而获得第三模型。
进一步地,所述构建训练数据集的方法包括:
(1)在影响因素A下每一个具体标注类别对应的语句中,随机选取两条语句作为相似语句对,构建j对作为正例样本集,将标签标记为1;
(2)抽取影响因素A下每一个具体标注类别对应的一条语句,然后抽取影响因素A下其他具体标注类别对应的语句,构造为负例样本语句对,共构造j对,将标签标记为0。
进一步地,在具体标注类别分类模块中,还包括影响因素比较集和判定单元;所述影响因素比较集为从影响因素下每个具体标注类别中抽取若干语句构成,将所述影响因素比较集中的语句和待标注语句构造为待比较语句对,将所述待比较语句对输入待标注语句对应的影响因素的第三模型,输出待比较语句对的相似度,将所述相似度输入判定单元,对相似度大于预设的第二阈值的待比较语句对的具体标注类别进行统计,选取其中出现最多的具体标注类别作为待标注语句的具体标注类别。
根据本发明的另一方面,提出一种基于元学习的育人案例自动标注方法,包括:
第一步,将育人案例文本输入文本预处理模块,进行文本预处理后获得育人案例语句;
第二步,将所述育人案例语句输入问题描述语句识别模块中,调用第一模型获得待标注语句;
第三步,将支撑数据和作为查询数据的待标注语句输入影响因素分类模块,调用第二模型以获得所述待标注语句的影响因素;优选的,从每一种影响因素对应的语句中均随机选取若干条已标注好的语句作为支撑数据;
第四步,将所述待标注语句输入具体标注类别分类模块,将所述待标注语句和所述待标注语句对应的影响因素类别的影响因素比较集中的语句构成待比较语句对,调用第三模型获取所述比较语句对的相似度;
第五步,对相似度大于预设的第二阈值的待比较语句对的具体标注类别进行统计,选取其中出现最多的具体标注类别作为待标注语句的具体标注类别。
优选的,从影响因素的每一种具体标注类别对应的语句中随机选取若干条语句作为影响因素比较集。
本发明与现有技术相比的有益效果为:
(1)本发明对于育人案例文本可以实现自动标注,相比于人工标注方式提高了标注大批量文本的能力以及标注效率,同时极大的节省了人力物力和财力。
(2)本发明采用的标注方式,对育人案例语句采用逐级判定,层级筛选,一方面可以提高案例标注的准确度及自动标注效率;另一方面采用这种标注方式便于我们对每个阶段的标注结果进行解释查看,便于提高标注的效果。
(3)本发明采用基于元学习的匹配网络模型,利用匹配网络模型的注意力机制及外部记忆原理,相较于当前直接采用深度神经网络作为分类器来分类,极大地提高了对类别判定的准确度。
(4)本发明采用基于元学习的模型训练方法,通过先训练一个相似度匹配的模型,然后采用KNN的方法对结果进行投票,相较于当前直接采用深度神经网络作为分类器来分类,极大地提高了对类别判定的准确度。
附图说明
图1为现有标注软件的使用示意图;
图2为根据本发明一个实施例的基于元学习的育人案例自动标注系统的结构示意图;
图3为根据本发明一个实施例的预处理流程示意图;
图4为根据本发明一个实施例的第一模型结构示意图;
图5为根据本发明一个实施例的第二模型结构示意图;
图6为根据本发明一个实施例的第三模型结构示意图。
具体实施方式
下面结合附图及具体实施方式详细介绍本发明。
本发明提出一种基于元学习的育人案例自动标注系统,如图2所示,包括预处理模块、问题描述语句识别模块、影响因素分类模块和具体标注类别分类模块。
预处理模块,用于对接收的育人案例文本进行处理,以获得育人案例语句。包括文本格式转换、统一文本编码、育人案例文本去重、文本内容解析、育人案例文本清理、文本分词、文本拆分与育人案例语句存储。育人案例文本有可能来自不同数据源,也可能通过不同途径进行采集,因此案例文本类型及内容展示并不统一,案例文本质量也参差不齐。因此需要通过育人案例文本预处理模块对育人案例文本进行基本预处理。
问题描述语句识别模块,用于接收育人案例语句,通过调用第一模型进行识别,生成待标注语句。育人案例文本中的内容是非结构化的,有的描述语句不携带相关的标注信息,因此这部分语句不需要对其进一步标注处理。若将这些无关语句都送入下一个模块中进行处理,会造成计算资源的浪费及标注效率及标注准确率的下降。因此将育人案例文本预处理模块获取的育人案例语句,依次送入问题描述语句识别模块进行识别处理,调用语句识别二分类模型进行识别,若模型识别结果显示该语句需要标注,则将其保存在待分类语句文件中并送入影响因素分类模块;若模型识别结果显示该语句不需要标注,则不对其进行处理。
影响因素分类模块,用于接收待标注语句,调用第二模型进行分类,获取该语句所属的影响因素类别信息。
具体标注类别分类模块,用于接收带有影响因素类别信息的待标注语句,调用影响因素类别对应的分类器,生成待标注语句的具体标注类别。
系统还可以包括标注体系定义模块,用于定义育人案例标注体系,标注体系包括影响因素及对应的具体标注类别,如表1所示。
表1影响因素及对应具体标注类别表
下面对每个模块的具体实现方法进行说明。
在预处理模块中,如图3所示,首先统一育人案例文本的编码格式、文件格式,然后对育人案例文本进行去重,即检查是否存在相似的案例文本;然后获取育人案例文本的内容,对文本内容进行预处理,包括文本分词、文本清理及育人案例语句拆分。其中,文本清理用于清理文本内容中的不合法字符、空格及换行符,制表符等;语句拆分则通过检索文本内容按照预定义的规则拆分为单一语句,也可以使用现有的分句工具,例如通过文本中存在的句号、问好、感叹号进行拆分,或者对于文本长度超过100的句子,按逗号将其拆分;然后会对育人案例语句再次清理,例如去除其中长度小于5的语句,去除语句中仅包含标点符号的语句等,最终将育人案例语句保存在数据文件中。
在问题描述语句识别模块中,第一模型可以为语句识别二分类模型,包括顺次连接的输入层、双层LSTM、MaxPooling层、两层全连接网络层FC和输出层,在输出层使用Sigmoid获取分类结果,如图4所示。
第一模型通过如下训练方法生成:首先将已经收集的全部案例文本数据通过预处理模块进行语句切分形成育人案例语句;然后根据数据本身的标注信息进行解析,对于已经标注为育人案例语句的句子标注为“1”,对于没有标注的语句标注为“0”。将数据处理并随机打乱,按照8:2的比例拆分为训练集与测试集,将这些数据作为第一模型的训练数据,然后将这些语句通过one-hot编码的方式编码,训练第一模型。
在影响因素分类模块中,第二模型采用元学习的方法进行训练。第二模型可以为匹配模型(Matching Network),匹配网络是Oriol Vinyals等人提出的基于元学习的度量学习模型,可以将小的数据集和未标记的示例映射到其所示的类别标签。
如图5所示,第二模型包括:输入层、支撑集特征提取层G(双向LSTM层)、查询集特征提取层F(双向LSTM层)、注意力计算层以及输出层。
第二模型的训练方法为:(1)构建训练数据,也就是任务,首先随机选m类(m<n,n为影响因素的数量)不同影响因素对应的语句(一类可以选一条也可以多条)作为支撑数据,然后随机从支撑数据中选取一条语句为查询数据,将这些数据共同作为一个任务。按照同样方法构造任务集,按8:2的比例构建训练集和测试集。由于育人案例数量较少,所有k的取值也会比较小,比如k=50,也就是说每种影响因素的训练数据50条+1条查询数据=51条就能进行分类,而无需大量的数据。(2)将一个任务中k条支撑数据及1条查询数据转换为向量表示Rzi(i为1~k)和Rc,可以在输入层通过嵌入操作进行转换,同时将k条支撑数据的影响因素信息表示为Yzi(i为1~k,Yzi可以取值为0~n-1);然后将Rzi和Rc分别输入支撑集特征提取层G和查询集特征提取层F,以提取支撑数据与查询数据的文本语义特征(通过双向LSTM网络获取语句的文本语义特征是现有技术,不再赘述)向量表示Hzi和Hc;然后将Hzi和Hc输入注意力参数计算层进行基于注意力的计算,比如通过余弦距离计算,获取每条支撑数据的相似系数ai(i为1~k)。(3)在输出层,计算查询数据向量表示Rc属于影响因素Yzi的概率Si=ai×Yzi,选取Si中最大值所对应的影响因素作为查询数据的影响因素,对比查询数据所对应的真实影响因素,然后通过反向传播算法训练第二模型的参数。(4)对任务集中的所有任务重复执行步骤(2)-(3),获得最终的第二模型。
第二模型为元学习的匹配网络,其中引入了注意力机制,使得模型准确度更高。
在具体标注类别分类模块中,针对不同的影响因素,分别训练针对不同影响因素下的第三模型,因此共训练有n个相同结构的第三模型。
第三模型如图6所示,包括:输入层、一个共享参数的LSTM网络、用于对比损失计算的全连接层及输出层,在输出层使用Sigmoid获取是否相似的结果。
接下来构造第三模型训练所需要的数据集(按8:2的比例拆分为训练集与测试集):(1)构造正例样本语句对。对于某个影响因素A下每一个具体标注类别对应的语句中,随机选取两条语句作为相似语句对(即正例样本语句对)构建正例样本集(比如数据数量为j),将其的标签统一标记为“1”。(2)构造负例样本语句对。与正例样本语句对对应,抽取影响因素类别A下每个具体标注类别对应的一条语句,然后抽取影响因素A下其他一种具体标注类别(比如邻居类别)对应的一条语句,构造为负例样本语句对,共构造j对,以与正例样本集对应,将语句对的标签标记为“0”。举例来说,假设一个类别下有5个具体标注类别,每个具体标注类别抽取10对数据,那么正例样本集有5*10=50个语句对。对于负例样本集的构造,这里举例说明,先从一个具体标注类别中抽取一条语句,然后从其他类别中抽取4条语句,组成4个语句对,每个具体标注类别都抽取2次,则有40条语句对,然后再随机选择具体标注类别,构造10条语句对,以保证负例样本集包含和正例样本集同样数量的语句对,即50个语句对;或者每次随机选一个具体标注类别,然后从相邻类别随机选一个凑成一个对,重复做50次。(3)正例样本集和负例样本集共同组成了影响因素类别A的训练集,以训练影响因素类别A对应的第三模型。
具体训练方法如下:将训练集中每个语句对中的语句在输入层转换为向量表示,如通过one-hot编码转换,然后将转换后的两个向量送入共享参数的LSTM网络层,输出为embed1与embed2,通过一个全连接网络计算这两个向量的对比损失距离,然后该损失距离传送入输出层,在输出层使用Sigmoid输出语句对的相似度,对于相似度大于预定的第一阈值的语句对,将输出层的结果与该语句对所属的真实相似情况进行对比,之后再通过反向传播算法训练所述第三模型的参数,从而获得第三模型。
通过对每个影响因素的第三模型训练,共获得n个第三模型(n为影响因素的数量)。
第三模型的作用是:相同具体标注类别的语句对输入后,相似度的值比较高;而不同类别的输入经过第三模型后相似程度较低(相似度的范围为0~1)。
在具体标注类别分类模块中,还包括影响因素比较集(每一个影响因素都有各自的比较集)和判定单元,影响因素比较集包含比如∑y*q条数据(y为影响因素下具体标注类别数量,q为从每种具体标注类别提取语句的数量);这些数据和待标注语句构造为∑y*q个待比较语句对,将这些语句对依次输入待标注语句对应的影响因素对应的第三模型,输出待比较语句对的相似度,将这些相似度输入判定单元,对相似度大于预设的第二阈值的待比较语句对的具体标注类别(即组成语句对的比较集中语句的具体标注类别)进行统计,选取其中出现最多的具体标注类别作为待标注语句的具体标注类别。
根据本发明的另一方面,提出一种基于元学习的育人案例自动标注方法,包括:
第一步,将育人案例文本输入文本预处理模块,进行文本预处理后获得育人案例语句;
第二步,将所述育人案例语句输入问题描述语句识别模块中,调用第一模型获得待标注语句;
第三步,将支撑数据和作为查询数据的待标注语句输入影响因素分类模块,调用第二模型以获得所述待标注语句的影响因素;优选的,从每一种影响因素对应的语句中均随机选取若干条已标注好的语句作为支撑数据;
第四步,将所述待标注语句输入具体标注类别分类模块,将所述待标注语句和所述待标注语句对应的影响因素比较集中的语句构成待比较语句对,调用第三模型获取所述待比较语句对的相似度;
第五步,对相似度大于预设的第二阈值的待比较语句对的具体标注类别进行统计,选取其中出现最多的具体标注类别作为待标注语句的具体标注类别。
在第二步中,将从育人案例文本预处理模块获取的育人案例语句送入问题描述语句识别模块,通过调用第一模型,对输入语句进行预测。根据第一模型识别的输出结果,若结果显示为“0”,则表示该语句不需要进行标注,则不对其进行处理;若结果显示为“1”,则表示该语句需要进行标注,将该语句送入影响因素分类模块进行处理。
在第三步中,首先从育人案例标注文本中对于每一种影响因素均随机选取若干条已标注好的语句作为支撑数据,将待标注语句作为查询数据,将其共同输入第二模型,从而获取待标注语句的影响因素信息。
在第四步中,从影响因素的每一种具体标注类别均随机选取若干条语句作为影响因素比较集,比如y*q条数据(y为影响因素下的具体标注类别数量,q为从每种具体标注类别提取语句的数量);这些数据和待标注语句构造为y*q个待比较语句对,将这些语句对依次输入待标注语句对应的影响因素对应的第三模型,输出待比较语句对相似度。
通过第三模型引入了基于元学习的相似度比较网络,将原来的多分类任务转换为相似度匹配任务,在标注数据较少的情况下,实现了对案例标注语句的分类,提高了分类的准确度。同时在获取到待比较语句对相似度后,通过第五步采用基于KNN的思想对结果进行投票(具体方法见上文),使得结果的准确度更高,对分类预测结果的稳定性更好,降低了由于噪声数据而导致的分类结果错误。
本发明未详细阐述的部分属于本领域公知技术。
Claims (10)
1.一种基于元学习的育人案例自动标注系统,其特征在于,所述系统包括:
预处理模块,用于对接收的育人案例文本进行处理,以获得育人案例语句;
问题描述语句识别模块,用于接收育人案例语句,通过调用第一模型进行识别,生成待标注语句;
影响因素分类模块,用于接收待标注语句,调用第二模型进行分类,获取所述待标注语句对应的影响因素;
具体标注类别分类模块,用于接收带有影响因素的待标注语句,调用所述影响因素对应的第三模型,生成待标注语句的具体标注类别。
2.根据权利要求1所述的系统,其特征在于,所述第一模型包括顺次连接的输入层、双层LSTM、MaxPooling层、两层全连接网络层FC和输出层,在输出层使用Sigmoid获取分类结果。
3.根据权利要求1所述的系统,其特征在于,所述第二模型包括:输入层、支撑集特征提取层、查询集特征提取层、注意力计算层以及输出层。
4.根据权利要求3所述的系统,其特征在于,所述第二模型的训练方法为:
(1)构建任务集,任务包括支撑数据和查询数据,抽取m类影响因素对应的一条语句组成支撑数据,从支撑数据中随机选取一条语句作为查询数据,m<n,n为影响因素的数量;
(2)在输入层,将任务中的支撑数据转换为向量表示Rzi,其中,i为1~k,k为支撑数据的数量,将所述任务中的查询数据转换为向量表示Rc,将支撑数据的影响因素表示为Yzi;然后将Rzi和Rc分别输入支撑集特征提取层G和查询集特征提取层F,以提取支撑数据与查询数据的文本语义特征向量表示Hzi和Hc;然后将Hzi和Hc输入注意力参数计算层进行基于注意力的计算,以获取支撑数据中每条语句的相似系数ai;
(3)在输出层,计算查询数据向量表示Rc属于影响因素Yzi的概率Si,Si=ai×Yzi;,选取Si中最大值所对应的影响因素作为查询数据的影响因素,对比查询数据所属的真实影响因素,然后通过反向传播算法训练第二模型的参数;
(4)对任务集中的所有任务重复执行步骤(2)和(3),获得第二模型。
5.根据权利要求3所述的系统,其特征在于,所述支撑集特征提取层G、查询集特征提取层F为双向LSTM层。
6.根据权利要求1所述的系统,其特征在于,所述第三模型包括:输入层、LSTM网络、用于对比损失计算的全连接层及输出层。
7.根据权利要求6所述的系统,其特征在于,所述第三模型的训练方法包括:
(1)构建训练数据集,包括正例样本集和负例样本集;
(2)将训练数据集中每个语句对中的语句在输入层转换为向量表示,并送入LSTM网络层,并通过全连接网络计算向量的对比损失距离,并将所述损失距离传送入输出层;
(3)在输出层使用Sigmoid计算语句对的相似度,对于相似度大于预定第一阈值的语句对,将输出层的结果与所述语句对所属的真实相似情况进行对比,之后再通过反向传播算法训练所述第三模型的参数,从而获得第三模型。
8.根据权利要求7所述的系统,其特征在于,所述构建训练数据集的方法包括:
(1)在影响因素A下每一个具体标注类别对应的语句中,随机选取两条语句作为相似语句对,构建j对作为正例样本集,将标签标记为1;
(2)抽取影响因素A下每一个具体标注类别对应的一条语句,然后抽取影响因素A下其他具体标注类别对应的语句,构造为负例样本语句对,共构造j对,将标签标记为0。
9.根据权利要求1所述的系统,其特征在于,所述在具体标注类别分类模块中,还包括影响因素比较集和判定单元;所述影响因素比较集为从影响因素下每个具体标注类别中抽取若干语句构成,将所述影响因素比较集中的语句和待标注语句构造为待比较语句对,将所述待比较语句对输入待标注语句对应的影响因素的第三模型,输出待比较语句对的相似度,将所述相似度输入判定单元,对相似度大于预设的第二阈值的待比较语句对的具体标注类别进行统计,选取其中出现最多的具体标注类别作为待标注语句的具体标注类别。
10.一种基于元学习的育人案例自动标注方法,其特征在于,所述方法包括:
第一步,将育人案例文本输入文本预处理模块,进行文本预处理后获得育人案例语句;
第二步,将所述育人案例语句输入问题描述语句识别模块中,调用第一模型获得待标注语句;
第三步,将支撑数据和作为查询数据的待标注语句输入影响因素分类模块,调用第二模型以获得所述待标注语句的影响因素;优选的,从每一种影响因素对应的语句中均随机选取若干条已标注好的语句作为支撑数据;
第四步,将所述待标注语句输入具体标注类别分类模块,将所述待标注语句和所述待标注语句对应的影响因素比较集中的语句构成待比较语句对,调用第三模型获取所述待比较语句对的相似度;
第五步,对相似度大于预设的第二阈值的待比较语句对的具体标注类别进行统计,选取其中出现最多的具体标注类别作为待标注语句的具体标注类别;
优选的,从影响因素的每一种具体标注类别对应的语句中随机选取若干条语句作为影响因素比较集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110622821.9A CN113392642B (zh) | 2021-06-04 | 2021-06-04 | 一种基于元学习的育人案例自动标注系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110622821.9A CN113392642B (zh) | 2021-06-04 | 2021-06-04 | 一种基于元学习的育人案例自动标注系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113392642A true CN113392642A (zh) | 2021-09-14 |
CN113392642B CN113392642B (zh) | 2023-06-02 |
Family
ID=77618232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110622821.9A Active CN113392642B (zh) | 2021-06-04 | 2021-06-04 | 一种基于元学习的育人案例自动标注系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392642B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014026455A (ja) * | 2012-07-26 | 2014-02-06 | Nippon Telegr & Teleph Corp <Ntt> | メディアデータ解析装置、方法、及びプログラム |
CN107301604A (zh) * | 2017-08-29 | 2017-10-27 | 重庆华龙强渝信用管理有限公司 | 多模型融合评价系统 |
CN107967318A (zh) * | 2017-11-23 | 2018-04-27 | 北京师范大学 | 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统 |
CN110808096A (zh) * | 2019-10-30 | 2020-02-18 | 北京邮电大学 | 基于卷积神经网络的心脏病变自动检测系统 |
CN111210023A (zh) * | 2020-01-13 | 2020-05-29 | 哈尔滨工业大学 | 数据集分类学习算法自动选择系统及方法 |
CN111708703A (zh) * | 2020-06-18 | 2020-09-25 | 深圳前海微众银行股份有限公司 | 测试案例集生成方法、装置、设备及计算机可读存储介质 |
CN111950269A (zh) * | 2020-08-21 | 2020-11-17 | 清华大学 | 文本语句处理方法、装置、计算机设备和存储介质 |
CN112101184A (zh) * | 2020-09-11 | 2020-12-18 | 电子科技大学 | 一种基于半监督学习的无线跨域动作识别方法 |
CN112214595A (zh) * | 2020-08-21 | 2021-01-12 | 中国建设银行股份有限公司 | 类别确定方法、装置、设备及介质 |
CN112560486A (zh) * | 2020-11-25 | 2021-03-26 | 国网江苏省电力有限公司电力科学研究院 | 基于多层神经网络的电力实体识别方法、存储介质和设备 |
CN112613556A (zh) * | 2020-09-01 | 2021-04-06 | 电子科技大学 | 基于元学习的少样本图像情感分类方法 |
CN112613555A (zh) * | 2020-12-21 | 2021-04-06 | 深圳壹账通智能科技有限公司 | 基于元学习的目标分类方法、装置、设备和存储介质 |
-
2021
- 2021-06-04 CN CN202110622821.9A patent/CN113392642B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014026455A (ja) * | 2012-07-26 | 2014-02-06 | Nippon Telegr & Teleph Corp <Ntt> | メディアデータ解析装置、方法、及びプログラム |
CN107301604A (zh) * | 2017-08-29 | 2017-10-27 | 重庆华龙强渝信用管理有限公司 | 多模型融合评价系统 |
CN107967318A (zh) * | 2017-11-23 | 2018-04-27 | 北京师范大学 | 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统 |
CN110808096A (zh) * | 2019-10-30 | 2020-02-18 | 北京邮电大学 | 基于卷积神经网络的心脏病变自动检测系统 |
CN111210023A (zh) * | 2020-01-13 | 2020-05-29 | 哈尔滨工业大学 | 数据集分类学习算法自动选择系统及方法 |
CN111708703A (zh) * | 2020-06-18 | 2020-09-25 | 深圳前海微众银行股份有限公司 | 测试案例集生成方法、装置、设备及计算机可读存储介质 |
CN111950269A (zh) * | 2020-08-21 | 2020-11-17 | 清华大学 | 文本语句处理方法、装置、计算机设备和存储介质 |
CN112214595A (zh) * | 2020-08-21 | 2021-01-12 | 中国建设银行股份有限公司 | 类别确定方法、装置、设备及介质 |
CN112613556A (zh) * | 2020-09-01 | 2021-04-06 | 电子科技大学 | 基于元学习的少样本图像情感分类方法 |
CN112101184A (zh) * | 2020-09-11 | 2020-12-18 | 电子科技大学 | 一种基于半监督学习的无线跨域动作识别方法 |
CN112560486A (zh) * | 2020-11-25 | 2021-03-26 | 国网江苏省电力有限公司电力科学研究院 | 基于多层神经网络的电力实体识别方法、存储介质和设备 |
CN112613555A (zh) * | 2020-12-21 | 2021-04-06 | 深圳壹账通智能科技有限公司 | 基于元学习的目标分类方法、装置、设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
M.M. MOLINA等: "Meta-learning approach for automatic parameter tuning: A case study with educational datasets", 《PROCEEDINGS OF THE 5TH INTERNATIONAL CONFERENCE ON EDUCATIONAL DATA MINING》, pages 1 - 4 * |
徐传运等: "基于深度度量学习的小样本商品图像分类研究", 《 重庆理工大学学报》, vol. 34, no. 9, pages 209 - 216 * |
Also Published As
Publication number | Publication date |
---|---|
CN113392642B (zh) | 2023-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hawkins | Social class, the nominal group and verbal strategies | |
CN109446331B (zh) | 一种文本情绪分类模型建立方法及文本情绪分类方法 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
Chapman | The emergence of genres: Some findings from an examination of first-grade writing | |
Watkins et al. | Sense: a student performance quantifier using sentiment analysis | |
Tangherlini | The folklore macroscope: Challenges for a computational folkloristics | |
Rybicki et al. | Computational stylistics and text analysis | |
CN111159356B (zh) | 基于教学内容的知识图谱构建方法 | |
Morris et al. | Slideimages: a dataset for educational image classification | |
CN112650845A (zh) | 一种基于bert与知识表示学习的问答系统及方法 | |
Šipka | Lexical layers of identity: Words, meaning, and culture in the Slavic languages | |
CN112784878A (zh) | 一种中文议论文智能批改方法及系统 | |
Pavlić et al. | Graph-based formalisms for knowledge representation | |
CN116340530A (zh) | 基于机械知识图谱的智能设计方法 | |
CN110675292A (zh) | 一种基于人工智能的儿童语言能力评测方法 | |
Nandakumar et al. | Sentimental analysis on student feedback using NLP & POS tagging | |
CN113934835A (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN113836891A (zh) | 基于多元标注策略的结构化信息抽取方法和装置 | |
CN117252259A (zh) | 基于深度学习的自然语言理解方法及ai助教系统 | |
Sa et al. | An English flipped classroom teaching model based on big data analysis | |
CN116257616A (zh) | 面向音乐领域的实体关系抽取方法及系统 | |
Zhang et al. | Grasp the implicit features: Hierarchical emotion classification based on topic model and SVM | |
CN113392642B (zh) | 一种基于元学习的育人案例自动标注系统及方法 | |
CN116257618A (zh) | 一种基于细粒度情感分析的多源智能旅游推荐方法 | |
CN113837309A (zh) | 一种基于变分自编码器的文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |