实施例一
本申请实施例提供了一种多轮迭代的语料标注方法,图2为本申请实施例提供的一种多轮迭代的语料标注方法的流程图,如图2所示,本申请实施例提供的一种多轮迭代的语料标注方法包括以下步骤:
步骤S110,获取至少一类已标注语料。
本申请中,已标注语料可作为文本分类器的初始语料,通过使用已标注的语料训练文本分类模型,可以使文本分类器具备初始的文本分类能力,具备了初始的文本分类能力的文本分类器在面对未标注语料时,能够对未标注语料进行初始的标注。
示例地,本申请中,获取至少一类已标注语料可以包括以下类,每个类中包含至少一个已标注语料:
类编号 |
类名称 |
已标注语料 |
C000001 |
汽车 |
语料11;语料12;语料13;…… |
C000002 |
财经 |
语料21;语料22;语料23;…… |
C000003 |
IT |
语料31;语料32;语料33;…… |
C000004 |
健康 |
语料41;语料42;语料43;…… |
C000005 |
体育 |
语料51;语料52;语料53;…… |
…… |
…… |
…… |
需要说明的是,本申请中已标注语料可以是文本段落、词组的集合等,示例地,某财经类的已标注语料的内容为:
“新华网上海5月10日电中国石化集团上海工程有限公司最近与中石化第二建设公司、荷兰AK公司组成联合体,一举成为沙特延布年产40万吨聚乙烯和40万吨聚丙烯生产装置项目的总承包商,总承包金额7.5亿美元,其中上海工程公司承包金额4.65亿美元。
据《解放日报》报道,目前,沙特石化项目的基础设计工作已接近尾声,其中上海工程公司派出20多人赴荷兰参与设计。项目详细设计工作将于年底结束。明年年初施工开始,直至2008年4月竣工。这期间,大批中国设备、材料将运往红海岸边,四五百名中国技术、管理和施工人员将奋战在异国土地上。
……”
步骤S120,根据所述已标注语料,初始化聚类簇,包括创建与所述已标注语料类别等数量的非空类簇,以及,创建一个空类簇,其中,每个所述非空类簇中对应注入一类所述已标注语料。
本申请中,聚类簇是文本分类模型中用于识别文本类型的类簇集合,本申请的聚类簇在用于文本分类时,能够匹配未标注语料,并根据匹配的结果将未标注语料添加至对应的类簇中,实现对未标注语料的标注。
根据本申请在步骤S110中获取的已标注语料的类别数量,创建与已标注语料的类别等数量的非空类簇,并再创建一个空类簇,例如,如果在步骤S110中共获取了N类已标注语料,则在初始化聚类簇过程中共创建N+1个类簇,其中包含N个非空类簇和1个空类簇。其中,将N类已标注的语料分别注入到N个非空类簇中,使每个非空类簇中对应包含一类已标注语料,空类簇中不添加任何语料,保持为空。
示例地,图3为本申请实施例提供的一种多轮迭代的语料标注方法步骤S120中初始化聚类簇的示意图。
步骤S130,获取每个所述非空类簇的类簇特征集,所述类簇特征集中至少包含类簇特征和特征权重。
本申请中,每个非空类簇的类簇特征集能够反映该非空类簇中已标注语料的类别所具有的特征,因此,类簇特征集可用于匹配未标注语料的类别,实现根据非空类簇的类簇特征集对未标注语料进行标注。
本申请的类簇特征集中至少包含类簇特征和类簇特征对应的特征权重。其中类簇特征是非空类簇中对未标注语料的匹配和标注有贡献的语料特征;类簇特征的特征权重,表示了类簇特征在未标注语料的匹配和标注过程中贡献的大小,例如,将类簇特征的标准权重设置为1,如果某类簇特征的贡献比较大,那么,该类簇特征的特征权重可能为1.2或其它大于1的值,如果某类簇特征的贡献比较小,那么,该类簇特征的特征权重可能为0.8或其它小于1的正值。此外,如果希望类簇特征对未标注语料的匹配和标注起反向贡献,那么,该类簇特征的特征权重值为负数,例如-1。所谓反向贡献,是指:如果未标注语料的某个语料特征与具有反向贡献的类簇特征匹配,那么,这个未标注语料就具有不会标注到该类簇特征所在非空类簇的倾向。
步骤S140,获取至少一个未标注语料,根据预设标注规则,对所述未标注语料进行多轮迭代的语料标注,每一轮所述语料标注完成后,分析语料标注结果是否符合预设终止条件。
本申请中,未标注语料可能是与已标注语料同类别的语料,也可能是与已标注语料类别均不相同的语料,例如某个语料可能是未标注的财经类语料,或者,某个语料是未标注的民俗类语料,如果民俗类不是聚类簇中已包含的语料类别,该语料就与聚类簇中已标注语料类别均不相同。
本申请中,根据语料标注结果是否符合预设终止条件,执行多轮语料标注,每一轮语料标注中,根据预设标注规则,对获取到的未标注语料进行标注,标注过程为:如果根据预设标注规则判定未标注语料属于某非空类簇对应的语料类别,则将该未标注语料注入到其所属类别的非空类簇中,从而使该未标注语料成为非空类簇中的已标注语料。当根据预设标注规则判定未标注语料不属于任何一个非空类簇的语料类别时,将未标注语料注入到空类簇中。
由于,根据预设标注规则,被注入到非空类簇的语料不属于任何一个非空类簇的语料类别,因此,其在语料标注中可以用作反向贡献的语料,即:如果将空类簇中的语料导入到非空类簇中,这些语料的特征权重应为负值。此外,通过统计空类簇中的语料分布,可以了解当前聚类簇的语料标注能力,当被注入到空类簇中的语料数量或比重超出预设阈值时,说明语料标注结果还不符合预设终止条件,需要执行步骤S151。
本申请中,在未标注语料被标注而成为非空簇中的已标注语料后,被注入了语料的非空类簇的类簇特征集会发生变化。由于新的语料的注入,类簇特征集的变化可以表现为:某一类簇特征的增加或减少,某一类簇特征的权重发生变化,某一类簇特征的出现频次发生变化,以及,某一类簇特征占类簇特征集中所有类簇特征的比重发生变化等。本申请在每一轮语料标注完成后,分析语料标注结果是否符合预设终止条件,其中,分析语料标注结果可以是:统计每一轮语料标注完成后的聚类簇中各个非空类簇与空类簇的类簇特征分布情况,根据类簇特征的分布情况分析语料标注结果是否符合预设终止条件。
在步骤S140中,通过执行多轮迭代的语料标注,能够使本方法在多轮迭代的语料标注过程中不断演进,使本方法的语料标注的精度在迭代中不断提高,同时,本申请通过在每一轮语料标注完成后,分析语料标注结果,能够实现在语料标注的迭代过程中,对语料标注的结果进行监督,从而可以根据预设终止条件调整本申请语料标注方法的精度,实现在预设精度下,对语料进行自动标注。
步骤S151,如果不符合所述预设终止条件,调整所述类簇特征集,执行下一轮所述语料标注。
在步骤S151中,如果语料标注结果不符合预设终止条件,说明本申请中聚类簇对未标注语料的标注结果不理想,此时,调整类簇特征集,并使用调整了类簇特征集的聚类簇执行下一轮语料标注。本申请中,调整类簇特征集的一种方式是调整每个非空类簇和/或空类簇中的类簇特征分布。
步骤S152,如果符合所述预设终止条件,终止所述多轮迭代,输出终止时刻的所述语料标注结果。
在步骤S152中,如果语料标注的结果符合预设终止条件,则终止多轮迭代,输出终止时刻的语料标注结果。其中,输出的语料标注结果可以是多轮迭代的终止时刻,每个非空类簇或空类簇中已经注入的语料,包括:在步骤S110中获取的已标注语料和在步骤S140的迭代过程中陆续注入的语料。示例地,以步骤S110中示例出的已标注语料作为本申请步骤S120中注入的已标注语料,步骤S152在终止多轮迭代时,输出的语料标注结果为:
类编号 |
类名称 |
步骤S110中获取的已标注语料 |
步骤S140中注入的语料 |
C000001 |
汽车 |
语料11;语料12;语料13;…… |
语料F;语料K;…… |
C000002 |
财经 |
语料21;语料22;语料23;…… |
语料C;语料H;…… |
C000003 |
IT |
语料31;语料32;语料33;…… |
语料J;语料B;…… |
C000004 |
健康 |
语料41;语料42;语料43;…… |
语料D;语料L;…… |
C000005 |
体育 |
语料51;语料52;语料53;…… |
语料I;语料E;…… |
C000005 |
空类 |
|
语料A;语料G;…… |
从以上示例的语料输出结果中可以看出,本申请在多轮迭代的语料标注中,能够实现对未标注语料的标注,并输出未标注语料的标注结果。
此外,在步骤S152中,语料输出还包括从聚类簇的每个非空类簇中导出正例语料集和反例语料集。本申请在多轮迭代终止时,分别从每个非空类簇中导出所有特征权重为正值的类簇特征,生成正例语料集,正例语料集中的类簇特征称为正例特征,正例特征在语料标注中起到正向贡献,即未标注语料中如果包含某正例特征,那么,该未标注语料就具有标注到该正例特征所在的非空类簇中的倾向。此外,本申请在多轮迭代终止时,分别从每个非空类簇中导出所有特征权重为负值的类簇特征,生成反例语料集,反例语料集中的类簇特征称为反例特征,反例特征在语料标注中起到反向贡献,即未标注语料中如果包含某反例特征,那么,该未标注语料就具有不会标注到该反例特征所在的非空类簇中的倾向。此外,空类簇中语料的类簇特征也可以作为反例语料集的内容被导出。
此外,在步骤S152中,语料输出结果除了包括每个非空类簇中包含的正例语料集和反例语料集集以外,还可包括正例语料集中每个正例特征的权重值,以及,反例语料集中每个反例特征的权重值。
需要说明的是,类簇特征的权重除了为正值和负值以外,还可能为0,但是权重值为0的类簇特征表示该类簇特征对语料的标注没有贡献,因此,本申请中,不考虑权重为0的情况,也不考虑权重值为0的类簇特征。
示例地,对于财经类语料来说,正例特征可以包含:开盘、下跌、上涨、财报、早盘、收益、投资、A轮融资、创业板、摩根大通、纳斯达克等;反例特征可以包含:作战、驱逐舰、导弹等,通常包含这些反例特征的语料不属于财经类语料,可能是军事类语料。
本申请中的正例语料集和反例语料集,在多轮迭代的语料标注过程中逐渐积累形成,并在多轮迭代结束后导出,即:在每一轮语料标注中,如果未标注语料被注入某个非空类簇中,该非空类簇中的类簇特征就会发生变化,或增加了新的类簇特征,或特征权重改变。随着多轮迭代的进行,非空类簇中类簇特征的数量会不断增加,特征权重不断变化,从而实现不断积累的过程,当多轮迭代结束后,积累形成的类簇特征被导出,生成正例语料集或反例语料集。并且,正例语料集和反例语料集产生于语料标注结果符合预设终止条件之后,这说明,如果使用此时产生的正例语料集和反例语料集作为语料标注的训练语料,就能够得到符合语料标注精度的文本分类器。因此,本申请通过对未标注语料进行多轮迭代的语料标注,并在每一轮标注后,调整聚类簇的类簇特征集,不仅能够实现对未标注语料的自动标注,还能够在迭代过程中不断提高语料标注的精度,得到满足语料标注精度的正例语料集和反例语料集。
图4为本申请实施例提供的一种预设标注规则的流程图,在一种可选择的实施方式中,如图4所示,预设标注规则包括以下步骤:
步骤S210,将所述未标注语料分别与每个所述非空类簇进行类簇特征比对,获取相同所述类簇特征的数量,并得到最大数量。
本申请在步骤S210中,遍历聚类簇的每个非空类簇,并使用每个非空类簇的类簇特征集与未标注语料进行比对,以获取每个未标注语料与每个非空类簇的相同类簇特征的数量,在遍历了所有的非空类簇之后,得到最大数量,并能够确定与未标注语料具有最大数量的相同类簇特征的非空类簇。
示例地,对于下述未标注语料:
个人电脑制造商戴尔公司8日说,由于市场竞争激烈,以及定价策略不当,该公司今年第一季度盈利预计有所下降。消息发布之后,戴尔股价一度下跌近6%,创下一年来的新低。
戴尔公司估计,其第一季度收入约为142亿美元,每股收益33美分。此前公司预测当季收入为142亿至146亿美元,每股收益36至38美分,而分析师平均预测戴尔同期收入为145.2亿美元,每股收益38美分。
为抢夺失去的市场份额,戴尔公司一些产品打折力度很大。戴尔公司首席执行官凯文·罗林斯在一份声明中说,公司在售后服务和产品质量方面一直在投资,同时不断下调价格。戴尔公司将于5月18日公布第一季度的财报。
以及,示例地,聚类簇中包含以下非空类簇和类簇特征集:
非空类簇 |
类簇特征集 |
汽车类 |
引擎涡轮增压打折新能源轿车合资质量定价保养 |
财经类 |
股价收益营收财报投资创业板打折盈利分析师质量 |
健康类 |
保养医药营收患者健康疾病治疗药效健身投资 |
体育类 |
客场保级投资胜利姚明五棵松体育馆奥运会联赛 |
在步骤S210中,遍历聚类簇的每个非空类簇,并使用每个非空类簇的类簇特征集与未标注语料进行比对后,得到的未标注语料与每个非空类簇的相同类簇特征的数量为:汽车类3个,财经类8个,健康类1个,体育类1个,因此最大数量为8个,与未标注语料具有最大数量相同类簇特征的非空类簇为财经类非空类簇。
步骤S220,分析所述最大数量是否满足预设数量。
本申请中,预设数量用来调节本申请预设标注规则的灵敏度和精度,当预设数量增大时,意味着未标注语料要覆盖更多的类簇特征才能够满足预设数量,即预设标注规则的灵敏度下降但精度提高;当预设数量减小时,意味着未标注语料仅需覆盖更少的类簇特征就能够满足预设数量,即预设标注规则的灵敏度升高但精度下降。因此,本申请的预设数量可根据使用本申请提供的方法所要达到的灵敏度和准确度而调整,本申请不做具体限定。
步骤S231,如果满足所述预设数量,将所述未标注语料添加至所述最大数量对应的所述非空类簇中。
在步骤S231中,如果最大数量满足预设数量,表明在预设数量确定的灵敏度和精度的条件下,未标注语料将被标注到与最大数量对应的非空类簇中。
示例地,以步骤S210中的对比结果为例,如果预设数量为5,那么,步骤S210中示出的未标注语料会被标注到财经类非空类簇中,即未标注语料为财经类语料。
步骤S232,如果不满足所述预设数量,将所述未标注语料添加至所述空类簇中。
由于,根据预设标注规则,被注入到非空类簇的语料不属于任何一个非空类簇的语料类别,因此,其在语料标注中可以用作反向贡献的语料,即:如果将空类簇中的语料导入到非空类簇中,这些语料的特征权重应为负值。此外,通过统计空类簇中的语料分布,可以了解当前聚类簇的语料标注能力,当被注入到空类簇中的语料数量或比重超出预设阈值时,说明聚类簇的语料标注结果还不符合预设终止条件,需要执行步骤S151。
示例地,以步骤S210中的对比结果为例,如果预设数量为10,那么,步骤S210中示出的未标注语料会被标注到空类簇中。
由以上技术方案可知,在一种可选择的实施方式中,本申请的预设标注规则通过获取未标注语料与每个非空类簇的相同类簇特征的数量,得到最大数量,并结合预设数量控制预设标注规则的灵敏度和精度,实现对未标注语料的自动标注,同时,也能够便于本方法在每一轮迭代结束后,通过调整类簇特征集的方式,调整标注精度。
图5为本申请实施例提供的一种预设标注规则的流程图,在另一种可选择的实施方式中,如图5所示,预设标注规则包括以下步骤:
步骤S310,获取所述未标注语料与每个所述非空类簇的相同所述类簇特征的数量。
本申请在步骤S310中,遍历聚类簇的每个非空类簇,并使用每个非空类簇的类簇特征集与未标注语料进行比对,以获取每个未标注语料与每个非空类簇的相同类簇特征的数量。
示例地,以步骤S210中示例出的未标注语料和聚类簇为例,在步骤S310中,遍历聚类簇的每个非空类簇,并使用每个非空类簇的类簇特征集与未标注语料进行比对后,得到的未标注语料与每个非空类簇的相同类簇特征的数量为:汽车类3个,财经类8个,健康类1个,体育类1个。
步骤S320,获取相同所述类簇特征在每个所述非空簇中的比重,得到最大比重。
本申请在步骤S320中,根据未标注语料与每个非空类簇的相同类簇特征的数量,以及,每个非空类簇的类簇特征的总量,计算出相同类簇特征占每个非空类簇的类簇特征总量的比重,并得到最大比重。
示例地,延续步骤S310的示例结果,计算相同类簇特征占每个非空类簇的类簇特征总量的比重的结果为:汽车类=33.3%,财经类=80%,健康类=11.1%,体育类=11.1%。其中,最大比重为财经类的80%。
步骤S330,分析所述最大比重是否满足预设比重。
本申请中,预设比重用来调节本申请预设标注规则的灵敏度和精度,当预设比重增大时,意味着未标注语料要覆盖更多的类簇特征才能够满足预设比重,即预设标注规则的灵敏度下降但精度提高;当预设比重减小时,意味着未标注语料仅需覆盖更少的类簇特征就能够满足预设比重,即预设标注规则的灵敏度升高但精度下降。因此,本申请的预设比重可根据使用本申请提供的方法所要达到的灵敏度和准确度而调整,本申请不做具体限定。
步骤S341,如果满足所述预设比重,将所述未标注语料添加至所述最大比重对应的所述非空类簇中。
在步骤S341中,如果最大比重满足预设比重,表明在预设比重确定的灵敏度和精度的条件下,未标注语料将被标注到与最大比重对应的非空类簇中。
示例地,以步骤S320中的对比结果为例,如果预设比重为60%,那么,步骤S210中示出的未标注语料会被标注到财经类非空类簇中,即未标注语料为财经类语料。
步骤S342,如果不满足所述预设比重,将所述未标注语料添加至所述空类簇中。
由于,根据预设标注规则,被注入到非空类簇的语料不属于任何一个非空类簇的语料类别,因此,其在语料标注中可以用作反向贡献的语料,即:如果将空类簇中的语料导入到非空类簇中,这些语料的特征权重应为负值。此外,通过统计空类簇中的语料分布,可以了解当前聚类簇的语料标注能力,当被注入到空类簇中的语料数量或比重超出预设阈值时,说明聚类簇的语料标注结果还不符合预设终止条件,需要执行步骤S151。
示例地,以步骤S320中的对比结果为例,如果预设比重为85%,那么,步骤S210中示出的未标注语料会被标注到空类簇中。
由以上技术方案可知,在另一种可选择的实施方式中,本申请的预设标注规则通过获取未标注语料与每个非空类簇的相同类簇特征的数量,得到最大比重,并结合预设比重控制预设标注规则的灵敏度和精度,实现对未标注语料的自动标注,同时,也能够便于本方法在每一轮迭代结束后,通过调整类簇特征集的方式,调整标注精度。
图6为本申请实施例提供的另一种多轮迭代的语料标注方法的流程图,在一种可选择的实施方式中,本申请在步骤S140之前,还包括:步骤S410,根据所述类簇特征和所述特征权重,获取每个所述非空类簇的簇心特征向量。
步骤S410中,将类簇特征结合特征权重,生成簇心特征向量,将每个非空类簇中的类簇特征以特征向量的形式归一化表示,便于分析比较。本申请中的特征向量为多维向量,每个类簇特征作为一个维度,并以该类簇特征的特征权重作为该维度的值。
图7为本申请实施例提供的一种预设标注规则的流程图,在又一种可选择的实施方式中,如图7所示,预设标注规则包括以下步骤:
步骤S510,获取未标注语料的分词特征向量。
在步骤S510中,获取未标注语料的分词特征向量的步骤可以包括:首先,对未标注语料进行切词处理,获得未标注语料的所有分词;然后,过滤掉分词结果中包含的停用词,并统计余下分词的词频;然后,根据余下分词和词频,使用TF-IDF(term frequency–inverse document frequency)等加权统计方法获得余下分词的权重;最后,根据余下的分词和分词的权重生成分词特征向量。
本申请中,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词在语料中分布很广泛,但功能极其普遍,很少单独表达文档相关程度的信息,对语料的标注没有帮助,反而会增加语料标注过程中的数据处理量。停用词可以包括语气助词、副词、介词、连接词等,例如常见的“的、了”等。
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的加权技术。TF意思是词频(Term Frequency),IDF意思是逆向文件频率(InverseDocument Frequency)。TF-IDF是一种统计方法,用以评估一个字词对于一个语料库的重要程度。字词的重要性随着它在语料中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
步骤S520,根据所述分词特征向量和所述簇心特征向量,计算所述未标注语料和每个所述非空类簇的特征相似度,得到最大相似度。
在步骤S520中,分别计算每个非空类簇的簇心特征向量与分词特征向量的余弦相似度,并在所有的余弦相似度计算结果中,得到最大相似度,并确定最大相似度对应的非空类簇。
步骤S530,分析所述最大相似度是否满足预设相似度阈值。
本申请中,预设相似度阈值用来调节本申请预设标注规则的灵敏度和精度,当预设相似度阈值增大时,意味着未标注语料要与簇心特征向量更加相似才能够满足预设相似度阈值,即预设标注规则的灵敏度下降但精度提高;当预设相似度阈值减小时,意味着未标注语料与簇心特征向量的相似度更低时,也能够满足预设相似度阈值,即预设标注规则的灵敏度升高但精度下降。因此,本申请的预设相似度阈值可根据使用本申请提供的方法所要达到的灵敏度和准确度而调整,本申请不做具体限定。
步骤S541,如果满足所述预设相似度阈值,将所述未标注语料添加至所述最大相似度对应的所述非空类簇中。
示例地,如果最大相似度为0.6,而预设相似度阈值为0.56,那么,最大相似度满足预设相似度阈值,未标注语料会被标注到最大相似度对应的非空类簇中。
步骤S542,如果不满足所述预设相似度阈值,将所述未标注语料添加至所述空类簇中。
由于,根据预设标注规则,被注入到非空类簇的语料不属于任何一个非空类簇的语料类别,因此,其在语料标注中可以用作反向贡献的语料,即:如果将空类簇中的语料导入到非空类簇中,这些语料的特征权重应为负值。此外,通过统计空类簇中的语料分布,可以了解当前聚类簇的语料标注能力,当被注入到空类簇中的语料数量或比重超出预设阈值时,说明聚类簇的语料标注结果还不符合预设终止条件,需要执行步骤S151。
示例地,如果最大相似度为0.6,而预设相似度阈值为0.65,那么,最大相似度不满足预设相似度阈值,未标注语料会被标注到空类簇中。
由以上技术方案可知,在又一种可选择的实施方式中,本申请的预设标注规则通过获取分词特征向量和簇心特征向量,计算未标注语料和每个所述非空类簇的特征相似度,得到最大相似度,并结合预设相似度阈值控制预设标注规则的灵敏度和精度,实现对未标注语料的自动标注,同时,也能够便于本方法在每一轮迭代结束后,通过调整类簇特征集的方式,调整标注精度。
图8为本申请实施例提供的一种多轮迭代的语料标注方法步骤S140分析语料标注结果的流程图,如图8所示,在一种可选择的实施方式中,步骤S140中,分析语料标注结果是否符合预设终止条件的步骤包括:
步骤S141,获取每个所述非空类簇中所述类簇特征的所述特征权重。
本申请中,在每一轮迭代的语料标注中,由于未标注语料在标注后被注入了对应的非空类簇中,会使非空类簇中的类簇特征和特征权重发生变化。并且,随着迭代的不断进行,非空类簇中会不断地被注入新的语料,新的语料与原有的语料具有共同的语料类别,因此,非空类簇中的类簇特征和特征权重的变化趋势能够使非空类簇逐渐精确地概括某一类语料类别的特征。
步骤S142,根据所述特征权重,获取所述特征权重最高的至少一个所述类簇特征的权重分布。
本申请中,类簇特征的特征权重高,说明该类簇特征在一类语料中出现的频次高,表明该类簇特征是一类语料中具有很高识别意义的特征,因此,在步骤S142中,获取特征权重最高的至少一个类簇特征的权重分布,一种方法可以为:首先,依据特征权重,对每个非空类簇中的所有类簇特征进行降序排列;然后,根据预设的比例或数量,从排序结果中提取排名靠前的至少一个类簇特征;最后,将提取到的类簇特征和对应的特征权重统计成权重分布的图表。
步骤S143,根据所述权重分布,分析所述语料标注结果是否符合预设终止条件。
本申请中,如果在权重分布中,各个类簇特征的特征权重的集中度高、数值高且整体性好,说明语料标注结果符合预设终止条件。本领域技术人员在应用本方法进行语料标注时,可以根据实际的精度需求设置以特征权重的集中度、数值和整体性为评估依据的预设终止条件,预设终止条件也根据本方法实际应用的语料环境的不同而有所不同,因此本申请产生预设终止条件的评估依据做出具体的限定。
图9为本申请实施例提供的一种多轮迭代的语料标注方法步骤S151的流程图,如图9所示,在一种可选择的实施方式中,步骤S151包括以下步骤:
步骤S1511,执行删除或增加所述类簇特征、调整所述特征权重、删除或增加所述类簇特征集的一个或多个。
本申请中,根据语料标注结果,例如每一轮迭代后非空类簇的权重分布情况,执行删除或增加所述类簇特征、调整所述特征权重、删除或增加所述类簇特征集的一个或多个操作。
例如,删除掉特征权重接近于0的类簇特征,以排出贡献较低的类簇特征;或者,在相应类别的聚类簇中增加贡献较大但聚类簇中却没有包含的类簇特征;或者,调整聚类簇中已存在的、特征权重较低的,但在实际应用中对语料标注贡献较大的类簇特征的特征权重;或者,删除聚类簇中的类簇特征集或增加聚类簇中的类簇特征集,以调整聚类簇的标注类别。
步骤S1512,清空所述非空簇,执行下一轮所述语料标注。
在步骤S1512中,清空非空类簇,相当于将聚类簇恢复到初始化的状态,即非空类簇中包含语料,空类簇中不包含语料,以便开始下一轮语料标注。
由以上技术方案可知,在一种可选择的实施方式中,通过执行删除或增加所述类簇特征、调整所述特征权重、删除或增加所述类簇特征集的一个或多个等方式,调整类簇特征集,实现了在每一轮迭代完成后,对类簇特征集进行监督,并根据需求进行调整,能够引导本申请多轮迭代后的聚类簇朝向有利于提高标注精度的方向演变。
图10为本申请实施例提供的一种多轮迭代的语料标注方法步骤S130的流程图,如图10所示,在一种可选择的实施方式中,步骤S130包括以下步骤:
步骤S131,获取每个所述非空类簇中所述已标注语料的特征分词,过滤停用词后作为所述类簇特征。
在步骤S131中,获取已标注语料的类簇特征的步骤可以包括:首先,对已标注语料进行切词处理,获得已标注语料的所有特征分词;然后,过滤掉分词结果中包含的停用词,将剩余的特征分词作为类簇特征。
步骤S132,根据词频统计方法,获取所述类簇特征的所述特征权重。
在步骤S132中,可以使用TF-IDF(term frequency–inverse documentfrequency)等加权统计方法获得类簇特征的特征权重。
由以上技术方案可知,本申请实施例提供的技术方案,根据少量已标注语料初始化包括非空类簇和空类簇的聚类簇,获取每个非空类簇的类簇特征集,然后,根据预设标注规则,利用聚类簇对至少一个未标注语料进行多轮迭代的语料标注,每一轮语料标注完成后,分析语料标注结果是否符合预设终止条件,如果不符合预设终止条件,调整类簇特征集,执行下一轮语料标注,如果符合预设终止条件,终止多轮迭代,输出终止时刻的语料标注结果。本申请实施例提供的技术方案,通过对未标注语料进行多轮迭代的语料标注,并在每一轮标注后,调整聚类簇的类簇特征集,不仅能够实现对未标注语料的自动标注,还能够在迭代过程中不断提高语料标注的精度,得到满足语料标注精度的正例语料集和反例语料集,从而,解决了现有技术中无法对大量的未标注语料实现自动标注的问题。