CN113961705A - 一种文本分类方法及服务器 - Google Patents

一种文本分类方法及服务器 Download PDF

Info

Publication number
CN113961705A
CN113961705A CN202111275404.8A CN202111275404A CN113961705A CN 113961705 A CN113961705 A CN 113961705A CN 202111275404 A CN202111275404 A CN 202111275404A CN 113961705 A CN113961705 A CN 113961705A
Authority
CN
China
Prior art keywords
text
classification label
language model
classification
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111275404.8A
Other languages
English (en)
Inventor
车进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Juhaokan Technology Co Ltd
Original Assignee
Juhaokan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Juhaokan Technology Co Ltd filed Critical Juhaokan Technology Co Ltd
Priority to CN202111275404.8A priority Critical patent/CN113961705A/zh
Publication of CN113961705A publication Critical patent/CN113961705A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本分类方法及服务器,在对待分类文本进行分类时,利用待分类文本和未标注文本数据进行语言模型训练,得到预训练语言模型,以及,构建包括掩码填写位置的预测模板;利用预训练语言模型预测掩码填写位置在填入不同分类标签时的概率,将产生最大概率的分类标签作为待分类文本的目标分类标签。该服务器利用未标注的数据可减少数据处理效率。在构建prompt任务所需的预测模板后,使用无监督训练得到的MLM预训练语言模型对模板的槽位所填入的每个类别的领域知识词进行推断,最后对推断结果进行聚合和规范化,使得模型输出效果更加稳定可靠,进而可以得到准确的文本分类结果。

Description

一种文本分类方法及服务器
技术领域
本申请涉及数据处理技术领域,尤其涉及一种文本分类方法及服务器。
背景技术
人工智能是近十年来产生的新兴技术,现已遍布我们生活的各个方面。而NLP(Natural Language Processing,自然语言处理)是人工智能的一个子领域,指机器理解并解释人类写作与说话方式的能力。在自然语言处理的应用领域中,对文本进行分类是 较为广泛的应用领域。例如,对某个新闻文本,通过自然语言处理将该新闻文本分类至 体育、娱乐、综艺等标签下,以便于用户能够在某个标签分类下看到该新闻文本。
在利用自然语言处理进行文本分类时,通常需要利用标注数据进行训练,并采用零 次学习(zero-shot learning)方法对待分类的文本进行推理分析,实现文本分类。但是, 这种文本分类方法需要大量精力获取标注数据,同时也需要额外精力去矫正数据;在进 行零次学习时对分类标签的定义描述存在偏差,学习效果差。可见,现有的文本分类方法效果低下,无法进行准确的文本分类。
发明内容
本申请提供了一种文本分类方法及服务器,以解决现有的文本分类方法无法进行准 确的文本分类的问题。
第一方面,本申请提供了一种服务器,包括:控制器,被配置为:
获取待分类文本和未标注文本数据,所述未标注文本数据是指不包括标签含义的文 本数据;
利用所述待分类文本和未标注文本数据进行语言模型训练,得到预训练语言模型, 以及,构建包括掩码填写位置的预测模板,所述掩码填写位置用于填入与所述待分类文 本匹配的分类标签;
利用所述预训练语言模型预测所述掩码填写位置在填入不同分类标签时的概率,将 产生最大概率的分类标签作为所述待分类文本的目标分类标签。
第二方面,本申请还提供了一种文本分类方法,所述方法包括:
获取待分类文本和未标注文本数据,所述未标注文本数据是指不包括标签含义的文 本数据;
利用所述待分类文本和未标注文本数据进行语言模型训练,得到预训练语言模型, 以及,构建包括掩码填写位置的预测模板,所述掩码填写位置用于填入与所述待分类文 本匹配的分类标签;
利用所述预训练语言模型预测所述掩码填写位置在填入不同分类标签时的概率,将 产生最大概率的分类标签作为所述待分类文本的目标分类标签。
第三方面,本申请还提供了一种存储介质,该存储介质可存储有程序,该程序执行时可实现包括本申请提供的文本分类方法各实施例中的部分或全部步骤。
由以上技术方案可知,本发明实施例提供的一种文本分类方法及服务器,在对待分 类文本进行分类时,利用待分类文本和未标注文本数据进行语言模型训练,得到预训练语言模型,以及,构建包括掩码填写位置的预测模板;利用预训练语言模型预测掩码填 写位置在填入不同分类标签时的概率,将产生最大概率的分类标签作为待分类文本的目 标分类标签。该服务器利用未标注的数据可减少数据处理效率。在构建prompt任务所需 的预测模板后,使用无监督训练得到的MLM预训练语言模型对模板的槽位所填入的每 个类别的领域知识词进行推断,最后对推断结果进行聚合和规范化,使得模型输出效果 更加稳定可靠,进而可以得到准确的文本分类结果。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单 地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据一些实施例的文本分类方法的流程图;
图2示出了根据一些实施例的文本分类方法的数据流图。
具体实施方式
人工智能是近十年来产生的新兴技术,而自然语言处理(Natural LanguageProcessing,NLP)领域是人工智能的一个子领域,自然语言处理是指机器理解并解释人 类写作与说话方式的能力。在自然语言处理的应用领域中,对文本进行分类是较为广泛 的应用领域。
在利用自然语言处理进行文本分类时,通常需要利用标注数据进行模型训练,并采 用零次学习(zero-shot learning)方法对待分类的文本进行推理分析,实现文本分类。例 如,对某个新闻文本,通过自然语言处理将该新闻文本分类至体育、娱乐、综艺等标签下,以便于用户能够在某个标签分类下看到该新闻文本。
但是,这种文本分类方法中,模型训练阶段需要大量精力获取标注数据,同时也需要额外精力去矫正数据,抽样数据集;在进行零次学习时,无法探索足够广泛的锚点集, 使得对分类标签的定义描述存在偏差,使得零次学习的效果差。另外,不同锚点在模型 输出域的分布情况并不相同,传统方法没有有效对其进行规范化,使得结果较差。可见, 现有的文本分类方法效果低下,无法进行准确的文本分类。
为此,为提高文本分类的效果和准确性,本申请提出一种服务器,在进行文本分类时,基于领域知识的文本分类零次学习方法实现。具体地,引入prompting的方法进行文 本分类领域的零次学习,不需要任何标注数据。对于已有的prompting思路进行优化,引 入领域知识,使得对于标签的描述更加精准。对于不同锚点的输出进行规范化,同时对 标签锚点进行有效聚合,使零次学习的效果更好,实现准确的文本分类。
可见,本申请提供的一种服务器,在执行文本分类方法时,输入未标注的数据,以及分类体系,无需任何标注数据即可完成文本分类任务。使用领域知识获取得到每个类 别的词和词的权重,可以更加全面和精准的描述每个分类类型,使零次学习效果更好。 构建prompt任务所需的模板,使用无监督训练得到的MLM预训练语言模型对模板的槽 位所填入的每个类别的领域知识词进行推断,最后对推断结果进行聚合和规范化。由于 领域知识词在预训练模型结果集的分布情况不同,传统的方法会偏向频率更高的词,使 最终结果方差较大,通过规范化方法可以有效避免该情况,使得模型效果更加稳定可靠, 进而可以得到准确的文本分类结果。
图1示出了根据一些实施例的文本分类方法的流程图;图2示出了根据一些实施例的文本分类方法的数据流图。参见图1和图2,本发明实施例提供的一种服务器,包括: 控制器,在执行文本分类方法时,控制器被配置为执行下述步骤:
S1、获取待分类文本和未标注文本数据,未标注文本数据是指不包括标签含义的文 本数据。
在对某个文本进行分类时,获取待分类文本datat,待分类文本可为一个新闻文本, 将该新闻文本分类到娱乐、体育、综艺、音乐、电视剧、动漫等标签的其中一个标签下。例如,对待分类文本“NBA现役伟大球员”进行分类。
由于本申请采用prompting方法进行文本分类领域的零次学习,不需要任何标注数 据,因此,在进行文本分类时,获取未标注文本数据。未标注文本数据即为通用文本数据,没有添加标签,只有文字内容,没有强调文本中心思想的文本数据,例如,小说等 文本。未标注文本数据的获取来源可为电子书或各类新闻网站等。
S2、利用待分类文本和未标注文本数据进行语言模型训练,得到预训练语言模型,以及,构建包括掩码填写位置的预测模板,掩码填写位置用于填入与待分类文本匹配的 分类标签。
为便于实现准确的文本分类,需先训练出一个语言模型,通过该语言模型可实现对 待分类文本的所属标签分类的概率预测。
为此,利用待分类文本和未标注文本数据进行无监督式语言模型训练,获得MLM预训练语言模型。MLM全称是masked language model,这种语言模型在训练时,通过遮 盖一个词,让模型进行预测遮盖住的词是什么,并输出所预测的词的概率,通过这种方 式进行文本分类。
在一些实施例中,控制器在执行利用待分类文本和未标注文本数据进行语言模型训 练,得到预训练语言模型,被进一步配置为执行下述步骤:
步骤21、利用数个异构语言模型对未标注文本数据进行训练,得到包括数个不同的 第一语言模型的初始预训练语言模型。
步骤22、利用初始预训练语言模型对待分类文本进行训练,得到包括数个不同的第 二语言模型的预训练语言模型。
在NLP领域,预训练语言模型的方式有很多种,为了能够使用prompting的方式进行零次学习,通常选择masked(掩码)语言模型。因此,在进行模型训练时,先利用大 量未标注文本数据(通用文本数据)datac进行n个异构masked语言模型训练,得到n 个不同的第一语言模型modelc,1……modelc,n,作为初始预训练语言模型。
语言模型用于学习常识、语言规则、文字、文字与文字的联系等,不同的第一语言模型可实现不同的知识学习。例如,在第一语言模型modelc是基于Google提供的未标注 文本数据训练得到的语言模型时,则该第一语言模型modelc可用于学习新闻数据,以获 得正式文本。在在第一语言模型modelc是基于Facebook提供的未标注文本数据训练得到 的语言模型时,则该第一语言模型modelc可用于学习维基百科,以获得常识知识。
可见,不同的第一语言模型可通过不同来源的未标注数据训练得到,那么不同的第 一语言模型善于学习的知识也不同,均与对应的未标注数据来源相关。
通过对大量通用的未标注文本数据的训练学习,初始预训练语言模型可具有通用知 识的学习。但是,由于待分类文本可能与通用知识存在差异,为了使得最终训练得到的语言模型能够学习到待分类文本的知识,还需使用待分类文本进行第二次语言模型训练。
在进行第二次语言模型训练时,利用初始预训练语言模型对待分类文本进行训练, 即使用待分类文本datat继续在modelc,1……modelc,n上进行训练,得到n个不同的第二语 言模型的modelt,1……modelt,n,作为最终的预训练语言模型。第二语言模型与第一语言模 型具有相同的学习能力,以学习待分类文本中的知识,具体实现过程此处不再赘述。
最终训练得到的预训练语言模型即为MLM预训练语言模型,用于预测不同的分类标签相对于待分类文本产生的概率。
可见,在第一次训练模型时,使用海量未标注文本数据(通用文本数据,例如新闻,百科)训练得到预训练语言模型,可以使得预训练语言模型获取大量通用的知识。在第 一次训练完毕后,继续用待分类文本进行第二次的预训练模型训练,以使最终获得的预 训练语言模型能够获取待分类文本中的知识。而为了获取更好的模型效果,可选择在n 个异构模型上同时进行模型训练,获得n个语言模型。
在一些实施例中,语言模型使用大量文本进行无监督式的训练学习,语言模型不仅 可以学习到语言能力,还可以学习到很多常识。为了能够将蕴含在语言模型中的知识获取出来,可以使用同MLM模型训练所用的“完形填空”相同的方式,构造包含需要填 空的文本,让语言模型给填空位置填补上恰当的词,以此来作为分类的依据。
因此,利用待分类文本和未标注文本数据构建包括掩码填写位置的预测模板,掩码 填写位置用于填入与待分类文本匹配的分类标签。预测模板为prompt模板,掩码填写位置为mask位置。
例如,datac,i=“NBA现役伟大球员”,本申请最终任务是将该文本分类为体育、娱乐、政治等m个类别中的其中一个类别。由于步骤S2中已经得到n个训练好的异构MLM 模型,可通过MLM模型可以对给定“完形填空”式的文本,在需要填空的位置给出推 荐词语。因此,可以构造模板“下面我们来看[mask]类型的文章:[text]”,将待分类文本 填入,得到预测模板“下面我们来看[mask]类型的文章:NBA现役伟大球员”。
其中,模板“下面我们来看[mask]类型的文章:[text]”可根据未标注文本数据进行 构建,即从大量的未标注文本数据中总结出该模板,或者,通过人工模板中选择适宜的模板使用。[mask]即为掩码填写位置,[text]即为待分类文本。将待分类文本“NBA现役 伟大球员”填入上述模板,即可获得预测模板“下面我们来看[mask]类型的文章:NBA 现役伟大球员”。[mask]和[text]均为prompt模板的槽位,[text]槽位用于填入待分类文本,[mask]槽位用于由MLM模型预测所填词语及概率。
最后,让MLM预训练语言模型对于[mask]位置进行填空,以输出所填词语的概率。
在一些实施例中,为了使得MLM模型预测得到的结果更加准确,可使用类似的方法,构造b个预测模板,形成模板集,并使用n个MLM模型对模板集中的b个预测模 板进行分别预测。其中第i个模板我们定义为templei
例如,再次参见图2,模板集可为(1)“下面我们来看[mask]类型的文章:[text]”;(2)“[mask]类型的文章:[text]”;(3)“[text],这篇文章的主题是[mask]”等。
S3、利用预训练语言模型预测掩码填写位置在填入不同分类标签时的概率,将产生 最大概率的分类标签作为待分类文本的目标分类标签。
由于预训练语言模型具有预测不同mask位置的词语的能力,而预测模版为基于待分 类文本得到的需要填入预测词语的模板,因此,可利用预训练语言模型对预测模板中的掩码填写位置所需填入的词语进行推理,并输出所填入的每个词语的概率,而该词语即 为掩码填写位置所需填入的分类标签。
在现有的文本分类中,其所使用的预设分类标签为多个,依次将每个分类标签填入 预测模板中的掩码填写位置,由预训练语言模型对该掩码填写位置中填入的分类标签的 概率进行预测,获得每个分类标签的概率。
由于在训练模型时,可得到n个异构的MLM预训练语言模型,且在构建预测模板时,可获得b个不同的预测模板。因此,为保证每个分类标签的预测概率的准确性,即 每个分类标签与待分类文本的匹配度,可由n个训练好的MLM模型依次对b个模板依 次进行预测。
例如,在使用n个训练好的MLM模型,依次对b个模板依次进行预测(模板的mask 位置填入标签领域知识词),得到predicti,j,w,表示第i个模型对于第j个模型进行预测时, 其中w这个词的概率。例如predicti,j,nba=0.2表示“下面我们来看[mask]类型的文章:NBA现役伟大球员”,填入NBA这个词的概率为0.2。
再次参见图2,在模板1为“下面我们来看[mask]类型的文章:NBA现役伟大球员”时,则A模型预测出的分类标签分别为电影、NBA和篮球,各自的概率通过柱状图表示, 其中NBA的概率最高;B模型预测出的分类标签分别为篮球、综艺和动漫,各自的概率 通过柱状图表示,其中动漫的概率最高;C模型预测出的分类标签分别为篮球、NBA和 纪录片,各自的概率通过柱状图表示,其中NBA的概率最高。模板2下对应的A、B、 C模型预测结果可参照上述方法,此处不再赘述。
基于前述方式,通过预训练语言模型对掩码填写位置在填入不同分类标签时的概率 进行预测,并产生不同的概率值。将产生的各个概率值进行排序,将产生最大概率的分类标签作为待分类文本的目标分类标签,例如,A模型和C模型预测的NBA这一分类标 签的概率在各组中最高,因此,将NBA作为待分类文本“NBA现役伟大球员”的目标 分类标签。
在一些实施例中,在实现文本分类领域采用prompting方法进行零次学习时,无法探 索足够广泛的锚点集,使得对分类标签的定义描述存在偏差,使得零次学习的效果差。另外,不同锚点(槽位)在模型输出域的分布情况并不相同,传统方法没有有效对其进 行规范化,使得结果较差。
为此,本申请可使用领域知识获取得到每个类别的词和词的权重,可以更加全面和 精准的描述每个分类类型,使零次学习效果更好。并在构建prompt任务所需的模板后,使用无监督训练得到的MLM预训练语言模型对模板的槽位所填入的每个类别的领域知 识词进行推断,最后对推断结果进行聚合和规范化。由于领域知识词在预训练模型结果 集的分布情况不同,传统的方法会偏向频率更高的词,使最终结果方差较大,通过规范 化方法可以有效避免该情况,使得模型效果更加稳定可靠,进而可以得到准确的文本分 类结果。
为此,在进行文本分类时,为提高文本分类准确性,在MLM模型预测出概率后, 控制器被进一步配置为执行下述步骤:
步骤41、在利用预训练语言模型预测掩码填写位置在填入不同分类标签时的概率之 后,获取每个分类标签的相关词,基于相关词,构建每个分类标签对应的领域知识词。
步骤42、基于预训练语言模型、预测模版和每个分类标签对应的领域知识词,对每个分类标签的概率进行数据处理,将数据处理后产生最大概率的分类标签作为待分类文本的目标分类标签。
由于本申请是要将待分类文本分类为体育、娱乐、政治等m个类别中的其中一个类别,如果直接将类别词作为锚点,让MLM去获取它的概率,这样是富有歧义,无法囊 括所有的含义,而且是方差很大的。
在无法囊括所有的语义层面,类别是非常复杂的,通常带有极其多得语义,通常一个词无法囊括。例如:“下面我们来看[mask]类型的文章:NBA现役伟大球员”,现有的 语言模型并不知道预设的分类体系,但是模型看到下文中出现了NBA和现役球员,会在 mask位置倾向于填补上NBA这个词,而给体育词一个比较低的概率。
在歧义和方差层面,自然语言是含有很多歧义情况的,因为每个词都可能带有极其 多的语义,也就是常说的多义词。同样,一个样本也可能带有很多语义,它可能划为体育类型最好,但是划为娱乐类型也有道理。例如:“幸福羡煞旁人!詹姆斯与妻子庆祝结 婚8周年,至今零绯闻简直NBA清流”这一待分类文本。NBA带有体育的语义,但是 这条新闻是在讲NBA球星的场下生活,显然归属到娱乐可能会更加合适。如果只用一个 词作为类别的依据,往往会带来歧义现象,导致最后模型的方差过大(模型a认为是娱 乐,模型b认为是体育)。
因此,为避免MLM模型在预测掩码填写位置所填的合适词语时,产生上述问题, 本申请通过对每个分类标签构建领域知识词,可以更加全面和精准的描述每个分类类型, 使零次学习效果更好,进而使得MLM模型可以更加准确地预测出掩码填写位置所填词 语的概率,以推断出待分类文本的分类标签。
在一些实施例中,在构建每个分类标签对应的领域知识词时,可获取预设的每个分 类标签的相关词,基于相关词进行构建。具体地,控制器在执行获取每个分类标签的相关词,被进一步配置为执行下述步骤:
步骤411、基于知识库,获取每个分类标签的初始领域知识词。
步骤412、通过开源的word2vec模型,生成每个分类标签对应的最近邻知识词。
步骤413、通过开源词典,获取每个分类标签的同义词、上位词和下位词。
步骤414、基于每个分类标签的定义,构建对应的包括掩码填写位置的预测模板,利用预训练语言模型对掩码填写位置填入的关键词进行预测,获得每个分类标签对应的包括关键词的词表。
步骤415、将初始领域知识词、同义词、上位词、下位词、最近邻知识词和词表作 为每个分类标签对应的相关词。
分类标签的相关词是指与分类标签语义相同或相关的词,包括但不限于初始领域知 识词、同义词、上位词、下位词、最近邻知识词和词表等。
对于每个分类标签(例如,体育),可以通过爬虫或者内部知识库的方式获取每个分 类标签词的初始领域知识词wordsinit。每个分类标签通过开源的word2vec模型生成最近 邻知识词wordsvec。通过开源词典或者词网(wordnet)找到分类标签词的同义词和上位词以及下位词wordsnet。其中,最近邻知识词是指与分类标签词的语义接近的词,同义词 是指与分类标签词的语义相同的词,上位词是指分类标签词的上一级别的词,下位词是 指分类标签词的下一级别的词,例如,文体属于上位词,其下位词为体育等,体育的下 位词为棒球或NBA等。
词表是指与分类标签词相关的词,在确定词表时,获取每个分类标签的定义,例如, “体育是一种复杂的社会文化现象,它以身体与智力活动为基本手段,根据人体生长发育、技能形成和机能提高等规律,达到促进全面发育、提高身体素质与全面教育水平、 增强体质与提高运动能力、改善生活方式与提高生活质量的一种有意识、有目的、有组 织的社会活动”。
构建体育的定义对应的包括掩码填写位置的预测模板,即将定义中“体育”两个字进行mask,得到预测模板为“[mask]是一种复杂的社会文化现象,它以身体与智力活动 为基本手段,根据人体生长发育、技能形成和机能提高等规律,达到促进全面发育、提 高身体素质与全面教育水平、增强体质与提高运动能力、改善生活方式与提高生活质量 的一种有意识、有目的、有组织的社会活动”。[mask]位置为掩码填写位置,用于填写符 合这一定义内容的关键词。
让MLM预训练语言模型对[mask]位置填入的关键词进行预测,利用预测的各个关键 词形成词表wordslm。最后,由人工将各个词表中的不准确词过滤,然后将wordsinit、wordsvec、wordsnet、wordslm进行合并得到对应分类标签的相关词,进而构建最终的领域 知识词words。
例如,与体育相关的领域知识词可为赛跑、田径、体操、篮球、NBA、CBA、运动员……。与娱乐相关的领域知识词可为电影、电视剧、综艺、纪录片、动漫……。
在一些实施例中,由于领域知识词在预训练语言模型结果集的分布情况不同,传统 的方法会偏向频率更高的词,使最终结果方差较大。为可以有效避免该情况,使得模型效果更加稳定可靠,本申请可对于不同锚点的输出进行规范化,同时对分类标签锚点进 行有效聚合,即对MLM模型预测的各个分类标签的概率进行规范化和聚合处理,使零 次学习的效果更好,实现准确的文本分类。
可见,在进行文本分类的零次学习时,采用的不同预训练语言模型和预测模板均会 对预测的结果产生影响。为此,在MLM模型对预测模板中的掩码填写位置的各个分类 标签进行预测后,基于预训练语言模型、预测模版和每个分类标签对应的领域知识词, 对每个分类标签的概率进行数据处理,将数据处理后产生最大概率的分类标签作为待分 类文本的目标分类标签。
在一些实施例中,控制器在执行基于预训练语言模型、预测模版和每个分类标签对 应的领域知识词,对每个分类标签的概率进行数据处理,被进一步配置为执行下述步骤:
步骤421、基于预训练语言模型、预测模板和领域知识词,对预测的每个分类标签的概率进行规范化处理,得到规范化后的分类标签的概率。
步骤422、对每个规范化后的分类标签的概率进行加权聚合处理,计算每个分类标签相对于待分类文本的权重,基于权重计算对应分类标签的数据处理后的概率。
对MLM模型的输出结果进行数据处理的方法包括规范化处理和聚合处理,由于在进行文本分类时,预设的分类标签有多个,所训练的预训练语言模型有多个,所构建的 预测模板也有多个,使得在某个预测模板下,预训练语言模型所预测的分类标签的概率 有多个,因此,需要利用多个预训练语言模型、多个预测模板和领域知识词,对预测的 每个分类标签的概率分别进行规范化处理,得到规范化后的各个分类标签的概率。
在规范化处理时,预训练语言模型i对于预测模板j,填入词word的模型输出概率,符合正态分布Ni,j,word(μ,σ2)。为了准确描述该分布的估计,可获取待分类文本集datat,datat包括数条待分类文本数据,以更准确地描述模型、模板与领域知识词所符合的正态分布关系。基于多个待分类文本对应的各个模型输出概率进行分布估计,从而得到模型 输出概率outputi,j,word,k。outputi,j,word,k表示对于datat中第k条数据,模型i对于模板j, 填入词word的模型输出概率。其中,i是指不同异构的预训练语言模型;j是指不同的预 测模板;word是指不同的领域知识词;datat中第k条数据是指当前需要分类的待分类文 本。
根据最大似然估计,可以得到均值
Figure BDA0003329882680000091
方差
Figure BDA0003329882680000092
式中,μi,j,word表示模型i对于模板j,每个填入词word的均值;σi,j,word表示模型i对于 模板j,每个填入词word的方差。
得到正态分布后,对其进行变换,使得所有的分布均满足标准正态分布,如下:
Figure BDA0003329882680000093
式中,
Figure BDA0003329882680000094
表示规范化处理后的对于datat中第k条数据,模型i对于模板j,填入词word的模型输出概率。
对每个MLM模型对于每个预测模板的输出概率分别按照上述方法进行规范化处理, 得到每个规范化后的分类标签的概率。而后再对每个规范化后的分类标签的概率进行加 权聚合处理,计算每个分类标签相对于待分类文本的权重,将权重作为对应分类标签的数据处理后的概率。
在聚合处理时,采用“离差权法”对规范化后的结果进行加权聚合。为此,将规范化后概率(即指标)中的方差作为权重,方差大,表示这个指标在被比较的不同对象间 区分较大;方差小,表示这个指标在被比较的不同对象间区分较小。
那么,在加权聚合时,对于datat中第k条数据,其对于预设的分类标签集L中的分类标签Li的权重为:
Figure BDA0003329882680000095
基于此方法,可以获得每个分类标签的权重,使用softmax函数进行处理,得到聚合 处理后的待分类文本对于每个分类标签的概率。最后,将产生最大概率对应的分类标签作为待分类文本的目标分类标签。
例如,再次参见图2,经过规范化和聚合处理后,计算出体育分类的概率要高于娱乐分类的概率,因此,将体育作为待分类文本的目标分类标签。
可见,未经过数据处理(规范化和聚合)选出的目标分类标签与经过数据处理选出的目标分类标签可能不同。基于未经过数据处理的各个分类标签的概率选出的待分类文本的目标分类标签为NBA,而基于经过数据处理的各个分类标签的概率选出的待分类文 本的目标分类标签为娱乐。因此,经过数据处理后各个分类标签的概率更为准确,即MLM 模型对预测模板的输出结果更为准确,进而可以保证文本分类的准确性。
由以上技术方案可知,本发明实施例提供的一种服务器,在对待分类文本进行分类 时,利用待分类文本和未标注文本数据进行语言模型训练,得到预训练语言模型,以及,构建包括掩码填写位置的预测模板;利用预训练语言模型预测掩码填写位置在填入不同分类标签时的概率,将产生最大概率的分类标签作为待分类文本的目标分类标签。该服 务器利用未标注的数据可减少数据处理效率。使用领域知识获取得到每个类别的词和词 的权重,可以更加全面和精准的描述每个分类类型,使零次学习效果更好。在构建prompt 任务所需的预测模板后,使用无监督训练得到的MLM预训练语言模型对模板的槽位所 填入的每个类别的领域知识词进行推断,最后对推断结果进行聚合和规范化,使得模型 输出效果更加稳定可靠,进而可以得到准确的文本分类结果。
图1示出了根据一些实施例的文本分类方法的流程图。参见图1,本发明实施例提供的一种文本分类方法,由前述实施例提供的服务器中的控制器执行,所述方法包括:
S1、获取待分类文本和未标注文本数据,所述未标注文本数据是指不包括标签含义 的文本数据;
S2、利用所述待分类文本和未标注文本数据进行语言模型训练,得到预训练语言模 型,以及,构建包括掩码填写位置的预测模板,所述掩码填写位置用于填入与所述待分类文本匹配的分类标签;
S3、利用所述预训练语言模型预测所述掩码填写位置在填入不同分类标签时的概率, 将产生最大概率的分类标签作为所述待分类文本的目标分类标签。
本申请一些实施例中,所述利用所述待分类文本和未标注文本数据进行语言模型训 练,得到预训练语言模型,包括:
利用数个异构语言模型对所述未标注文本数据进行训练,得到包括数个不同的第一 语言模型的初始预训练语言模型;
利用所述初始预训练语言模型对所述待分类文本进行训练,得到包括数个不同的第 二语言模型的预训练语言模型。
本申请一些实施例中,所述方法还包括:
在利用预训练语言模型预测掩码填写位置在填入不同分类标签时的概率之后,获取 每个分类标签的相关词,基于所述相关词,构建每个分类标签对应的领域知识词;
基于所述预训练语言模型、预测模版和每个分类标签对应的领域知识词,对每个分 类标签的概率进行数据处理,将数据处理后产生最大概率的分类标签作为所述待分类文 本的目标分类标签。
本申请一些实施例中,所述获取每个分类标签的相关词,包括:
基于知识库,获取每个分类标签的初始领域知识词;
通过开源的word2vec模型,生成每个分类标签对应的最近邻知识词;
通过开源词典,获取每个分类标签的同义词、上位词和下位词;
基于每个分类标签的定义,构建对应的包括掩码填写位置的预测模板,利用预训练 语言模型对掩码填写位置填入的关键词进行预测,获得每个分类标签对应的包括关键词 的词表;
将所述初始领域知识词、同义词、上位词、下位词、最近邻知识词和词表作为每个分类标签对应的相关词。
本申请一些实施例中,基于所述预训练语言模型、预测模版和每个分类标签对应的 领域知识词,对每个分类标签的概率进行数据处理,包括:
基于预训练语言模型、预测模板和领域知识词,对预测的每个分类标签的概率进行 规范化处理,得到规范化后的分类标签的概率;
对每个所述规范化后的分类标签的概率进行加权聚合处理,计算每个分类标签相对 于待分类文本的权重,基于所述权重计算对应分类标签的数据处理后的概率。
具体实现中,本发明还提供一种存储介质,其中,该存储介质可存储有程序,该程序执行时可包括本发明提供的文本分类方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随 机存储记忆体(英文:random access memory,简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通 用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说 对现有技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品可以存储在存 储介质中,如ROM/RAM、磁碟、光盘等。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于文本分类方 法实施例而言,由于其基本相似于服务器实施例,所以描述的比较简单,相关之处参见服务器实施例中的说明即可。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims (10)

1.一种服务器,其特征在于,包括:
控制器,被配置为:
获取待分类文本和未标注文本数据,所述未标注文本数据是指不包括标签含义的文本数据;
利用所述待分类文本和未标注文本数据进行语言模型训练,得到预训练语言模型,以及,构建包括掩码填写位置的预测模板,所述掩码填写位置用于填入与所述待分类文本匹配的分类标签;
利用所述预训练语言模型预测所述掩码填写位置在填入不同分类标签时的概率,将产生最大概率的分类标签作为所述待分类文本的目标分类标签。
2.根据权利要求1所述的服务器,其特征在于,所述控制器在执行所述利用所述待分类文本和未标注文本数据进行语言模型训练,得到预训练语言模型,被进一步配置为:
利用数个异构语言模型对所述未标注文本数据进行训练,得到包括数个不同的第一语言模型的初始预训练语言模型;
利用所述初始预训练语言模型对所述待分类文本进行训练,得到包括数个不同的第二语言模型的预训练语言模型。
3.根据权利要求1所述的服务器,其特征在于,所述控制器被进一步配置为:
在利用预训练语言模型预测掩码填写位置在填入不同分类标签时的概率之后,获取每个分类标签的相关词,基于所述相关词,构建每个分类标签对应的领域知识词;
基于所述预训练语言模型、预测模版和每个分类标签对应的领域知识词,对每个分类标签的概率进行数据处理,将数据处理后产生最大概率的分类标签作为所述待分类文本的目标分类标签。
4.根据权利要求3所述的服务器,其特征在于,所述控制器在执行所述获取每个分类标签的相关词,被进一步配置为:
基于知识库,获取每个分类标签的初始领域知识词;
通过开源的word2vec模型,生成每个分类标签对应的最近邻知识词;
通过开源词典,获取每个分类标签的同义词、上位词和下位词;
基于每个分类标签的定义,构建对应的包括掩码填写位置的预测模板,利用预训练语言模型对掩码填写位置填入的关键词进行预测,获得每个分类标签对应的包括关键词的词表;
将所述初始领域知识词、同义词、上位词、下位词、最近邻知识词和词表作为每个分类标签对应的相关词。
5.根据权利要求3所述的服务器,其特征在于,所述控制器在执行基于所述预训练语言模型、预测模版和每个分类标签对应的领域知识词,对每个分类标签的概率进行数据处理,被进一步配置为:
基于预训练语言模型、预测模板和领域知识词,对预测的每个分类标签的概率进行规范化处理,得到规范化后的分类标签的概率;
对每个所述规范化后的分类标签的概率进行加权聚合处理,计算每个分类标签相对于待分类文本的权重,基于所述权重计算对应分类标签的数据处理后的概率。
6.一种文本分类方法,其特征在于,所述方法包括:
获取待分类文本和未标注文本数据,所述未标注文本数据是指不包括标签含义的文本数据;
利用所述待分类文本和未标注文本数据进行语言模型训练,得到预训练语言模型,以及,构建包括掩码填写位置的预测模板,所述掩码填写位置用于填入与所述待分类文本匹配的分类标签;
利用所述预训练语言模型预测所述掩码填写位置在填入不同分类标签时的概率,将产生最大概率的分类标签作为所述待分类文本的目标分类标签。
7.根据权利要求6所述的方法,其特征在于,所述利用所述待分类文本和未标注文本数据进行语言模型训练,得到预训练语言模型,包括:
利用数个异构语言模型对所述未标注文本数据进行训练,得到包括数个不同的第一语言模型的初始预训练语言模型;
利用所述初始预训练语言模型对所述待分类文本进行训练,得到包括数个不同的第二语言模型的预训练语言模型。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
在利用预训练语言模型预测掩码填写位置在填入不同分类标签时的概率之后,获取每个分类标签的相关词,基于所述相关词,构建每个分类标签对应的领域知识词;
基于所述预训练语言模型、预测模版和每个分类标签对应的领域知识词,对每个分类标签的概率进行数据处理,将数据处理后产生最大概率的分类标签作为所述待分类文本的目标分类标签。
9.根据权利要求8所述的方法,其特征在于,所述获取每个分类标签的相关词,包括:
基于知识库,获取每个分类标签的初始领域知识词;
通过开源的word2vec模型,生成每个分类标签对应的最近邻知识词;
通过开源词典,获取每个分类标签的同义词、上位词和下位词;
基于每个分类标签的定义,构建对应的包括掩码填写位置的预测模板,利用预训练语言模型对掩码填写位置填入的关键词进行预测,获得每个分类标签对应的包括关键词的词表;
将所述初始领域知识词、同义词、上位词、下位词、最近邻知识词和词表作为每个分类标签对应的相关词。
10.根据权利要求8所述的方法,其特征在于,基于所述预训练语言模型、预测模版和每个分类标签对应的领域知识词,对每个分类标签的概率进行数据处理,包括:
基于预训练语言模型、预测模板和领域知识词,对预测的每个分类标签的概率进行规范化处理,得到规范化后的分类标签的概率;
对每个所述规范化后的分类标签的概率进行加权聚合处理,计算每个分类标签相对于待分类文本的权重,基于所述权重计算对应分类标签的数据处理后的概率。
CN202111275404.8A 2021-10-29 2021-10-29 一种文本分类方法及服务器 Pending CN113961705A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111275404.8A CN113961705A (zh) 2021-10-29 2021-10-29 一种文本分类方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111275404.8A CN113961705A (zh) 2021-10-29 2021-10-29 一种文本分类方法及服务器

Publications (1)

Publication Number Publication Date
CN113961705A true CN113961705A (zh) 2022-01-21

Family

ID=79468592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111275404.8A Pending CN113961705A (zh) 2021-10-29 2021-10-29 一种文本分类方法及服务器

Country Status (1)

Country Link
CN (1) CN113961705A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114647732A (zh) * 2022-05-23 2022-06-21 之江实验室 一种面向弱监督文本分类系统、方法和装置
CN115130437A (zh) * 2022-08-31 2022-09-30 南京擎盾信息科技有限公司 一种文档智能填写方法、装置及存储介质
CN115248846A (zh) * 2022-07-26 2022-10-28 贝壳找房(北京)科技有限公司 文本识别方法、设备、介质和程序产品
CN115358186A (zh) * 2022-08-31 2022-11-18 南京擎盾信息科技有限公司 一种槽位标签的生成方法、装置及存储介质
CN116738298A (zh) * 2023-08-16 2023-09-12 杭州同花顺数据开发有限公司 一种文本分类方法、系统和存储介质
CN116737935A (zh) * 2023-06-20 2023-09-12 青海师范大学 基于提示学习的藏文文本分类方法、装置及存储介质
WO2023197613A1 (zh) * 2022-04-15 2023-10-19 苏州浪潮智能科技有限公司 一种小样本微调方法、系统及相关装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368078A (zh) * 2020-02-28 2020-07-03 腾讯科技(深圳)有限公司 一种模型训练的方法、文本分类的方法、装置及存储介质
CN111460118A (zh) * 2020-03-26 2020-07-28 聚好看科技股份有限公司 一种人工智能冲突语义识别方法及装置
CN111680145A (zh) * 2020-06-10 2020-09-18 北京百度网讯科技有限公司 知识表示学习方法、装置、设备以及存储介质
CN112417877A (zh) * 2020-11-24 2021-02-26 广州平云信息科技有限公司 一种基于改进bert的文本蕴含关系识别方法
CN112487814A (zh) * 2020-11-27 2021-03-12 北京百度网讯科技有限公司 实体分类模型训练方法、实体分类方法、装置及电子设备
CN112686044A (zh) * 2021-01-18 2021-04-20 华东理工大学 一种基于语言模型的医疗实体零样本分类方法
CN113312914A (zh) * 2021-04-30 2021-08-27 西安理工大学 一种基于预训练模型的安全事件实体识别方法
CN113553429A (zh) * 2021-07-07 2021-10-26 北京计算机技术及应用研究所 一种规范化标签体系构建及文本自动标注方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368078A (zh) * 2020-02-28 2020-07-03 腾讯科技(深圳)有限公司 一种模型训练的方法、文本分类的方法、装置及存储介质
CN111460118A (zh) * 2020-03-26 2020-07-28 聚好看科技股份有限公司 一种人工智能冲突语义识别方法及装置
CN111680145A (zh) * 2020-06-10 2020-09-18 北京百度网讯科技有限公司 知识表示学习方法、装置、设备以及存储介质
CN112417877A (zh) * 2020-11-24 2021-02-26 广州平云信息科技有限公司 一种基于改进bert的文本蕴含关系识别方法
CN112487814A (zh) * 2020-11-27 2021-03-12 北京百度网讯科技有限公司 实体分类模型训练方法、实体分类方法、装置及电子设备
CN112686044A (zh) * 2021-01-18 2021-04-20 华东理工大学 一种基于语言模型的医疗实体零样本分类方法
CN113312914A (zh) * 2021-04-30 2021-08-27 西安理工大学 一种基于预训练模型的安全事件实体识别方法
CN113553429A (zh) * 2021-07-07 2021-10-26 北京计算机技术及应用研究所 一种规范化标签体系构建及文本自动标注方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023197613A1 (zh) * 2022-04-15 2023-10-19 苏州浪潮智能科技有限公司 一种小样本微调方法、系统及相关装置
CN114647732A (zh) * 2022-05-23 2022-06-21 之江实验室 一种面向弱监督文本分类系统、方法和装置
CN114647732B (zh) * 2022-05-23 2022-09-06 之江实验室 一种面向弱监督文本分类系统、方法和装置
CN115248846A (zh) * 2022-07-26 2022-10-28 贝壳找房(北京)科技有限公司 文本识别方法、设备、介质和程序产品
CN115130437A (zh) * 2022-08-31 2022-09-30 南京擎盾信息科技有限公司 一种文档智能填写方法、装置及存储介质
CN115358186A (zh) * 2022-08-31 2022-11-18 南京擎盾信息科技有限公司 一种槽位标签的生成方法、装置及存储介质
CN115358186B (zh) * 2022-08-31 2023-11-14 南京擎盾信息科技有限公司 一种槽位标签的生成方法、装置及存储介质
CN116737935A (zh) * 2023-06-20 2023-09-12 青海师范大学 基于提示学习的藏文文本分类方法、装置及存储介质
CN116737935B (zh) * 2023-06-20 2024-05-03 青海师范大学 基于提示学习的藏文文本分类方法、装置及存储介质
CN116738298A (zh) * 2023-08-16 2023-09-12 杭州同花顺数据开发有限公司 一种文本分类方法、系统和存储介质
CN116738298B (zh) * 2023-08-16 2023-11-24 杭州同花顺数据开发有限公司 一种文本分类方法、系统和存储介质

Similar Documents

Publication Publication Date Title
CN113961705A (zh) 一种文本分类方法及服务器
Meng et al. Weakly-supervised hierarchical text classification
Bakhtin et al. Real or fake? learning to discriminate machine from human generated text
Lin et al. Discovering new intents via constrained deep adaptive clustering with cluster refinement
US11809828B2 (en) Systems and methods of data augmentation for pre-trained embeddings
Misra et al. Seeing through the human reporting bias: Visual classifiers from noisy human-centric labels
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN104285224B (zh) 用于对文本进行分类的方法
CN111737426B (zh) 问答模型的训练方法、计算机设备以及可读存储介质
CN109697289A (zh) 一种改进的用于命名实体识别的主动学习方法
CN112507039A (zh) 基于外部知识嵌入的文本理解方法
CN111859964A (zh) 一种语句中命名实体的识别方法及装置
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN112052318A (zh) 一种语义识别方法、装置、计算机设备和存储介质
CN113255822A (zh) 一种用于图像检索的双重知识蒸馏方法
US11983202B2 (en) Computer-implemented method for improving classification of labels and categories of a database
Yue et al. Ctrl: Clustering training losses for label error detection
US11948387B2 (en) Optimized policy-based active learning for content detection
CN113761188A (zh) 文本标签确定方法、装置、计算机设备和存储介质
CN108256030A (zh) 一种基于本体的密度自适应概念语义相似度计算方法
CN114036289A (zh) 一种意图识别方法、装置、设备及介质
Wang et al. A recursive ensemble learning approach with noisy labels or unlabeled data
Mei et al. Towards generating diverse audio captions via adversarial training
CN114462673A (zh) 用于预测未来事件的方法、系统、计算设备和可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination