CN116737935A

CN116737935A - 基于提示学习的藏文文本分类方法、装置及存储介质

Info

Publication number: CN116737935A
Application number: CN202310736933.6A
Authority: CN
Inventors: 赵维纳; 安波; 李琳; 耿生玲
Original assignee: Qinghai Normal University
Current assignee: Qinghai Normal University
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-09-12
Anticipated expiration: 2043-06-20
Also published as: CN116737935B

Abstract

本发明涉及基于提示学习的藏文文本分类方法、装置及存储介质，应用于藏文文本分类技术领域，包括：在现有的藏文预训练语言模型的基础上采用提示学习实现藏文文本分类，通过藏文音节组合模型实现将藏文文本原有的文音节表示组合为藏文词汇表示，提升藏文表示的质量，然后根据分类任务的需求，设计不同的分类提示模板，对不同分类提示模板的结果进行融合，进而实现藏文文本分类的目的，通过提示学习能够减少模型训练过程中对训练数据规模的要求，取得更好的效果，有效的克服藏文文本自然语言处理任务的标注数据不足的问题。

Description

基于提示学习的藏文文本分类方法、装置及存储介质

技术领域

本发明涉及藏文文本分类技术领域，具体涉及基于提示学习的藏文文本分类方法、装置及存储介质。

背景技术

藏文文本分类是藏文自然语言处理基础任务，能够支撑情感分析、垃圾邮件分类等应用，具有重要的研究价值和应用价值，随着移动互联网在青藏高原地区的普及，藏文文本分类的应用需求越发强烈；

传统的藏文文本分类方法主要是基于统计学习和基于深度学习的，如基于SVM的藏文文本分类，基于卷积神经网络(Convolutional Neural Networks,CNN)的文本分类，传统的藏文文本分类模型需要大量的训练数据，深度学习模型对训练数据的规模有更高的要求，然而，标注数据不足是藏文等少数民族语言处理所普遍面临的问题，以藏文文本分类任务为例，目前公开的藏文文本分类数据集TCNN包含12种类别的新闻，共9000多条数据，远低于中文/英文文本分类的数据集的规模，其他藏文自然语言处理任务的训练数据(如命名实体识别、关系抽取、情感分类)则更缺少相应的公开数据，标注数据稀缺直接限制了藏文自然语言处理技术的发展及应用。

发明内容

有鉴于此，本发明的目的在于提供基于提示学习的藏文文本分类方法、装置及存储介质，以解决现有技术中，模型的训练需要大量的训练数据，而藏文文本分类缺少相应的标注数据，限制了模型的训练效果，导致模型的分类精度不高的问题。

根据本发明实施例的第一方面，提供基于提示学习的藏文文本分类方法，所述方法包括：

通过藏文音节组合模型对藏文文本进行分词，得到多个藏文词汇表示；

根据分类需求设置多个分类提示模板，将所述多个藏文词汇表示分别输入到所述掩码语言模型中；

所述掩码语言模型分别预测每个藏文词汇表示与不同分类提示模板的匹配概率，将每个分类提示模板对应的多个藏文词汇表示的匹配概率相加，得到每个分类提示模板与所述藏文文本的匹配概率，选择匹配概率最大的分类提示模板作为藏文文本的分类结果。

优选地，

所述通过藏文音节组合模型对藏文文本进行分词，得到藏文词汇表示包括：

所述藏文音节组合模型将藏文文本中表示单独词汇的组合音节进行分离，得到多组组合音节，每一组组合音节为一个藏文词汇表示。

优选地，

所述多个分类提示模板包括多语种编写的多个分类提示模板。

优选地，

所述多语种编写的多个分类提示模板包括：藏文分类提示模板、中文分类提示模板以及英文分类提示模板，在多个分类提示模板中，每一个分类提示模板均分别对应有藏文编写的提示模板、中文编写的提示模板以及英文编写的提示模板。

优选地，

将每个分类提示模板对应的多个藏文词汇表示的匹配概率相加，得到每个分类提示模板与所述藏文文本的匹配概率，选择匹配概率最大的分类提示模板作为藏文文本的分类结果包括：

将所述藏文分类提示模板对应的多个藏文词汇表示的匹配概率相加，得到每个藏文分类提示模板与所述藏文文本的第一匹配概率；

将所述中文分类提示模板对应的多个藏文词汇表示的匹配概率相加，得到每个中文分类提示模板与所述藏文文本的第二匹配概率；

将所述英文分类提示模板对应的多个藏文词汇表示的匹配概率相加，得到每个中文分类提示模板与所述藏文文本的第三匹配概率；

将所述第一匹配概率、第二匹配概率以及第三匹配概率相加得到每一个分类提示模板与所述藏文文本的最终匹配概率；

选取最终匹配概率最大的分类模板作为藏文文本的分类结果。

优选地，

所述藏文音节组合模型为Transformer模型、BiLSTM模型或CNN模型中的一个或多个组合。

根据本发明实施例的第二方面，提供基于提示学习的藏文文本分类装置，所述装置包括：

分词模块：用于通过藏文音节组合模型对藏文文本进行分词，得到多个藏文词汇表示；

模板设置模块：用于根据分类需求设置多个分类提示模板，将所述多个藏文词汇表示分别输入到所述掩码语言模型中；

分类预测模块：用于所述掩码语言模型分别预测每个藏文词汇表示与不同分类提示模板的匹配概率，将每个分类提示模板对应的多个藏文词汇表示的匹配概率相加，得到每个分类提示模板与所述藏文文本的匹配概率，选择匹配概率最大的分类提示模板作为藏文文本的分类结果。

根据本发明实施例的第三方面，提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被主控器执行时，实现所述的上述方法中的各个步骤。

本发明的实施例提供的技术方案可以包括以下有益效果：

本申请中，在现有的藏文预训练语言模型的基础上采用提示学习实现藏文文本分类，通过藏文音节组合模型实现将藏文文本原有的文音节表示组合为藏文词汇表示，提升藏文表示的质量，然后根据分类任务的需求，设计不同的分类提示模板，对不同分类提示模板的结果进行融合，进而实现藏文文本分类的目的，通过提示学习能够减少模型训练过程中对训练数据规模的要求，取得更好的效果，有效的克服藏文文本自然语言处理任务的标注数据不足的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的基于提示学习的藏文文本分类方法的流程示意图；

图2是根据一示例性实施例示出的提示学习的原理示意图；

图3是根据一示例性实施例示出的基于Transformer的藏文词表示方法的原理示意图；

图4是根据一示例性实施例示出的藏文文本分类示意图；

图5是根据一示例性实施例示出的藏文文本分类伪代码示意图；

图6是根据一示例性实施例示出的藏文文本分类案例流程图；

图7是根据一示例性实施例示出的基于提示学习的藏文文本分类装置的系统示意图；

附图中：1-分词模块，2-模板设置模块，3-分类预测模块。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与本发明的一些方面相一致的装置和方法的例子。

实施例一

图1是根据一示例性实施例示出的基于提示学习的藏文文本分类方法的流程示意图，如图1所示，该方法包括：

S1，通过藏文音节组合模型对藏文文本进行分词，得到多个藏文词汇表示；

S2，根据分类需求设置多个分类提示模板，将所述多个藏文词汇表示分别输入到所述掩码语言模型中；

S3，所述掩码语言模型分别预测每个藏文词汇表示与不同分类提示模板的匹配概率，将每个分类提示模板对应的多个藏文词汇表示的匹配概率相加，得到每个分类提示模板与所述藏文文本的匹配概率，选择匹配概率最大的分类提示模板作为藏文文本的分类结果；

可以理解的是，本申请的核心思想设计实现一个基于提示学习的低资源藏文文本分类方法，该方法在现有的藏文预训练语言模型的基础上，采用提示学习实现藏文文本分类，并根据藏语语言的特点，对藏文表示进行优化，具体的，通过藏文音节组合模型对藏文文本进行分词，得到该藏文文本对应的多个藏文词汇表示，根据分类需求设置多个分类提示模板，将所述多个藏文词汇表示分别输入到所述掩码语言模型中，通过掩码语言模型分别预测每个藏文词汇表示与不同分类提示模板的匹配概率，将每个分类提示模板对应的多个藏文词汇表示的匹配概率相加，得到每个分类提示模板与所述藏文文本的匹配概率，选择匹配概率最大的分类提示模板作为藏文文本的分类结果，值得强调的是，如附图2所示，提示学习是一种典型的小样本学习方法，是利用大规模预训练语言模型训练时本身的掩码语言模型(Masked Language Model，MLM)任务，MLM任务的目标是在输入的句子中随机MASK一些词，然后让模型预测这些被MASK的词是什么，这两个任务的训练可以使Bert模型学习到语言的上下文信息，并且生成具有语义信息的词向量表示，这些词向量可以用于下游任务的微调，语言模型在训练时，会将其中的部分字/词使用MASK标签进行替换，语言模型的训练目标是预测出MASK位置原本的词汇，通过这种方式让语言模型具有理解上下文和预测目标词汇的能力，从而将下游任务建模为语言模型的掩码生成问题，模型学习的目标是利用上下文信息预测出MASK标签位置原来对应的词汇，通过上述方法模型可以在没有标注数据的情况下自动地构建大规模的训练数据，让模型拥有上下文理解和词汇预测的能力；通过提示学习能够减少模型训练过程中对训练数据规模的要求，取得更好的效果，有效的克服藏文文本自然语言处理任务的标注数据不足的问题，本申请则是利用语言模型的文本预测能力，将文本分类转化为文本类别预测任务，具体来说，给定一段文本，我们将其类别作为MASK，在语言模型中进行预测，即预测MASK位置最可能的文本类别，从而实现小样本文本分类。

优选地，

所述藏文音节组合模型将藏文文本中表示单独词汇的组合音节进行分离，得到多组组合音节，每一组组合音节为一个藏文词汇表示；

可以理解的是，藏文的书写系统与汉语类似，词汇之间没有空格，音节是藏文的基本书写单元，不同的音节之间通常有音节点隔开，音节组合成有意义的词汇，然而目前的藏文预训练语言模型包括CINO、robert-base-tibet等均使用音节作为基本的表示单元，没有考虑藏文词作为独立语义单元的特点，因此，本实施例中通过藏文音节组合模型将一个词的音节表示进行组合得到词汇的表示，附图3给出了藏文音节组合模型采用Transformer模型时的整体框架。

优选地，

所述多个分类提示模板包括多语种编写的多个分类提示模板；

可以理解的是，由于现有的预训练语言模型是包含藏文的多语言预训练语言模型，但是目前藏文的数据量有限，如果仅仅采用藏文的分类提示模板会导致模型对藏文的理解不足，那么后续的分类结果也会出现偏差，所以采用多语种的分类提示模板能够取得更好的效果。

优选地，

所述多语种编写的多个分类提示模板包括：藏文分类提示模板、中文分类提示模板以及英文分类提示模板，在多个分类提示模板中，每一个分类提示模板均分别对应有藏文编写的提示模板、中文编写的提示模板以及英文编写的提示模板；

可以理解的是，基于提示学习进行文本分类的关键在于提示模板(prompttemplate)的设计，通常情况下，提示模板可以分为两种类别：离散模板(discretetemplate)和连续模板(continuous template)，离散模板是指将文本类别作为离散的词或短语插入到输入文本中，例如在输入文本前加上“该文本类别是”这样的前缀，本申请设计了几个简洁有效的人工模板，具体的模板信息如下表所示，其中text_a为输入的文本信息，"mask"为模型要预测的输出，即文本类别，本实施例中，多语种包括藏文、中文以及英文三种，在设置一个分类提示模板后，会分别用藏文、中文以及英文三种语言进行表示，下表分别采用了藏文、中文和英文提示模板作为示例：

优选地，

选取最终匹配概率最大的分类模板作为藏文文本的分类结果；

可以理解的是，给定提示模板后，基于掩码语言模型根据输入的信息预测不同模板的概率，选择概率最大的模板作为预测结果，其计算方法如下所示：

p(t|x)＝max(p_MLM(t_i|x))

式中，t为提示模板，x为输入的藏文词汇表示，MLM为掩码语言模型，由于设计了多语种模板，因此需要对不同的模板进行结果的融合，其融合方法如下所示：

其中y为最终输出的类别，t为提示模板，x为输入的藏文词汇表示，PLM为通过语言模型计算的y的概率，即使用所有模板对应类别概率加和的最大值作为藏文文本的最终匹配概率；

根据上述的藏文小样本文本分类模型，模型的输入为文本内容，输出为文本对应的类型，整体框架如附图4所示，其中“是一篇[MASK]领域的新闻”是提示模板，MASK为模型需要预测的新闻类别和领域，模型的训练和预测的伪代码如附图5所示，训练数据为新闻标题信息及其对应的文本分类，预测数据的输入为类别信息，输出为文本类别。

优选地，

所述藏文音节组合模型为Transformer模型、BiLSTM模型或CNN模型中的一个或多个组合；

可以理解的是，上述的藏文音节组合模型可以采用Transformer模型、BiLSTM模型或CNN模型中的一个或多个组合，均为现有技术中相当成熟的技术，同时，上述的藏文预训练语言模型可以采用CINO、robert-base-tibet等开源模型，也可以使用基于大规模藏文文本训练得到的藏文词向量或预训练语言模型，本申请对此不做任何限定。

如附图6所示，给出了一种具体的藏文文本分类的流程图，先将藏文文本：“(常见的几种治疗方法)”输入到藏文音节组合模型中，设置多语种提示模板：news{"mask"}:{"placeholder":"text_a"}，/>(信息):{"mask"}]{"placeholder":"text_a"}，{"mask"}新闻:{"placeholder":"text_a"}，改造后的输入数据为：news{"mask"}:{"placeholder":″/>(常见的几种治疗方法)"}，[(信息)：{″mask″}]{″placeholder″：″/> (常见的几种治疗方法)"}，{"mask"}新闻:{"placeholder"：″/> (常见的几种治疗方法)"}，输入模型，生成对应的结果：

news{"medicine"}:{"placeholder":″(常见的几种治疗方法)"}；

[(信息)·：{″/>(器械)″}]{″placeholder″：″(常见的几种治疗方法)"}；

{"医药"}新闻:{"placeholder":″(常见的几种治疗方法)"}；

采用投票算法，获得分类标签最多的标签作为最终的分类结果，上述分类为：medicine。

实施例二

图7是根据一示例性实施例示出的基于提示学习的藏文文本分类装置的系统示意图，如图6所示，该装置包括：

分词模块1：用于通过藏文音节组合模型对藏文文本进行分词，得到多个藏文词汇表示；

模板设置模块2：用于根据分类需求设置多个分类提示模板，将所述多个藏文词汇表示分别输入到所述掩码语言模型中；

分类预测模块3：用于所述掩码语言模型分别预测每个藏文词汇表示与不同分类提示模板的匹配概率，将每个分类提示模板对应的多个藏文词汇表示的匹配概率相加，得到每个分类提示模板与所述藏文文本的匹配概率，选择匹配概率最大的分类提示模板作为藏文文本的分类结果；

可以理解的是，本申请还提供了用于实现上述方法的装置，包括：分词模块1通过藏文音节组合模型对藏文文本进行分词，得到多个藏文词汇表示；模板设置模块2用于根据分类需求设置多个分类提示模板，将所述多个藏文词汇表示分别输入到所述掩码语言模型中；分类预测模块3用于所述掩码语言模型分别预测每个藏文词汇表示与不同分类提示模板的匹配概率，将每个分类提示模板对应的多个藏文词汇表示的匹配概率相加，得到每个分类提示模板与所述藏文文本的匹配概率，选择匹配概率最大的分类提示模板作为藏文文本的分类结果；在现有的藏文预训练语言模型的基础上采用提示学习实现藏文文本分类，通过藏文音节组合模型实现将藏文文本原有的文音节表示组合为藏文词汇表示，提升藏文表示的质量，然后根据分类任务的需求，设计不同的分类提示模板，对不同分类提示模板的结果进行融合，进而实现藏文文本分类的目的，通过提示学习能够减少模型训练过程中对训练数据规模的要求，取得更好的效果，有效的克服藏文文本自然语言处理任务的标注数据不足的问题。

实施例三：

本实施例提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被主控器执行时，实现上述方法中的各个步骤；

可以理解的是，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.基于提示学习的藏文文本分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求3所述的方法，其特征在于，

5.根据权利要求4所述的方法，其特征在于，

6.根据权利要求1-5任意一项所述的方法，其特征在于，

7.基于提示学习的藏文文本分类装置，其特征在于，所述装置包括：

8.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被主控器执行时，实现如权利要求1-6任一项所述的基于提示学习的藏文文本分类方法中的各个步骤。