CN113723106B

CN113723106B - 基于标签扩展的零样本文本分类方法

Info

Publication number: CN113723106B
Application number: CN202110861340.3A
Authority: CN
Inventors: 胡永利; 陈普满; 刘腾飞; 尹宝才; 孙艳丰
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2024-03-12
Anticipated expiration: 2041-07-29
Also published as: CN113723106A

Abstract

本发明公开了基于标签扩展的零样本文本分类方法，该方法包括以下两个步骤：步骤一：扩展标签；对数据集的假设标签信息通过专家知识，大型的知识库以及与预训练的语言模型扩充丰富其语义知识。步骤二：零样本文本分类；BERT是基于注意力的双向语言模型，将标识作为输入，BERT通过多层的Transformer编码器获取标识嵌入。将BERT在大型的文本蕴含数据集上进行预训练。对BERT模型进行微调和预训练完成之后，对可见类别的实例S进行训练。照BERT的输入标识规则输入BERT中，BERT提取两句话的特征，最后将特征通过线性层输出两句话蕴含和矛盾的概率。训练完成之后，任意输入测试集的两句话进行蕴含测试。使得标签和文本之间蕴含更多的语义信息来提高泛化的零样本文本分类性能。

Description

基于标签扩展的零样本文本分类方法

技术领域

本发明涉及一种基于标签扩展的零样本文本分类方法，尤其是用于自然语言处理技术领域中的零样本文本分类方法。

背景技术

传统的零样本学习指的是训练一个模型，使模型对训练集中不可见类别的样本进行识别。但是这个基于测试样本属于不可见类别的前提。对此泛化的零样本学习被提出，模型需要对可见类别和不可见类别的样本进行识别。零样本文本分类是零样本学习的一个重要研究热点。现有的研究主要包含基于分段模型的方法，基于文本蕴含的方法以及基于直推式的方法。

1)基于分段模型的方法

零样本学习在图像分类中被广泛研究。零样本学习的一般思想是将可见类别的知识迁移到不可见类别，绝大多数图像零样本分类方法是在图像特征空间和类别语义空间(例如视觉属性，类别名的词嵌入和类别层)之间学习一个匹配模型。

对于零样本文本分类，类似的方法被采纳了。解决零样本文本分类有一个很流行的两段式框架。如图1所示，在这个模型中四种语义知识(词嵌入，类别表示，类别层级结构和知识图谱)被混合。模型首先通过数据增强针对训练集中的每个类别训练一个二分类器，得到识别每个类别所需的分类器参数，这一步的作用是得到文本是可见类别还是不可见类别的标签信息，如果测试样本通过每个分类器的分类概率都小于一个给定的阈值，则将这个测试样本分为不可见类别，如果测试样本在某个分类器的概率比较大，则将这个测试样本归结为可见类别；模型的第二阶段包含两个分类器，当在第一阶段的样本被分类为可见类别的样本时，在第二阶段将被输入到传统的分类器中，当在第一阶段测试样本被分为不可见类别时，样本在第二阶段将被输入零样本文本分类器中。对于第二阶段零样本文本分类器的训练作者通过词嵌入，类别表示，类别层和知识图谱进行了特征增强来提高零样本分类的性能。这些工作受益于大规模训练语料库和外部语义知识。此类方法的缺点是操作复杂，且分类关键严重依赖于第一阶段的分类结果。

2)基于文本蕴含的方法

传统的文本分类方法是将标签定义为{0，1，2，3...}。这样的定义方式既不能理解样本的特定解释也不能理解标签的具体含义。人类可以很容易的决定标签的真实价值因为人类可以正确解释并且理解这些标签的意义。零样本文本分类的最终目标是开发智能机器使其能力赶上人类的水平。为此，确保系统能够理解样本以及标签的含义起着至关重要的作用。

文本间的推理关系，又称为文本蕴含关系(Textual Entailment)，作为一种基本的文本间语义联系，广泛存在于自然语言文本中。简单地来说文本蕴含关系描述的是两个文本之间的推理关系，其中一个文本作为前提(premise)，另一个文本作为假设(hypothesis)，如果根据前提P能够推理得出假设H，那么就说P蕴含H。这跟一阶逻辑中的蕴含关系是类似的。例如，如表1所示，这句子中前提P是“Adogjumping for a Frisbee inthe snow”，意思一只狗在雪地中接飞盘玩，同时给出了三个假设，这三个假设中前提跟第一个是蕴含关系(entailment)，因为这句话描述的是“一个动物正在寒冷室外玩塑料玩具”，这是能够从前提推理出来的；第二句化描述的是“一只猫...”，这跟前提是冲突的(contradiction)；第三句话与前提既不是蕴含关系也没有冲突，把它定义成中立的(neutral)。

文本蕴含方法是将零样本学习通过间接的方法转换为蕴含问题。最近，BERT(Bidirectional Encoder Representations from Transformers，BERT)语言模型在很多自然语言处理任务上都刷新了指标。在大量语料库上预先训练的BERT将零样本文本分类问题转换为文本蕴含问题，将文本和标签同时输入到BERT模型并将模型自适应为蕴含分类任务。这类方法的不足是假设只是简单的利用标签作为假设，而没有去探索更好的假设生成方式。

3)基于直推式的方法

在训练过程中，如果用到了测试集中的样本，则称为实例直推式学习。在零样本图像分类的域迁移问题中，有一些工作是利用无标签数据来解决。但是在零样本文本分类中很少用直推式学习。如图2所示，模型通过强化自训练实现零样本文本分类，自训练是在半监督学习中广泛使用的算法，其基本学习过程是迭代地选择置信度高地无标签数据，并且将这些伪标签数据添加到训练集中。其缺点是加入了无标签的不可见类样本，但是认为在实际中很难确定不可见类的样本。

发明内容

传统的基于蕴含方法的零样本文本分类对于标签的生成方式还未挖掘，对此通过语义扩展来丰富类别标签，使得标签和文本之间蕴含更多的语义信息来提高泛化的零样本文本分类性能。据所知，是将标签扩展第一次用于零样本文本分类。

对于基于标签扩展的零样本文本分类研究，主要解决的是如何对标签进行精确地扩展，以此来保证扩展后的标签能够精准的代表此标签的语义信息，并且不加入多余的噪声防止降低分类的准确性。

基于标签扩展的零样本文本分类方法，该方法包括以下两个步骤：

步骤一：扩展标签

对数据集的假设标签信息通过专家知识，大型的知识库以及与预训练的语言模型来进行扩充，以此丰富其语义知识。具体扩展过程如下所示：

1)首先利用专家知识为每个标签增加2-3个关键词，专家知识通过搜索引擎或者人工获得。

2)ConceptNet以三元组形式的关系型知识构成。ConceptNet的结点表示的是词，边表示的是词与词之间的关系。为了获取标签更广泛的关系语义信息，通过ConceptNet来搜索专家词的相似词来再次扩充标签，这次标签得到一些常识性的单词。

3)使用BERT对专家词汇进行扩展，具体如下，将数据集中带有专家词汇如science的句子入预训练的BERT中，这样获得标签的内容化词向量h,然后通过MLM模型获得词汇表中每个词和专家词汇相似的概率p，这个过程表示为，

p(w|h)＝(W²σ(W¹h+b))

其中，w是词汇表中的一个词，W¹，W²表示模型要学习的参数，σ是激活函数，b是偏差。

在获得专家词与词汇表中每个词的相似概率，选取概率最高的前50个词。对于数据集中的所有出现专家词汇的句子，在获得专家词与词汇表中概率最高的前50个词之外，选取重复率最高的50个词作为代表这个标签的词汇表。

通过以上方法获得数据集中每个标签的扩展词汇，标签词汇表包含代表这个标签的由ConceptNet创建的一般知识和由预训练语言模型创建的内容化知识。

步骤二：零样本文本分类

首先对泛化的零样本学习进行定义。可见类别的实例S中，零样本文本分类致力于学习一个分类器f(˙):X→Y，其中Y＝S∪U,U是不可见类别的一个集合。

BERT是一个基于注意力的双向语言模型。将标识作为输入，BERT通过多层的Transformer编码器获取标识的嵌入。将BERT在大型的文本蕴含数据集上进行了预训练。对BERT模型进行微调和预训练完成之后，对可见类别的实例S进行训练。照BERT的输入标识规则输入BERT中，BERT提取两句话的特征，最后将这个特征通过线性层输出两句话蕴含和矛盾的概率。训练完成之后，任意输入测试集的两句话进行蕴含测试，其中测试集的假设标签空间包含可见类别和不可见类别即Y＝S∪U。

进一步地，在扩展标签的时候，为了标签的代表的语义不明确，去除在不同标签中重叠的词。

附图说明

图1基于分段模型的零样本文本分类框架。

图2基于直推式的零样本文本分类框架。

图3基于BERT的标签扩展模型。

图4基于蕴含方法的零样本文本分类。

具体实施方式

以下结合附图和实施例对本发明进行详细说明。

本发明采用的技术方案为基于标签扩展的零样本文本分类方法，该方法包括如下步骤，步骤一：扩展标签

对于蕴含方法的零样本文本分类问题，假设(标签)的信息引用到了蕴含模型中，所以标签的语义信息也是相当重要的。但是仅仅用一个词或者用一个句子来表示标签信息是远远不够的。对此，对数据集的假设(标签)信息通过专家知识，大型的知识库以及与预训练的语言模型来进行扩充，以此丰富其语义知识。具体扩展过程如下所示：

4)首先利用专家知识为每个标签增加2-3个关键词，专家知识可以通过搜索引擎或者人工获得。例如，‘science’这个标签通过搜索引擎可以得到‘science，mathematics’这两个专家词来扩充这个标签。

5)ConceptNet是自然语言处理中常用常识知识库，是以三元组形式的关系型知识构成。如图1所示，ConceptNet的结点表示的是词，边表示的是词与词之间的关系。为了获取标签更广泛的关系语义信息，通过ConceptNet来搜索专家词的相似词来再次扩充标签，这次标签可以得到一些常识性的单词。例如，‘science，mathematics’通过ConceptNet扩充的关系相关词汇为‘chemistry biology study physics discipline science numbersclassroom polymathchange mathematically’。

6)预训练语言模型BERT(Bidirectional Encoder Representations fromTransformers,BERT)由于包含的多层注意力机制以及在含有大量的新文章和一般领域语料库的维基百科上进行训练的优势，被广泛地用于许多自然语言处理任务，如机器翻译，阅读理解。对此，为了更进一步获得标签的内容化语义知识，使用BERT对专家词汇进行扩展，具体如下，

如图3所示，将数据集中带有专家词汇如science的句子入预训练的BERT中，这样的目的是获得标签的内容化词向量h,然后通过MLM(Mask Language Model,MLM)模型获得词汇表中每个词和专家词汇相似的概率p，这个过程可以表示为，

p(w|h)＝(W²σ(W¹h+b))

在获得专家词与词汇表中每个词的相似概率，选取概率最高的前50个词。对于数据集中的所有出现专家词汇的句子，在获得专家词与词汇表中概率最高的前50个词之外，选取重复率最高的50个词作为代表这个标签的词汇表。例如，Science这个标签通过预训练语言模型获得的扩充词汇为‘science physics biology scientific chemistrysciences scientist scientists researchmathematics theory engineering fielddesign geometry math mechanics algebra studypsychology typechemical methodspace’。

注意：在扩展标签的时候，为了标签的代表的语义不明确，去除在不同标签中重叠的词。

步骤二：零样本文本分类

首先对泛化的零样本学习进行一个简单的定义。给一些可见类别的实例S，零样本文本分类致力于学习一个分类器f(˙):X→Y，其中Y＝S∪U,U是不可见类别的一个集合。

BERT(Bidirectional Encoder Representations from Transformers)是一个基于注意力的双向语言模型。将标识(例如，词片)作为输入，BERT通过多层的Transformer编码器获取标识的嵌入(Transformer是一个特征抽取器，由多头注意力构成)。当在大型语料库上进行预训练时，在自然语言处理任务的各种变体中，BERT被证明进行迁移学习是非常有效的。

BERT被广泛地微调用来解决各种下游任务，其中也可以微调来解决文本蕴含问题。为了使得BERT的蕴含分类性能更加的有效且使模型更好地进行零样本学习问题，将BERT在大型的文本蕴含数据集上进行了预训练。对BERT模型进行微调和预训练完成之后，对可见类别的实例S进行训练。通过根据标签扩展的蕴含方法解决零样本文本分类问题的框架如图4所示，具体的训练过程是将前提(在分类问题中称为文本)“How come stars aregenerally round because ofthe massive amounts ofgravitational forceinvolved.”和假设(在分类问题中称为标签，训练时的标签仅包含可见类别实例S的标签)“it is related with science or mathematics+extended words”同时按照BERT的输入标识规则输入BERT中，BERT提取两句话的特征，最后将这个特征通过线性层输出两句话蕴含和矛盾的概率。训练完成之后，任意输入测试集的两句话进行蕴含测试，其中测试集的假设(标签)空间包含可见类别和不可见类别即(Y＝S∪U)。在三个长文档数据集emotion，situation，topic上进行零样本文本分类来评估所提出的方法，并将其与一套最先进的相关方法进行了比较。

如表2所示。结果表明提出的方法不论零样本学习还是在泛化的零样本学习上都优于其他方法，证明了标签扩展对于解决零样本文本分类的优越性。

表1句子对之间关系例子

表2在零样本学习下的结果

表3在泛化的零样本学习下的结果，其中其中h＝2*(s*u)/(s+u)

Claims

1.基于标签扩展的零样本文本分类方法，其特征在于：该方法包括以下两个步骤，

步骤一：扩展标签；

对数据集的假设标签信息通过专家知识，大型的知识库以及与预训练的语言模型来进行扩充，以丰富其语义知识；具体扩展过程如下所示：

1)首先利用专家知识为每个标签增加2-3个关键词，专家知识通过搜索引擎或者人工获得；

2)ConceptNet以三元组形式的关系型知识构成；ConceptNet的结点表示的是词，ConceptNet的边表示的是词与词之间的关系；为获取标签更广泛的关系语义信息，通过ConceptNet来搜索专家词的相似词来再次扩充标签，得到常识性单词；

3)使用BERT对专家词汇进行扩展，将数据集中带有专家词汇science的句子入预训练的BERT中，获得标签的内容化词向量h，然后通过MLM模型获得词汇表中每个词和专家词汇相似的概率p，表示为，

p(w|h)＝(W²σ(W¹h+b))

其中，w是词汇表中的一个词，W¹，W²表示模型要学习的参数，σ是激活函数，b是偏差；

在获得专家词与词汇表中每个词的相似概率，选取概率最高的前50个词；对于数据集中的所有出现专家词汇的句子，在获得专家词与词汇表中概率最高的前50个词之外，选取重复率最高的50个词作为代表这个标签的词汇表；

通过获得数据集中每个标签的扩展词汇，标签词汇表包含代表这个标签的由ConceptNet创建的一般知识和由预训练语言模型创建的内容化知识；

步骤二：零样本文本分类

首先对泛化的零样本学习进行定义；可见类别的实例S中，零样本文本分类致力于学习一个分类器f(˙):X→Y，其中Y＝S∪U,U是不可见类别的一个集合；

BERT是一个基于注意力的双向语言模型；将标识作为输入，BERT通过多层的Transformer编码器获取标识的嵌入；将BERT在大型的文本蕴含数据集上进行了预训练；对BERT模型进行微调和预训练完成之后，对可见类别的实例S进行训练；照BERT的输入标识规则输入BERT中，BERT提取两句话的特征，最后将这个特征通过线性层输出两句话蕴含和矛盾的概率；训练完成之后，任意输入测试集的两句话进行蕴含测试，其中测试集的假设标签空间包含可见类别和不可见类别即Y＝S∪U。

2.根据权利要求1所述的基于标签扩展的零样本文本分类方法，其特征在于：在扩展标签的时候，为标签的代表的语义不明确，去除在不同标签中重叠的词。