CN115455189A

CN115455189A - 基于提示学习的政策文本分类方法

Info

Publication number: CN115455189A
Application number: CN202211229193.9A
Authority: CN
Inventors: 李响; 唐嘉成; 周凌一; 陈思明; 魏忠钰; 戴鼎璋; 王江华; 王思皓
Original assignee: Tiandao Jinke Co ltd; Zhejiang Zhelixin Credit Reporting Co ltd
Current assignee: Tiandao Jinke Co ltd; Zhejiang Zhelixin Credit Reporting Co ltd
Priority date: 2022-10-08
Filing date: 2022-10-08
Publication date: 2022-12-09

Abstract

本发明公开了一种基于提示学习的政策文本分类方法，属于自然语言处理技术领域。本发明构建了一套完整的政策文件要素体系，通过将政策文件中的的各个不同要素作清晰划分，后续基于这个体系，能够更为准确地实现对政策文件中每个段落的分类。提供的政策文本分类器通过在原始段落

中增加分类任务的提示语言，该提示语言中包含需要预测并填写标签的掩码位置，将段落分类问题转换为类型完形填空的分类预测问题，简化了段落分类预测的过程，能够基于所构建的完整的政策文件要素体系，更精准地从内容构成和文件结构的角度解析政策文件文本，并挖掘出更深层的信息，提高了段落分类的准确度。

Description

基于提示学习的政策文本分类方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于提示学习的政策文本分类方法。

背景技术

政策文件的文本结构划分具有标准可循，甚至用词上也有统一的标准。对政策文件的段落类型进行自动化地识别，对于提高政策文件内容分析的针对性和效率尤为重要。近些年，自然语言处理技术迅猛发展，主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。因此，对于具有结构化的文本内容的政策文件而言，自然语言处理技术不失为对政策文件中的段落进行分类的一种有效手段。

目前，具有较高分类精度的政策文件段落类型识别方法很少，部分学者采用无监督学习的方式训练段落分类识别模型以用于识别政策文件的段落类型，但由于缺乏对政策文件段落的分类、标准，导致训练而得的段落分类识别模型的性能不够稳定。还有部分学者采用监督学习方法训练段落分类识别模型，但同样没有统一的标准对政策文件的段落类型作标签标注，导致训练而得的段落分类识别模型同样不够稳定，且获取大量用于监督学习的训练样本通常需要较高的成本。

发明内容

本发明以实现对政策文件文本段落的准确分类为目的，提供了一种基于提示学习的政策文本分类方法。

为达此目的，本发明采用以下技术方案：

提供一种基于提示学习的政策文本分类方法，步骤包括：

S1，对于给定的政策文件中的段落

，使用模板函数

将

转换为语言模型

的输入

，

在原始的所述段落

中增加了分类任务的提示语言，所述提示语言中包含需要预测并填写标签的掩码位置；

S2，所述语言模型

预测出填入所述掩码位置的标签

；

S3，标签转换器

将所述标签

映射为事先构建的政策文件要素体系的标签词集合

中对应的标签词

作为预测得到的所述段落

的类型。

作为优选，训练所述语言模型

的方法步骤包括：

A1，对于作为训练样本的每个

，计算所述标签词集合

中的每个标签词

填入所述掩码位置的概率分数

；

A2，通过softmax函数计算概率分布

；

A3，根据

和

，并利用所构造的损失函数，计算模型预测损失；

A4，判断是否达到模型迭代训练终止条件，

若是，则终止迭代，输出所述语言模型

；

若否，则调整模型参数后返回步骤A1继续进行迭代训练。

作为优选，

的计算方法通过以下公式（1）表达：

通过softmax函数（2）表达计算：

公式（1）-（2）中，

表示所述标签词

的标签；

表示文本分类任务的标签集合。

作为优选，所构造的所述损失函数通过以下公式（3）表达：

公式（3）中，

表示微调系数；

表示模型预测的分布

与真实分布间的差距；

表示模型预测的分数

与真实分数间的差距。

作为优选，所述语言模型

为由若干个语言子模型

融合形成的融合语言模型，训练所述融合语言模型的方法包括步骤：

B1，定义模板函数集合

，所述模板函数集合

中包含若干个不同的所述模板函数

；

B2，对于作为训练样本的每个

，通过对应的所述语言子模型

，计算所述标签词集合

中的每个标签词

填入所述掩码位置的概率分数

；

B3，对关联每个所述模板函数

的

进行融合得到

；

B4，通过softmax函数计算概率分布

；

B5，根据

和

，并利用所构造的损失函数，计算模型预测损失；

B6，判断是否达到模型迭代训练终止条件，

若是，则终止迭代，输出所述融合语言模型；

若否，则调整模型参数后返回步骤B2继续进行迭代训练。

作为优选，

的计算方法通过以下公式（4）表达：

通过以下公式（5）融合而得：

公式（5）中，

表示所述模板函数集合

中的所述模板函数

的数量；

表示所述模板函数

在计算

时所占的权重；

通过softmax函数（6）计算：

所构造的所述损失函数通过以下公式（7）表达：

公式（7）中，

表示微调系数；

表示模型预测的分布

与真实分布间的差距；

表示模型预测的分数

与真实分数间的差距。

作为优选，所述语言模型

或所述语言子模型

为BERT语言模型。

作为优选，微调系数

。

作为优选，所述政策文件要素体系包括句子级别要素和实体级别要素，所述句子级别要素包括政策目标、申请审核、政策工具-供给型、政策工具-环境型、政策工具-需求型、资金管理、监管评估、准入条件8大类共27个子类别中的任意一种或多种，

其中，所述政策工具-供给型这一大类下包括人才培养、资金支持、技术支持、公共服务这4个子类别中的任意一种或多种；

所述政策工具-环境型这一大类下包括法规管制、目标规划、税收优惠、金融支持、组织建设、政策宣传这6个子类别中的任意一种或多种；

所述政策工具-需求型这一大类下包括政府采购、公司合作、海外合作这3个子类别中的任意一种或多种；

所述监管评估这一大类下包括监督管理和/或考核评估这2个子类别；

所述资金管理这一大类下包括资金来源和/或管理原则这2个子类别。

本发明具有以下有益效果：

1、构建了一套完整的政策文件要素体系，将政策文件中的各个不同要素作清晰划分，后续基于这个体系，能够更为准确地实现对政策文件中每个段落的分类。

2、通过在原始段落

中增加了分类任务的提示语言，该提示语言中包含需要预测并填写标签的掩码位置，将段落分类问题转换为类似完形填空的分类预测问题，简化了段落分类预测的过程，能够基于所构建的完整的政策文件要素体系，更精准地从内容构成和文件结构的角度解析政策文件文本，并挖掘出更深层的信息，并且在有标注的训练数据集规模较小的情况下有优秀的表现。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例构建的政策文件要素体系的示意图；

图2是本发明一实施例提供的预测政策文件的段落类别的逻辑框图；

图3是本发明一实施例提供的基于提示学习的政策信息识别器的逻辑框图；

图4是本发明一实施例用于对比的基于预训练-微调的政策信息识别器的逻辑框图；

图5是本发明一实施例提供的基于提示学习的政策文本分类方法的实现步骤图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

在本发明的描述中，除非另有明确的规定和限定，若出现术语“连接”等指示部件之间的连接关系，该术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

本发明实施例中，申请人收集了一定数量的政策文件，作为政策文件要素体系构建的参考以及后续政策文本分类器的模型训练数据。这些政策文件涉及农业、工业、商业、服务业等各个领域，政策文件的适用对象包括个体、企业、机构等。本实施例所构建的政策文件要素体系如图1所示，根据在文本段落中的字符长度，将体系中的要素分为句子级别和实体级别。句子级别的要素在段落中一般覆盖了整个句子，比如“对成功上市的企业，对经营团队给予市区联动200万元奖励”，这个句子为一条完整的句子，因此被认定为句子级别；而实体级别的要素在段落中一般包含于具有特定意义的词中，比如政策名称、政策文号、发布地区、制定部门等。

进一步地，句子级别的要素又细分为一般形式和“主体-关系-域”形式，一般形式的句子级别要素用于区分段落在政策文本中的内容构成，如图1中的政策目标、申请审核、政策工具、监督评估、资金管理等。而“主体-关系-域”形式的句子级别要素用于结构化地表示政策的准入条件，如与企业注册地相关的准入条件“企业注册地-属于-上海”。具体如图1所示，本实施例所构建的政策文件要素体系的具体内容如下：

1、实体级别的要素包括：政策名称、政策文号、发布地区、制定部门、执行部门、发布时间和执行期限7个类别；

2、一般形式的句子级别的要素包括：政策目标、申请审核、政策工具、监管评估、资金管理5个大类。其中，监管评估被进一步细分为监督管理和考核评估2个子类。资金管理被进一步细分为资金来源和管理规则2个子类。政策工具被进一步细分为如下3个类型共13个子类：

供给型政策工具，包括人才培养（建立人才发展规划，积极完善各种教育体系及培训体系等）、资金支持（提供财力支持，如研发经费和基础设施建设经费等）、技术支持（技术辅导与咨询，加强技术基础设施建设等）、公共服务（完善相关配套设施、政策环境等）。

环境型政策工具，包括法规管制（制定法规、标准，规范市场秩序，加大监管力度）、目标规划（顶层设计，提供相应政策配套服务）、税收优惠（税收减免和退税等政策激励，包括投资减免、加速折扣、免税和租税抵扣等）、金融支持（通过金融机构为企业提供贷款、补助、风险投资、信用担保、基金、风险控制以及其他金融支持）、组织建设（为促进产业健康发展设立领导、监管、服务等组织及队伍建设）、政策宣传（为促进产业发展宣传相关政策）。

需求型政策工具，包括政府采购（政府向相关企业进行产品采购）、公私合作（政府与社会多方主体共同参与产业发展的相关活动，如共同投资、共同开展技术研究、发展规划研究等）、海外合作（引进外资，在生成技术、标准定制等方面与海外政府、企业或科研机构展开合作与交流）。

“主体-关系-域”形式的句子级别的要素包括准入条件，其中又可以细分为8个子类：注册地、产权要求、业务领域、员工构成、法人资格、企业类型、经营要求、研发要求。

在对政策文本进行段落分类前，首先对政策文件的文本内容进行段落拆分。对政策文件的文本内容进行段落拆分的现有方法有许多，且拆分段落的方式也并非本发明请求权利保护的范围，因此有关段落拆分的具体方式在此不做说明。

完成段落拆分后，进入段落分类流程。本实施例中，通过预先训练的政策文本分类器对段落进行分类，进而分析政策文件的内容构成和文件结构。本实施例中，选择图1中所示的政策文件要素体系中的一般形式的句子级别要素作为段落的候选类别集合，并且使用两种不同分类粒度的类别集合为样本分别进行了政策文本分类器的训练并比较了训练效果，其中一个分类粒度的句子级别要素为图1中所示的政策目标、申请审核、政策工具-供给型、政策工具-环境型、政策工具-需求型、资金管理和监管评估共7个大类；另外一个分类粒度为对政策工具、监管评估、资金管理这3个大类扩充后的17个小类以及政策目标、申请审核这两个大类共19个类别。政策文本分类器在对段落进行分类时，还会判断段落是否不属于这些种类的任意一个，即判断是否为无意义段落。

以下对本实施例利用预训练的政策文本分类器对输入的段落进行分类的方法进行具体阐述：

本实施例中，对输入段落进行分类的技术核心是采用了提示学习的思想，提示学习可以简化分类过程、提高分类效率，对于小规模数据集具有更高的分类优越性。具体而言，为了更充分地发挥政策文本分类器强大的问答和阅读理解能力，以及挖掘标注的小规模政策文件文本数据集中包含的更深层次的信息，通过将输入的段落文本按照特定模式进行处理，为其增加任务提示语言，使其更适配语言模型的问答形式。基于提示学习的政策文本分类器进行段落识别的原理如下：

设

为预先训练的语言模型（优选为BERT语言模型），

是政策文件要素体系中的标签词集合，掩码词

被用于填写语言模型

的输入里被遮盖住的掩码位置

的内容，并令

是文本分类任务（段落分类任务）的标签集合。对每个政策文本段落分词后得到输入语言模型

的词序列

，然后使用自定义的模板函数

将

转换为语言模型

的输入

，

在

中增加了分类任务的提示语言，提示语言中包含需要预测并填写标签的掩码位置。经

转换后，可以将段落类型预测问题转换为完形填空问题，即语言模型

以完形填空问题形式表示的

为输入，将预测得到的最合适填入掩码位置的词作为对

表达的段落的分类预测结果。

需要强调的是，本申请基于提示学习的思想，更好地利用了语言模型

的问答和阅读理解能力，同时由于将分类问题转换成了完形填空问题，预测过程更加简单，提高了政策文本分类器的分类效率。进一步地，本实施例定义了一个从文本分类任务的标签集合

到政策文件要素体系中的标签词集合

的映射作为标签的转换器

。例如，对于

中的标签

，该标签转换器

将其映射为标签词

，“政策目标”即为预测的段落类别。

图2是本发明实施例提供的预测政策文件的段落类别的逻辑框图。需要强调的是，对于每一个模板函数

和标签转换器

，本实施例通过以下步骤来实现对段落的分类：

给定一个输入段落

（优选为原始段落的词序列），使用模板函数

将

转换为语言模型

的输入

，语言模型

会预测

中掩码位置最合适的标签

，

，然后使用标签转换器

将这个标签映射为政策文件要素体系中的标签词

，

，并将其作为对段落

的分类。作为优选，本实施例采用预训练的中文BERT模型作为语言模型

，其对掩码位置的预测方法沿用了BERT模型的预训练任务，即使用其对

中掩码位置对应的输出来预测掩码位置的标签（预测方法与BERT模型的Masked Language Model预训练任务一致，不做详细说明）。

举例而言，关于模板函数

，假设定义

为“

。总体而言，这是有关_____的政策文本段落。”其中，“_____”表示掩码位置，这样就为原始文本段落

增加了一个分类任务的提示语言。

例如为“对成功上市的企业，对经营团队给予市区联动200万元奖励”，对于该段落

，增加上述的提示语言后，语言模型

的分类任务为预测“对成功上市的企业，对经营团队给予市区联动200万元奖励。总体而言，这是有关_____的政策文本段落。”中的掩码位置“_____”的标签

。预测出掩码位置后的标签后，将预测到的标签

映射为政策文件要素体系中的标签词集合

中对应的标签词

作为预测得到的段落

的类型。

以下对本实施例训练语言模型

的方法进行说明：

语言模型

优选采用BERT模型，BERT模型的现有训练方法有许多，这些现有的训练方法可应用到本申请中用于训练语言模型

，区别在于，本实施例用于训练语言模型

的样本为经模板函数

转换得到的

以及经标签转换器

转换得到的标签词集合

中对应的标签词

，以及本申请为提高分类精度而改进的用于评估模型性能的损失函数。

训练语言模型

时，本申请将样本数据集按照7:3的比例随机划分为训练集和验证集，训练过程如下：

对于每个政策文本段落产生的只包含一个掩码位置的序列

，对政策文件要素体系中的标签词集合

中的每个标签词

填入该掩码位置的概率计算一个分数（由于标签

在标签词集合

中具有一个存在映射关系的标签词

，因此预测标签

填入该掩码位置的概率分数相当于预测对应的标签词

填入该掩码位置的概率分数），这个分数由语言模型

预测，代表预测出的该标签词可以填入该掩码位置的可能性。更为具体地，对于一个序列

，本申请计算文本分类任务的标签集合

中的标签

填入该掩码位置的概率分数的方法通过以下公式（1）表达：

公式（1）中，

表示标签

填入掩码位置的概率分数，由于标签

与政策文件要素体系的标签词集合

中对应的标签词

具有映射关系，因此

相当于表示标签词

填入掩码位置的概率分数；

，例如可以将图1中的标签词“政策目标”的标签映射为

，将标签词“申请审核”的标签映射为

，通过这样建立映射关系，将所述任务从为输入句子分配一个没有含义的标签变为了选择最有可能填入掩码位置的词。

在计算得到

中所有标签词填入同个掩码位置的分数后，通过softmax函数得到一个概率分布，具体计算方法通过以下公式（2）表达：

公式（2）中，

表示文本分类任务的标签集合。

然后，根据

和

，并利用所构造的损失函数，计算模型预测损失，所构造的损失函数通过以下公式（3）表达：

公式（3）中，

表示微调系数（优选为0.0001）；

表示模型预测的分布

与真实独热向量分布间的差距；

表示模型预测的分数

与真实分数间的差距；

最后，判断是否达到模型迭代训练终止条件，

若是，则终止迭代，输出语言模型

；

若否，则调整模型参数后继续进行迭代训练。

为了进一步提升模型训练效果，进而提升语言模型

的分类性能，优选地，语言模型

为由若干个语言子模型

融合形成的融合语言模型，训练融合语言模型的方法为：

首先，定义一个模板函数集合

，模板函数集合

中包含若干个不同的模板函数

，例如，模板函数

为“

。这个政策文本段落和什么有关_____”，又例如，模板函数

为“这个政策文本段落和什么有关和_____有关”等等。对于不同的模板函数

，本实施例通过以下方法来训练融合语言模型：

对于作为训练样本的每个

，通过对应的语言子模型

计算标签词集合

中的每个标签词

填入掩码位置的概率分数

，计算方法通过以下公式（4）表达：

对关联每个模板函数

的

进行融合得到

，具体通过以下公式（5）表达：

公式（5）中，

表示模板函数集合

中的模板函数

的数量；

表示模板函数

在计算

、

时所占的权重，本实施例中，根据各语言子模型

在训练集和验证集上获得的准确度来确定个

的权重。

然后，通过softmax函数计算概率分布

，计算方法通过以下公式（6）表达：

公式（4）、（5）、（6）中，

；

表示文本分类任务的标签集合；

最后，根据

和

，并利用所构造的损失函数，计算模型预测损失，所构造的损失函数通过以下公式（7）表达：

公式（7）中，

表示微调系数（优选为0.0001）；

表示模型预测的分布

与真实分布间的差距；

表示模型预测的分数

与真实分数间的差距。

本申请提供的以具有提示语言的

为语言模型

的输入的掩码位置标签预测方法在有标注的训练数据集规模较小的情况下具有优秀的预测性能，为了验证其在训练数据较少时的优秀性能，本申请还设计了多种基于完全监督学习的政策文本分类器进行性能比较，具体方法包括：

（1）对于政策文件段落

，使用分词工具得到词序列，记为

,

表示词序列

中的第

个词，再通过在大规模综合领域语料库上预训练得到的词向量表示模型对分词后的每个词进行分布式表示。本实施例中，使用的是静态的词向量，每个词被表示为一个300维的预训练的向量

，

表示词序列

中的第

个词，通过词向量得到段落

的特征表示

后，将段落的特征表示

输入一个多分类器来预测每个段落属于个类别的概率，预测过程表示为：

，

为特征表示函数，

表示段落

为第

个类别的概率，选择其中概率最大的类别作为段落

所述的类别。

（2）在多分类器部分，本申请选择基于统计机器学习和基于深度学习的方法对多分类器进行完全监督学习。其中，基于统计机器学习的多分类器是以支持向量机模型和XGBoost模型为基础设计的；基于深度学习的多分类器是以TextCNN模型和Bi-LSTM+Attention模型为基础设计的。

1）在基于统计机器学习的多分类器中，对一个政策文本段落

，将分词后的段落的所有词的300维分布式表示的每一维取平均值并拼接上段落的长度和在整篇政策文件中的相对位置（段落在文件中的索引值/文件的总分段数）这两个特征后得到一个302维的特征向量

，将其输入到多分类器中，输出该段落分类的标签。

2）在基于深度学习的多分类器中，对一个政策文本段落

，将分词后的段落的所有词的分布式表示

拼接成一个矩阵，并用3种不同尺寸的卷积核去提取特征，3种卷积核的大小可以分别为3×3、4×4、5×5，卷积后再进行最大池化，最后将不同尺寸的卷积核提取的特征拼接为特征向量输入到softmax激活函数后输出该段落分类的标签。

3）在另一个基于深度学习的多分类器中，对一个政策文本段落

，将分词后的段落的所有词的300维分布式表示

正向输入到LSTM长短时记忆网络中得到

，逆向输入LSTM得到

，并将两者对应时序的元素相加得到每个时序的输出向量

。然后通过Attention机制，计算每个时序的权重并将所有时序的向量加权求和作为特征向量，最后使用softmax函数进行分类。

以下展示了通过方法（1）以及方法（2）中的1）、2）、3）四种方法训练得到的多分类器与通过本发明实施例提供的基于提示语言和掩码位置标签预测的政策文本分类方法训练的语言模型

对图1中所示的“政策目标、申请审核、政策工具-供给型、政策工具-环境型、政策工具-需求型、监督管理、考核评估、资金来源、管理原理”9大类以及“政策目标、申请审核、人才培养、资金支持、技术支持、公共服务、法规管制、目标规划、税收优惠、金融支持、组织建设、政策宣传、政府采购、公私合作、海外合作、监督管理、考核评估、资金来源、管理原则”19类这两种不同粒度的政策文件的段落分类的效果对比表，评价指标为测试集上的正确率。由下表可知：本实施例训练的语言模型

在段落

中增加分类任务提示语言进行掩码位置标签预测的段落文本分类方法在小规模数据集上表现出了比其他四种方法训练的多分类器具有更优的段落分类性能，证明了本实施例训练的语言模型

在小规模数据集上预测段落类别的优越性。

表a

完成对政策文本中的段落分类后，有时需要自动识别出各个段落中的关键信息。本申请通过预训练政策信息识别器来识别政策文件中的关键信息。本申请中，定义图1所示的政策文件要素体系中的实体级别的要素作为政策的关键信息类别集合，即图1中所示的“政策名称、政策文号、发布地区、制定部门、执行部门、发布时间、执行期限”7个类别。

以下对预训练的政策信息识别器抽取出每个段落

中的关键信息的方法进行具体阐述：

总体而言，本申请将每个段落看作一个字符序列，通过政策信息识别器去识别字符序列中的每一位是否为实体边界以及识别实体的种类。具体地，如图3所示，设定

为预训练的语言模型，在模型

中，

是政策文件要素体系中用于实体识别的标签词集合，并令

为实体识别任务的标签集合，标签集合

中的每个标签

在标签词集合

中存在一个具有映射关系的标签词

，并定义句子模板

，模板

中包含两个待填入词的空缺，第一空缺填入的内容为从输入段落中截取的文本片段，这些片段被视为候选的实体，第二空缺为需要预测的所填入的文本片段的实体类别标签。对政策文件要素体系中用于实体识别的标签词集合

中的每一个标签词

代表的实体类型，将这个实体类型填入

中定义一个新模板，例如定义句子模板

为“[文本片段]是一个[实体类型]政策实体”，那么对于实体识别的标签词集合

中的类型为“制定部门”的实体，将其填入模板

中后可以定义一个新的模板例如为“[候选实体]是一个制定部门政策实体”。此外，为了处理文本片段不是实体的情况，再定义一个“非实体”类型的句子模板，也就是“[文本片段]不是一个政策实体”，这样，多个不同的实体类型的句子模板和非实体类型的句子模板构成一个句子模板的集合

。

将从段落

中截取的每个文本片段填入到句子模板集合

中的每个句子模板

中，然后使用语言模型

（优选为BART模型），计算这些填写好的句子的概率分数，计算方法通过以下公式（8）表达：

公式（8）中，

表示使用候选的文本片段

和与标签

填入到句子模板

后得到的句子；

表示所述句子

的序列长度；

表示句子

的词序列中的第

项；

表示句子

的词序列中的第1项到第

项；

表示输入到所述语言模型

的文本序列

；

表示在给定输入文本

和句子模板的词序列中的第1项到第

项

的情况下，模型预测第c项为

的概率。该概率由预训练生成式语言模型计算得出。

通过上述过程，就使用语言模型

为每种实体类型和非实体类型的句子模板都计算了一个在第二空缺填入标签词的概率得分，然后将每个候选的文本片段分类为得分最高的句子模板对应的类型，当然该类型也可能是“非实体”。其中被分配了实体类型的文本片段就是这段文本中识别出的实体，其实体类型为分配的实体类型。

以下对训练政策信息识别器的方法进行简要阐述：

以

和

对应的真实标签词

为模型训练样本，按照7:3的比例将样本数据集随机划分为训练集和验证集。对于训练集中的数据，若文本片段

的实体类型为

，则将

和

分别填入到实体类型的句子模板

的第一空缺和第二空缺中。若文本片段

不是实体，则将

填入非实体类型的句子模板

中，同样得到一个填充好的句子。另外，本申请使用训练集中的所有实体样本来填充包含实体的句子模板，并通过在剩下的非实体类型的词中随机采样来填充非实体的句子模板，二者的比例优选为1:1.5，以增加非实体句子模板对实体句子模板识别的干扰，进而提升政策信息识别器的关键信息抽取精度。需要强调的是，本申请中，语言模型

优选为BART模型。BART模型计算句子模板

的得分

的原理为：

给定一个政策文本段落

和句子模板集合

，将

输入到BART模型的编码器中，得到段落

的特征表示

。在BART模型的解码器的每一步中，

和解码器之前的输出

一同作为当前步的输入，使用注意力方法得到当前步的特征表示

，将该特征表示进行线性变换后使用softmax函数得到当前步输出单词

的条件概率（指在给定前c-1项和输入段落后，第c项的概率分布），计算方式为

，其中

为模型参数。

在训练BART模型中，使用交叉熵损失函数计算解码器的输出与真实模板之间的差距，以此为模型参数调节的依据，对模型参数进行调整后继续迭代训练BART模型，直至达到模型收敛条件。

本申请提供的基于提示学习的政策信息提取方法在小规模数据集上具有优秀的识别效果，为了验证其在训练数据集规模较小时的性能，本申请还设计了多种基于预训练-微调的政策信息识别器在相同数据集上进行性能比较，具体方法如图4所示，包括：

在政策信息识别器的输入数据的分布式特征表示部分，同时使用词汇级别和字符级别的分布式特征表示，词汇级别的每个词的分布式特征表示通过在大规模综合领域语料库上预训练的词向量表示模型实现，而字符级别的每个字符的分布式特征通过预训练的中文RoBERTa模型实现。由于词向量表示模型和中文RoBERTa模型对输入数据进行分布式特征表示的过程并非本申请要求权利保护的范围，因此具体过程不做说明。

政策信息识别器的上下文编码层承接分布式表示层的输出，对文本语义和字词之间的依赖进一步建模。在本实施例中，采用多层感知机、Transformer和Flat-LatticeTransforme，三种模型的结构及构建方法简述如下：

在基于多层感知机的上下文编码层中，采用线性层-ReLU函数层-线性层的结构。

在基于Transformer的上下文编码层中，使用Transformer Encoder对文本进行特征编码。

在基于Flat-Lattice Transformer（FLAT）的上下文编码层中，使用了一种Transformer的变体FLAT，同时使用了文本的字符和词汇的分布式表示，并进一步拓展了Transformer中的位置编码，引入了文本字符和词汇的首尾相对位置，试图更好地克服政策文件实体长度不平衡的问题。FLAT的文本片段相对位置编码计算方法通过如下公式（9）表达：

公式（9）中，

和

分别表示第

个文本片段在原始序列中的第一个和最后一个字符的位置索引。对于字符，其第一个和最后一个字符的位置索引是相同的。

是一个可学习的参数，

包括

，

的计算方法通过如下公式（10）、（11）表达：

公式（10）、（11）中，

包括

、

、

、

中的任意一种；

表示输入模型的向量长度。

政策信息识别器的解码层使用条件随机场模型，解码过程使用了基于动态规划的维特比算法来获得较高的解码效率，并且使用条件随机场损失函数进行优化。

以下展示了基于预训练-微调的政策信息识别器与通过本发明实施例提供的基于提示学习的政策信息识别器在有标注的训练数据集规模较小的情况下对图1中所示的“政策名称、政策文号、发布地区、制定部门、执行部门、发布时间、执行期限”7个类别的政策信息的抽取效果对比表，评价指标为测试集上的F1得分。由下表b可知：本实施例训练的语言模型N在小规模训练数据集上表现出了比其他方法训练的政策信息识别器更优的性能，证明了本实施例训练的语言模型N在有标注的训练数据集较少时识别政策关键信息的优越性。

表b

综上，本发明实施例提供的基于提示学习的政策文本分类方法，如图5所示，步骤包括：

S1，对于给定的政策文件中的段落

，使用模板函数

将

转换为语言模型

的输入

，

在原始的段落

中增加了分类任务的提示语言，提示语言中包含需要预测并填写标签的掩码位置；

S2，语言模型

预测出填入所述掩码位置的标签

；

S3，标签转换器

将标签

映射为事先构建的政策文件要素体系的标签词集合

中对应的标签词

作为预测得到的段落

的类型。

本发明具有以下有益效果：

2、通过在原始段落

3、提供的政策信息识别器通过在所构建的政策文件要素体系下预测两个空缺内容标签的方式简化了文本实体的识别难度，能够基于构建的政策文件要素体系，更准确地从文本中提取出有用的关键信息，并且在有标注的训练数据集规模较小的情况下有优秀的表现。

需要声明的是，上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白，还可以对本发明做各种修改、等同替换、变化等等。但是，这些变换只要未背离本发明的精神，都应在本发明的保护范围之内。另外，本申请说明书和权利要求书所使用的一些术语并不是限制，仅仅是为了便于描述。