CN115906842A

CN115906842A - 一种政策信息识别方法

Info

Publication number: CN115906842A
Application number: CN202211232088.0A
Authority: CN
Inventors: 唐嘉成; 李响; 陈晓旭; 陈瑞勇
Original assignee: Tiandao Jinke Co ltd; Zhejiang Zhelixin Credit Reporting Co ltd
Current assignee: Tiandao Jinke Co ltd; Zhejiang Zhelixin Credit Reporting Co ltd
Priority date: 2022-10-08
Filing date: 2022-10-08
Publication date: 2023-04-04

Abstract

本发明公开了一种政策信息识别方法，属于自然语言处理技术领域。本发明构建了一套完整的政策文件要素体系，将政策文件中的各个不同要素清晰地划分开。后续基于这个体系，能够更为准确地实现对政策文件中每个段落的分类以及实体级别的文本段落的关键信息提取。另外，提供的政策信息识别器通过在所构建的政策文本要素体系下预测空缺内容标签的方式，简化了文本实体的识别难度，能够基于构建的政策文件要素体系，更准确地从文本中提取出有用的关键信息，并且在有标注的训练数据集规模较小的情况下有优秀的表现。

Description

一种政策信息识别方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种政策信息识别方法。

背景技术

通常情况下，政策文件的文本结构划分具有标准可循，甚至用词上也有统一的标准。对政策文件的内容和结构进行自动化地识别、分析，对于提高政策文件分析效率尤为重要。近些年，自然语言处理技术迅猛发展，主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。因此，对于具有结构化的文本内容的政策文件而言，自然语言处理技术不失为分析政策文件文本内容的一种有效手段。

政策名称、制定部门、执行部门、发布时间等是政策文件中的重要内容，识别出这些重要内容对政策文件查重、分析政策文件适用范围、有效期限，避免出台内容重叠的政策文件等具有重要意义。但如何从数量庞大的各类政策文件中精准识别出内容相似的政策文件成为亟待解决的一个技术问题。现有技术中，通常通过内容匹配的方式进行政策文件查重，比如通过匹配两份文件的政策名称相似度，当相似度高于预设的相似度阈值时，即判定两份文件相似，或者通过文件内容相似度匹配的方式，当两份文件的内容相似度大于相似度阈值时，便判定两份文件内容相似，但在实际应用中发现，现有的上述两种匹配方式准确度不高，容易出现误判，判断结果参考价值不大。

发明内容

本发明以实现对政策文件段落中实体级别内容的精准识别为目的，提供了一种政策信息识别方法。

为达此目的，本发明采用以下技术方案：

提供一种政策信息识别方法，步骤包括：

S1，定义句子模板集合T、政策文件要素体系中用于实体识别的标签词集合U、以及语言模型N用于实体识别的标签集合G，所述句子模板集合T中包含实体类型和非实体类型的句子模板t，所述句子模板t中包含两个空缺待填入的词，其中第一空缺为从输入的段落x中截取的文本片段，第二空缺为对截取的所述文本片段进行分类的类别标签，所述标签集合G中的每个标签g在所述标签词集合U 中具有存在映射关系的标签词u(g)；

S2，将从所述段落x中截取的每个所述文本片段和每个所述标签g对应所述标签词集合U中的所述标签词u(g)分别填入到所述句子模板集合T中的每个所述句子模板t中的所述第一空缺、所述第二空缺中，然后使用所述语言模型N计算这些填写好的句子的概率分数

S3，将得分最高的填入的所述文本片段作为关键信息实体，并将对应的类型标签g映射为所述标签词u(g)后作为对应的实体类型，共同构成所述段落x的关键信息。

作为优选，的计算方法通过以下公式(1)表达：

公式(1)中，表示使用候选的文本片段x_i：j和与标签 g具有映射关系的标签词u(g)填入句子模板t得到的句子；

l表示句子的序列长度；

t_c表示所述句子的词序列中的第c项；

t_1：c-1表示所述句子的词序列中的第1项到第c-1项；

x表示输入到所述语言模型N的所述段落；

p(t_c|t_1：c-1，x)表示在给定输入的所述段落x和所述句子的词序列中的第1项到第c-1项t_1：c-1的情况下，模型预测第c项为t_c的概率，该概率由预训练的所述语言模型N计算得出；

作为优选，所述语言模型N为BART模型。

作为优选，事先构建的所述政策文件要素体系包括句子级别要素和实体级别要素，所述句子级别要素包括政策目标、申请审核、政策工具-供给型、政策工具-环境型、政策工具-需求型、资金管理、监管评估、准入条件8大类共27个子类别中的任意一种或多种，

其中，所述政策工具-供给型这一大类下包括人才培养、资金支持、技术支持、公共服务这4个子类别中的任意一种或多种；

所述政策工具-环境型这一大类下包括法规管制、目标规划、税收优惠、金融支持、组织建设、政策宣传这6个子类别中的任意一种或多种；

所述政策工具-需求型这一大类下包括政府采购、公司合作、海外合作这3 个子类别中的任意一种或多种；

所述监管评估这一大类下包括监督管理和/或考核评估这2个子类别；

所述资金管理这一大类下包括资金来源和/或管理原则这2个子类别；

所述实体级别要素包括政策名称、政策文号、发布地区、制定部门、执行部门、发布时间、执行期限7个类别中的任意一个或多个。

作为优选，步骤S1中是对已完成分类的所述段落x进一步在实体级别抽取出所述关键信息，具体通过预先训练的政策文本分类器对所述段落x进行分类，方法步骤包括：

L1，对于给定的政策文件中的所述段落x，使用模板函数p将x转换为语言模型M的输入p(x)，p(x)在原始的所述段落x中增加了分类任务的提示语言，所述提示语言中包含需要预测并填写标签的掩码位置；

L2，所述语言模型M预测出填入所述掩码位置的标签k；

L3，标签转换器v将所述标签k映射为事先构建的政策文件要素体系的标签词集合V中对应的标签词v(k)作为预测得到的所述段落x的类型。

作为优选，训练所述语言模型M的方法步骤包括：

A1，对于作为训练样本的每个p(x)，计算所述标签词集合V中的每个标签词 v(k)填入所述掩码位置的概率分数s_p，v(k，x)，s_p，v(k，x)的计算方法通过以下公式 (2)表达：

s_p，v(k，x)＝M(v(k)|p(x)) 公式(2)

A2，通过softmax函数计算概率分布d_p，v(k，x)，d_p，v(k，x)通过softmax函数 (3)计算：

公式(2)、(3)中，k表示标签集合K中与所述标签词v(k)具有映射关系的标签；

K表示文本分类任务的标签集合；

A3，根据s_p，v(k，x)和d_p，v(k，x)，并利用所构造的损失函数，计算模型预测损失，所构造的损失函数通过以下公式(4)表达：

L＝(1-α)·L_CE+α·L_MLM 公式(4)

公式(4)中，α表示微调系数；

L_CE表示模型预测的分布d_p，v(k，x)与真实分布间的差距；

L_MLM表示模型预测的分数s_p，v(k，x)与真实分数间的差距；

A4，判断是否达到模型迭代训练终止条件，

若是，则终止迭代，输出所述语言模型M；

若否，则调整模型参数后返回步骤A1继续进行迭代训练。

作为优选，所述语言模型M为由若干个语言子模型M_p融合形成的融合语言模型，训练所述融合语言模型的方法包括步骤：

B1，定义模板函数集合P，所述模板函数集合P中包含若干个不同的所述模板函数p；

B2，对于作为训练样本的每个p(x)，通过对应的所述语言子模型M_p，计算所述标签词集合V中的每个标签词v(k)填入所述掩码位置的概率分数s_p，v(k，x)， s_p，v(k，x)的计算方法通过以下公式(5)表达：

s_p，v(k，x)＝M_p(v(k)|p(x)) 公式(5)

B3，对关联每个所述模板函数p的s_p，v(k，x)进行融合得到s(k，x)，s(k，x)通过以下公式(6)融合而得：

公式(6)中，Z表示所述模板函数集合P中的所述模板函数p的数量；

w(p)表示所述模板函数p在计算s(k，x)时所占的权重；

B4，通过softmax函数计算概率分布d(k，x)，d(k，x)的计算方式通过以下公式(7)表达：

公式(5)、(6)、(7)中，k表示标签集合K中与所述标签词v(k)具有映射关系的标签；

K表示文本分类任务的标签集合；

B5，根据s(k，x)和d(k，x)，并利用所构造的损失函数，计算模型预测损失，所构造的所述损失函数通过以下公式(8)表达：

L＝(1-α)·L_CE+α·L_MLM 公式(8)

公式(8)中，α表示微调系数；

L_CE表示模型预测的分布d(k，x)与真实分布间的差距；

L_MLM表示模型预测的分数s(k，x)与真实分数间的差距；

B6，判断是否达到模型迭代训练终止条件，

若是，则终止迭代，输出所述融合语言模型；

若否，则调整模型参数后返回步骤B2继续进行迭代训练。

作为优选，微调系数α＝0.0001。

本发明具有以下有益效果：

1、构建了一套完整的政策文件要素体系，将政策文件中的各个不同要素清晰地划分开。后续基于这个体系，能够更为准确地实现对政策文件中每个段落的分类以及实体级别的文本段落的关键信息提取。

2、提供的政策信息识别器通过在所构建的政策文件要素体系下预测两个空缺内容标签的方式，简化了文本实体的识别难度，能够基于构建的政策文件要素体系，更准确地从文本中提取出有用的关键信息，并且在有标注的训练数据集规模较小的情况下有优秀的表现。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例构建的政策文件要素体系的示意图；

图2是本发明一实施例提供的预测政策文件的段落类别的逻辑框图；

图3是本发明一实施例提供的基于提示学习的政策信息识别器的逻辑框图；

图4是本发明一实施例用于对比的基于预训练-微调的政策信息识别器的逻辑框图；

图5是本发明一实施例提供的政策信息识别方法的实现步骤图；

图6是政策文本分类器预测段落x的类型的方法实现步骤图.

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

在本发明的描述中，除非另有明确的规定和限定，若出现术语“连接”等指示部件之间的连接关系，该术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

本发明实施例中，申请人收集了一定数量的政策文件，作为政策文件要素体系构建的参考以及后续政策文本分类器和政策信息识别器的模型训练数据。这些政策文件涉及农业、工业、商业、服务业等各个领域，政策文件的适用对象包括个体、企业、机构等。本实施例所构建的政策文件要素体系如图1所示，根据在文本段落中的字符长度，将体系中的要素分为句子级别和实体级别。句子级别的要素在段落中一般覆盖了整个句子，比如“对成功上市的企业，对经营团队给予市区联动200万元奖励”，这个句子为一条完整的句子，因此被认定为句子级别；而实体级别的要素在段落中一般包含于具有特定意义的词中，比如政策名称、政策文号、发布地区、制定部门等。

进一步地，句子级别的要素又细分为一般形式和“主体-关系-域”形式，一般形式的句子级别要素用于区分段落在政策文本中的内容构成，如图1中的政策目标、申请审核、政策工具、监督评估、资金管理等。而“主体-关系-域”形式的句子级别要素用于结构化地表示政策的准入条件，如与企业注册地相关的准入条件“企业注册地-属于-上海”。具体如图1所示，本实施例所构建的政策文件要素体系的具体内容如下：

1、实体级别的要素包括：政策名称、政策文号、发布地区、制定部门、执行部门、发布时间和执行期限7个类别；

2、一般形式的句子级别的要素包括：政策目标、申请审核、政策工具、监管评估、资金管理5个大类。其中，监管评估被进一步细分为监督管理和考核评估2个子类。资金管理被进一步细分为资金来源和管理规则2个子类。政策工具被进一步细分为如下3个类型共13个子类：

供给型政策工具(即政策工具-供给型)，包括人才培养(建立人才发展规划，积极完善各种教育体系及培训体系等)、资金支持(提供财力支持，如研发经费和基础设施建设经费等)、技术支持(技术辅导与咨询，加强技术基础设施建设等)、公共服务(完善相关配套设施、政策环境等)。

环境型政策工具(即政策工具-环境型)，包括法规管制(制定法规、标准，规范市场秩序，加大监管力度)、目标规划(顶层设计，提供相应政策配套服务)、税收优惠(税收减免和退税等政策激励，包括投资减免、加速折扣、免税和租税抵扣等)、金融支持(通过金融机构为企业提供贷款、补助、风险投资、信用担保、基金、风险控制以及其他金融支持)、组织建设(为促进产业健康发展设立领导、监管、服务等组织及队伍建设)、政策宣传(为促进产业发展宣传相关政策)。

需求型政策工具(即政策工具-需求型)，包括政府采购(政府向相关企业进行产品采购)、公私合作(政府与社会多方主体共同参与产业发展的相关活动，如共同投资、共同开展技术研究、发展规划研究等)、海外合作(引进外资，在生成技术、标准定制等方面与海外政府、企业或科研机构展开合作与交流)。

“主体-关系-域”形式的句子级别的要素包括准入条件，其中又可以细分为 8个子类：注册地、产权要求、业务领域、员工构成、法人资格、企业类型、经营要求、研发要求。

在对政策文本进行段落分类和关键信息识别前，首先对政策文件的文本内容进行段落拆分。对政策文件的文本内容进行段落拆分的现有方法有许多，且拆分段落的方式也并非本发明请求权利保护的范围，因此有关段落拆分的具体方式在此不做说明。

完成段落拆分后，进入段落分类和关键信息识别流程。本实施例中，通过预先训练的政策文本分类器对段落进行分类，进而分析政策文件的内容构成和文件结构。本实施例中，选择图1中所示的政策文件要素体系中的一般形式的句子级别要素作为段落的候选类别集合，并且使用两种不同分类粒度的类别集合为样本分别进行了政策文本分类器的训练并比较了训练效果，其中一个分类粒度的句子级别要素为图1中所示的政策目标、申请审核、政策工具-供给型、政策工具- 环境型、政策工具-需求型、资金管理和监管评估共7个大类；另外一个分类粒度为对政策工具、监管评估、资金管理这3个大类扩充后的17个小类以及政策目标、申请审核这两个大类共19个类别。政策文本分类器在对段落进行分类时，还会判断段落是否不属于这些种类的任意一个，即判断是否为无意义段落。

以下对本实施例利用预训练的政策文本分类器对输入的段落进行分类的方法进行具体阐述：

本实施例中，对输入段落进行分类的技术核心是采用了提示学习的思想，提示学习可以简化分类过程、提高分类效率，对于小规模数据集具有更高的分类优越性。具体而言，为了更充分地发挥政策文本分类器强大的问答和阅读理解能力，以及挖掘标注的小规模政策文件文本数据集中包含的更深层次的信息，通过将输入的段落文本按照特定模式进行处理，为其增加任务提示语言，使其更适配语言模型的问答形式。基于提示学习的政策文本分类器进行段落识别的原理如下：

设M为预先训练的语言模型(优选为BERT语言模型)，V是政策文件要素体系中的标签词集合，掩码词m∈V被用于填写语言模型M的输入里被遮盖住的掩码位置[mask]的内容，并令K是文本分类任务(段落分类任务)的标签集合。对每个政策文本段落分词后得到输入语言模型M的词序列x，然后使用自定义的模板函数p将x转换为语言模型M的输入p(x)，p(x)在x中增加了分类任务的提示语言，提示语言中包含需要预测并填写标签的掩码位置。经p(x)转换后，可以将段落类型预测问题转换为完形填空问题，即语言模型M以完形填空问题形式表示的 p(x)为输入，预测得到的最合适填入掩码位置的词作为对x表达的段落的分类预测结果。

需要强调的是，本申请基于提示学习的思想，更好地利用了语言模型M的问答和阅读理解能力，同时由于将分类问题转换成了完形填空问题，预测过程更加简单，提高了政策文本分类器的分类效率。进一步地，本实施例定义了一个从文本分类任务的标签集合K到政策文件要素体系中的标签词集合V的映射作为标签的转换器v。例如，对于K中的标签k，该标签转换器v将其映射为标签词 v(k)比如＝图1中所示的政策目标，“政策目标”即为预测的段落类别。

图2是本发明实施例提供的预测政策文件的段落类别的逻辑框图。需要强调的是，对于每一个模板函数p和标签转换器v，本实施例通过以下步骤来实现对段落的分类：

给定一个输入段落x(优选为原始段落的词序列)，使用模板函数p将x转换为语言模型M的输入p(x)，语言模型M会预测p(x)中掩码位置最合适的标签k， k∈K，然后使用标签转换器v将这个标签映射为政策文件要素体系中的标签词 v(k)，v(k)∈V，并将其作为对段落x的分类。作为优选，本实施例采用预训练的中文BERT模型作为语言模型M，其对掩码位置的预测方法沿用了BERT模型的预训练任务，即使用其对p(x)中掩码位置对应的输出来预测掩码位置的标签(预测方法与BERT模型的Masked Language Model预训练任务一致，不做详细说明)。

举例而言，关于模板函数p，假设定义为“x。总体而言，这是有关_____的政策文本段落。”其中，“_____”表示掩码位置，这样就为原始文本段落x增加了一个分类任务的提示语言。x例如为“对成功上市的企业，对经营团队给予市区联动200万元奖励”，对于该段落x，增加上述的提示语言后，语言模型M的分类任务为预测“对成功上市的企业，对经营团队给予市区联动200万元奖励。总体而言，这是有关_____的政策文本段落。”中的掩码位置“____”的标签k。预测出掩码位置后的标签后，将预测到的标签k映射为政策文件要素体系中的标签词集合V中对应的标签词v(k)作为预测得到的段落x的类型。

以下对本实施例训练语言模型M的方法进行说明：

语言模型M优选采用BERT模型，BERT模型的现有训练方法有许多，这些现有的训练方法可应用到本申请中用于训练语言模型M，区别在于，本实施例用于训练语言模型M的样本为经模板函数p转换得到的p(x)以及经标签转换器v转换得到的标签词集合V中对应的标签词v(k)，以及本申请为提高分类精度而改进的用于评估模型性能的损失函数。

训练语言模型M时，本申请将样本数据集按照7：3的比例随机划分为训练集和验证集，训练过程如下：

对于每个政策文本段落产生的只包含一个掩码位置的序列x，对政策文件要素体系中的标签词集合V中的每个标签词v(k)填入该掩码位置的概率计算一个分数(由于标签k在标签词集合V中具有一个存在映射关系的标签词v(k)，因此预测标签k填入该掩码位置的概率分数相当于预测对应的标签词v(k)填入该掩码位置的概率分数)，这个分数由语言模型M预测，代表预测出的该标签词可以填入该掩码位置的可能性。更为具体地，对于一个序列x，本申请计算文本分类任务的标签集合K中的标签k填入该掩码位置的概率分数的方法通过以下公式 (1)表达：

s_p，v(k，x)＝M(v(k)|p(x)) 公式(1)

公式(1)中，s_p，v(k，x)表示标签k填入掩码位置的概率分数，由于标签k与政策文件要素体系的标签词集合V中对应的标签词v(k)具有映射关系，因此 s_p，v(k，x)相当于表示标签词v(k)填入掩码位置的概率分数；

k表示标签集合K中与标签词v(k)具有映射关系的标签，例如可以将图1中的标签词“政策目标”的标签映射为k₁，将标签词“申请审核”的标签映射为k₂，通过这样建立映射关系，将所述任务从为输入句子分配一个没有含义的标签变为了选择最有可能填入掩码位置的词。

在计算得到V中所有标签词填入同个掩码位置的分数后，通过softmax函数得到一个概率分布，具体计算方法通过以下公式(2)表达：

公式(2)中，K表示文本分类任务的标签集合；

然后，根据s_p，v(k，x)和d_p，v(k，x)，并利用所构造的损失函数，计算模型预测损失，所构造的损失函数通过以下公式(3)表达：

L＝(1-α)·L_CE+α·L_MLM 公式(3)

公式(3)中，α表示微调系数(优选为0.0001)；

L_CE表示模型预测的分布d_p，v(k，x)与真实独热向量分布间的差距；

L_MLM表示模型预测的分数s_p，v(k，x)与真实分数间的差距；

最后，判断是否达到模型迭代训练终止条件，

若是，则终止迭代，输出语言模型M；

若否，则调整模型参数后继续进行迭代训练。

为了进一步提升模型训练效果，进而提升语言模型M的分类性能，优选地，语言模型M为由若干个语言子模型M_p融合形成的融合语言模型，训练融合语言模型的方法为：

首先，定义一个模板函数集合P，模板函数集合P中包含若干个不同的模板函数p，例如，“x。这个政策文本段落和什么有关？_____”，又例如，“这个政策文本段落和什么有关？和_____有关”等等。对于不同的模板函数p，本实施例通过以下方法来训练融合语言模型：

对于作为训练样本的每个p(x)，通过对应的语言子模型M_p计算标签词集合 V中的每个标签词v(k)填入掩码位置的概率分数s_p，v(k，x)，计算方法通过以下公式(4)表达：

s_p，v(k，x)＝M_p(v(k)|p(x)) 公式(4)

对关联每个模板函数p的s_p，v(k，x)进行融合得到s(k，x)，具体通过以下公式 (5)表达：

公式(5)中，Z表示模板函数集合P中的模板函数p的数量；

w(p)表示模板函数p在计算s(k，x)、d(k，x)时所占的权重，本实施例中，根据各语言子模型M_p在训练集和验证集上获得的准确度来确定个M_p的权重。

然后，通过softmax函数计算概率分布d(k，x)，计算方法通过以下公式(6) 表达：

公式(4)、(5)、(6)中， k表示标签集合K中与标签词v(k)具有映射关系的标签；K表示文本分类任务的标签集合；

最后，根据s(k，x)和d(k，x)，并利用所构造的损失函数，计算模型预测损失，所构造的损失函数通过以下公式(7)表达：

L＝(1-α)·L_CE+α·L_MLM 公式(7)

公式(7)中，α表示微调系数(优选为0.0001)；

L_CE表示模型预测的分布d(k，x)与真实分布间的差距；

L_MLM表示模型预测的分数s(k，x)与真实分数间的差距。

本申请提供的以具有提示语言的p(x)为语言模型M的输入的掩码位置标签预测方法在有标注的训练数据集规模较小的情况下具有优秀的预测性能，为了验证其在训练数据较少时的优秀性能，本申请还设计了多种基于完全监督学习的政策文本分类器进行性能比较，具体方法包括：

(1)对于政策文件段落s_i，使用分词工具得到词序列，记为 w_i＝(w_i，1，w_i，2，…，w_i，n)，w_i，n表示词序列w_i中的第n个词，再通过在大规模综合领域语料库上预训练得到的词向量表示模型对分词后的每个词进行分布式表示。本实施例中，使用的是静态的词向量，每个词被表示为一个300维的预训练的向量x_j＝(x_j，1，x_j，2，…，x_j，300)，j表示词序列w_i中的第j个词，通过词向量得到段落s_i的特征表示X_i后，将段落的特征表示X_i输入一个多分类器来预测每个段落属于个类别的概率，预测过程表示为：f(X_i)＝(p_i，1，p_i，2，…，p_i，k)，f为特征表示函数， p_i，k表示段落s_i为第k个类别的概率，选择其中概率最大的类别作为段落s_i所述的类别。

(2)在多分类器部分，本申请选择基于统计机器学习和基于深度学习的方法对多分类器进行完全监督学习。其中，基于统计机器学习的多分类器是以支持向量机模型和XGBoost模型为基础设计的；基于深度学习的多分类器是以 TextCNN模型和Bi-LSTM+Attention模型为基础设计的。

1)在基于统计机器学习的多分类器中，对一个政策文本段落s_i，将分词后的段落的所有词的300维分布式表示的每一维取平均值，并拼接上段落的长度和在整篇政策文件中的相对位置(段落在文件中的索引值/文件的总分段数)这两个特征后得到一个302维的特征向量X_i＝(X_i，1，X_i，2，…，X_i，302)，将其输入到多分类器中，输出该段落分类的标签。

2)在基于深度学习的多分类器中，对一个政策文本段落s_i，将分词后的段落的所有词的分布式表示x_j＝(x_j，1，x_j，2，…，x_j，300)拼接成一个矩阵，并用3种不同尺寸的卷积核去提取特征，3种卷积核的大小可以分别为3×3、4×4、5×5，卷积后再进行最大池化，最后将不同尺寸的卷积核提取的特征拼接为特征向量输入到softmax激活函数后输出该段落分类的标签。

3)在另一个基于深度学习的多分类器中，对一个政策文本段落s_i，将分词后的段落的所有词的300维分布式表示x_j＝(x_j，1，x_j，2，…，x_j，300)正向输入到LSTM 长短时记忆网络中得到逆向输入LSTM得到并将两者对应时序的元素相加得到每个时序的输出向量h_i。然后通过Attention机制，计算每个时序的权重并将所有时序的向量加权求和作为特征向量，最后使用softmax函数进行分类。

以下展示了通过方法(1)以及方法(2)中的1)、2)、3)四种方法在小规模训练数据集上训练得到的多分类器与通过本发明实施例提供的基于提示语言和掩码位置标签预测的政策文本分类方法训练的语言模型M对图1中所示的“政策目标、申请审核、政策工具-供给型、政策工具-环境型、政策工具-需求型、监管评估、资金管理”7大类以及“政策目标、申请审核、人才培养、资金支持、技术支持、公共服务、法规管制、目标规划、税收优惠、金融支持、组织建设、政策宣传、政府采购、公私合作、海外合作、监督管理、考核评估、资金来源、管理原则”19类这两种不同粒度的政策文件的段落分类的效果对比表，评价指标为测试集上的正确率。由下表a可知：本实施例训练的语言模型M在段落x中增加分类任务提示语言进行掩码位置标签预测的段落文本分类方法在小规模数据集上表现出了比其他四种方法训练的多分类器具有更优的段落分类性能，证明了本实施例训练的语言模型M在小规模数据集上预测段落类别的优越性。

表a

完成对政策文本中的段落分类后，有时需要自动识别出各个段落中的关键信息。本申请通过基于提示学习的政策信息识别器来识别政策文件中的关键信息。本申请中，定义图1中所示的政策文件要素体系中的实体级别的要素作为政策的关键信息类别集合，即图1中所示的“政策名称、政策文号、发布地区、制定部门、执行部门、发布时间、执行期限”7个类别。

以下对基于提示学习的政策信息识别器抽取出每个段落x中的关键信息的方法进行具体阐述：

总体而言，本申请将每个段落看作一个字符序列，通过政策信息识别器去识别字符序列中的每一位是否为实体边界以及识别实体的种类。具体地，如图3 所示，设定N为预训练的语言模型，在模型N中，U是政策文件要素体系中用于实体识别的标签词集合，并令G为实体识别任务的标签集合，标签集合G中的每个标签g在标签词集合U中存在一个具有映射关系的标签词u(g)，并定义句子模板t，模板t中包含两个待填入词的空缺，第一空缺填入的内容为从输入段落中截取的文本片段，这些片段被视为候选的实体，第二空缺为需要预测的所填入的文本片段的实体类别标签。对政策文件要素体系中用于实体识别的标签词集合U中的每一个标签词u(g)代表的实体类型，将这个实体类型填入t中定义一个新模板，例如定义句子模板t为“[文本片段]是一个[实体类型]政策实体”，那么对于实体识别的标签词集合U中的“制定部门”实体类型，将其填入模板t中后可以定义一个新的模板例如为“[候选实体]是一个制定部门政策实体”。此外，为了处理文本片段不是实体的情况，再定义一个“非实体”类型的句子模板，也就是“[文本片段]不是一个政策实体”，这样，多个不同的实体类型的句子模板和非实体类型的句子模板构成一个句子模板的集合T。

将从段落x中截取的每个文本片段填入到句子模板集合T中的每个句子模板 t中，然后使用语言模型N(同样优选为BART模型)计算这些填写好的句子的概率分数，计算方法通过以下公式(8)表达：

公式(8)中，表示使用候选的文本片段x_i：j和与标签 g具有映射关系的标签词u(g)填入到句子模板t后得到的句子；

l表示所述句子的序列长度；

t_c表示句子的词序列中的第c项；

t_1：c-1表示句子的词序列中的第1项到第c-1项；

x表示输入到所述语言模型N的文本序列{x₁，x₂，...，x_n}；

p(t_c|t_1：c-1，x)表示在给定输入文本x和句子模板的词序列中的第1项到第 c-1项t_1：c-1的情况下，模型预测第c项为t_c的概率，该概率由预训练生成式语言模型计算得出。

通过上述过程，就使用语言模型N为每种实体类型和非实体类型的句子模板都计算了一个在第二空缺填入标签词的概率得分，然后将每个候选的文本片段分类为得分最高的句子模板对应的类型，当然该类型也可能是“非实体”。其中被分配了实体类型的文本片段就是这段文本中识别出的实体，其实体类型为分配的实体类型。

以下对训练政策信息识别器的方法进行简要阐述：

以和对应的真实标签词u(g)为模型训练样本，按照7∶3的比例将样本数据集随机划分为训练集和验证集。对于训练集中的数据，若文本片段 x_i：j的实体类型为u(g)，则将x_i：j和u(g)分别填入到实体类型的句子模板t的第一空缺和第二空缺中。若文本片段x_i：j不是实体，则将x_i：j填入非实体类型的句子模板t中，同样得到一个填充好的句子。另外，本申请使用训练集中的所有实体样本来填充包含实体的句子模板，并通过在剩下的非实体类型的词中随机采样来填充非实体的句子模板，二者的比例优选为1∶1.5，以增加非实体句子模板对实体句子模板识别的干扰，进而提升政策信息识别器的关键信息抽取精度。

需要强调的是，本申请中，语言模型N优选为BART模型。BART模型计算句子模板的得分的原理为：

给定一个政策文本段落X和句子模板集合T，将X输入到BART模型的编码器中，得到段落X的特征表示h_e＝Encoder(X)。在BART模型的解码器的每一步中， h_e和解码器之前的输出t_1：c-1一同作为当前步的输入，使用注意力方法得到当前步的特征表示将该特征表示进行线性变换后使用 softmax函数得到当前步输出单词t_c的条件概率(指在给定前c-1项和输入段落后，第c项的概率分布)，计算方式为其中W、b为模型参数。

在训练BART模型中，使用交叉熵损失函数计算解码器的输出与真实模板之间的差距，以此为模型参数调节的依据，对模型参数进行调整后继续迭代训练 BART模型，直至达到模型收敛条件。

本申请提供的基于提示学习的政策信息提取方法在小规模数据集上具有优秀的识别效果，为了验证其在训练数据集规模较小时的性能，本申请还设计了多种基于预训练-微调的政策信息识别器在相同数据集上进行性能比较，具体方法如图4所示，包括：

在政策信息识别器的输入数据的分布式特征表示部分，同时使用词汇级别和字符级别的分布式特征表示，词汇级别的每个词的分布式特征表示通过在大规模综合领域语料库上预训练的词向量表示模型实现，而字符级别的每个字符的分布式特征通过预训练的中文RoBERTa模型实现。由于词向量表示模型和中文 RoBERTa模型对输入数据进行分布式特征表示的过程并非本申请要求权利保护的范围，因此具体过程不做说明。

政策信息识别器的上下文编码层承接分布式表示层的输出，对文本语义和字词之间的依赖进一步建模。在本实施例中，采用多层感知机、Transformer和 Flat-LatticeTransforme，三种模型的结构及构建方法简述如下：

在基于多层感知机的上下文编码层中，采用线性层-ReLU函数层-线性层的结构。

在基于Transformer的上下文编码层中，使用Transformer Encoder对文本进行特征编码。

在基于Flat-Lattice Transformer(FLAT)的上下文编码层中，使用了一种Transformer的变体FLAT，同时使用了文本的字符和词汇的分布式表示，并进一步拓展了Transformer中的位置编码，引入了文本字符和词汇的首尾相对位置，试图更好地克服政策文件实体长度不平衡的问题。FLAT的文本片段相对位置编码计算方法通过如下公式(9)表达：

公式(9)中，head[i]和tail[i]分别表示第i个文本片段在原始序列中的第一个和最后一个字符的位置索引。对于字符，其第一个和最后一个字符的位置索引是相同的(head和tail用于表示出文本片段从哪里开始，到哪里结束。例如，“政策的有效期为3年”这段文本中，“政策”的head和tail分别为1和2；而对于“政”这个字符，其head和tail都为1)。W_R是一个可学习的参数，P_d包括P_d的计算方法通过如下公式(10)、(11)表达：

公式(10)、(11)中，d包括中的任意一种；d_model表示输入模型的向量长度。

政策信息识别器的解码层使用条件随机场模型，解码过程使用了基于动态规划的维特比算法来获得较高的解码效率，并且使用条件随机场损失函数进行优化。

以下展示了基于预训练-微调的政策信息识别器与通过本发明实施例提供的基于提示学习的政策信息识别器在有标注的训练数据集规模较小的情况下对图 1中所示的“政策名称、政策文号、发布地区、制定部门、执行部门、发布时间、执行期限”7个实体级别的政策信息的抽取效果对比表，评价指标为测试集上的 F1得分。由下表b可知：本实施例训练的语言模型N在小规模训练数据集上表现出了比其他方法训练的政策信息识别器更优的性能，证明了本实施例训练的语言模型N在有标注的训练数据集较少时识别政策关键信息的优越性。

	F1得分
		RoBERTa+多层感知机+CRF	0.664
RoBERTa+Transformer+CRF	0.611
		RoBERTa+FLAT+CRF	0.694
基于提示学习	0.721

表b

综上，本发明实施例提供的政策信息识别方法，如图5所示，步骤包括：

S1，定义句子模板集合T、政策文件要素体系中用于实体识别的标签词集合 U、以及语言模型N用于实体识别的标签集合G，句子模板集合T中包含实体类型和非实体类型的句子模板t，句子模板t中包含两个空缺待填入的词，其中第一空缺为从输入的段落x中截取的文本片段，第二空缺为对截取的文本片段进行分类的类别标签，标签集合G中的每个标签g在标签词集合U中具有存在映射关系的标签词u(g)；

S2，将从段落x中截取的每个文本片段和每个标签g对应标签词集合U中的标签词u(g)分别填入到句子模板集合T中的每个句子模板t中的第一空缺、第二空缺中，然后使用语言模型N计算这些填写好的句子的概率分数

S3，将得分最高的填入的文本片段作为关键信息实体，并将对应的类型标签g映射为标签词u(g)后作为对应的实体类型，共同构成段落x的关键信息。

更加具体地，步骤S1中是对已完成分类的所述段落x进一步在实体级别抽取出所述关键信息，如图6所示，具体通过预先训练的政策文本分类器对段落x 进行分类，方法步骤包括：

L1，对于给定的政策文件中的段落x，使用模板函数p将x转换为语言模型M 的输入p(x)，p(x)在原始的段落x中增加了分类任务的提示语言，提示语言中包含需要预测并填写标签的掩码位置；

L2，语言模型M预测出填入掩码位置的标签k；

L3，标签转换器v将标签k映射为事先构建的政策文件要素体系的标签词集合V中对应的标签词v(k)作为预测得到的段落x的类型。

综上，本发明具有以下有益效果：

1、构建了一套完整的政策文件要素体系，将政策文件中的各个不同要素清晰地划分开。后续基于这个体系，能够更为准确地实现对政策文件中每个段落类型的分类以及实体级别的文本段落的关键信息提取。

2、通过在原始段落x中增加了分类任务的提示语言，该提示语言中包含需要预测并填写标签的掩码位置，将段落分类问题转换为类似完形填空的分类预测问题，简化了段落分类预测的过程，能够基于所构建的完整的政策文件要素体系，更精准地从内容构成和文件结构的角度解析政策文件文本，并挖掘出更深层的信息，并且在有标注的训练数据集规模较小的情况下有优秀的表现。

3、提供的政策信息识别器通过在所构建的政策文件要素体系下预测两个空缺内容标签的方式，简化了文本实体的识别难度，能够基于构建的政策文件要素体系，更准确地从文本中提取出有用的关键信息，并且在有标注的训练数据集规模较小的情况下有优秀的表现。

需要声明的是，上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白，还可以对本发明做各种修改、等同替换、变化等等。但是，这些变换只要未背离本发明的精神，都应在本发明的保护范围之内。另外，本申请说明书和权利要求书所使用的一些术语并不是限制，仅仅是为了便于描述。

Claims

1.一种政策信息识别方法，其特征在于，步骤包括：

S1，定义句子模板集合T、政策文件要素体系中用于实体识别的标签词集合U、以及语言模型N用于实体识别的标签集合G，所述句子模板集合T中包含实体类型和非实体类型的句子模板t，所述句子模板t中包含两个空缺待填入的词，其中第一空缺为从输入的段落x中截取的文本片段，第二空缺为对截取的所述文本片段进行分类的类别标签，所述标签集合G中的每个标签g在所述标签词集合U中具有存在映射关系的标签词u(g)；

2.根据权利要求1所述的政策信息识别方法，其特征在于，的计算方法通过以下公式(1)表达：

公式(1)中，表示使用候选的文本片段x_i：j和与标签g具有映射关系的标签词u(g)填入句子模板t得到的句子；

l表示句子的序列长度；

t_c表示所述句子的词序列中的第c项；

t_1：c-1表示所述句子的词序列中的第1项到第c-1项；

x表示输入到所述语言模型N的所述段落；

p(t_c|t_1：c-1，x)表示在给定输入的所述段落x和所述句子的词序列中的第1项到第c-1项t_1：c-1的情况下，模型预测第c项为t_c的概率，该概率由预训练的所述语言模型N计算得出。

3.根据权利要求1所述的政策信息识别方法，其特征在于，所述语言模型N为BART模型。

4.根据权利要求1所述的政策信息识别方法，其特征在于，事先构建的所述政策文件要素体系包括句子级别要素和实体级别要素，所述句子级别要素包括政策目标、申请审核、政策工具-供给型、政策工具-环境型、政策工具-需求型、资金管理、监管评估、准入条件8大类共27个子类别中的任意一种或多种，

所述政策工具-需求型这一大类下包括政府采购、公司合作、海外合作这3个子类别中的任意一种或多种；

5.根据权利要求1-4任意一项所述的政策信息识别方法，其特征在于，步骤S1中是对已完成分类的所述段落x进一步在实体级别抽取出所述关键信息，具体通过预先训练的政策文本分类器对所述段落x进行分类，方法步骤包括：

L2，所述语言模型M预测出填入所述掩码位置的标签k；

6.根据权利要求5所述的政策信息识别方法，其特征在于，训练所述语言模型M的方法步骤包括：

A1，对于作为训练样本的每个p(x)，计算所述标签词集合V中的每个标签词v(k)填入所述掩码位置的概率分数s_p，v(k，x)，s_p，v(k，x)的计算方法通过以下公式(2)表达：

s_p，v(k，x)＝M(v(k)|p(x)) 公式(2)

A2，通过softmax函数计算概率分布d_p，v(k，x)，d_p，v(k，x)通过softmax函数(3)计算：

K表示文本分类任务的标签集合；

L＝(1-α)·L_CE+α·L_MLM 公式(4)

公式(4)中，α表示微调系数；

L_CE表示模型预测的分布d_p，v(k，x)与真实分布间的差距；

L_MLM表示模型预测的分数s_p，v(k，x)与真实分数间的差距；

A4，判断是否达到模型迭代训练终止条件，

若是，则终止迭代，输出所述语言模型M；

若否，则调整模型参数后返回步骤A1继续进行迭代训练。

7.根据权利要求5所述的政策信息识别方法，其特征在于，所述语言模型M为由若干个语言子模型M_p融合形成的融合语言模型，训练所述融合语言模型的方法包括步骤：

B2，对于作为训练样本的每个p(x)，通过对应的所述语言子模型M_p，计算所述标签词集合V中的每个标签词v(k)填入所述掩码位置的概率分数s_p，v(k，x)，s_p，v(k，x)的计算方法通过以下公式(5)表达：

s_p，v(k，x)＝M_p(v(k)|p(x)) 公式(5)

w(p)表示所述模板函数p在计算s(k，x)时所占的权重；

K表示文本分类任务的标签集合；

L＝(1-α)·L_CE+α·L_MLM 公式(8)

公式(8)中，α表示微调系数；

L_CE表示模型预测的分布d(k，x)与真实分布间的差距；

L_MLM表示模型预测的分数s(k，x)与真实分数间的差距；

B6，判断是否达到模型迭代训练终止条件，

若是，则终止迭代，输出所述融合语言模型；

若否，则调整模型参数后返回步骤B2继续进行迭代训练。

8.根据权利要求6或7所述的政策信息识别方法，其特征在于，微调系数α＝0.0001。