CN115455189A - 基于提示学习的政策文本分类方法 - Google Patents
基于提示学习的政策文本分类方法 Download PDFInfo
- Publication number
- CN115455189A CN115455189A CN202211229193.9A CN202211229193A CN115455189A CN 115455189 A CN115455189 A CN 115455189A CN 202211229193 A CN202211229193 A CN 202211229193A CN 115455189 A CN115455189 A CN 115455189A
- Authority
- CN
- China
- Prior art keywords
- policy
- model
- language
- text
- paragraph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012549 training Methods 0.000 claims description 52
- 230000006870 function Effects 0.000 claims description 37
- 238000007726 management method Methods 0.000 claims description 20
- 238000011156 evaluation Methods 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000012552 review Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 150000001875 compounds Chemical class 0.000 claims description 4
- 239000000463 material Substances 0.000 claims description 4
- 230000008520 organization Effects 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 12
- 239000000203 mixture Substances 0.000 abstract description 9
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 239000013598 vector Substances 0.000 description 14
- 238000011161 development Methods 0.000 description 7
- 230000018109 developmental process Effects 0.000 description 7
- 238000013507 mapping Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 235000019580 granularity Nutrition 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 238000009440 infrastructure construction Methods 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Resources & Organizations (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于提示学习的政策文本分类方法。
背景技术
政策文件的文本结构划分具有标准可循,甚至用词上也有统一的标准。对政策文件的段落类型进行自动化地识别,对于提高政策文件内容分析的针对性和效率尤为重要。近些年,自然语言处理技术迅猛发展,主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。因此,对于具有结构化的文本内容的政策文件而言,自然语言处理技术不失为对政策文件中的段落进行分类的一种有效手段。
目前,具有较高分类精度的政策文件段落类型识别方法很少,部分学者采用无监督学习的方式训练段落分类识别模型以用于识别政策文件的段落类型,但由于缺乏对政策文件段落的分类、标准,导致训练而得的段落分类识别模型的性能不够稳定。还有部分学者采用监督学习方法训练段落分类识别模型,但同样没有统一的标准对政策文件的段落类型作标签标注,导致训练而得的段落分类识别模型同样不够稳定,且获取大量用于监督学习的训练样本通常需要较高的成本。
发明内容
本发明以实现对政策文件文本段落的准确分类为目的,提供了一种基于提示学习的政策文本分类方法。
为达此目的,本发明采用以下技术方案:
提供一种基于提示学习的政策文本分类方法,步骤包括:
A4,判断是否达到模型迭代训练终止条件,
若否,则调整模型参数后返回步骤A1继续进行迭代训练。
作为优选,所构造的所述损失函数通过以下公式(3)表达:
B6,判断是否达到模型迭代训练终止条件,
若是,则终止迭代,输出所述融合语言模型;
若否,则调整模型参数后返回步骤B2继续进行迭代训练。
所构造的所述损失函数通过以下公式(7)表达:
作为优选,所述政策文件要素体系包括句子级别要素和实体级别要素,所述句子级别要素包括政策目标、申请审核、政策工具-供给型、政策工具-环境型、政策工具-需求型、资金管理、监管评估、准入条件8大类共27个子类别中的任意一种或多种,
其中,所述政策工具-供给型这一大类下包括人才培养、资金支持、技术支持、公共服务这4个子类别中的任意一种或多种;
所述政策工具-环境型这一大类下包括法规管制、目标规划、税收优惠、金融支持、组织建设、政策宣传这6个子类别中的任意一种或多种;
所述政策工具-需求型这一大类下包括政府采购、公司合作、海外合作这3个子类别中的任意一种或多种;
所述监管评估这一大类下包括监督管理和/或考核评估这2个子类别;
所述资金管理这一大类下包括资金来源和/或管理原则这2个子类别。
本发明具有以下有益效果:
1、构建了一套完整的政策文件要素体系,将政策文件中的各个不同要素作清晰划分,后续基于这个体系,能够更为准确地实现对政策文件中每个段落的分类。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例构建的政策文件要素体系的示意图;
图2是本发明一实施例提供的预测政策文件的段落类别的逻辑框图;
图3是本发明一实施例提供的基于提示学习的政策信息识别器的逻辑框图;
图4是本发明一实施例用于对比的基于预训练-微调的政策信息识别器的逻辑框图;
图5是本发明一实施例提供的基于提示学习的政策文本分类方法的实现步骤图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
在本发明的描述中,除非另有明确的规定和限定,若出现术语“连接”等指示部件之间的连接关系,该术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
本发明实施例中,申请人收集了一定数量的政策文件,作为政策文件要素体系构建的参考以及后续政策文本分类器的模型训练数据。这些政策文件涉及农业、工业、商业、服务业等各个领域,政策文件的适用对象包括个体、企业、机构等。本实施例所构建的政策文件要素体系如图1所示,根据在文本段落中的字符长度,将体系中的要素分为句子级别和实体级别。句子级别的要素在段落中一般覆盖了整个句子,比如“对成功上市的企业,对经营团队给予市区联动200万元奖励”,这个句子为一条完整的句子,因此被认定为句子级别;而实体级别的要素在段落中一般包含于具有特定意义的词中,比如政策名称、政策文号、发布地区、制定部门等。
进一步地,句子级别的要素又细分为一般形式和“主体-关系-域”形式,一般形式的句子级别要素用于区分段落在政策文本中的内容构成,如图1中的政策目标、申请审核、政策工具、监督评估、资金管理等。而“主体-关系-域”形式的句子级别要素用于结构化地表示政策的准入条件,如与企业注册地相关的准入条件“企业注册地-属于-上海”。具体如图1所示,本实施例所构建的政策文件要素体系的具体内容如下:
1、实体级别的要素包括:政策名称、政策文号、发布地区、制定部门、执行部门、发布时间和执行期限7个类别;
2、一般形式的句子级别的要素包括:政策目标、申请审核、政策工具、监管评估、资金管理5个大类。其中,监管评估被进一步细分为监督管理和考核评估2个子类。资金管理被进一步细分为资金来源和管理规则2个子类。政策工具被进一步细分为如下3个类型共13个子类:
供给型政策工具,包括人才培养(建立人才发展规划,积极完善各种教育体系及培训体系等)、资金支持(提供财力支持,如研发经费和基础设施建设经费等)、技术支持(技术辅导与咨询,加强技术基础设施建设等)、公共服务(完善相关配套设施、政策环境等)。
环境型政策工具,包括法规管制(制定法规、标准,规范市场秩序,加大监管力度)、目标规划(顶层设计,提供相应政策配套服务)、税收优惠(税收减免和退税等政策激励,包括投资减免、加速折扣、免税和租税抵扣等)、金融支持(通过金融机构为企业提供贷款、补助、风险投资、信用担保、基金、风险控制以及其他金融支持)、组织建设(为促进产业健康发展设立领导、监管、服务等组织及队伍建设)、政策宣传(为促进产业发展宣传相关政策)。
需求型政策工具,包括政府采购(政府向相关企业进行产品采购)、公私合作(政府与社会多方主体共同参与产业发展的相关活动,如共同投资、共同开展技术研究、发展规划研究等)、海外合作(引进外资,在生成技术、标准定制等方面与海外政府、企业或科研机构展开合作与交流)。
“主体-关系-域”形式的句子级别的要素包括准入条件,其中又可以细分为8个子类:注册地、产权要求、业务领域、员工构成、法人资格、企业类型、经营要求、研发要求。
在对政策文本进行段落分类前,首先对政策文件的文本内容进行段落拆分。对政策文件的文本内容进行段落拆分的现有方法有许多,且拆分段落的方式也并非本发明请求权利保护的范围,因此有关段落拆分的具体方式在此不做说明。
完成段落拆分后,进入段落分类流程。本实施例中,通过预先训练的政策文本分类器对段落进行分类,进而分析政策文件的内容构成和文件结构。本实施例中,选择图1中所示的政策文件要素体系中的一般形式的句子级别要素作为段落的候选类别集合,并且使用两种不同分类粒度的类别集合为样本分别进行了政策文本分类器的训练并比较了训练效果,其中一个分类粒度的句子级别要素为图1中所示的政策目标、申请审核、政策工具-供给型、政策工具-环境型、政策工具-需求型、资金管理和监管评估共7个大类;另外一个分类粒度为对政策工具、监管评估、资金管理这3个大类扩充后的17个小类以及政策目标、申请审核这两个大类共19个类别。政策文本分类器在对段落进行分类时,还会判断段落是否不属于这些种类的任意一个,即判断是否为无意义段落。
以下对本实施例利用预训练的政策文本分类器对输入的段落进行分类的方法进行具体阐述:
本实施例中,对输入段落进行分类的技术核心是采用了提示学习的思想,提示学习可以简化分类过程、提高分类效率,对于小规模数据集具有更高的分类优越性。具体而言,为了更充分地发挥政策文本分类器强大的问答和阅读理解能力,以及挖掘标注的小规模政策文件文本数据集中包含的更深层次的信息,通过将输入的段落文本按照特定模式进行处理,为其增加任务提示语言,使其更适配语言模型的问答形式。基于提示学习的政策文本分类器进行段落识别的原理如下:
设为预先训练的语言模型(优选为BERT语言模型),是政策文件要素体系中的标签词集合,掩码词被用于填写语言模型的输入里被遮盖住的掩码位置的内容,并令是文本分类任务(段落分类任务)的标签集合。对每个政策文本段落分词后得到输入语言模型的词序列,然后使用自定义的模板函数将转换为语言模型的输入,在中增加了分类任务的提示语言,提示语言中包含需要预测并填写标签的掩码位置。经转换后,可以将段落类型预测问题转换为完形填空问题,即语言模型以完形填空问题形式表示的为输入,将预测得到的最合适填入掩码位置的词作为对表达的段落的分类预测结果。
需要强调的是,本申请基于提示学习的思想,更好地利用了语言模型的问答和阅读理解能力,同时由于将分类问题转换成了完形填空问题,预测过程更加简单,提高了政策文本分类器的分类效率。进一步地,本实施例定义了一个从文本分类任务的标签集合到政策文件要素体系中的标签词集合的映射作为标签的转换器。例如,对于中的标签,该标签转换器将其映射为标签词,“政策目标”即为预测的段落类别。
给定一个输入段落(优选为原始段落的词序列),使用模板函数将转换为语言模型的输入,语言模型会预测中掩码位置最合适的标签,,然后使用标签转换器将这个标签映射为政策文件要素体系中的标签词,,并将其作为对段落的分类。作为优选,本实施例采用预训练的中文BERT模型作为语言模型,其对掩码位置的预测方法沿用了BERT模型的预训练任务,即使用其对中掩码位置对应的输出来预测掩码位置的标签(预测方法与BERT模型的Masked Language Model预训练任务一致,不做详细说明)。
举例而言,关于模板函数,假设定义为“。总体而言,这是有关_____的政策文本段落。”其中,“_____”表示掩码位置,这样就为原始文本段落增加了一个分类任务的提示语言。例如为“对成功上市的企业,对经营团队给予市区联动200万元奖励”,对于该段落,增加上述的提示语言后,语言模型的分类任务为预测“对成功上市的企业,对经营团队给予市区联动200万元奖励。总体而言,这是有关_____的政策文本段落。”中的掩码位置“_____”的标签。预测出掩码位置后的标签后,将预测到的标签映射为政策文件要素体系中的标签词集合中对应的标签词作为预测得到的段落的类型。
语言模型优选采用BERT模型,BERT模型的现有训练方法有许多,这些现有的训练方法可应用到本申请中用于训练语言模型,区别在于,本实施例用于训练语言模型的样本为经模板函数转换得到的以及经标签转换器转换得到的标签词集合中对应的标签词,以及本申请为提高分类精度而改进的用于评估模型性能的损失函数。
对于每个政策文本段落产生的只包含一个掩码位置的序列,对政策文件要素体系中的标签词集合中的每个标签词填入该掩码位置的概率计算一个分数(由于标签在标签词集合中具有一个存在映射关系的标签词,因此预测标签填入该掩码位置的概率分数相当于预测对应的标签词填入该掩码位置的概率分数),这个分数由语言模型预测,代表预测出的该标签词可以填入该掩码位置的可能性。更为具体地,对于一个序列,本申请计算文本分类任务的标签集合中的标签填入该掩码位置的概率分数的方法通过以下公式(1)表达:
最后,判断是否达到模型迭代训练终止条件,
若否,则调整模型参数后继续进行迭代训练。
首先,定义一个模板函数集合,模板函数集合中包含若干个不同的模板函数,例如,模板函数为“。这个政策文本段落和什么有关_____”,又例如,模板函数为“这个政策文本段落和什么有关和_____有关”等等。对于不同的模板函数,本实施例通过以下方法来训练融合语言模型:
本申请提供的以具有提示语言的为语言模型的输入的掩码位置标签预测方法在有标注的训练数据集规模较小的情况下具有优秀的预测性能,为了验证其在训练数据较少时的优秀性能,本申请还设计了多种基于完全监督学习的政策文本分类器进行性能比较,具体方法包括:
(1)对于政策文件段落,使用分词工具得到词序列,记为,表示词序列中的第个词,再通过在大规模综合领域语料库上预训练得到的词向量表示模型对分词后的每个词进行分布式表示。本实施例中,使用的是静态的词向量,每个词被表示为一个300维的预训练的向量,表示词序列中的第个词,通过词向量得到段落的特征表示后,将段落的特征表示输入一个多分类器来预测每个段落属于个类别的概率,预测过程表示为:,为特征表示函数,表示段落为第个类别的概率,选择其中概率最大的类别作为段落所述的类别。
(2)在多分类器部分,本申请选择基于统计机器学习和基于深度学习的方法对多分类器进行完全监督学习。其中,基于统计机器学习的多分类器是以支持向量机模型和XGBoost模型为基础设计的;基于深度学习的多分类器是以TextCNN模型和Bi-LSTM+Attention模型为基础设计的。
1)在基于统计机器学习的多分类器中,对一个政策文本段落,将分词后的段落的所有词的300维分布式表示的每一维取平均值并拼接上段落的长度和在整篇政策文件中的相对位置(段落在文件中的索引值/文件的总分段数)这两个特征后得到一个302维的特征向量,将其输入到多分类器中,输出该段落分类的标签。
2)在基于深度学习的多分类器中,对一个政策文本段落,将分词后的段落的所有词的分布式表示拼接成一个矩阵,并用3种不同尺寸的卷积核去提取特征,3种卷积核的大小可以分别为3×3、4×4、5×5,卷积后再进行最大池化,最后将不同尺寸的卷积核提取的特征拼接为特征向量输入到softmax激活函数后输出该段落分类的标签。
3)在另一个基于深度学习的多分类器中,对一个政策文本段落,将分词后的段落的所有词的300维分布式表示正向输入到LSTM长短时记忆网络中得到,逆向输入LSTM得到,并将两者对应时序的元素相加得到每个时序的输出向量。然后通过Attention机制,计算每个时序的权重并将所有时序的向量加权求和作为特征向量,最后使用softmax函数进行分类。
以下展示了通过方法(1)以及方法(2)中的1)、2)、3)四种方法训练得到的多分类器与通过本发明实施例提供的基于提示语言和掩码位置标签预测的政策文本分类方法训练的语言模型对图1中所示的“政策目标、申请审核、政策工具-供给型、政策工具-环境型、政策工具-需求型、监督管理、考核评估、资金来源、管理原理”9大类以及“政策目标、申请审核、人才培养、资金支持、技术支持、公共服务、法规管制、目标规划、税收优惠、金融支持、组织建设、政策宣传、政府采购、公私合作、海外合作、监督管理、考核评估、资金来源、管理原则”19类这两种不同粒度的政策文件的段落分类的效果对比表,评价指标为测试集上的正确率。由下表可知:本实施例训练的语言模型在段落中增加分类任务提示语言进行掩码位置标签预测的段落文本分类方法在小规模数据集上表现出了比其他四种方法训练的多分类器具有更优的段落分类性能,证明了本实施例训练的语言模型在小规模数据集上预测段落类别的优越性。
表a
完成对政策文本中的段落分类后,有时需要自动识别出各个段落中的关键信息。本申请通过预训练政策信息识别器来识别政策文件中的关键信息。本申请中,定义图1所示的政策文件要素体系中的实体级别的要素作为政策的关键信息类别集合,即图1中所示的“政策名称、政策文号、发布地区、制定部门、执行部门、发布时间、执行期限”7个类别。
总体而言,本申请将每个段落看作一个字符序列,通过政策信息识别器去识别字符序列中的每一位是否为实体边界以及识别实体的种类。具体地,如图3所示,设定为预训练的语言模型,在模型中,是政策文件要素体系中用于实体识别的标签词集合,并令为实体识别任务的标签集合,标签集合中的每个标签在标签词集合中存在一个具有映射关系的标签词,并定义句子模板,模板中包含两个待填入词的空缺,第一空缺填入的内容为从输入段落中截取的文本片段,这些片段被视为候选的实体,第二空缺为需要预测的所填入的文本片段的实体类别标签。对政策文件要素体系中用于实体识别的标签词集合中的每一个标签词代表的实体类型,将这个实体类型填入中定义一个新模板,例如定义句子模板为“[文本片段]是一个[实体类型]政策实体”,那么对于实体识别的标签词集合中的类型为“制定部门”的实体,将其填入模板中后可以定义一个新的模板例如为“[候选实体]是一个制定部门政策实体”。此外,为了处理文本片段不是实体的情况,再定义一个“非实体”类型的句子模板,也就是“[文本片段]不是一个政策实体”,这样,多个不同的实体类型的句子模板和非实体类型的句子模板构成一个句子模板的集合。
通过上述过程,就使用语言模型为每种实体类型和非实体类型的句子模板都计算了一个在第二空缺填入标签词的概率得分,然后将每个候选的文本片段分类为得分最高的句子模板对应的类型,当然该类型也可能是“非实体”。其中被分配了实体类型的文本片段就是这段文本中识别出的实体,其实体类型为分配的实体类型。
以下对训练政策信息识别器的方法进行简要阐述:
以和对应的真实标签词为模型训练样本,按照7:3的比例将样本数据集随机划分为训练集和验证集。对于训练集中的数据,若文本片段的实体类型为,则将和分别填入到实体类型的句子模板的第一空缺和第二空缺中。若文本片段不是实体,则将填入非实体类型的句子模板中,同样得到一个填充好的句子。另外,本申请使用训练集中的所有实体样本来填充包含实体的句子模板,并通过在剩下的非实体类型的词中随机采样来填充非实体的句子模板,二者的比例优选为1:1.5,以增加非实体句子模板对实体句子模板识别的干扰,进而提升政策信息识别器的关键信息抽取精度。需要强调的是,本申请中,语言模型优选为BART模型。BART模型计算句子模板的得分的原理为:
给定一个政策文本段落和句子模板集合,将输入到BART模型的编码器中,得到段落的特征表示。在BART模型的解码器的每一步中,和解码器之前的输出一同作为当前步的输入,使用注意力方法得到当前步的特征表示,将该特征表示进行线性变换后使用softmax函数得到当前步输出单词的条件概率(指在给定前c-1项和输入段落后,第c项的概率分布),计算方式为,其中为模型参数。
在训练BART模型中,使用交叉熵损失函数计算解码器的输出与真实模板之间的差距,以此为模型参数调节的依据,对模型参数进行调整后继续迭代训练BART模型,直至达到模型收敛条件。
本申请提供的基于提示学习的政策信息提取方法在小规模数据集上具有优秀的识别效果,为了验证其在训练数据集规模较小时的性能,本申请还设计了多种基于预训练-微调的政策信息识别器在相同数据集上进行性能比较,具体方法如图4所示,包括:
在政策信息识别器的输入数据的分布式特征表示部分,同时使用词汇级别和字符级别的分布式特征表示,词汇级别的每个词的分布式特征表示通过在大规模综合领域语料库上预训练的词向量表示模型实现,而字符级别的每个字符的分布式特征通过预训练的中文RoBERTa模型实现。由于词向量表示模型和中文RoBERTa模型对输入数据进行分布式特征表示的过程并非本申请要求权利保护的范围,因此具体过程不做说明。
政策信息识别器的上下文编码层承接分布式表示层的输出,对文本语义和字词之间的依赖进一步建模。在本实施例中,采用多层感知机、Transformer和Flat-LatticeTransforme,三种模型的结构及构建方法简述如下:
在基于多层感知机的上下文编码层中,采用线性层-ReLU函数层-线性层的结构。
在基于Transformer的上下文编码层中,使用Transformer Encoder对文本进行特征编码。
在基于Flat-Lattice Transformer(FLAT)的上下文编码层中,使用了一种Transformer的变体FLAT,同时使用了文本的字符和词汇的分布式表示,并进一步拓展了Transformer中的位置编码,引入了文本字符和词汇的首尾相对位置,试图更好地克服政策文件实体长度不平衡的问题。FLAT的文本片段相对位置编码计算方法通过如下公式(9)表达:
公式(9)中,和分别表示第个文本片段在原始序列中的第一个和最后一个字符的位置索引。对于字符,其第一个和最后一个字符的位置索引是相同的。是一个可学习的参数,包括,的计算方法通过如下公式(10)、(11)表达:
政策信息识别器的解码层使用条件随机场模型,解码过程使用了基于动态规划的维特比算法来获得较高的解码效率,并且使用条件随机场损失函数进行优化。
以下展示了基于预训练-微调的政策信息识别器与通过本发明实施例提供的基于提示学习的政策信息识别器在有标注的训练数据集规模较小的情况下对图1中所示的“政策名称、政策文号、发布地区、制定部门、执行部门、发布时间、执行期限”7个类别的政策信息的抽取效果对比表,评价指标为测试集上的F1得分。由下表b可知:本实施例训练的语言模型N在小规模训练数据集上表现出了比其他方法训练的政策信息识别器更优的性能,证明了本实施例训练的语言模型N在有标注的训练数据集较少时识别政策关键信息的优越性。
表b
综上,本发明实施例提供的基于提示学习的政策文本分类方法,如图5所示,步骤包括:
本发明具有以下有益效果:
1、构建了一套完整的政策文件要素体系,将政策文件中的各个不同要素作清晰划分,后续基于这个体系,能够更为准确地实现对政策文件中每个段落的分类。
2、通过在原始段落中增加了分类任务的提示语言,该提示语言中包含需要预测并填写标签的掩码位置,将段落分类问题转换为类似完形填空的分类预测问题,简化了段落分类预测的过程,能够基于所构建的完整的政策文件要素体系,更精准地从内容构成和文件结构的角度解析政策文件文本,并挖掘出更深层的信息,并且在有标注的训练数据集规模较小的情况下有优秀的表现。
3、提供的政策信息识别器通过在所构建的政策文件要素体系下预测两个空缺内容标签的方式简化了文本实体的识别难度,能够基于构建的政策文件要素体系,更准确地从文本中提取出有用的关键信息,并且在有标注的训练数据集规模较小的情况下有优秀的表现。
需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。
Claims (9)
B6,判断是否达到模型迭代训练终止条件,
若是,则终止迭代,输出所述融合语言模型;
若否,则调整模型参数后返回步骤B2继续进行迭代训练。
9.根据权利要求1所述的基于提示学习的政策文本分类方法,其特征在于,所述政策文件要素体系包括句子级别要素和实体级别要素,所述句子级别要素包括政策目标、申请审核、政策工具-供给型、政策工具-环境型、政策工具-需求型、资金管理、监管评估、准入条件8大类共27个子类别中的任意一种或多种,
其中,所述政策工具-供给型这一大类下包括人才培养、资金支持、技术支持、公共服务这4个子类别中的任意一种或多种;
所述政策工具-环境型这一大类下包括法规管制、目标规划、税收优惠、金融支持、组织建设、政策宣传这6个子类别中的任意一种或多种;
所述政策工具-需求型这一大类下包括政府采购、公司合作、海外合作这3个子类别中的任意一种或多种;
所述监管评估这一大类下包括监督管理和/或考核评估这2个子类别;
所述资金管理这一大类下包括资金来源和/或管理原则这2个子类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211229193.9A CN115455189A (zh) | 2022-10-08 | 2022-10-08 | 基于提示学习的政策文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211229193.9A CN115455189A (zh) | 2022-10-08 | 2022-10-08 | 基于提示学习的政策文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115455189A true CN115455189A (zh) | 2022-12-09 |
Family
ID=84309036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211229193.9A Pending CN115455189A (zh) | 2022-10-08 | 2022-10-08 | 基于提示学习的政策文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115455189A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115859968A (zh) * | 2023-02-27 | 2023-03-28 | 四川省计算机研究院 | 基于自然语言解析及机器学习的政策颗粒化分析系统 |
CN116011456A (zh) * | 2023-03-17 | 2023-04-25 | 北京建筑大学 | 基于提示学习的中文建筑规范文本实体识别方法及系统 |
-
2022
- 2022-10-08 CN CN202211229193.9A patent/CN115455189A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115859968A (zh) * | 2023-02-27 | 2023-03-28 | 四川省计算机研究院 | 基于自然语言解析及机器学习的政策颗粒化分析系统 |
CN115859968B (zh) * | 2023-02-27 | 2023-11-21 | 四川省计算机研究院 | 一种基于自然语言解析及机器学习的政策颗粒化分析系统 |
CN116011456A (zh) * | 2023-03-17 | 2023-04-25 | 北京建筑大学 | 基于提示学习的中文建筑规范文本实体识别方法及系统 |
CN116011456B (zh) * | 2023-03-17 | 2023-06-06 | 北京建筑大学 | 基于提示学习的中文建筑规范文本实体识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115310425B (zh) | 基于政策文本分类和关键信息识别的政策文本分析方法 | |
CN109493166B (zh) | 一种针对电子商务导购场景任务型对话系统的构建方法 | |
US11734328B2 (en) | Artificial intelligence based corpus enrichment for knowledge population and query response | |
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN110188358B (zh) | 自然语言处理模型的训练方法及装置 | |
CN108446271B (zh) | 基于汉字部件特征的卷积神经网络的文本情感分析方法 | |
CN105260356B (zh) | 基于多任务学习的中文交互文本情感与话题识别方法 | |
CN107729309A (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN115455189A (zh) | 基于提示学习的政策文本分类方法 | |
CN113254610B (zh) | 面向专利咨询的多轮对话生成方法 | |
CN111783993A (zh) | 智能标注方法、装置、智能平台及存储介质 | |
CN115906842A (zh) | 一种政策信息识别方法 | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN115309910B (zh) | 语篇要素和要素关系联合抽取方法、知识图谱构建方法 | |
Meoli et al. | Machine-learning forecasting of successful ICOs | |
CN116070632A (zh) | 一种非正式文本实体标签识别方法和装置 | |
Gnehm et al. | Text zoning and classification for job advertisements in German, French and English | |
CN113312918B (zh) | 融合部首向量的分词和胶囊网络法律命名实体识别方法 | |
CN113869055A (zh) | 基于深度学习的电网项目特征属性识别方法 | |
CN109635289B (zh) | 词条分类方法及审计信息抽取方法 | |
CN116362242A (zh) | 一种小样本槽值提取方法、装置、设备及存储介质 | |
Sisodia et al. | Performance evaluation of learners for analyzing the hotel customer sentiments based on text reviews | |
KR102406961B1 (ko) | 자가 지도학습을 통한 데이터 특성 학습 방법 및 가짜 정보 판별 방법 | |
CN114942992A (zh) | 一种基于融合网络的交易对手识别方法、装置及电子设备 | |
Liu et al. | Suggestion mining from online reviews usingrandom multimodel deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |