CN115455189A - 基于提示学习的政策文本分类方法 - Google Patents

基于提示学习的政策文本分类方法 Download PDF

Info

Publication number
CN115455189A
CN115455189A CN202211229193.9A CN202211229193A CN115455189A CN 115455189 A CN115455189 A CN 115455189A CN 202211229193 A CN202211229193 A CN 202211229193A CN 115455189 A CN115455189 A CN 115455189A
Authority
CN
China
Prior art keywords
policy
model
language
text
paragraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211229193.9A
Other languages
English (en)
Inventor
李响
唐嘉成
周凌一
陈思明
魏忠钰
戴鼎璋
王江华
王思皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tiandao Jinke Co ltd
Zhejiang Zhelixin Credit Reporting Co ltd
Original Assignee
Tiandao Jinke Co ltd
Zhejiang Zhelixin Credit Reporting Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tiandao Jinke Co ltd, Zhejiang Zhelixin Credit Reporting Co ltd filed Critical Tiandao Jinke Co ltd
Priority to CN202211229193.9A priority Critical patent/CN115455189A/zh
Publication of CN115455189A publication Critical patent/CN115455189A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Resources & Organizations (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于提示学习的政策文本分类方法,属于自然语言处理技术领域。本发明构建了一套完整的政策文件要素体系,通过将政策文件中的的各个不同要素作清晰划分,后续基于这个体系,能够更为准确地实现对政策文件中每个段落的分类。提供的政策文本分类器通过在原始段落
Figure 356702DEST_PATH_IMAGE002
中增加分类任务的提示语言,该提示语言中包含需要预测并填写标签的掩码位置,将段落分类问题转换为类型完形填空的分类预测问题,简化了段落分类预测的过程,能够基于所构建的完整的政策文件要素体系,更精准地从内容构成和文件结构的角度解析政策文件文本,并挖掘出更深层的信息,提高了段落分类的准确度。

Description

基于提示学习的政策文本分类方法
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于提示学习的政策文本分类方法。
背景技术
政策文件的文本结构划分具有标准可循,甚至用词上也有统一的标准。对政策文件的段落类型进行自动化地识别,对于提高政策文件内容分析的针对性和效率尤为重要。近些年,自然语言处理技术迅猛发展,主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。因此,对于具有结构化的文本内容的政策文件而言,自然语言处理技术不失为对政策文件中的段落进行分类的一种有效手段。
目前,具有较高分类精度的政策文件段落类型识别方法很少,部分学者采用无监督学习的方式训练段落分类识别模型以用于识别政策文件的段落类型,但由于缺乏对政策文件段落的分类、标准,导致训练而得的段落分类识别模型的性能不够稳定。还有部分学者采用监督学习方法训练段落分类识别模型,但同样没有统一的标准对政策文件的段落类型作标签标注,导致训练而得的段落分类识别模型同样不够稳定,且获取大量用于监督学习的训练样本通常需要较高的成本。
发明内容
本发明以实现对政策文件文本段落的准确分类为目的,提供了一种基于提示学习的政策文本分类方法。
为达此目的,本发明采用以下技术方案:
提供一种基于提示学习的政策文本分类方法,步骤包括:
S1,对于给定的政策文件中的段落
Figure DEST_PATH_IMAGE001
,使用模板函数
Figure DEST_PATH_IMAGE002
Figure 506649DEST_PATH_IMAGE001
转换为语言模型
Figure DEST_PATH_IMAGE003
的输入
Figure DEST_PATH_IMAGE004
Figure 413337DEST_PATH_IMAGE004
在原始的所述段落
Figure 130758DEST_PATH_IMAGE001
中增加了分类任务的提示语言,所述提示语言中包含需要预测并填写标签的掩码位置;
S2,所述语言模型
Figure 994808DEST_PATH_IMAGE003
预测出填入所述掩码位置的标签
Figure DEST_PATH_IMAGE005
S3,标签转换器
Figure DEST_PATH_IMAGE006
将所述标签
Figure 792869DEST_PATH_IMAGE005
映射为事先构建的政策文件要素体系的标签词集合
Figure DEST_PATH_IMAGE007
中对应的标签词
Figure DEST_PATH_IMAGE008
作为预测得到的所述段落
Figure 864599DEST_PATH_IMAGE001
的类型。
作为优选,训练所述语言模型
Figure 833430DEST_PATH_IMAGE003
的方法步骤包括:
A1,对于作为训练样本的每个
Figure 235592DEST_PATH_IMAGE004
,计算所述标签词集合
Figure 983100DEST_PATH_IMAGE007
中的每个标签词
Figure 695839DEST_PATH_IMAGE008
填入所述掩码位置的概率分数
Figure DEST_PATH_IMAGE009
A2,通过softmax函数计算概率分布
Figure DEST_PATH_IMAGE010
A3,根据
Figure 433857DEST_PATH_IMAGE009
Figure 905289DEST_PATH_IMAGE010
,并利用所构造的损失函数,计算模型预测损失;
A4,判断是否达到模型迭代训练终止条件,
若是,则终止迭代,输出所述语言模型
Figure 507303DEST_PATH_IMAGE003
若否,则调整模型参数后返回步骤A1继续进行迭代训练。
作为优选,
Figure 638945DEST_PATH_IMAGE009
的计算方法通过以下公式(1)表达:
Figure DEST_PATH_IMAGE011
Figure 21516DEST_PATH_IMAGE010
通过softmax函数(2)表达计算:
Figure DEST_PATH_IMAGE012
公式(1)-(2)中,
Figure 77065DEST_PATH_IMAGE005
表示所述标签词
Figure 189378DEST_PATH_IMAGE008
的标签;
Figure DEST_PATH_IMAGE013
表示文本分类任务的标签集合。
作为优选,所构造的所述损失函数通过以下公式(3)表达:
Figure DEST_PATH_IMAGE014
公式(3)中,
Figure DEST_PATH_IMAGE015
表示微调系数;
Figure DEST_PATH_IMAGE016
表示模型预测的分布
Figure 153573DEST_PATH_IMAGE010
与真实分布间的差距;
Figure DEST_PATH_IMAGE017
表示模型预测的分数
Figure 164385DEST_PATH_IMAGE009
与真实分数间的差距。
作为优选,所述语言模型
Figure 944997DEST_PATH_IMAGE003
为由若干个语言子模型
Figure DEST_PATH_IMAGE018
融合形成的融合语言模型,训练所述融合语言模型的方法包括步骤:
B1,定义模板函数集合
Figure DEST_PATH_IMAGE019
,所述模板函数集合
Figure 426663DEST_PATH_IMAGE019
中包含若干个不同的所述模板函数
Figure 401572DEST_PATH_IMAGE002
B2,对于作为训练样本的每个
Figure 289894DEST_PATH_IMAGE004
,通过对应的所述语言子模型
Figure 375661DEST_PATH_IMAGE018
,计算所述标签词集合
Figure 565029DEST_PATH_IMAGE007
中的每个标签词
Figure 445260DEST_PATH_IMAGE008
填入所述掩码位置的概率分数
Figure 352036DEST_PATH_IMAGE009
B3,对关联每个所述模板函数
Figure 474451DEST_PATH_IMAGE002
Figure 25649DEST_PATH_IMAGE009
进行融合得到
Figure DEST_PATH_IMAGE020
B4,通过softmax函数计算概率分布
Figure DEST_PATH_IMAGE021
B5,根据
Figure 981841DEST_PATH_IMAGE020
Figure 110334DEST_PATH_IMAGE021
,并利用所构造的损失函数,计算模型预测损失;
B6,判断是否达到模型迭代训练终止条件,
若是,则终止迭代,输出所述融合语言模型;
若否,则调整模型参数后返回步骤B2继续进行迭代训练。
作为优选,
Figure 911806DEST_PATH_IMAGE009
的计算方法通过以下公式(4)表达:
Figure DEST_PATH_IMAGE022
Figure 379828DEST_PATH_IMAGE020
通过以下公式(5)融合而得:
Figure DEST_PATH_IMAGE023
公式(5)中,
Figure DEST_PATH_IMAGE024
表示所述模板函数集合
Figure 388147DEST_PATH_IMAGE019
中的所述模板函数
Figure 3936DEST_PATH_IMAGE002
的数量;
Figure DEST_PATH_IMAGE025
表示所述模板函数
Figure 936995DEST_PATH_IMAGE002
在计算
Figure 197206DEST_PATH_IMAGE020
时所占的权重;
Figure 88676DEST_PATH_IMAGE021
通过softmax函数(6)计算:
Figure DEST_PATH_IMAGE026
所构造的所述损失函数通过以下公式(7)表达:
Figure DEST_PATH_IMAGE027
公式(7)中,
Figure 972188DEST_PATH_IMAGE015
表示微调系数;
Figure 7140DEST_PATH_IMAGE016
表示模型预测的分布
Figure 512070DEST_PATH_IMAGE021
与真实分布间的差距;
Figure 810328DEST_PATH_IMAGE017
表示模型预测的分数
Figure 604688DEST_PATH_IMAGE020
与真实分数间的差距。
作为优选,所述语言模型
Figure 177752DEST_PATH_IMAGE003
或所述语言子模型
Figure 271610DEST_PATH_IMAGE018
为BERT语言模型。
作为优选,微调系数
Figure DEST_PATH_IMAGE028
作为优选,所述政策文件要素体系包括句子级别要素和实体级别要素,所述句子级别要素包括政策目标、申请审核、政策工具-供给型、政策工具-环境型、政策工具-需求型、资金管理、监管评估、准入条件8大类共27个子类别中的任意一种或多种,
其中,所述政策工具-供给型这一大类下包括人才培养、资金支持、技术支持、公共服务这4个子类别中的任意一种或多种;
所述政策工具-环境型这一大类下包括法规管制、目标规划、税收优惠、金融支持、组织建设、政策宣传这6个子类别中的任意一种或多种;
所述政策工具-需求型这一大类下包括政府采购、公司合作、海外合作这3个子类别中的任意一种或多种;
所述监管评估这一大类下包括监督管理和/或考核评估这2个子类别;
所述资金管理这一大类下包括资金来源和/或管理原则这2个子类别。
本发明具有以下有益效果:
1、构建了一套完整的政策文件要素体系,将政策文件中的各个不同要素作清晰划分,后续基于这个体系,能够更为准确地实现对政策文件中每个段落的分类。
2、通过在原始段落
Figure 114670DEST_PATH_IMAGE001
中增加了分类任务的提示语言,该提示语言中包含需要预测并填写标签的掩码位置,将段落分类问题转换为类似完形填空的分类预测问题,简化了段落分类预测的过程,能够基于所构建的完整的政策文件要素体系,更精准地从内容构成和文件结构的角度解析政策文件文本,并挖掘出更深层的信息,并且在有标注的训练数据集规模较小的情况下有优秀的表现。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例构建的政策文件要素体系的示意图;
图2是本发明一实施例提供的预测政策文件的段落类别的逻辑框图;
图3是本发明一实施例提供的基于提示学习的政策信息识别器的逻辑框图;
图4是本发明一实施例用于对比的基于预训练-微调的政策信息识别器的逻辑框图;
图5是本发明一实施例提供的基于提示学习的政策文本分类方法的实现步骤图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
在本发明的描述中,除非另有明确的规定和限定,若出现术语“连接”等指示部件之间的连接关系,该术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
本发明实施例中,申请人收集了一定数量的政策文件,作为政策文件要素体系构建的参考以及后续政策文本分类器的模型训练数据。这些政策文件涉及农业、工业、商业、服务业等各个领域,政策文件的适用对象包括个体、企业、机构等。本实施例所构建的政策文件要素体系如图1所示,根据在文本段落中的字符长度,将体系中的要素分为句子级别和实体级别。句子级别的要素在段落中一般覆盖了整个句子,比如“对成功上市的企业,对经营团队给予市区联动200万元奖励”,这个句子为一条完整的句子,因此被认定为句子级别;而实体级别的要素在段落中一般包含于具有特定意义的词中,比如政策名称、政策文号、发布地区、制定部门等。
进一步地,句子级别的要素又细分为一般形式和“主体-关系-域”形式,一般形式的句子级别要素用于区分段落在政策文本中的内容构成,如图1中的政策目标、申请审核、政策工具、监督评估、资金管理等。而“主体-关系-域”形式的句子级别要素用于结构化地表示政策的准入条件,如与企业注册地相关的准入条件“企业注册地-属于-上海”。具体如图1所示,本实施例所构建的政策文件要素体系的具体内容如下:
1、实体级别的要素包括:政策名称、政策文号、发布地区、制定部门、执行部门、发布时间和执行期限7个类别;
2、一般形式的句子级别的要素包括:政策目标、申请审核、政策工具、监管评估、资金管理5个大类。其中,监管评估被进一步细分为监督管理和考核评估2个子类。资金管理被进一步细分为资金来源和管理规则2个子类。政策工具被进一步细分为如下3个类型共13个子类:
供给型政策工具,包括人才培养(建立人才发展规划,积极完善各种教育体系及培训体系等)、资金支持(提供财力支持,如研发经费和基础设施建设经费等)、技术支持(技术辅导与咨询,加强技术基础设施建设等)、公共服务(完善相关配套设施、政策环境等)。
环境型政策工具,包括法规管制(制定法规、标准,规范市场秩序,加大监管力度)、目标规划(顶层设计,提供相应政策配套服务)、税收优惠(税收减免和退税等政策激励,包括投资减免、加速折扣、免税和租税抵扣等)、金融支持(通过金融机构为企业提供贷款、补助、风险投资、信用担保、基金、风险控制以及其他金融支持)、组织建设(为促进产业健康发展设立领导、监管、服务等组织及队伍建设)、政策宣传(为促进产业发展宣传相关政策)。
需求型政策工具,包括政府采购(政府向相关企业进行产品采购)、公私合作(政府与社会多方主体共同参与产业发展的相关活动,如共同投资、共同开展技术研究、发展规划研究等)、海外合作(引进外资,在生成技术、标准定制等方面与海外政府、企业或科研机构展开合作与交流)。
“主体-关系-域”形式的句子级别的要素包括准入条件,其中又可以细分为8个子类:注册地、产权要求、业务领域、员工构成、法人资格、企业类型、经营要求、研发要求。
在对政策文本进行段落分类前,首先对政策文件的文本内容进行段落拆分。对政策文件的文本内容进行段落拆分的现有方法有许多,且拆分段落的方式也并非本发明请求权利保护的范围,因此有关段落拆分的具体方式在此不做说明。
完成段落拆分后,进入段落分类流程。本实施例中,通过预先训练的政策文本分类器对段落进行分类,进而分析政策文件的内容构成和文件结构。本实施例中,选择图1中所示的政策文件要素体系中的一般形式的句子级别要素作为段落的候选类别集合,并且使用两种不同分类粒度的类别集合为样本分别进行了政策文本分类器的训练并比较了训练效果,其中一个分类粒度的句子级别要素为图1中所示的政策目标、申请审核、政策工具-供给型、政策工具-环境型、政策工具-需求型、资金管理和监管评估共7个大类;另外一个分类粒度为对政策工具、监管评估、资金管理这3个大类扩充后的17个小类以及政策目标、申请审核这两个大类共19个类别。政策文本分类器在对段落进行分类时,还会判断段落是否不属于这些种类的任意一个,即判断是否为无意义段落。
以下对本实施例利用预训练的政策文本分类器对输入的段落进行分类的方法进行具体阐述:
本实施例中,对输入段落进行分类的技术核心是采用了提示学习的思想,提示学习可以简化分类过程、提高分类效率,对于小规模数据集具有更高的分类优越性。具体而言,为了更充分地发挥政策文本分类器强大的问答和阅读理解能力,以及挖掘标注的小规模政策文件文本数据集中包含的更深层次的信息,通过将输入的段落文本按照特定模式进行处理,为其增加任务提示语言,使其更适配语言模型的问答形式。基于提示学习的政策文本分类器进行段落识别的原理如下:
Figure 926768DEST_PATH_IMAGE003
为预先训练的语言模型(优选为BERT语言模型),
Figure 802058DEST_PATH_IMAGE007
是政策文件要素体系中的标签词集合,掩码词
Figure DEST_PATH_IMAGE029
被用于填写语言模型
Figure 625789DEST_PATH_IMAGE003
的输入里被遮盖住的掩码位置
Figure DEST_PATH_IMAGE030
的内容,并令
Figure 374171DEST_PATH_IMAGE013
是文本分类任务(段落分类任务)的标签集合。对每个政策文本段落分词后得到输入语言模型
Figure 850064DEST_PATH_IMAGE003
的词序列
Figure 764930DEST_PATH_IMAGE001
,然后使用自定义的模板函数
Figure 974326DEST_PATH_IMAGE002
Figure 549401DEST_PATH_IMAGE001
转换为语言模型
Figure 601671DEST_PATH_IMAGE003
的输入
Figure 789070DEST_PATH_IMAGE004
Figure 977606DEST_PATH_IMAGE004
Figure 130107DEST_PATH_IMAGE001
中增加了分类任务的提示语言,提示语言中包含需要预测并填写标签的掩码位置。经
Figure 138514DEST_PATH_IMAGE004
转换后,可以将段落类型预测问题转换为完形填空问题,即语言模型
Figure 660763DEST_PATH_IMAGE003
以完形填空问题形式表示的
Figure 936761DEST_PATH_IMAGE004
为输入,将预测得到的最合适填入掩码位置的词作为对
Figure 496049DEST_PATH_IMAGE001
表达的段落的分类预测结果。
需要强调的是,本申请基于提示学习的思想,更好地利用了语言模型
Figure 991753DEST_PATH_IMAGE003
的问答和阅读理解能力,同时由于将分类问题转换成了完形填空问题,预测过程更加简单,提高了政策文本分类器的分类效率。进一步地,本实施例定义了一个从文本分类任务的标签集合
Figure 544788DEST_PATH_IMAGE013
到政策文件要素体系中的标签词集合
Figure 442337DEST_PATH_IMAGE007
的映射作为标签的转换器
Figure 172527DEST_PATH_IMAGE006
。例如,对于
Figure 919641DEST_PATH_IMAGE013
中的标签
Figure 252533DEST_PATH_IMAGE005
,该标签转换器
Figure 270168DEST_PATH_IMAGE006
将其映射为标签词
Figure DEST_PATH_IMAGE031
,“政策目标”即为预测的段落类别。
图2是本发明实施例提供的预测政策文件的段落类别的逻辑框图。需要强调的是,对于每一个模板函数
Figure 873056DEST_PATH_IMAGE002
和标签转换器
Figure 608931DEST_PATH_IMAGE006
,本实施例通过以下步骤来实现对段落的分类:
给定一个输入段落
Figure 11094DEST_PATH_IMAGE001
(优选为原始段落的词序列),使用模板函数
Figure 991557DEST_PATH_IMAGE002
Figure 453762DEST_PATH_IMAGE001
转换为语言模型
Figure 411354DEST_PATH_IMAGE003
的输入
Figure 856023DEST_PATH_IMAGE004
,语言模型
Figure 458036DEST_PATH_IMAGE003
会预测
Figure 91143DEST_PATH_IMAGE004
中掩码位置最合适的标签
Figure 768987DEST_PATH_IMAGE005
Figure DEST_PATH_IMAGE032
,然后使用标签转换器
Figure 591580DEST_PATH_IMAGE006
将这个标签映射为政策文件要素体系中的标签词
Figure 936849DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE033
,并将其作为对段落
Figure 678540DEST_PATH_IMAGE001
的分类。作为优选,本实施例采用预训练的中文BERT模型作为语言模型
Figure 984625DEST_PATH_IMAGE003
,其对掩码位置的预测方法沿用了BERT模型的预训练任务,即使用其对
Figure 532281DEST_PATH_IMAGE004
中掩码位置对应的输出来预测掩码位置的标签(预测方法与BERT模型的Masked Language Model预训练任务一致,不做详细说明)。
举例而言,关于模板函数
Figure 374466DEST_PATH_IMAGE002
,假设定义
Figure 865489DEST_PATH_IMAGE004
为“
Figure 425914DEST_PATH_IMAGE001
。总体而言,这是有关_____的政策文本段落。”其中,“_____”表示掩码位置,这样就为原始文本段落
Figure 511682DEST_PATH_IMAGE001
增加了一个分类任务的提示语言。
Figure 831543DEST_PATH_IMAGE001
例如为“对成功上市的企业,对经营团队给予市区联动200万元奖励”,对于该段落
Figure 852719DEST_PATH_IMAGE001
,增加上述的提示语言后,语言模型
Figure 228337DEST_PATH_IMAGE003
的分类任务为预测“对成功上市的企业,对经营团队给予市区联动200万元奖励。总体而言,这是有关_____的政策文本段落。”中的掩码位置“_____”的标签
Figure 350752DEST_PATH_IMAGE005
。预测出掩码位置后的标签后,将预测到的标签
Figure DEST_PATH_IMAGE034
映射为政策文件要素体系中的标签词集合
Figure 229846DEST_PATH_IMAGE007
中对应的标签词
Figure 654880DEST_PATH_IMAGE008
作为预测得到的段落
Figure 783373DEST_PATH_IMAGE001
的类型。
以下对本实施例训练语言模型
Figure 210943DEST_PATH_IMAGE003
的方法进行说明:
语言模型
Figure 652201DEST_PATH_IMAGE003
优选采用BERT模型,BERT模型的现有训练方法有许多,这些现有的训练方法可应用到本申请中用于训练语言模型
Figure 405393DEST_PATH_IMAGE003
,区别在于,本实施例用于训练语言模型
Figure 896549DEST_PATH_IMAGE003
的样本为经模板函数
Figure 360766DEST_PATH_IMAGE002
转换得到的
Figure 745611DEST_PATH_IMAGE004
以及经标签转换器
Figure 404125DEST_PATH_IMAGE006
转换得到的标签词集合
Figure 881112DEST_PATH_IMAGE007
中对应的标签词
Figure 650485DEST_PATH_IMAGE008
,以及本申请为提高分类精度而改进的用于评估模型性能的损失函数。
训练语言模型
Figure 827519DEST_PATH_IMAGE003
时,本申请将样本数据集按照7:3的比例随机划分为训练集和验证集,训练过程如下:
对于每个政策文本段落产生的只包含一个掩码位置的序列
Figure 889891DEST_PATH_IMAGE001
,对政策文件要素体系中的标签词集合
Figure 621218DEST_PATH_IMAGE007
中的每个标签词
Figure 928702DEST_PATH_IMAGE008
填入该掩码位置的概率计算一个分数(由于标签
Figure 780815DEST_PATH_IMAGE005
在标签词集合
Figure 781132DEST_PATH_IMAGE007
中具有一个存在映射关系的标签词
Figure 468597DEST_PATH_IMAGE008
,因此预测标签
Figure 343886DEST_PATH_IMAGE005
填入该掩码位置的概率分数相当于预测对应的标签词
Figure 557830DEST_PATH_IMAGE008
填入该掩码位置的概率分数),这个分数由语言模型
Figure 729048DEST_PATH_IMAGE003
预测,代表预测出的该标签词可以填入该掩码位置的可能性。更为具体地,对于一个序列
Figure 402344DEST_PATH_IMAGE001
,本申请计算文本分类任务的标签集合
Figure 51631DEST_PATH_IMAGE013
中的标签
Figure 120081DEST_PATH_IMAGE005
填入该掩码位置的概率分数的方法通过以下公式(1)表达:
Figure 462201DEST_PATH_IMAGE011
公式(1)中,
Figure 747427DEST_PATH_IMAGE009
表示标签
Figure 75771DEST_PATH_IMAGE005
填入掩码位置的概率分数,由于标签
Figure 529886DEST_PATH_IMAGE005
与政策文件要素体系的标签词集合
Figure 547301DEST_PATH_IMAGE007
中对应的标签词
Figure 696654DEST_PATH_IMAGE008
具有映射关系,因此
Figure 953323DEST_PATH_IMAGE009
相当于表示标签词
Figure 494901DEST_PATH_IMAGE008
填入掩码位置的概率分数;
Figure DEST_PATH_IMAGE035
,例如可以将图1中的标签词“政策目标”的标签映射为
Figure DEST_PATH_IMAGE036
,将标签词“申请审核”的标签映射为
Figure DEST_PATH_IMAGE037
,通过这样建立映射关系,将所述任务从为输入句子分配一个没有含义的标签变为了选择最有可能填入掩码位置的词。
在计算得到
Figure 896932DEST_PATH_IMAGE007
中所有标签词填入同个掩码位置的分数后,通过softmax函数得到一个概率分布,具体计算方法通过以下公式(2)表达:
Figure 799160DEST_PATH_IMAGE012
公式(2)中,
Figure 561317DEST_PATH_IMAGE013
表示文本分类任务的标签集合。
然后,根据
Figure 458866DEST_PATH_IMAGE009
Figure 970749DEST_PATH_IMAGE010
,并利用所构造的损失函数,计算模型预测损失,所构造的损失函数通过以下公式(3)表达:
Figure 422590DEST_PATH_IMAGE014
公式(3)中,
Figure 660542DEST_PATH_IMAGE015
表示微调系数(优选为0.0001);
Figure 412597DEST_PATH_IMAGE016
表示模型预测的分布
Figure 703901DEST_PATH_IMAGE010
与真实独热向量分布间的差距;
Figure 548098DEST_PATH_IMAGE017
表示模型预测的分数
Figure 684681DEST_PATH_IMAGE009
与真实分数间的差距;
最后,判断是否达到模型迭代训练终止条件,
若是,则终止迭代,输出语言模型
Figure 291243DEST_PATH_IMAGE003
若否,则调整模型参数后继续进行迭代训练。
为了进一步提升模型训练效果,进而提升语言模型
Figure 753449DEST_PATH_IMAGE003
的分类性能,优选地,语言模型
Figure 943996DEST_PATH_IMAGE003
为由若干个语言子模型
Figure 25216DEST_PATH_IMAGE018
融合形成的融合语言模型,训练融合语言模型的方法为:
首先,定义一个模板函数集合
Figure 17443DEST_PATH_IMAGE019
,模板函数集合
Figure 889365DEST_PATH_IMAGE019
中包含若干个不同的模板函数
Figure 209619DEST_PATH_IMAGE002
,例如,模板函数
Figure 219163DEST_PATH_IMAGE002
为“
Figure 298852DEST_PATH_IMAGE001
。这个政策文本段落和什么有关_____”,又例如,模板函数
Figure 978226DEST_PATH_IMAGE002
为“这个政策文本段落和什么有关和_____有关”等等。对于不同的模板函数
Figure 644831DEST_PATH_IMAGE002
,本实施例通过以下方法来训练融合语言模型:
对于作为训练样本的每个
Figure 956601DEST_PATH_IMAGE004
,通过对应的语言子模型
Figure 533207DEST_PATH_IMAGE018
计算标签词集合
Figure 242537DEST_PATH_IMAGE007
中的每个标签词
Figure 426132DEST_PATH_IMAGE008
填入掩码位置的概率分数
Figure 652845DEST_PATH_IMAGE009
,计算方法通过以下公式(4)表达:
Figure 208591DEST_PATH_IMAGE022
对关联每个模板函数
Figure 722444DEST_PATH_IMAGE002
Figure 629220DEST_PATH_IMAGE009
进行融合得到
Figure 423738DEST_PATH_IMAGE020
,具体通过以下公式(5)表达:
Figure 99570DEST_PATH_IMAGE023
公式(5)中,
Figure 557227DEST_PATH_IMAGE024
表示模板函数集合
Figure 184256DEST_PATH_IMAGE019
中的模板函数
Figure 611826DEST_PATH_IMAGE002
的数量;
Figure 17531DEST_PATH_IMAGE025
表示模板函数
Figure 269258DEST_PATH_IMAGE002
在计算
Figure 698097DEST_PATH_IMAGE020
Figure 433752DEST_PATH_IMAGE021
时所占的权重,本实施例中,根据各语言子模型
Figure 818597DEST_PATH_IMAGE018
在训练集和验证集上获得的准确度来确定个
Figure 618057DEST_PATH_IMAGE018
的权重。
然后,通过softmax函数计算概率分布
Figure 219678DEST_PATH_IMAGE021
,计算方法通过以下公式(6)表达:
Figure DEST_PATH_IMAGE038
公式(4)、(5)、(6)中,
Figure 192313DEST_PATH_IMAGE035
Figure 805566DEST_PATH_IMAGE013
表示文本分类任务的标签集合;
最后,根据
Figure 634981DEST_PATH_IMAGE020
Figure 959783DEST_PATH_IMAGE021
,并利用所构造的损失函数,计算模型预测损失,所构造的损失函数通过以下公式(7)表达:
Figure 532847DEST_PATH_IMAGE027
公式(7)中,
Figure 266186DEST_PATH_IMAGE015
表示微调系数(优选为0.0001);
Figure 266503DEST_PATH_IMAGE016
表示模型预测的分布
Figure 78601DEST_PATH_IMAGE021
与真实分布间的差距;
Figure 705890DEST_PATH_IMAGE017
表示模型预测的分数
Figure 795200DEST_PATH_IMAGE020
与真实分数间的差距。
本申请提供的以具有提示语言的
Figure 966418DEST_PATH_IMAGE004
为语言模型
Figure 764347DEST_PATH_IMAGE003
的输入的掩码位置标签预测方法在有标注的训练数据集规模较小的情况下具有优秀的预测性能,为了验证其在训练数据较少时的优秀性能,本申请还设计了多种基于完全监督学习的政策文本分类器进行性能比较,具体方法包括:
(1)对于政策文件段落
Figure DEST_PATH_IMAGE039
,使用分词工具得到词序列,记为
Figure DEST_PATH_IMAGE040
,
Figure DEST_PATH_IMAGE041
表示词序列
Figure DEST_PATH_IMAGE042
中的第
Figure DEST_PATH_IMAGE043
个词,再通过在大规模综合领域语料库上预训练得到的词向量表示模型对分词后的每个词进行分布式表示。本实施例中,使用的是静态的词向量,每个词被表示为一个300维的预训练的向量
Figure DEST_PATH_IMAGE044
Figure DEST_PATH_IMAGE045
表示词序列
Figure 256377DEST_PATH_IMAGE042
中的第
Figure 94801DEST_PATH_IMAGE045
个词,通过词向量得到段落
Figure 436921DEST_PATH_IMAGE039
的特征表示
Figure DEST_PATH_IMAGE046
后,将段落的特征表示
Figure 535196DEST_PATH_IMAGE046
输入一个多分类器来预测每个段落属于个类别的概率,预测过程表示为:
Figure DEST_PATH_IMAGE047
Figure DEST_PATH_IMAGE048
为特征表示函数,
Figure DEST_PATH_IMAGE049
表示段落
Figure 237442DEST_PATH_IMAGE039
为第
Figure 425977DEST_PATH_IMAGE005
个类别的概率,选择其中概率最大的类别作为段落
Figure 938998DEST_PATH_IMAGE039
所述的类别。
(2)在多分类器部分,本申请选择基于统计机器学习和基于深度学习的方法对多分类器进行完全监督学习。其中,基于统计机器学习的多分类器是以支持向量机模型和XGBoost模型为基础设计的;基于深度学习的多分类器是以TextCNN模型和Bi-LSTM+Attention模型为基础设计的。
1)在基于统计机器学习的多分类器中,对一个政策文本段落
Figure 445941DEST_PATH_IMAGE039
,将分词后的段落的所有词的300维分布式表示的每一维取平均值并拼接上段落的长度和在整篇政策文件中的相对位置(段落在文件中的索引值/文件的总分段数)这两个特征后得到一个302维的特征向量
Figure DEST_PATH_IMAGE050
,将其输入到多分类器中,输出该段落分类的标签。
2)在基于深度学习的多分类器中,对一个政策文本段落
Figure 515659DEST_PATH_IMAGE039
,将分词后的段落的所有词的分布式表示
Figure 51377DEST_PATH_IMAGE044
拼接成一个矩阵,并用3种不同尺寸的卷积核去提取特征,3种卷积核的大小可以分别为3×3、4×4、5×5,卷积后再进行最大池化,最后将不同尺寸的卷积核提取的特征拼接为特征向量输入到softmax激活函数后输出该段落分类的标签。
3)在另一个基于深度学习的多分类器中,对一个政策文本段落
Figure 735299DEST_PATH_IMAGE039
,将分词后的段落的所有词的300维分布式表示
Figure 496582DEST_PATH_IMAGE044
正向输入到LSTM长短时记忆网络中得到
Figure DEST_PATH_IMAGE051
,逆向输入LSTM得到
Figure DEST_PATH_IMAGE052
,并将两者对应时序的元素相加得到每个时序的输出向量
Figure DEST_PATH_IMAGE053
。然后通过Attention机制,计算每个时序的权重并将所有时序的向量加权求和作为特征向量,最后使用softmax函数进行分类。
以下展示了通过方法(1)以及方法(2)中的1)、2)、3)四种方法训练得到的多分类器与通过本发明实施例提供的基于提示语言和掩码位置标签预测的政策文本分类方法训练的语言模型
Figure 275051DEST_PATH_IMAGE003
对图1中所示的“政策目标、申请审核、政策工具-供给型、政策工具-环境型、政策工具-需求型、监督管理、考核评估、资金来源、管理原理”9大类以及“政策目标、申请审核、人才培养、资金支持、技术支持、公共服务、法规管制、目标规划、税收优惠、金融支持、组织建设、政策宣传、政府采购、公私合作、海外合作、监督管理、考核评估、资金来源、管理原则”19类这两种不同粒度的政策文件的段落分类的效果对比表,评价指标为测试集上的正确率。由下表可知:本实施例训练的语言模型
Figure 77660DEST_PATH_IMAGE003
在段落
Figure 932483DEST_PATH_IMAGE001
中增加分类任务提示语言进行掩码位置标签预测的段落文本分类方法在小规模数据集上表现出了比其他四种方法训练的多分类器具有更优的段落分类性能,证明了本实施例训练的语言模型
Figure 820543DEST_PATH_IMAGE003
在小规模数据集上预测段落类别的优越性。
Figure DEST_PATH_IMAGE054
表a
完成对政策文本中的段落分类后,有时需要自动识别出各个段落中的关键信息。本申请通过预训练政策信息识别器来识别政策文件中的关键信息。本申请中,定义图1所示的政策文件要素体系中的实体级别的要素作为政策的关键信息类别集合,即图1中所示的“政策名称、政策文号、发布地区、制定部门、执行部门、发布时间、执行期限”7个类别。
以下对预训练的政策信息识别器抽取出每个段落
Figure 294380DEST_PATH_IMAGE001
中的关键信息的方法进行具体阐述:
总体而言,本申请将每个段落看作一个字符序列,通过政策信息识别器去识别字符序列中的每一位是否为实体边界以及识别实体的种类。具体地,如图3所示,设定
Figure DEST_PATH_IMAGE055
为预训练的语言模型,在模型
Figure 895038DEST_PATH_IMAGE055
中,
Figure DEST_PATH_IMAGE056
是政策文件要素体系中用于实体识别的标签词集合,并令
Figure DEST_PATH_IMAGE057
为实体识别任务的标签集合,标签集合
Figure 232347DEST_PATH_IMAGE057
中的每个标签
Figure DEST_PATH_IMAGE058
在标签词集合
Figure 545386DEST_PATH_IMAGE056
中存在一个具有映射关系的标签词
Figure DEST_PATH_IMAGE059
,并定义句子模板
Figure DEST_PATH_IMAGE060
,模板
Figure 868920DEST_PATH_IMAGE060
中包含两个待填入词的空缺,第一空缺填入的内容为从输入段落中截取的文本片段,这些片段被视为候选的实体,第二空缺为需要预测的所填入的文本片段的实体类别标签。对政策文件要素体系中用于实体识别的标签词集合
Figure 788333DEST_PATH_IMAGE056
中的每一个标签词
Figure 860325DEST_PATH_IMAGE059
代表的实体类型,将这个实体类型填入
Figure 83496DEST_PATH_IMAGE060
中定义一个新模板,例如定义句子模板
Figure 787884DEST_PATH_IMAGE060
为“[文本片段]是一个[实体类型]政策实体”,那么对于实体识别的标签词集合
Figure 389898DEST_PATH_IMAGE056
中的类型为“制定部门”的实体,将其填入模板
Figure 757426DEST_PATH_IMAGE060
中后可以定义一个新的模板例如为“[候选实体]是一个制定部门政策实体”。此外,为了处理文本片段不是实体的情况,再定义一个“非实体”类型的句子模板,也就是“[文本片段]不是一个政策实体”,这样,多个不同的实体类型的句子模板和非实体类型的句子模板构成一个句子模板的集合
Figure DEST_PATH_IMAGE061
将从段落
Figure 904111DEST_PATH_IMAGE001
中截取的每个文本片段填入到句子模板集合
Figure 789021DEST_PATH_IMAGE061
中的每个句子模板
Figure 868711DEST_PATH_IMAGE060
中,然后使用语言模型
Figure 672719DEST_PATH_IMAGE055
(优选为BART模型),计算这些填写好的句子的概率分数,计算方法通过以下公式(8)表达:
Figure DEST_PATH_IMAGE062
公式(8)中,
Figure DEST_PATH_IMAGE063
表示使用候选的文本片段
Figure DEST_PATH_IMAGE064
和与标签
Figure DEST_PATH_IMAGE065
填入到句子模板
Figure 171614DEST_PATH_IMAGE060
后得到的句子;
Figure DEST_PATH_IMAGE066
表示所述句子
Figure DEST_PATH_IMAGE067
的序列长度;
Figure DEST_PATH_IMAGE068
表示句子
Figure 702958DEST_PATH_IMAGE067
的词序列中的第
Figure DEST_PATH_IMAGE069
项;
Figure DEST_PATH_IMAGE070
表示句子
Figure 778099DEST_PATH_IMAGE067
的词序列中的第1项到第
Figure DEST_PATH_IMAGE071
项;
Figure 831637DEST_PATH_IMAGE001
表示输入到所述语言模型
Figure 478214DEST_PATH_IMAGE055
的文本序列
Figure DEST_PATH_IMAGE072
Figure DEST_PATH_IMAGE073
表示在给定输入文本
Figure 609987DEST_PATH_IMAGE001
和句子模板的词序列中的第1项到第
Figure 165733DEST_PATH_IMAGE071
Figure 186910DEST_PATH_IMAGE070
的情况下,模型预测第c项为
Figure 326642DEST_PATH_IMAGE068
的概率。该概率由预训练生成式语言模型计算得出。
通过上述过程,就使用语言模型
Figure DEST_PATH_IMAGE074
为每种实体类型和非实体类型的句子模板都计算了一个在第二空缺填入标签词的概率得分,然后将每个候选的文本片段分类为得分最高的句子模板对应的类型,当然该类型也可能是“非实体”。其中被分配了实体类型的文本片段就是这段文本中识别出的实体,其实体类型为分配的实体类型。
以下对训练政策信息识别器的方法进行简要阐述:
Figure 153784DEST_PATH_IMAGE063
Figure 203517DEST_PATH_IMAGE063
对应的真实标签词
Figure 520229DEST_PATH_IMAGE059
为模型训练样本,按照7:3的比例将样本数据集随机划分为训练集和验证集。对于训练集中的数据,若文本片段
Figure 914301DEST_PATH_IMAGE064
的实体类型为
Figure 721632DEST_PATH_IMAGE059
,则将
Figure 392916DEST_PATH_IMAGE064
Figure 785589DEST_PATH_IMAGE059
分别填入到实体类型的句子模板
Figure 401378DEST_PATH_IMAGE060
的第一空缺和第二空缺中。若文本片段
Figure 272120DEST_PATH_IMAGE064
不是实体,则将
Figure 656965DEST_PATH_IMAGE064
填入非实体类型的句子模板
Figure 456425DEST_PATH_IMAGE060
中,同样得到一个填充好的句子。另外,本申请使用训练集中的所有实体样本来填充包含实体的句子模板,并通过在剩下的非实体类型的词中随机采样来填充非实体的句子模板,二者的比例优选为1:1.5,以增加非实体句子模板对实体句子模板识别的干扰,进而提升政策信息识别器的关键信息抽取精度。需要强调的是,本申请中,语言模型
Figure 323624DEST_PATH_IMAGE055
优选为BART模型。BART模型计算句子模板
Figure DEST_PATH_IMAGE075
的得分
Figure DEST_PATH_IMAGE076
的原理为:
给定一个政策文本段落
Figure DEST_PATH_IMAGE077
和句子模板集合
Figure 235209DEST_PATH_IMAGE061
,将
Figure 740140DEST_PATH_IMAGE077
输入到BART模型的编码器中,得到段落
Figure 68091DEST_PATH_IMAGE077
的特征表示
Figure DEST_PATH_IMAGE078
。在BART模型的解码器的每一步中,
Figure DEST_PATH_IMAGE079
和解码器之前的输出
Figure 173319DEST_PATH_IMAGE070
一同作为当前步的输入,使用注意力方法得到当前步的特征表示
Figure DEST_PATH_IMAGE080
,将该特征表示进行线性变换后使用softmax函数得到当前步输出单词
Figure 90590DEST_PATH_IMAGE068
的条件概率(指在给定前c-1项和输入段落后,第c项的概率分布),计算方式为
Figure DEST_PATH_IMAGE081
,其中
Figure DEST_PATH_IMAGE082
为模型参数。
在训练BART模型中,使用交叉熵损失函数计算解码器的输出与真实模板之间的差距,以此为模型参数调节的依据,对模型参数进行调整后继续迭代训练BART模型,直至达到模型收敛条件。
本申请提供的基于提示学习的政策信息提取方法在小规模数据集上具有优秀的识别效果,为了验证其在训练数据集规模较小时的性能,本申请还设计了多种基于预训练-微调的政策信息识别器在相同数据集上进行性能比较,具体方法如图4所示,包括:
在政策信息识别器的输入数据的分布式特征表示部分,同时使用词汇级别和字符级别的分布式特征表示,词汇级别的每个词的分布式特征表示通过在大规模综合领域语料库上预训练的词向量表示模型实现,而字符级别的每个字符的分布式特征通过预训练的中文RoBERTa模型实现。由于词向量表示模型和中文RoBERTa模型对输入数据进行分布式特征表示的过程并非本申请要求权利保护的范围,因此具体过程不做说明。
政策信息识别器的上下文编码层承接分布式表示层的输出,对文本语义和字词之间的依赖进一步建模。在本实施例中,采用多层感知机、Transformer和Flat-LatticeTransforme,三种模型的结构及构建方法简述如下:
在基于多层感知机的上下文编码层中,采用线性层-ReLU函数层-线性层的结构。
在基于Transformer的上下文编码层中,使用Transformer Encoder对文本进行特征编码。
在基于Flat-Lattice Transformer(FLAT)的上下文编码层中,使用了一种Transformer的变体FLAT,同时使用了文本的字符和词汇的分布式表示,并进一步拓展了Transformer中的位置编码,引入了文本字符和词汇的首尾相对位置,试图更好地克服政策文件实体长度不平衡的问题。FLAT的文本片段相对位置编码计算方法通过如下公式(9)表达:
Figure DEST_PATH_IMAGE083
公式(9)中,
Figure DEST_PATH_IMAGE084
Figure DEST_PATH_IMAGE085
分别表示第
Figure DEST_PATH_IMAGE086
个文本片段在原始序列中的第一个和最后一个字符的位置索引。对于字符,其第一个和最后一个字符的位置索引是相同的。
Figure DEST_PATH_IMAGE087
是一个可学习的参数,
Figure DEST_PATH_IMAGE088
包括
Figure DEST_PATH_IMAGE089
Figure 797165DEST_PATH_IMAGE088
的计算方法通过如下公式(10)、(11)表达:
Figure DEST_PATH_IMAGE090
Figure DEST_PATH_IMAGE091
公式(10)、(11)中,
Figure DEST_PATH_IMAGE092
包括
Figure DEST_PATH_IMAGE093
Figure DEST_PATH_IMAGE094
Figure DEST_PATH_IMAGE095
Figure DEST_PATH_IMAGE096
中的任意一种;
Figure DEST_PATH_IMAGE097
表示输入模型的向量长度。
政策信息识别器的解码层使用条件随机场模型,解码过程使用了基于动态规划的维特比算法来获得较高的解码效率,并且使用条件随机场损失函数进行优化。
以下展示了基于预训练-微调的政策信息识别器与通过本发明实施例提供的基于提示学习的政策信息识别器在有标注的训练数据集规模较小的情况下对图1中所示的“政策名称、政策文号、发布地区、制定部门、执行部门、发布时间、执行期限”7个类别的政策信息的抽取效果对比表,评价指标为测试集上的F1得分。由下表b可知:本实施例训练的语言模型N在小规模训练数据集上表现出了比其他方法训练的政策信息识别器更优的性能,证明了本实施例训练的语言模型N在有标注的训练数据集较少时识别政策关键信息的优越性。
Figure DEST_PATH_IMAGE098
表b
综上,本发明实施例提供的基于提示学习的政策文本分类方法,如图5所示,步骤包括:
S1,对于给定的政策文件中的段落
Figure 913327DEST_PATH_IMAGE001
,使用模板函数
Figure 991004DEST_PATH_IMAGE002
Figure 102180DEST_PATH_IMAGE001
转换为语言模型
Figure 690025DEST_PATH_IMAGE003
的输入
Figure 861243DEST_PATH_IMAGE004
Figure 426216DEST_PATH_IMAGE004
在原始的段落
Figure 714984DEST_PATH_IMAGE001
中增加了分类任务的提示语言,提示语言中包含需要预测并填写标签的掩码位置;
S2,语言模型
Figure 783434DEST_PATH_IMAGE003
预测出填入所述掩码位置的标签
Figure 391133DEST_PATH_IMAGE005
S3,标签转换器
Figure 557584DEST_PATH_IMAGE006
将标签
Figure 541721DEST_PATH_IMAGE005
映射为事先构建的政策文件要素体系的标签词集合
Figure 464678DEST_PATH_IMAGE007
中对应的标签词
Figure 351600DEST_PATH_IMAGE008
作为预测得到的段落
Figure 891166DEST_PATH_IMAGE001
的类型。
本发明具有以下有益效果:
1、构建了一套完整的政策文件要素体系,将政策文件中的各个不同要素作清晰划分,后续基于这个体系,能够更为准确地实现对政策文件中每个段落的分类。
2、通过在原始段落
Figure DEST_PATH_IMAGE099
中增加了分类任务的提示语言,该提示语言中包含需要预测并填写标签的掩码位置,将段落分类问题转换为类似完形填空的分类预测问题,简化了段落分类预测的过程,能够基于所构建的完整的政策文件要素体系,更精准地从内容构成和文件结构的角度解析政策文件文本,并挖掘出更深层的信息,并且在有标注的训练数据集规模较小的情况下有优秀的表现。
3、提供的政策信息识别器通过在所构建的政策文件要素体系下预测两个空缺内容标签的方式简化了文本实体的识别难度,能够基于构建的政策文件要素体系,更准确地从文本中提取出有用的关键信息,并且在有标注的训练数据集规模较小的情况下有优秀的表现。
需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。

Claims (9)

1.一种基于提示学习的政策文本分类方法,其特征在于,步骤包括:
S1,对于给定的政策文件中的段落
Figure 269451DEST_PATH_IMAGE001
,使用模板函数
Figure 593116DEST_PATH_IMAGE002
Figure 418859DEST_PATH_IMAGE001
转换为语言模型
Figure 610806DEST_PATH_IMAGE003
的输入
Figure 238227DEST_PATH_IMAGE004
Figure 123007DEST_PATH_IMAGE004
在原始的所述段落
Figure 560679DEST_PATH_IMAGE001
中增加了分类任务的提示语言,所述提示语言中包含需要预测并填写标签的掩码位置;
S2,所述语言模型
Figure 572628DEST_PATH_IMAGE003
预测出填入所述掩码位置的标签
Figure 38245DEST_PATH_IMAGE005
S3,标签转换器
Figure 343193DEST_PATH_IMAGE006
将所述标签
Figure 894260DEST_PATH_IMAGE005
映射为事先构建的政策文件要素体系的标签词集合
Figure 444321DEST_PATH_IMAGE007
中对应的标签词
Figure 764444DEST_PATH_IMAGE008
作为预测得到的所述段落
Figure 505873DEST_PATH_IMAGE001
的类型。
2.根据权利要求1所述的基于提示学习的政策文本分类方法,其特征在于,训练所述语言模型
Figure 419602DEST_PATH_IMAGE003
的方法步骤包括:
A1,对于作为训练样本的每个
Figure 491464DEST_PATH_IMAGE004
,计算所述标签词集合
Figure 446519DEST_PATH_IMAGE007
中的每个标签词
Figure 844002DEST_PATH_IMAGE008
填入所述掩码位置的概率分数
Figure 120394DEST_PATH_IMAGE009
A2,通过softmax函数计算概率分布
Figure 261525DEST_PATH_IMAGE010
A3,根据
Figure 805508DEST_PATH_IMAGE009
Figure 639472DEST_PATH_IMAGE010
,并利用所构造的损失函数,计算模型预测损失;
A4,判断是否达到模型迭代训练终止条件,
若是,则终止迭代,输出所述语言模型
Figure 262214DEST_PATH_IMAGE003
若否,则调整模型参数后返回步骤A1继续进行迭代训练。
3.根据权利要求2所述的基于提示学习的政策文本分类方法,其特征在于,
Figure 456304DEST_PATH_IMAGE009
的计算方法通过以下公式(1)表达:
Figure 605526DEST_PATH_IMAGE011
Figure 361123DEST_PATH_IMAGE010
通过softmax函数(2)表达计算:
Figure 595795DEST_PATH_IMAGE012
公式(1)-(2)中,
Figure 351434DEST_PATH_IMAGE005
表示所述标签词
Figure 620742DEST_PATH_IMAGE008
的标签;
Figure 547241DEST_PATH_IMAGE013
表示文本分类任务的标签集合。
4.根据权利要求3所述的基于提示学习的政策文本分类方法,其特征在于,所构造的所述损失函数通过以下公式(3)表达:
Figure 643110DEST_PATH_IMAGE014
公式(3)中,
Figure 664156DEST_PATH_IMAGE015
表示微调系数;
Figure 273123DEST_PATH_IMAGE016
表示模型预测的分布
Figure 354211DEST_PATH_IMAGE010
与真实分布间的差距;
Figure 750427DEST_PATH_IMAGE017
表示模型预测的分数
Figure 309584DEST_PATH_IMAGE009
与真实分数间的差距。
5.根据权利要求1所述的基于提示学习的政策文本分类方法,其特征在于,所述语言模型
Figure 396226DEST_PATH_IMAGE003
为由若干个语言子模型
Figure 133369DEST_PATH_IMAGE018
融合形成的融合语言模型,训练所述融合语言模型的方法包括步骤:
B1,定义模板函数集合
Figure 829930DEST_PATH_IMAGE019
,所述模板函数集合
Figure 442046DEST_PATH_IMAGE019
中包含若干个不同的所述模板函数
Figure 150239DEST_PATH_IMAGE002
B2,对于作为训练样本的每个
Figure 307551DEST_PATH_IMAGE004
,通过对应的所述语言子模型
Figure 740675DEST_PATH_IMAGE018
,计算所述标签词集合
Figure 251422DEST_PATH_IMAGE007
中的每个标签词
Figure 938755DEST_PATH_IMAGE008
填入所述掩码位置的概率分数
Figure 906449DEST_PATH_IMAGE009
B3,对关联每个所述模板函数
Figure 62755DEST_PATH_IMAGE002
Figure 32985DEST_PATH_IMAGE009
进行融合得到
Figure 948726DEST_PATH_IMAGE020
B4,通过softmax函数计算概率分布
Figure 464152DEST_PATH_IMAGE021
B5,根据
Figure 357022DEST_PATH_IMAGE020
Figure 114631DEST_PATH_IMAGE021
,并利用所构造的损失函数,计算模型预测损失;
B6,判断是否达到模型迭代训练终止条件,
若是,则终止迭代,输出所述融合语言模型;
若否,则调整模型参数后返回步骤B2继续进行迭代训练。
6.根据权利要求5所述的基于提示学习的政策文本分类方法,其特征在于,
Figure 651923DEST_PATH_IMAGE009
的计算方法通过以下公式(4)表达:
Figure 587518DEST_PATH_IMAGE022
Figure 810426DEST_PATH_IMAGE020
通过以下公式(5)融合而得:
Figure 342033DEST_PATH_IMAGE023
公式(5)中,
Figure 966787DEST_PATH_IMAGE024
表示所述模板函数集合
Figure 417491DEST_PATH_IMAGE019
中的所述模板函数
Figure 862117DEST_PATH_IMAGE002
的数量;
Figure 446682DEST_PATH_IMAGE025
表示所述模板函数
Figure 833932DEST_PATH_IMAGE002
在计算
Figure 485231DEST_PATH_IMAGE020
时所占的权重;
Figure 308830DEST_PATH_IMAGE021
通过softmax函数(6)计算:
Figure 713398DEST_PATH_IMAGE026
所构造的所述损失函数通过以下公式(7)表达:
Figure 578324DEST_PATH_IMAGE027
公式(7)中,
Figure 26622DEST_PATH_IMAGE015
表示微调系数;
Figure 619409DEST_PATH_IMAGE016
表示模型预测的分布
Figure 811356DEST_PATH_IMAGE021
与真实分布间的差距;
Figure 265209DEST_PATH_IMAGE017
表示模型预测的分数
Figure 635141DEST_PATH_IMAGE020
与真实分数间的差距。
7.根据权利要求5所述的基于提示学习的政策文本分类方法,其特征在于,所述语言模型
Figure 807234DEST_PATH_IMAGE003
或所述语言子模型
Figure 802872DEST_PATH_IMAGE018
为BERT语言模型。
8.根据权利要求4或6所述的基于提示学习的文本分类方法,其特征在于,微调系数
Figure 753642DEST_PATH_IMAGE028
9.根据权利要求1所述的基于提示学习的政策文本分类方法,其特征在于,所述政策文件要素体系包括句子级别要素和实体级别要素,所述句子级别要素包括政策目标、申请审核、政策工具-供给型、政策工具-环境型、政策工具-需求型、资金管理、监管评估、准入条件8大类共27个子类别中的任意一种或多种,
其中,所述政策工具-供给型这一大类下包括人才培养、资金支持、技术支持、公共服务这4个子类别中的任意一种或多种;
所述政策工具-环境型这一大类下包括法规管制、目标规划、税收优惠、金融支持、组织建设、政策宣传这6个子类别中的任意一种或多种;
所述政策工具-需求型这一大类下包括政府采购、公司合作、海外合作这3个子类别中的任意一种或多种;
所述监管评估这一大类下包括监督管理和/或考核评估这2个子类别;
所述资金管理这一大类下包括资金来源和/或管理原则这2个子类别。
CN202211229193.9A 2022-10-08 2022-10-08 基于提示学习的政策文本分类方法 Pending CN115455189A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211229193.9A CN115455189A (zh) 2022-10-08 2022-10-08 基于提示学习的政策文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211229193.9A CN115455189A (zh) 2022-10-08 2022-10-08 基于提示学习的政策文本分类方法

Publications (1)

Publication Number Publication Date
CN115455189A true CN115455189A (zh) 2022-12-09

Family

ID=84309036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211229193.9A Pending CN115455189A (zh) 2022-10-08 2022-10-08 基于提示学习的政策文本分类方法

Country Status (1)

Country Link
CN (1) CN115455189A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859968A (zh) * 2023-02-27 2023-03-28 四川省计算机研究院 基于自然语言解析及机器学习的政策颗粒化分析系统
CN116011456A (zh) * 2023-03-17 2023-04-25 北京建筑大学 基于提示学习的中文建筑规范文本实体识别方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859968A (zh) * 2023-02-27 2023-03-28 四川省计算机研究院 基于自然语言解析及机器学习的政策颗粒化分析系统
CN115859968B (zh) * 2023-02-27 2023-11-21 四川省计算机研究院 一种基于自然语言解析及机器学习的政策颗粒化分析系统
CN116011456A (zh) * 2023-03-17 2023-04-25 北京建筑大学 基于提示学习的中文建筑规范文本实体识别方法及系统
CN116011456B (zh) * 2023-03-17 2023-06-06 北京建筑大学 基于提示学习的中文建筑规范文本实体识别方法及系统

Similar Documents

Publication Publication Date Title
CN115310425B (zh) 基于政策文本分类和关键信息识别的政策文本分析方法
CN109493166B (zh) 一种针对电子商务导购场景任务型对话系统的构建方法
US11734328B2 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN110188358B (zh) 自然语言处理模型的训练方法及装置
CN108446271B (zh) 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN105260356B (zh) 基于多任务学习的中文交互文本情感与话题识别方法
CN107729309A (zh) 一种基于深度学习的中文语义分析的方法及装置
CN115455189A (zh) 基于提示学习的政策文本分类方法
CN113254610B (zh) 面向专利咨询的多轮对话生成方法
CN111783993A (zh) 智能标注方法、装置、智能平台及存储介质
CN115906842A (zh) 一种政策信息识别方法
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN115309910B (zh) 语篇要素和要素关系联合抽取方法、知识图谱构建方法
Meoli et al. Machine-learning forecasting of successful ICOs
CN116070632A (zh) 一种非正式文本实体标签识别方法和装置
Gnehm et al. Text zoning and classification for job advertisements in German, French and English
CN113312918B (zh) 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN113869055A (zh) 基于深度学习的电网项目特征属性识别方法
CN109635289B (zh) 词条分类方法及审计信息抽取方法
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质
Sisodia et al. Performance evaluation of learners for analyzing the hotel customer sentiments based on text reviews
KR102406961B1 (ko) 자가 지도학습을 통한 데이터 특성 학습 방법 및 가짜 정보 판별 방법
CN114942992A (zh) 一种基于融合网络的交易对手识别方法、装置及电子设备
Liu et al. Suggestion mining from online reviews usingrandom multimodel deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination