CN115470871A - 基于命名实体识别与关系抽取模型的政策匹配方法及系统 - Google Patents

基于命名实体识别与关系抽取模型的政策匹配方法及系统 Download PDF

Info

Publication number
CN115470871A
CN115470871A CN202211363986.XA CN202211363986A CN115470871A CN 115470871 A CN115470871 A CN 115470871A CN 202211363986 A CN202211363986 A CN 202211363986A CN 115470871 A CN115470871 A CN 115470871A
Authority
CN
China
Prior art keywords
policy
model
policy element
entity
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211363986.XA
Other languages
English (en)
Other versions
CN115470871B (zh
Inventor
麦丞程
于辉
黄宜华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Hongcheng Big Data Technology And Application Research Institute Co ltd
Original Assignee
Jiangsu Hongcheng Big Data Technology And Application Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Hongcheng Big Data Technology And Application Research Institute Co ltd filed Critical Jiangsu Hongcheng Big Data Technology And Application Research Institute Co ltd
Priority to CN202211363986.XA priority Critical patent/CN115470871B/zh
Publication of CN115470871A publication Critical patent/CN115470871A/zh
Application granted granted Critical
Publication of CN115470871B publication Critical patent/CN115470871B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • Educational Administration (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于命名实体识别与关系抽取模型的政策匹配方法及系统。本发明的方法包括如下步骤:构造政策语句或政策语句片段的命名实体识别与关系抽取数据集,并进行人工标签标注;基于已标注数据,训练所需的算法模型以及编写专家规则;使用算法模型及专家规则,将政策文章中的政策申报条件语句文本转化为多个政策要素关系表达式,并将形成政策关系逻辑表达式与企业条件列表计算匹配得分。本发明充分利用命名实体识别与关系抽取技术解决政策服务领域的政策条件分解和政策条件与企业条件匹配度计算的难题。方法融合深度学习方法和专家规则的政策分解方法,可以细粒度地抽取政策条件语句中的要素实体、所包含关系以及关系值。

Description

基于命名实体识别与关系抽取模型的政策匹配方法及系统
技术领域
本发明涉及人工智能和自然语言处理领域,特别涉及一种基于命名实体识别与关系抽取模型的政策匹配方法及系统。
背景技术
随着互联网技术的飞速发展,各行业数据信息在爆发式增长,推动了行业大数据智能化分析挖掘服务与创新应用的发展,进一步推动着我国数字经济的发展。
在诸多政务大数据服务应用中,政策大数据服务是一个重要的服务领域。中国是一个政府主导、政策驱动型的经济发展模式,每年在国家、省市和科技园区等不同层面,都会发布大量的政策文件。各类宏观和产业扶持类政策,是企业高度关注的信息,对企业的运营和发展具有十分重要的意义。近几年,在国家政策大力支持和引导背景下,企业也逐步拥有了企业管理规范化和政府惠企政策项目申报的意识。在惠企政策项目申报过程中,不仅要时刻关注政府政策情况的发布和变化,还要把握政策信息的时效性和准确性,并且需要充分的政策信息支撑,支撑信息越充分,获得的信息量越大,获得的信息精准度与自己更相符,惠企政策项目申报的成功率越高。因此,如何高效、及时、精准地获取惠企政策信息,掌握政府对产业方向的政策引导和扶持信息,对企业运营和成长发展具有十分重要的意义和价值。
对政府而言,通过政策服务,能引导企业和产业发展方向,通过政策服务,政府也希望能及时了解惠企政策对企业和产业发展的实际作用和效果,并以此作为政策制定的依据,及时调整和优化政策。因此,通过政策服务大数据,对于政府及时了解企业对相关政策的关注程度、评估政策对企业和产业发展的扶持作用,帮助科学制定政策,也具有十分重要的意义和价值。
然而,目前无论对于企业还是政府,都缺少基于信息化和智能化技术的高效政策服务。一方面,企业难以及时高效地获得政府发布的惠企政策信息,需要通过人工查看和收集政策的方式,效率低下,费时费力。另一方面,由于缺少信息化和智能化手段,政府也难以掌握企业对不同政策关注程度的信息,难以评估惠企政策对企业帮扶、促进企业成长和产业发展的实际效果。
基于上述需求背景,我们发明了一种基于命名实体识别与关系抽取模型的政策匹配方法,可以根据企业信息和具体的政策条件,进行企业与相关政策的自动匹配,并将符合企业条件的政策匹配给企业,从而避免企业用人工方式去收集查找政策信息。
发明内容
发明目的:本发明提出了一种基于命名实体识别与关系抽取模型的政策匹配方法,充分利用命名实体识别与关系抽取技术解决政策服务领域的政策条件分解难题,本发明还提供了一种应用所述基于命名实体识别与关系抽取模型的政策匹配方法的系统。
为了实现上述目的,本发明提出的技术方案为:
一种基于命名实体识别和关系抽取模型的政策匹配方法,该方法包括如下步骤:
S1.构造政策语句分类数据集,对政策语句分类数据集进行人工标签标注;
S2.基于步骤S1中已标注的政策语句分类数据集,训练政策语句分类算法模型,并使用政策语句分类算法模型对政策文章中的句子进行分类,识别出包含政策要素条件关系的句子;
S3. 构造政策要素实体边界识别数据集,对政策要素实体边界识别数据集进行人工标签标注;
S4.基于步骤S3中的已标注的政策要素实体边界识别数据集,训练政策要素实体边界识别算法模型,并使用政策要素实体边界识别算法模型,对S2中政策语句分类算法模型识别出的包含政策要素条件关系的句子进行政策要素实体边界识别;
S5. 构造政策要素实体分类数据集,并对政策要素实体分类数据集进行人工标签标注;
S6.基于步骤S5中已标注的政策要素实体分类数据集,训练政策要素实体分类算法模型,并使用政策要素实体分类算法模型,对S4中政策要素实体边界识别算法模型识别出的政策要素实体进行政策要素实体分类;
S7.构造政策要素关系分类数据集,并对政策要素关系分类数据集进行人工标签标注;
S8.基于步骤S7中已标注的政策要素关系分类数据集,训练政策要素关系分类算法模型,并使用政策要素关系分类算法模型和政策领域专家知识编写的人工规则,对S6中政策要素实体分类算法模型识别出的已分类的政策要素实体进行政策要素关系实体分类,识别已分类的政策要素实体中包含的关系类型;
S9.构造数值关系类型的政策要素中的关系值边界识别数据集,并对政策要素关系值边界识别数据集进行标签标注;
S10.基于步骤S9中已标注的政策要素关系值边界识别数据集,训练政策要素关系值边界识别算法模型,并使用训练政策要素关系值边界识别算法模型,对步骤S8中政策要素关系分类算法模型识别出的包含数值关系类型的政策要素,识别其关系值的边界;
S11.基于步骤S1-S10的文本分类、命名实体识别和关系抽取算法模型及专家规则,政策文章中的政策申报条件语句文本可以转化为多个“条件名称-关系-值”这样的政策要素关系表达式,并在政策要素关系表达式间以逻辑关系“And”或“Or”连接,形成政策关系逻辑表达式;
S12.使用同样已规范化成“条件名称-关系-值”格式的企业条件列表和政策关系逻辑表达式计算匹配路径得分,以最大值作为匹配得分。
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤S1中所述构造政策语句分类数据集具体方法是:
S101.对于预先收集好的政策文档集合D,将政策文档集合D中的每一篇政策文档d分割为多个句子,形成政策语句分类数据集S 1
S102.对于政策语句分类数据集S 1 中的每一个句子,人工进行标签标注,类标1表示该句子包含政策要素条件关系,类标0表示该句子不包含政策要素条件关系;
S103.对于步骤S101中标注好的政策语句分类数据集S 1 ,将其中80%分为训练集,20%分为验证集。
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤S2中所述训练政策语句分类算法模型具体方法是:
S201.参数定义:对于一篇给定的政策句子
Figure 466107DEST_PATH_IMAGE002
n表示该政策句子
Figure 947029DEST_PATH_IMAGE004
中包含n个字符,
Figure 569509DEST_PATH_IMAGE006
表示该政策文本中的第i个字符,模型的输出为每个句子是否包含政策要素条件关系
Figure 154598DEST_PATH_IMAGE008
,其中
Figure 280555DEST_PATH_IMAGE010
,标签“1”表示这句话包含政策要素条件关系,标签“0”表示这句话不包含政策要素条件关系;
S202.模型训练:基于神经网络搭建的短文本分类模型,训练政策语句分类器,具体方法是:
S2021.使用词表,对来自训练集的句子批次中的政策句子s进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S2022.将前向和后向LSTM的输出隐状态拼接后得到每个字符的隐状态
Figure 711141DEST_PATH_IMAGE012
,即句子中的第i个字符的隐状态;
S2023.将每个字符的隐状态
Figure 306071DEST_PATH_IMAGE012
拼接后输入到线性分类器得到每个政策句子对应的分类标签y i
S2024.对于每个句子的真实标签
Figure 364026DEST_PATH_IMAGE014
,使用二元交叉熵作为损失函数进行模型训练,直至模型收敛;
S203.模型推理:使用政策语句分类模型,识别政策语句是否包含政策要素条件关系,具体方法是:
S2031.对待分类的政策句子
Figure 485434DEST_PATH_IMAGE016
进行“one-hot”向量化;
S2032.然后输入到训练好的前向和后向LSTM和线性分类器中;
S2033.模型输出“1”表示该句子包含政策要素条件关系,输出“0”表示该句子不包含政策要素条件关系。
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤S3中所述构造政策要素实体边界识别数据集具体方法是:
S301.使用步骤S2中的政策语句分类算法模型,从政策语句分类数据集S 1 中识别出包含政策要素条件关系的政策语句,并加以人工校验,形成政策要素实体边界识别数据集S 2
S302.对于政策要素实体边界识别数据集S 2 中的每一个句子,人工进行边界标签标注:给定一个包含n个字符的句子
Figure 871941DEST_PATH_IMAGE018
,输出每个单词对应的边界标签
Figure 282062DEST_PATH_IMAGE020
,其中
Figure 599168DEST_PATH_IMAGE022
,边界标签B表示对应字符为政策要素实体的起始字符,E对应字符为政策要素实体的结束字符,I对应字符为政策要素实体的非起始且非结束字符,O表示对应字符不在政策要素实体中,并且一个句子中可能包含不只一个政策语句要素实体;
S303.对于步骤S301中标注好的政策语句分类数据集S 2 ,将其中80%分为训练集,20%分为验证集。
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤S4中所述训练政策要素实体边界识别算法模型具体方法是:
S401.参数定义:对于一篇给定的政策句子
Figure 919290DEST_PATH_IMAGE018
n表示该政策句子
Figure 270506DEST_PATH_IMAGE024
中包含n个字符,
Figure 699082DEST_PATH_IMAGE026
表示该政策文本中的第i个字符,模型的输出为每个字符对应的边界标签
Figure 101769DEST_PATH_IMAGE020
,其中
Figure 604295DEST_PATH_IMAGE027
,边界标签B表示对应字符为政策要素实体的起始字符,I对应字符为政策要素实体的非起始字符,O表示对应字符不在政策要素实体中;
S402.模型训练:基于双向LSTM和CRF搭建的边界识别模型,训练政策要素实体边界识别算法模型,具体方法是:
S4021.使用词表,对来自训练集的句子批次中的政策句子
Figure 798516DEST_PATH_IMAGE024
进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示。然后输入到前向和后向LSTM中进行特征提取;
S4022.将前向和后向LSTM的输出的每个字符的隐状态
Figure 996279DEST_PATH_IMAGE012
拼接后作为CRF的发射矩阵;
S4023.对于每个句子的真实边界标签
Figure 668569DEST_PATH_IMAGE020
,使用当前转移状态矩阵在正确路径的分数与所有路径分数之和的负对数似然作为损失函数进行模型训练,模型不断优化CRF模型中的起始状态向量
Figure 141446DEST_PATH_IMAGE029
、终止状态向量
Figure 37726DEST_PATH_IMAGE031
,以及状态转移矩阵M这些矩阵参数,最终使得矩阵中正确转移状态序列的分数最大,此时模型收敛;
S403.模型推理:使用政策要素实体边界识别算法模型,识别政策语句的政策要素实体,具体方法是:
S4031.对待识别的政策句子
Figure 706474DEST_PATH_IMAGE024
进行“one-hot”向量化;
S4032.然后输入到训练好的前向和后向LSTM中;
S4033.将前向和后向LSTM模型的输出作为真实发射矩阵,基于训练好的CRF模型,使用Viterbi解码,预测待识别的政策句子
Figure 982122DEST_PATH_IMAGE024
每一个字符的边界标签。
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤S5中所述构造政策要素实体分类数据集具体方法是:
S501.使用步骤S4中的政策要素实体边界识别算法模型及Viterbi解码,从政策语句要素实体边界数据集S 2 中识别政策语句要素实体,并加以人工校验,形成政策语句要素实体分类数据集S 3
S502.对于政策语句要素实体分类数据集S 3 中的每一个要素实体,人工进行标签标注;
S503.对于步骤S502中标注好的政策要素实体分类数据集S 3 ,将其中80%分为训练集,20%分为验证集。
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤S6中所述训练政策要素实体分类算法模型具体方法是:
S601.参数定义:对于一个给定的政策要素实体
Figure 583873DEST_PATH_IMAGE033
n表示该政策要素实体
Figure 981881DEST_PATH_IMAGE035
中包含n个字符,
Figure 934663DEST_PATH_IMAGE037
表示该政策要素实体中的第i个字符,模型的输出为每个政策要素实体的类别
Figure 591165DEST_PATH_IMAGE039
,表示步骤S5中政策语句要素实体的12个类型;
S602.模型训练:基于神经网络搭建的短文本分类模型,训练政策要素实体分类器,具体方法是:
S6021.使用词表,对来自训练集的句子批次中的政策要素实体s ent 进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S6022.将前向和后向LSTM的输出隐状态拼接后得到每个字符的隐状态
Figure 391631DEST_PATH_IMAGE041
,即句子中的第i个字符的隐状态;
S6023.将每个字符的隐状态
Figure 34576DEST_PATH_IMAGE041
拼接后输入到线性分类器得到每个政策要素实体对应的分类标签y i
S6024.对于每个政策要素实体的真实标签
Figure 818861DEST_PATH_IMAGE043
,使用交叉熵作为损失函数进行模型训练,直至模型收敛;
S603.模型推理:使用政策要素实体分类模型,识别政策要素实体的类别,具体方法是:
S6031.对待分类的政策要素实体
Figure 761278DEST_PATH_IMAGE045
进行“one-hot”向量化;
S6032.然后输入到训练好的前向和后向LSTM和线性分类器中;
S6033.模型输出政策要素实体
Figure 950339DEST_PATH_IMAGE045
的类别。
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤S7中所述构造政策要素关系分类数据集具体方法是:
S701.对于政策要素实体分类数据集S 3 ,筛选出包含数值关系的政策语句要素实体形成政策要素关系分类数据集S 4
S702.对于政策要素关系分类数据集S 4 中的每一个要素实体,人工进行标签标注,标注政策要素实体中包含的数值关系类型,具体是大于、大于等于、小于、小于等于以及等于5类,且每个标注政策要素实体可能包含不止一个关系类型;
S703.对于步骤S702中标注好的政策要素关系分类数据集S 4 ,将其中80%分为训练集,20%分为验证集。
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤S8中所述训练政策要素关系分类算法模型具体方法是:
S801.参数定义:对于一个给定的政策要素实体
Figure 562585DEST_PATH_IMAGE047
n表示该政策要素实体
Figure 709533DEST_PATH_IMAGE045
中包含n个字符,
Figure 517958DEST_PATH_IMAGE049
表示该政策要素实体中的第i个字符,模型的输出为每个政策要素关系类别
Figure 764787DEST_PATH_IMAGE051
,表示5种政策要素关系类别,一个政策要素中可能包含多个政策要素关系;
S802.模型训练:基于神经网络搭建的短文本分类模型,训练政策要素关系分类器,具体方法是:
S8021.使用词表,对来自训练集的句子批次中的政策要素实体
Figure 465DEST_PATH_IMAGE045
进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S8022.将前向和后向LSTM的输出隐状态拼接后得到每个字符的隐状态
Figure 290501DEST_PATH_IMAGE041
,即句子中的第i个字符的隐状态;
S8023.将每个字符的隐状态
Figure 325453DEST_PATH_IMAGE041
拼接后输入到线性分类器得到每个政策要素关系对应的分类标签
Figure 410477DEST_PATH_IMAGE053
S8024.对于每个政策要素实体的真实标签
Figure 161265DEST_PATH_IMAGE055
,使用交叉熵作为损失函数进行模型训练,直至模型收敛;
S803.模型推理:使用政策要素关系分类模型,识别政策要素关系的类别,具体方法是:
S8031.对待分类的政策要素实体
Figure 407438DEST_PATH_IMAGE057
进行“one-hot”向量化;
S8032.然后输入到训练好的前向和后向LSTM和线性分类器中;
S8033.模型输出政策要素实体
Figure 627505DEST_PATH_IMAGE057
的类别;
S804.利用专家规则和外部知识库识别政策要素关系分类:S5中的12类政策要素实体中除了数值关系外,还包含其它类型的关系,利用专家知识及外部知识库识别这些关系类型以及关系的值。
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤S9中所述构造政策要素中的关系值边界识别数据集具体方法是:
S901.整理政策要素关系分类数据集S 4 加以人工校验,形成政策要素中的关系值边界识别数据集S 5
S902.对于政策要素中的关系值边界识别数据集S 5 中的每一个关系实体,人工进行边界标签标注:给定一个包含n个字符的政策要素实体
Figure 642734DEST_PATH_IMAGE059
,输出每个单词对应的边界标签
Figure 643052DEST_PATH_IMAGE061
,其中
Figure 704417DEST_PATH_IMAGE063
,边界标签B表示对应字符为政策要素中的关系值的起始字符,E对应字符为政策要素中的关系值的结束字符,I对应字符为政策要素中的关系值的非起始且非结束字符,O表示对应字符不在政策要素中的关系值中;
S903.对于步骤S902中标注好的政策语句分类数据集S 5 ,将其中80%分为训练集,20%分为验证集。
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤S10中所述训练政策要素中的关系值边界识别算法模型具体方法是:
S1001.参数定义:对于一个给定的包含政策要素实体
Figure 2543DEST_PATH_IMAGE064
n表示该政策要素实体
Figure 875209DEST_PATH_IMAGE045
中包含n个字符,
Figure 46427DEST_PATH_IMAGE049
表示该政策要素实体中的第i个字符,模型的输出为每个字符对应的边界标签
Figure 736035DEST_PATH_IMAGE066
S1002.模型训练:基于双向LSTM和CRF搭建的边界识别模型,训练政策要素中的关系值边界识别算法模型,具体方法是:
S10021.使用词表,对来自训练集的句子批次中的政策要素实体
Figure 572273DEST_PATH_IMAGE045
进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S10022.将前向和后向LSTM的输出的每个字符的隐状态
Figure 889990DEST_PATH_IMAGE041
拼接后作为CRF的发射矩阵;
S10023.对于每个句子的真实边界标签
Figure 497689DEST_PATH_IMAGE068
,使用当前转移状态矩阵在正确路径的分数与所有路径分数之和的负对数似然作为损失函数进行模型训练,模型不断优化CRF模型中的起始状态向量
Figure 677522DEST_PATH_IMAGE029
、终止状态向量
Figure 51872DEST_PATH_IMAGE031
,以及状态转移矩阵M这些矩阵参数,最终使得矩阵中正确转移状态序列的分数最大,此时模型收敛;
S1003.模型推理:使用政策要素中的关系值边界识别算法模型,识别政策语句的政策要素中的关系值,具体方法是:
S10031.对待识别的政策要素
Figure 755254DEST_PATH_IMAGE045
进行“one-hot”向量化;
S10032.然后输入到训练好的前向和后向LSTM中;
S10033.将前向和后向LSTM模型的输出作为真实发射矩阵,基于训练好的CRF模型,使用Viterbi解码,预测待识别的政策要素
Figure 189647DEST_PATH_IMAGE045
每一个字符的边界标签。
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤S12中所述匹配得分计算具体方法是:
S1201.将步骤S11所述政策关系逻辑表达式转化为析取范式(DNF)格式,即政策关系逻辑表达式可分解为多个子表达式,每个子表达式内的条件以“And”相连,子表达式之间以“Or”相连;
S1202.使用同样已规范化成“条件名称-关系-值”格式的企业条件列表和政策关系逻辑表达式的所有子表达式计算匹配路径得分,企业条件与政策条件相符则记为匹配,否则不匹配,某个子表达式匹配得分为匹配的条件个数除以总条件数,若某个子表达式全部条件匹配则匹配得分为1.0,若没有子表达式完全匹配,则以最大得分作为最终匹配得分。
一种基于命名实体识别和关系抽取模型的政策匹配系统,该政策匹配系统应用于上述方法,该系统包括:
数据库层:数据库主要用来存储本系统的政策文档及其结果,提供用户层所需要的数据;
用户层:用于基于Web技术实现与用户交互,给用户提供政策录入、政策管理、政策分解及政策查询功能;提供企业信息录入、企业信息更新、企业信息查询功能;
人机交互模型预测层:用于通过用户层提供的政策文本并对这些政策文档进行预处理后,通过训练好的模型和专家规则进行推断得到政策要素实体及关系,然后后台管理员使用逻辑关系“And”或“Or”连接政策要素条件形成政策关系逻辑表达式,将结果保存在数据库中;
算法训练层:利用现有的政策文档作为数据集来训练算法模型;然后,通过人机交互模型预测层中管理员提供的新的政策文件作为新的训练数据;最后,对这些新的数据进行预处理,进行人工标注,来训练基于命名实体识别和关系抽取模型的政策匹配方法,提升算法精度。
有益效果:
相对于现有技术,本发明的优点在于:(1)设计了一个融合深度学习方法和专家规则的政策分解方法,可以细粒度地抽取政策条件语句中的要素实体、所包含关系以及关系值;(2)设计了一个政策条件与企业条件匹配度计算的方法,量化政策与企业条件匹配程度。
附图说明
图1为本发明的基于命名实体识别与关系抽取模型政策匹配方法流程图;
图2为基于神经网络搭建的文本分类模型框架图;
图3为基于神经网络搭建的边界识别模型框架图;
图4为本发明的政策匹配系统工作流程框架图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
如图1所示,本发明公开的基于命名实体识别与关系抽取模型的政策匹配方法,该方法包括如下步骤:
S1.构造政策语句分类数据集,对政策语句分类数据集进行人工标签标注;
S2.基于步骤S1中已标注的政策语句分类数据集,训练政策语句分类算法模型,并使用政策语句分类算法模型对政策文章中的句子进行分类,识别出包含政策要素条件关系的句子;
S3. 构造政策要素实体边界识别数据集,对政策要素实体边界识别数据集进行人工标签标注;
S4.基于步骤S3中的已标注的政策要素实体边界识别数据集,训练政策要素实体边界识别算法模型,并使用政策要素实体边界识别算法模型,对S2中政策语句分类算法模型识别出的包含政策要素条件关系的句子进行政策要素实体边界识别;
S5. 构造政策要素实体分类数据集,并对政策要素实体分类数据集进行人工标签标注;
S6.基于步骤S5中已标注的政策要素实体分类数据集,训练政策要素实体分类算法模型,并使用政策要素实体分类算法模型,对S4中政策要素实体边界识别算法模型识别出的政策要素实体进行政策要素实体分类;
S7.构造政策要素关系分类数据集,并对政策要素关系分类数据集进行人工标签标注;
S8.基于步骤S7中已标注的政策要素关系分类数据集,训练政策要素关系分类算法模型,并使用政策要素关系分类算法模型和政策领域专家知识编写的人工规则,对S6中政策要素实体分类算法模型识别出的已分类的政策要素实体进行政策要素关系实体分类,识别已分类的政策要素实体中包含的关系类型;
S9.构造数值关系类型的政策要素中的关系值边界识别数据集,并对政策要素关系值边界识别数据集进行标签标注;
S10.基于步骤S9中已标注的政策要素关系值边界识别数据集,训练政策要素关系值边界识别算法模型,并使用训练政策要素关系值边界识别算法模型,对步骤S8中政策要素关系分类算法模型识别出的包含数值关系类型的政策要素,识别其关系值的边界;
S11.基于步骤S1-S10的文本分类、命名实体识别和关系抽取算法模型及专家规则,政策文章中的政策申报条件语句文本可以转化为多个“条件名称-关系-值”这样的政策要素关系表达式,并在政策要素关系表达式间以逻辑关系“And”或“Or”连接,形成政策关系逻辑表达式;
S12.使用同样已规范化成“条件名称-关系-值”格式的企业条件列表和政策关系逻辑表达式计算匹配路径得分,以最大值作为匹配得分。
步骤S1中所述构造政策语句分类数据集具体方法是:
S101.对于预先收集好的政策文档集合D,将政策文档集合D中的每一篇政策文档d分割为多个句子,形成政策语句分类数据集S 1
S102.对于政策语句分类数据集S 1 中的每一个句子,人工进行标签标注,类标1表示该句子包含政策要素条件关系,类标0表示该句子不包含政策要素条件关系;
S103.对于步骤S101中标注好的政策语句分类数据集S 1 ,将其中80%分为训练集,20%分为验证集。
步骤S2中所述训练政策语句分类算法模型具体方法是:
S201.参数定义:对于一篇给定的政策句子
Figure 794459DEST_PATH_IMAGE002
n表示该政策句子
Figure 34817DEST_PATH_IMAGE004
中包含n个字符,
Figure 999230DEST_PATH_IMAGE006
表示该政策文本中的第i个字符,模型的输出为每个句子是否包含政策要素条件关系
Figure 73366DEST_PATH_IMAGE008
,其中
Figure 160881DEST_PATH_IMAGE010
,标签“1”表示这句话包含政策要素条件关系,标签“0”表示这句话不包含政策要素条件关系;
S202.模型训练:基于神经网络搭建的短文本分类模型,训练政策语句分类器,具体方法是:
S2021.使用词表,对来自训练集的句子批次中的政策句子s进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S2022.将前向和后向LSTM的输出隐状态拼接后得到每个字符的隐状态
Figure 814716DEST_PATH_IMAGE012
,即句子中的第i个字符的隐状态;
S2023.将每个字符的隐状态
Figure 761200DEST_PATH_IMAGE012
拼接后输入到线性分类器得到每个政策句子对应的分类标签y i
S2024.对于每个句子的真实标签
Figure 537395DEST_PATH_IMAGE014
,使用二元交叉熵作为损失函数进行模型训练,直至模型收敛;
S203.模型推理:使用政策语句分类模型,识别政策语句是否包含政策要素条件关系,具体方法是:
S2031.对待分类的政策句子
Figure 566400DEST_PATH_IMAGE016
进行“one-hot”向量化;
S2032.然后输入到训练好的前向和后向LSTM和线性分类器中;
S2033.模型输出“1”表示该句子包含政策要素条件关系,输出“0”表示该句子不包含政策要素条件关系。
步骤S3中所述构造政策要素实体边界识别数据集具体方法是:
S301.使用步骤S2中的政策语句分类算法模型,从政策语句分类数据集S 1 中识别出包含政策要素条件关系的政策语句,并加以人工校验,形成政策要素实体边界识别数据集S 2
S302.对于政策要素实体边界识别数据集S 2 中的每一个句子,人工进行边界标签标注:给定一个包含n个字符的句子
Figure 86243DEST_PATH_IMAGE018
,输出每个单词对应的边界标签
Figure 169124DEST_PATH_IMAGE020
,其中
Figure 381800DEST_PATH_IMAGE022
,边界标签B表示对应字符为政策要素实体的起始字符,E对应字符为政策要素实体的结束字符,I对应字符为政策要素实体的非起始且非结束字符,O表示对应字符不在政策要素实体中,并且一个句子中可能包含不只一个政策语句要素实体;
S303.对于步骤S301中标注好的政策语句分类数据集S 2 ,将其中80%分为训练集,20%分为验证集。
步骤S4中所述训练政策要素实体边界识别算法模型具体方法是:
S401.参数定义:对于一篇给定的政策句子
Figure 773467DEST_PATH_IMAGE018
n表示该政策句子
Figure 424897DEST_PATH_IMAGE024
中包含n个字符,
Figure 159022DEST_PATH_IMAGE026
表示该政策文本中的第i个字符,模型的输出为每个字符对应的边界标签
Figure 277020DEST_PATH_IMAGE020
,其中
Figure 890404DEST_PATH_IMAGE027
,边界标签B表示对应字符为政策要素实体的起始字符,I对应字符为政策要素实体的非起始字符,O表示对应字符不在政策要素实体中;
S402.模型训练:基于双向LSTM和CRF搭建的边界识别模型,训练政策要素实体边界识别算法模型,具体方法是:
S4021.使用词表,对来自训练集的句子批次中的政策句子
Figure 752049DEST_PATH_IMAGE024
进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示。然后输入到前向和后向LSTM中进行特征提取;
S4022.将前向和后向LSTM的输出的每个字符的隐状态
Figure 125700DEST_PATH_IMAGE012
拼接后作为CRF的发射矩阵;
S4023.对于每个句子的真实边界标签
Figure 680178DEST_PATH_IMAGE020
,使用当前转移状态矩阵在正确路径的分数与所有路径分数之和的负对数似然作为损失函数进行模型训练,模型不断优化CRF模型中的起始状态向量
Figure 374333DEST_PATH_IMAGE029
、终止状态向量
Figure 39670DEST_PATH_IMAGE031
,以及状态转移矩阵M这些矩阵参数,最终使得矩阵中正确转移状态序列的分数最大,此时模型收敛;
S403.模型推理:使用政策要素实体边界识别算法模型,识别政策语句的政策要素实体,具体方法是:
S4031.对待识别的政策句子
Figure 810704DEST_PATH_IMAGE024
进行“one-hot”向量化;
S4032.然后输入到训练好的前向和后向LSTM中;
S4033.将前向和后向LSTM模型的输出作为真实发射矩阵,基于训练好的CRF模型,使用Viterbi解码,预测待识别的政策句子
Figure 270505DEST_PATH_IMAGE024
每一个字符的边界标签。
步骤S5中所述构造政策要素实体分类数据集具体方法是:
S501.使用步骤S4中的政策要素实体边界识别算法模型及Viterbi解码,从政策语句要素实体边界数据集S 2 中识别政策语句要素实体,并加以人工校验,形成政策语句要素实体分类数据集S 3
S502.对于政策语句要素实体分类数据集S 3 中的每一个要素实体,人工进行标签标注。根据领域专家知识,政策语句要素实体可分为多个类别,比如对于企业注册地、营收状况、从业人员、知识产权情况等的要求,每个政策语句要素实体属于其中一类,本系统将政策语句要素实体分为12类;
S503.对于步骤S502中标注好的政策要素实体分类数据集S 3 ,将其中80%分为训练集,20%分为验证集。
步骤S6中所述训练政策要素实体分类算法模型具体方法是:
S601.参数定义:对于一个给定的政策要素实体
Figure 530585DEST_PATH_IMAGE033
n表示该政策要素实体
Figure 593087DEST_PATH_IMAGE035
中包含n个字符,
Figure 953049DEST_PATH_IMAGE037
表示该政策要素实体中的第i个字符,模型的输出为每个政策要素实体的类别
Figure 52592DEST_PATH_IMAGE039
,表示步骤S5中政策语句要素实体的12个类型;
S602.模型训练:基于神经网络搭建的短文本分类模型,训练政策要素实体分类器,具体方法是:
S6021.使用词表,对来自训练集的句子批次中的政策要素实体Sent进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S6022.将前向和后向LSTM的输出隐状态拼接后得到每个字符的隐状态
Figure 472072DEST_PATH_IMAGE041
,即句子中的第i个字符的隐状态;
S6023.将每个字符的隐状态
Figure 213632DEST_PATH_IMAGE041
拼接后输入到线性分类器得到每个政策要素实体对应的分类标签y i
S6024.对于每个政策要素实体的真实标签
Figure 18646DEST_PATH_IMAGE043
,使用交叉熵作为损失函数进行模型训练,直至模型收敛;
S603.模型推理:使用政策要素实体分类模型,识别政策要素实体的类别,具体方法是:
S6031.对待分类的政策要素实体
Figure 164456DEST_PATH_IMAGE045
进行“one-hot”向量化;
S6032.然后输入到训练好的前向和后向LSTM和线性分类器中;
S6033.模型输出政策要素实体
Figure 57851DEST_PATH_IMAGE045
的类别。
步骤S7中所述构造政策要素关系分类数据集具体方法是:
S701.对于政策要素实体分类数据集S 3 ,筛选出包含数值关系的政策语句要素实体形成政策要素关系分类数据集S 4
S702.对于政策要素关系分类数据集S 4 中的每一个要素实体,人工进行标签标注,标注政策要素实体中包含的数值关系类型,具体是大于、大于等于、小于、小于等于以及等于5类,且每个标注政策要素实体可能包含不止一个关系类型;
S703.对于步骤S702中标注好的政策要素关系分类数据集S 4 ,将其中80%分为训练集,20%分为验证集。
步骤S8中所述训练政策要素关系分类算法模型具体方法是:
S801.参数定义:对于一个给定的政策要素实体
Figure 603101DEST_PATH_IMAGE047
n表示该政策要素实体
Figure 669146DEST_PATH_IMAGE045
中包含n个字符,
Figure 313754DEST_PATH_IMAGE049
表示该政策要素实体中的第i个字符,模型的输出为每个政策要素关系类别
Figure 706163DEST_PATH_IMAGE051
,表示5种政策要素关系类别,一个政策要素中可能包含多个政策要素关系;
S802.模型训练:基于神经网络搭建的短文本分类模型,训练政策要素关系分类器,具体方法是:
S8021.使用词表,对来自训练集的句子批次中的政策要素实体
Figure 914160DEST_PATH_IMAGE045
进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S8022.将前向和后向LSTM的输出隐状态拼接后得到每个字符的隐状态
Figure 162607DEST_PATH_IMAGE041
,即句子中的第i个字符的隐状态;
S8023.将每个字符的隐状态
Figure 308942DEST_PATH_IMAGE041
拼接后输入到线性分类器得到每个政策要素关系对应的分类标签
Figure 49365DEST_PATH_IMAGE053
S8024.对于每个政策要素实体的真实标签
Figure 405260DEST_PATH_IMAGE055
,使用交叉熵作为损失函数进行模型训练,直至模型收敛;
S83.模型推理:使用政策要素关系分类模型,识别政策要素关系的类别,具体方法是:
S831.对待分类的政策要素实体
Figure 445898DEST_PATH_IMAGE057
进行“one-hot”向量化;
S832.然后输入到训练好的前向和后向LSTM和线性分类器中;
S833.模型输出政策要素实体
Figure 513866DEST_PATH_IMAGE057
的类别;
S804.利用专家规则和外部知识库识别政策要素关系分类:S5中的12类政策要素实体中除了数值关系外,还包含其它类型的关系,利用专家知识及外部知识库识别这些关系类型以及关系的值。
步骤S9中所述构造政策要素中的关系值边界识别数据集具体方法是:
S901.整理政策要素关系分类数据集S 4 加以人工校验,形成政策要素中的关系值边界识别数据集S 5
S902.对于政策要素中的关系值边界识别数据集S 5 中的每一个关系实体,人工进行边界标签标注:给定一个包含n个字符的政策要素实体
Figure 7165DEST_PATH_IMAGE059
,输出每个单词对应的边界标签
Figure 42117DEST_PATH_IMAGE061
,其中
Figure 671681DEST_PATH_IMAGE063
,边界标签B表示对应字符为政策要素中的关系值的起始字符,E对应字符为政策要素中的关系值的结束字符,I对应字符为政策要素中的关系值的非起始且非结束字符,O表示对应字符不在政策要素中的关系值中;
S903.对于步骤S902中标注好的政策语句分类数据集S 5 ,将其中80%分为训练集,20%分为验证集。
步骤S10中所述训练政策要素中的关系值边界识别算法模型具体方法是:
S1001.参数定义:对于一个给定的包含政策要素实体
Figure 148100DEST_PATH_IMAGE064
n表示该政策要素实体
Figure 518907DEST_PATH_IMAGE045
中包含n个字符,
Figure 951026DEST_PATH_IMAGE049
表示该政策要素实体中的第i个字符,模型的输出为每个字符对应的边界标签
Figure 841621DEST_PATH_IMAGE066
S1002.模型训练:基于双向LSTM和CRF搭建的边界识别模型,训练政策要素中的关系值边界识别算法模型,具体方法是:
S10021.使用词表,对来自训练集的句子批次中的政策要素实体
Figure 763310DEST_PATH_IMAGE045
进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S10022.将前向和后向LSTM的输出的每个字符的隐状态
Figure 499709DEST_PATH_IMAGE041
拼接后作为CRF的发射矩阵;
S10023.对于每个句子的真实边界标签
Figure 312682DEST_PATH_IMAGE068
,使用当前转移状态矩阵在正确路径的分数与所有路径分数之和的负对数似然作为损失函数进行模型训练,模型不断优化CRF模型中的起始状态向量
Figure 716506DEST_PATH_IMAGE029
、终止状态向量
Figure 543517DEST_PATH_IMAGE031
,以及状态转移矩阵M这些矩阵参数,最终使得矩阵中正确转移状态序列的分数最大,此时模型收敛;
S1003.模型推理:使用政策要素中的关系值边界识别算法模型,识别政策语句的政策要素中的关系值,具体方法是:
S10031.对待识别的政策要素
Figure 108490DEST_PATH_IMAGE045
进行“one-hot”向量化;
S10032.然后输入到训练好的前向和后向LSTM中;
S10033.将前向和后向LSTM模型的输出作为真实发射矩阵,基于训练好的CRF模型,使用Viterbi解码,预测待识别的政策要素
Figure 334941DEST_PATH_IMAGE045
每一个字符的边界标签。
步骤S12中所述匹配得分计算具体方法是:
S1201.将步骤S11所述政策关系逻辑表达式转化为析取范式(DNF)格式,即政策关系逻辑表达式可分解为多个子表达式,每个子表达式内的条件以“And”相连,子表达式之间以“Or”相连;
S1202.使用同样已规范化成“条件名称-关系-值”格式的企业条件列表和政策关系逻辑表达式的所有子表达式计算匹配路径得分。企业条件与政策条件相符则记为匹配,否则不匹配,某个子表达式匹配得分为匹配的条件个数除以总条件数。若某个子表达式全部条件匹配则匹配得分为1.0,若没有子表达式完全匹配,则以最大得分作为最终匹配得分。
以上是本发明提出的基于命名实体识别和关系抽取模型的政策匹配方法的具体实施过程。
如图4所示,本发明公开的基于命名实体识别和关系抽取模型的政策匹配方法是基于上述提出的基于命名实体识别和关系抽取算法进行系统设计的。该系统主要包括数据库、用户层、人机交互模型预测层、算法训练层。
数据库层:数据库主要用来存储本系统的政策文档及其结果,提供用户层所需要的数据;
用户层:用于基于Web技术实现与用户交互,给用户提供政策录入、政策管理、政策分解及政策查询功能;提供企业信息录入、企业信息更新、企业信息查询功能。
人机交互模型预测层:用于通过用户层提供的政策文本并对这些政策文档进行预处理后,通过训练好的模型和专家规则进行推断得到政策要素实体及关系,然后后台管理员使用逻辑关系“And”或“Or”连接政策要素条件形成政策关系逻辑表达式,将结果保存在数据库中;
算法训练层:利用现有的政策文档作为数据集来训练算法模型;然后,通过人机交互模型预测层中管理员提供的新的政策文件作为新的训练数据;最后,对这些新的数据进行预处理,进行人工标注,来训练基于命名实体识别和关系抽取模型的政策匹配方法,提升算法精度。
该系统是人机交互的过程。首先,利用现有的政策文本数据集来训练命名实体识别和关系抽取任务模型;然后,管理员不断提供新的政策文件到系统,使用训练好的政策条件抽取模型进行推断得到政策条件关系;其次,管理员对与本专利发明自动生成的候选政策条件进行人工调整之后,再次作为训练数据保存到数据库中,成为下一次模型训练的数据。通过人机交互的方式不断地扩充数据来提升本专利发明涉及的多个命名实体识别和关系抽取算法模型的准确度。因此,该人机过程由管理员、政策分解系统、数据库3个实体一起构成一个不断学习与数据集扩充的闭环。
在本申请所提供的实施例中,应该理解到,所揭露的方法,在没有超过本申请的精神和范围内,可以通过其他的方式实现。当前的实施例只是一种示范性的例子,不应该作为限制,所给出的具体内容不应该限制本申请的目的。例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (13)

1.一种基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,该方法包括如下步骤:
S1.构造政策语句分类数据集,对政策语句分类数据集进行人工标签标注;
S2.基于步骤S1中已标注的政策语句分类数据集,训练政策语句分类算法模型,并使用政策语句分类算法模型对政策文章中的句子进行分类,识别出包含政策要素条件关系的句子;
S3.构造政策要素实体边界识别数据集,对政策要素实体边界识别数据集进行人工标签标注;
S4.基于步骤S3中的已标注的政策要素实体边界识别数据集,训练政策要素实体边界识别算法模型,并使用政策要素实体边界识别算法模型,对S2中政策语句分类算法模型识别出的包含政策要素条件关系的句子进行政策要素实体边界识别;
S5.构造政策要素实体分类数据集,并对政策要素实体分类数据集进行人工标签标注;
S6.基于步骤S5中已标注的政策要素实体分类数据集,训练政策要素实体分类算法模型,并使用政策要素实体分类算法模型,对S4中政策要素实体边界识别算法模型识别出的政策要素实体进行政策要素实体分类;
S7.构造政策要素关系分类数据集,并对政策要素关系分类数据集进行人工标签标注;
S8.基于步骤S7中已标注的政策要素关系分类数据集,训练政策要素关系分类算法模型,并使用政策要素关系分类算法模型和政策领域专家知识编写的人工规则,对S6中政策要素实体分类算法模型识别出的已分类的政策要素实体进行政策要素关系实体分类,识别已分类的政策要素实体中包含的关系类型;
S9.构造数值关系类型的政策要素中的关系值边界识别数据集,并对政策要素关系值边界识别数据集进行标签标注;
S10.基于步骤S9中已标注的政策要素关系值边界识别数据集,训练政策要素关系值边界识别算法模型,并使用训练政策要素关系值边界识别算法模型,对步骤S8中政策要素关系分类算法模型识别出的包含数值关系类型的政策要素,识别其关系值的边界;
S11.基于步骤S1-S10的文本分类、命名实体识别和关系抽取算法模型及专家规则,政策文章中的政策申报条件语句文本可以转化为多个“条件名称-关系-值”这样的政策要素关系表达式,并在政策要素关系表达式间以逻辑关系“And”或“Or”连接,形成政策关系逻辑表达式;
S12.使用同样已规范化成“条件名称-关系-值”格式的企业条件列表和政策关系逻辑表达式计算匹配路径得分,以最大值作为匹配得分。
2.根据权利要求1所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤S1中所述构造政策语句分类数据集具体方法是:
S101.对于预先收集好的政策文档集合D,将政策文档集合D中的每一篇政策文档d分割为多个句子,形成政策语句分类数据集S 1
S102.对于政策语句分类数据集S 1 中的每一个句子,人工进行标签标注,类标1表示该句子包含政策要素条件关系,类标0表示该句子不包含政策要素条件关系;
S103.对于步骤S101中标注好的政策语句分类数据集S 1 ,将其中80%分为训练集,20%分为验证集。
3.根据权利要求2所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤S2中所述训练政策语句分类算法模型具体方法是:
S201.参数定义:对于一篇给定的政策句子
Figure 554095DEST_PATH_IMAGE001
n表示该政策句子
Figure 510943DEST_PATH_IMAGE002
中包含n个字符,
Figure 583942DEST_PATH_IMAGE003
表示该政策文本中的第i个字符,模型的输出为每个句子是否包含政策要素条件关系
Figure 473269DEST_PATH_IMAGE004
,其中
Figure 556019DEST_PATH_IMAGE005
,标签“1”表示这句话包含政策要素条件关系,标签“0”表示这句话不包含政策要素条件关系;
S202.模型训练:基于神经网络搭建的短文本分类模型,训练政策语句分类器,具体方法是:
S2021.用词表,对来自训练集的句子批次中的政策句子s进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S2022.将前向和后向LSTM的输出隐状态拼接后得到每个字符的隐状态
Figure 736465DEST_PATH_IMAGE006
,即句子中的第i个字符的隐状态;
S2023.将每个字符的隐状态
Figure 991866DEST_PATH_IMAGE006
拼接后输入到线性分类器得到每个政策句子对应的分类标签y i
S2024.对于每个句子的真实标签
Figure 724198DEST_PATH_IMAGE007
,使用二元交叉熵作为损失函数进行模型训练,直至模型收敛;
S203.模型推理:使用政策语句分类模型,识别政策语句是否包含政策要素条件关系,具体方法是:
S20231.对待分类的政策句子
Figure 963419DEST_PATH_IMAGE008
进行“one-hot”向量化;
S20232.然后输入到训练好的前向和后向LSTM和线性分类器中;
S20233.模型输出“1”表示该句子包含政策要素条件关系,输出“0”表示该句子不包含政策要素条件关系。
4.根据权利要求3所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤S3中所述构造政策要素实体边界识别数据集具体方法是:
S301.使用步骤S2中的政策语句分类算法模型,从政策语句分类数据集S 1 中识别出包含政策要素条件关系的政策语句,并加以人工校验,形成政策要素实体边界识别数据集S 2
S302.对于政策要素实体边界识别数据集S 2 中的每一个句子,人工进行边界标签标注:给定一个包含n个字符的句子
Figure 947555DEST_PATH_IMAGE009
,输出每个单词对应的边界标签
Figure 512922DEST_PATH_IMAGE010
,其中
Figure 150577DEST_PATH_IMAGE011
,边界标签B表示对应字符为政策要素实体的起始字符,E对应字符为政策要素实体的结束字符,I对应字符为政策要素实体的非起始且非结束字符,O表示对应字符不在政策要素实体中,并且一个句子中可能包含不只一个政策语句要素实体;
S303.对于步骤S301中标注好的政策语句分类数据集S 2 ,将其中80%分为训练集,20%分为验证集。
5.根据权利要求1所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤S4中所述训练政策要素实体边界识别算法模型具体方法是:
S401.参数定义:对于一篇给定的政策句子
Figure 690142DEST_PATH_IMAGE009
n表示该政策句子
Figure 868183DEST_PATH_IMAGE012
中包含n个字符,
Figure 292649DEST_PATH_IMAGE013
表示该政策文本中的第i个字符,模型的输出为每个字符对应的边界标签
Figure 491418DEST_PATH_IMAGE014
,其中
Figure 174072DEST_PATH_IMAGE011
,边界标签B表示对应字符为政策要素实体的起始字符,I对应字符为政策要素实体的非起始字符,O表示对应字符不在政策要素实体中;
S402.模型训练:基于双向LSTM和CRF搭建的边界识别模型,训练政策要素实体边界识别算法模型,具体方法是:
S4021.使用词表,对来自训练集的句子批次中的政策句子
Figure 31170DEST_PATH_IMAGE012
进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S4022.将前向和后向LSTM的输出的每个字符的隐状态
Figure 977654DEST_PATH_IMAGE006
拼接后作为CRF的发射矩阵;
S4023.对于每个句子的真实边界标签
Figure 222690DEST_PATH_IMAGE014
,使用当前转移状态矩阵在正确路径的分数与所有路径分数之和的负对数似然作为损失函数进行模型训练,模型不断优化CRF模型中的起始状态向量
Figure 330324DEST_PATH_IMAGE015
、终止状态向量
Figure 508888DEST_PATH_IMAGE016
,以及状态转移矩阵M这些矩阵参数,最终使得矩阵中正确转移状态序列的分数最大,此时模型收敛;
S403.模型推理:使用政策要素实体边界识别算法模型,识别政策语句的政策要素实体,具体方法是:
S4031.对待识别的政策句子
Figure 244632DEST_PATH_IMAGE012
进行“one-hot”向量化;
S4032.然后输入到训练好的前向和后向LSTM中;
S4033.将前向和后向LSTM模型的输出作为真实发射矩阵,基于训练好的CRF模型,使用Viterbi解码,预测待识别的政策句子
Figure 129412DEST_PATH_IMAGE012
每一个字符的边界标签。
6.根据权利要求5所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤S5中所述构造政策要素实体分类数据集具体方法是:
S501.使用步骤S4中的政策要素实体边界识别算法模型及Viterbi解码,从政策语句要素实体边界数据集S 2 中识别政策语句要素实体,并加以人工校验,形成政策语句要素实体分类数据集S 3
S502.对于政策语句要素实体分类数据集S 3 中的每一个要素实体,人工进行标签标注;
S503.对于步骤S502中标注好的政策要素实体分类数据集S 3 ,将其中80%分为训练集,20%分为验证集。
7.根据权利要求1所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤S6中所述训练政策要素实体分类算法模型具体方法是:
S601.参数定义:对于一个给定的政策要素实体
Figure 989920DEST_PATH_IMAGE017
n表示该政策要素实体
Figure 316384DEST_PATH_IMAGE018
中包含n个字符,
Figure 703372DEST_PATH_IMAGE019
表示该政策要素实体中的第i个字符,模型的输出为每个政策要素实体的类别
Figure 290211DEST_PATH_IMAGE020
,表示步骤S5中政策语句要素实体的12个类型;
S602.模型训练:基于神经网络搭建的短文本分类模型,训练政策要素实体分类器,具体方法是:
S6021.使用词表,对来自训练集的句子批次中的政策要素实体s ent 进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S6022.将前向和后向LSTM的输出隐状态拼接后得到每个字符的隐状态
Figure 513382DEST_PATH_IMAGE021
,即句子中的第i个字符的隐状态;
S6023.将每个字符的隐状态
Figure 843869DEST_PATH_IMAGE021
拼接后输入到线性分类器得到每个政策要素实体对应的分类标签y i
S6024.对于每个政策要素实体的真实标签
Figure 693487DEST_PATH_IMAGE022
,使用交叉熵作为损失函数进行模型训练,直至模型收敛;
S603.模型推理:使用政策要素实体分类模型,识别政策要素实体的类别,具体方法是:
S6031.对待分类的政策要素实体
Figure 592173DEST_PATH_IMAGE023
进行“one-hot”向量化;
S6032.然后输入到训练好的前向和后向LSTM和线性分类器中;
S6033.模型输出政策要素实体
Figure 20749DEST_PATH_IMAGE023
的类别。
8.根据权利要求7所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤S7中所述构造政策要素关系分类数据集具体方法是:
S701.对于政策要素实体分类数据集S 3 ,筛选出包含数值关系的政策语句要素实体形成政策要素关系分类数据集S 4
S702.对于政策要素关系分类数据集S 4 中的每一个要素实体,人工进行标签标注,标注政策要素实体中包含的数值关系类型,所述数值关系类型是指大于、大于等于、小于、小于等于、等于这5类,且每个标注政策要素实体包含一个或者一个以上的关系类型;
S703.对于步骤S702中标注好的政策要素关系分类数据集S 4 ,将其中80%分为训练集,20%分为验证集。
9.根据权利要求1所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤S8中所述训练政策要素关系分类算法模型具体方法是:
S801.参数定义:对于一个给定的政策要素实体
Figure 233556DEST_PATH_IMAGE024
n表示该政策要素实体
Figure 204923DEST_PATH_IMAGE023
中包含n个字符,
Figure 385762DEST_PATH_IMAGE025
表示该政策要素实体中的第i个字符,模型的输出为每个政策要素关系类别
Figure 973738DEST_PATH_IMAGE026
,表示5种政策要素关系类别,一个政策要素中可能包含多个政策要素关系;
S802.模型训练:基于神经网络搭建的短文本分类模型,训练政策要素关系分类器,具体方法是:
S8021.使用词表,对来自训练集的句子批次中的政策要素实体
Figure 177186DEST_PATH_IMAGE023
进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S8022.将前向和后向LSTM的输出隐状态拼接后得到每个字符的隐状态
Figure 474831DEST_PATH_IMAGE021
,即句子中的第i个字符的隐状态;
S8023.将每个字符的隐状态
Figure 823642DEST_PATH_IMAGE021
拼接后输入到线性分类器得到每个政策要素关系对应的分类标签
Figure 977542DEST_PATH_IMAGE027
S8024.对于每个政策要素实体的真实标签
Figure 250261DEST_PATH_IMAGE028
,使用交叉熵作为损失函数进行模型训练,直至模型收敛;
S803.模型推理:使用政策要素关系分类模型,识别政策要素关系的类别,具体方法是:
S8031.对待分类的政策要素实体
Figure 730308DEST_PATH_IMAGE029
进行“one-hot”向量化;
S8032.然后输入到训练好的前向和后向LSTM和线性分类器中;
S8033.模型输出政策要素实体
Figure 753DEST_PATH_IMAGE029
的类别;
S804.利用专家规则和外部知识库识别政策要素关系分类:S5中的12类政策要素实体中除了数值关系外,还包含其它类型的关系,利用专家知识及外部知识库识别这些关系类型以及关系的值。
10.根据权利要求1所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤S9中所述构造政策要素中的关系值边界识别数据集具体方法是:
S901.整理政策要素关系分类数据集S 4 加以人工校验,形成政策要素中的关系值边界识别数据集S 5
S902.对于政策要素中的关系值边界识别数据集S 5 中的每一个关系实体,人工进行边界标签标注:给定一个包含n个字符的政策要素实体
Figure 828900DEST_PATH_IMAGE030
,输出每个单词对应的边界标签
Figure 702047DEST_PATH_IMAGE031
,其中
Figure 581141DEST_PATH_IMAGE032
,边界标签B表示对应字符为政策要素中的关系值的起始字符,E对应字符为政策要素中的关系值的结束字符,I对应字符为政策要素中的关系值的非起始且非结束字符,O表示对应字符不在政策要素中的关系值中;
S903.对于步骤S902中标注好的政策语句分类数据集S 5 ,将其中80%分为训练集,20%分为验证集。
11.根据权利要求1所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤S10中所述训练政策要素中的关系值边界识别算法模型具体方法是:
S1001.参数定义:对于一个给定的包含政策要素实体
Figure 872753DEST_PATH_IMAGE030
n表示该政策要素实体
Figure 532404DEST_PATH_IMAGE023
中包含n个字符,
Figure 943663DEST_PATH_IMAGE025
表示该政策要素实体中的第i个字符,模型的输出为每个字符对应的边界标签
Figure 536318DEST_PATH_IMAGE033
S1002.模型训练:基于双向LSTM和CRF搭建的边界识别模型,训练政策要素中的关系值边界识别算法模型,具体方法是:
S10021.使用词表,对来自训练集的句子批次中的政策要素实体
Figure 742040DEST_PATH_IMAGE023
进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[UNK]”表示,然后输入到前向和后向LSTM中进行特征提取;
S10022.将前向和后向LSTM的输出的每个字符的隐状态
Figure 219814DEST_PATH_IMAGE021
拼接后作为CRF的发射矩阵;
S10023.对于每个句子的真实边界标签
Figure 559397DEST_PATH_IMAGE034
,使用当前转移状态矩阵在正确路径的分数与所有路径分数之和的负对数似然作为损失函数进行模型训练,模型不断优化CRF模型中的起始状态向量
Figure 993177DEST_PATH_IMAGE015
、终止状态向量
Figure 386112DEST_PATH_IMAGE016
,以及状态转移矩阵M这些矩阵参数,最终使得矩阵中正确转移状态序列的分数最大,此时模型收敛;
S1003.模型推理:使用政策要素中的关系值边界识别算法模型,识别政策语句的政策要素中的关系值,具体方法是:
S10031.对待识别的政策要素
Figure 4044DEST_PATH_IMAGE023
进行“one-hot”向量化;
S10032.然后输入到训练好的前向和后向LSTM中;
S10033.将前向和后向LSTM模型的输出作为真实发射矩阵,基于训练好的CRF模型,使用Viterbi解码,预测待识别的政策要素
Figure 898051DEST_PATH_IMAGE023
每一个字符的边界标签。
12.根据权利要求2所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤S12中所述匹配得分计算具体方法是:
S1201.将步骤S11所述政策关系逻辑表达式转化为析取范式格式,即政策关系逻辑表达式可分解为多个子表达式,每个子表达式内的条件以“And”相连,子表达式之间以“Or”相连;
S1202.使用同样已规范化成“条件名称-关系-值”格式的企业条件列表和政策关系逻辑表达式的所有子表达式计算匹配路径得分,企业条件与政策条件相符则记为匹配,否则不匹配,某个子表达式匹配得分为匹配的条件个数除以总条件数,若某个子表达式全部条件匹配则匹配得分为1.0,若没有子表达式完全匹配,则以最大得分作为最终匹配得分。
13.一种基于命名实体识别和关系抽取模型的政策匹配系统,其特征在于,该政策匹配系统应用于权利要求1-12之一所述方法,该系统包括:
数据库层:数据库主要用来存储本系统的政策文档及其结果,提供用户层所需要的数据;
用户层:用于基于Web技术实现与用户交互,给用户提供政策录入、政策管理、政策分解及政策查询功能;提供企业信息录入、企业信息更新、企业信息查询功能;
人机交互模型预测层:用于通过用户层提供的政策文本并对这些政策文档进行预处理后,通过训练好的模型和专家规则进行推断得到政策要素实体及关系,然后后台管理员使用逻辑关系“And”或“Or”连接政策要素条件形成政策关系逻辑表达式,将结果保存在数据库中;
算法训练层:利用现有的政策文档作为数据集来训练算法模型;然后,通过人机交互模型预测层中管理员提供的新的政策文件作为新的训练数据;最后,对这些新的数据进行预处理,进行人工标注,来训练基于命名实体识别和关系抽取模型的政策匹配方法,提升算法精度。
CN202211363986.XA 2022-11-02 2022-11-02 基于命名实体识别与关系抽取模型的政策匹配方法及系统 Active CN115470871B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211363986.XA CN115470871B (zh) 2022-11-02 2022-11-02 基于命名实体识别与关系抽取模型的政策匹配方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211363986.XA CN115470871B (zh) 2022-11-02 2022-11-02 基于命名实体识别与关系抽取模型的政策匹配方法及系统

Publications (2)

Publication Number Publication Date
CN115470871A true CN115470871A (zh) 2022-12-13
CN115470871B CN115470871B (zh) 2023-02-17

Family

ID=84336249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211363986.XA Active CN115470871B (zh) 2022-11-02 2022-11-02 基于命名实体识别与关系抽取模型的政策匹配方法及系统

Country Status (1)

Country Link
CN (1) CN115470871B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522165A (zh) * 2023-06-27 2023-08-01 武汉爱科软件技术股份有限公司 一种基于孪生结构的舆情文本匹配系统及方法
CN116562265A (zh) * 2023-07-04 2023-08-08 南京航空航天大学 一种信息智能解析方法、系统及存储介质
CN117235206A (zh) * 2023-08-30 2023-12-15 上海通办信息服务有限公司 一种基于深度学习的政策匹配方法

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107209750A (zh) * 2014-11-19 2017-09-26 里德爱思唯尔股份有限公司雷克萨斯尼克萨斯分公司 用于自动地标识文档中的潜在重要事实的系统及方法
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN108446355A (zh) * 2018-03-12 2018-08-24 深圳证券信息有限公司 投融资事件要素抽取方法、装置及设备
CN108920445A (zh) * 2018-04-23 2018-11-30 华中科技大学鄂州工业技术研究院 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置
CN109493265A (zh) * 2018-11-05 2019-03-19 北京奥法科技有限公司 一种基于深度学习的政策解读方法及政策解读系统
CN110209770A (zh) * 2019-06-03 2019-09-06 北京邮电大学 一种基于策略价值网络和树搜索增强的命名实体识别方法
US20200184017A1 (en) * 2018-12-11 2020-06-11 American Express Travel Related Services Company, Inc. Identifying data of interest using machine learning
CN111930966A (zh) * 2020-10-07 2020-11-13 杭州实在智能科技有限公司 一种用于数字政务的智能政策匹配方法及系统
CN112035653A (zh) * 2020-11-05 2020-12-04 北京智源人工智能研究院 一种政策关键信息提取方法和装置、存储介质、电子设备
CN112101041A (zh) * 2020-09-08 2020-12-18 平安科技(深圳)有限公司 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN112241438A (zh) * 2020-10-09 2021-01-19 浙江水木海角科技服务有限公司 一种政策服务信息数据处理和查询方法及系统
WO2021150676A1 (en) * 2020-01-21 2021-07-29 Ancestry.Com Operations Inc. Joint extraction of named entities and relations from text using machine learning models
CN113190656A (zh) * 2021-05-11 2021-07-30 南京大学 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN113254602A (zh) * 2021-07-06 2021-08-13 北京邮电大学 面向科技政策领域的知识图谱构建方法及系统
CN113989811A (zh) * 2021-10-29 2022-01-28 深圳前海环融联易信息科技服务有限公司 基于深度学习的贸易合同中项目公司、供应商的提取方法
CN114036921A (zh) * 2020-12-18 2022-02-11 京东科技控股股份有限公司 一种政策信息匹配方法和装置
CN114254620A (zh) * 2021-12-23 2022-03-29 国泰新点软件股份有限公司 政策解析方法、装置和存储介质
CN114462409A (zh) * 2022-01-28 2022-05-10 南京审计大学 一种基于对抗训练的审计领域命名实体识别方法

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107209750A (zh) * 2014-11-19 2017-09-26 里德爱思唯尔股份有限公司雷克萨斯尼克萨斯分公司 用于自动地标识文档中的潜在重要事实的系统及方法
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN108446355A (zh) * 2018-03-12 2018-08-24 深圳证券信息有限公司 投融资事件要素抽取方法、装置及设备
CN108920445A (zh) * 2018-04-23 2018-11-30 华中科技大学鄂州工业技术研究院 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置
CN109493265A (zh) * 2018-11-05 2019-03-19 北京奥法科技有限公司 一种基于深度学习的政策解读方法及政策解读系统
US20200184017A1 (en) * 2018-12-11 2020-06-11 American Express Travel Related Services Company, Inc. Identifying data of interest using machine learning
CN110209770A (zh) * 2019-06-03 2019-09-06 北京邮电大学 一种基于策略价值网络和树搜索增强的命名实体识别方法
WO2021150676A1 (en) * 2020-01-21 2021-07-29 Ancestry.Com Operations Inc. Joint extraction of named entities and relations from text using machine learning models
CN112101041A (zh) * 2020-09-08 2020-12-18 平安科技(深圳)有限公司 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN111930966A (zh) * 2020-10-07 2020-11-13 杭州实在智能科技有限公司 一种用于数字政务的智能政策匹配方法及系统
CN112241438A (zh) * 2020-10-09 2021-01-19 浙江水木海角科技服务有限公司 一种政策服务信息数据处理和查询方法及系统
CN112035653A (zh) * 2020-11-05 2020-12-04 北京智源人工智能研究院 一种政策关键信息提取方法和装置、存储介质、电子设备
CN114036921A (zh) * 2020-12-18 2022-02-11 京东科技控股股份有限公司 一种政策信息匹配方法和装置
CN113190656A (zh) * 2021-05-11 2021-07-30 南京大学 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN113254602A (zh) * 2021-07-06 2021-08-13 北京邮电大学 面向科技政策领域的知识图谱构建方法及系统
CN113989811A (zh) * 2021-10-29 2022-01-28 深圳前海环融联易信息科技服务有限公司 基于深度学习的贸易合同中项目公司、供应商的提取方法
CN114254620A (zh) * 2021-12-23 2022-03-29 国泰新点软件股份有限公司 政策解析方法、装置和存储介质
CN114462409A (zh) * 2022-01-28 2022-05-10 南京审计大学 一种基于对抗训练的审计领域命名实体识别方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CHENGCHENG MAI 等: "Pretraining Multi-modal Representations for Chinese NER Task with Cross-Modality Attention", 《WSDM ’22》 *
CHENGCHENG MAI 等: "TSSE-DMM: Topic Modeling for Short Texts Based on Topic Subdivision and Semantic Enhancement", 《PAKDD 2021》 *
GUILLAUME LAMPLE 等: "Neural Architectures for Named Entity Recognition", 《ARXIV》 *
曹树金 等: "基于深度学习的中共党史文献命名实体识别研究", 《情报资料工作》 *
罗友恒: "面向政务客服对话场景的知识点匹配算法研究与应用", 《中国优秀硕士学位论文全文数据库 社会科学I辑》 *
胡漠 等: "我国智慧政府信息协同网络结构识别与分析", 《情报学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522165A (zh) * 2023-06-27 2023-08-01 武汉爱科软件技术股份有限公司 一种基于孪生结构的舆情文本匹配系统及方法
CN116522165B (zh) * 2023-06-27 2024-04-02 武汉爱科软件技术股份有限公司 一种基于孪生结构的舆情文本匹配系统及方法
CN116562265A (zh) * 2023-07-04 2023-08-08 南京航空航天大学 一种信息智能解析方法、系统及存储介质
CN116562265B (zh) * 2023-07-04 2023-12-01 南京航空航天大学 一种信息智能解析方法、系统及存储介质
CN117235206A (zh) * 2023-08-30 2023-12-15 上海通办信息服务有限公司 一种基于深度学习的政策匹配方法
CN117235206B (zh) * 2023-08-30 2024-04-30 上海通办信息服务有限公司 一种基于深度学习的政策匹配方法

Also Published As

Publication number Publication date
CN115470871B (zh) 2023-02-17

Similar Documents

Publication Publication Date Title
CN111428053B (zh) 一种面向税务领域知识图谱的构建方法
CN111708773B (zh) 一种多源科创资源数据融合方法
CN108897857B (zh) 面向领域的中文文本主题句生成方法
CN115470871B (zh) 基于命名实体识别与关系抽取模型的政策匹配方法及系统
CN109271529B (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN113806563B (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
Li et al. A policy-based process mining framework: mining business policy texts for discovering process models
CN111783399A (zh) 一种法律裁判文书信息抽取方法
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
CN113255321A (zh) 基于文章实体词依赖关系的金融领域篇章级事件抽取方法
Alwan et al. Political Arabic articles orientation using rough set theory with sentiment lexicon
CN113934909A (zh) 基于预训练语言结合深度学习模型的金融事件抽取方法
CN114580639A (zh) 一种基于政务三元组自动抽取对齐的知识图谱构建的方法
CN113869055A (zh) 基于深度学习的电网项目特征属性识别方法
Channabasamma et al. A contextual model for information extraction in resume analytics using NLP’s spacy
Wosiak Automated extraction of information from Polish resume documents in the IT recruitment process
CN114722810A (zh) 一种基于信息抽取和多属性决策的房地产客户画像方法和系统
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN111563374B (zh) 一种基于司法裁判文书的人员社交关系抽取方法
CN112989830A (zh) 一种基于多元特征和机器学习的命名实体识别方法
CN116432965B (zh) 基于知识图谱的岗位能力分析方法及树状图生成方法
CN112257442A (zh) 一种基于扩充语料库神经网络的政策文件信息提取方法
CN111737498A (zh) 一种应用于离散制造业生产过程的领域知识库建立方法
CN112749278B (zh) 一种建筑工程变更指令的分类方法
CN112613316B (zh) 一种生成古汉语标注模型的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant