CN117235206B - 一种基于深度学习的政策匹配方法 - Google Patents
一种基于深度学习的政策匹配方法 Download PDFInfo
- Publication number
- CN117235206B CN117235206B CN202311111293.6A CN202311111293A CN117235206B CN 117235206 B CN117235206 B CN 117235206B CN 202311111293 A CN202311111293 A CN 202311111293A CN 117235206 B CN117235206 B CN 117235206B
- Authority
- CN
- China
- Prior art keywords
- policy
- file
- condition
- sentences
- analyzed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013135 deep learning Methods 0.000 title claims abstract description 12
- 238000004458 analytical method Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000002372 labelling Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 6
- 238000000926 separation method Methods 0.000 claims description 4
- 238000013519 translation Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000013136 deep learning model Methods 0.000 abstract description 2
- 230000014509 gene expression Effects 0.000 description 13
- 238000004140 cleaning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000003754 machining Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于深度学习的政策匹配方法,包括:S1、创建第一政策条件集;S2、收集政策文件N份,获取每一份政策文件的多个语句;S3、利用第一政策条件集,对N份政策文件进行标注;S4、训练M个政策分析模型;S5、获取待分析文件的多个语句,输入M个政策分析模型,输出第二政策条件;S6、生成第二政策条件集;S7、获取企业信息数据和第二政策条件集,计算每个第二政策条件的偏差值;S8、对每个第二政策条件的偏差值进行截取,利用截取后的每个第二政策条件的偏差值,计算企业信息数据与政策文件的符合度。本发明通过深度学习模型分析政策文件,计算信息数据与政策文件的符合程度,让相关企业即时享受到相应政策。
Description
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种基于深度学习的政策匹配方法。
背景技术
政府部门经常通过多种渠道发布多种企业相关的政策文件,但企业经常因为信息了解的不及时或对相应政策文件理解的不准确而错过了相应政策,导致企业利益受到损失,企业为了减少这方便的损失常见的做法是雇用相应的人员或相应的咨询公司帮助企业即时了解与分析相应政策,这增加企业的负担。
发明内容
本发明提供了一种基于深度学习的政策匹配方法,以解决现有技术中企业无法及时了解政策文件,无法及时准确匹配政策条件的技术问题。
本发明的一个方面在于提供一种基于深度学习的政策匹配方法,所述政策匹配方法包括如下方法步骤:
S1、创建第一政策条件集,其中,第一政策条件集中包括多个第一政策条件;
S2、收集不同行业、不同政府部门的政策文件N份,并对收集的N份政策文件进行语句提取,获取每一份政策文件的多个语句;
S3、利用第一政策条件集,对N份政策文件进行多分类标注,以及对每一份政策文件的多个语句进行命名实体标注,以及对每一份政策文件的多个语句进行序列到序列标注;
S4、利用标注好的N份政策文件,以及每一份政策文件命名实体标注的多个语句,以及每一份政策文件序列到序列标注的多个语句,训练M个政策分析模型;
S5、对待分析的政策文件进行语句提取,获取待分析文件的多个语句,将待分析文件,以及待分析文件的多个语句输入M个政策分析模型,输出待分析文件,以及待分析文件的多个语句对应的第二政策条件;
S6、将M个政策分析模型输出的待分析文件,以及待分析文件的多个语句对应的第二政策条件,合并成第二政策条件集,并对第二政策条件集进行数据标准化处理;
S7、获取企业信息数据和第二政策条件集,将企业信息数据和第二政策条件集匹配,并计算每个第二政策条件的偏差值;
S8、对每个第二政策条件的偏差值进行截取,利用截取后的每个第二政策条件的偏差值,计算企业信息数据与政策文件的符合度,并显示企业信息数据与政策文件的符合度。
在一个优选的实施例中,在步骤S2中,对收集的N份政策文件进行语句提取包括:
S201、去除每一份政策文件中不可见的字符、空格、空行、emoji等字符;
S202、每一份政策文件中无句号分隔的段落、章节内容之间添加句号;
S203、对每一份政策文件的内容按顺序合并为单行内容;
S204、对单行内容切分为多个语句。
在一个优选的实施例中,在步骤S4中,利用标注好的N份政策文件,通过transformer-xl类的长文本编码模型,训练政策分析模型。
在一个优选的实施例中,在步骤S4中,利用每一份政策文件命名实体标注的多个语句,通过BERT+BILSTM+CRF类的模型,训练政策分析模型;
在一个优选的实施例中,在步骤S4中,利用每一份政策文件序列到序列标注的多个语句,通过seq2seq类的序列到序列的翻译模型,训练政策分析模型。
在一个优选的实施例中,在步骤S5中,对待分析的政策文件进行语句提取包括:
S501、去除待分析的政策文件中不可见的字符、空格、空行、emoji等字符;
S502、待分析的政策文件中无句号分隔的段落、章节内容之间添加句号;
S503、对待分析的政策文件的内容按顺序合并为单行内容;
S504、对单行内容切分为多个待分析文件的语句。
在一个优选的实施例中,在步骤S7中,每个第二政策条件的偏差值通过如下方法计算:
对于数值类第二政策条件,其条件偏差=(Vkey-Vtarget)/Vtarget;
对于文本类第二政策条件,其
其中,VECkey和VECtarget表示经过BERT类的模型计算后的第二政策条件,与企业信息数据的语义向量。
在一个优选的实施例中,在步骤S8中,每个第二政策条件的偏差值的截取规则为:
当第二政策条件的偏差值大于0,则第二政策条件的偏差值取0;
当第二政策条件的偏差值小于-1,则第二政策条件的偏差值取-1;
当第二政策条件的偏差值范围在[-1,0],则第二政策条件的偏差值不进行截取。
在一个优选的实施例中,在步骤S8中,企业信息数据与政策文件的符合度通过如下方法计算:
其中,S表示对第二政策条件集中第二政策条件的数量;Ri表示截取后的第二政策条件偏差值,Wi表示每个第二政策条件的权重。
在一个优选的实施例中,企业信息数据与政策文件的符合度取值范围在[0,100],当企业信息数据与政策文件的符合度=100时,则企业信息数据与政策文件完全符合。
与现有技术相比,本发明具有以下有益效果:
本发明提供的一种基于深度学习的政策匹配方法,通过深度学习模型分析政策文件,计算信息数据与政策文件的符合程度,用于主动提醒或自动办理相关业务等场景,让相关企业即时享受到相应政策,帮助企业减少损失、减轻负担,帮助政务服务需求侧改革落地,提升政务主动服务的能力。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种基于深度学习的政策匹配方法的流程图。
图2是本发明一个实施例中一个第二政策条件分解为表达式树的示意图。
具体实施方式
为了使本发明的上述以及其他特征和优点更加清楚,下面结合附图进一步描述本发明。应当理解,本文给出的具体实施例是出于向本领域技术人员解释的目的,仅是示例性的,而非限制性的。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
如图1所示本发明一种基于深度学习的政策匹配方法的流程图,根据本发明的实施例,提供一种基于深度学习的政策匹配方法,用于将企业信息数据与政策文件进行符合度计算,将企业信息数据与政策文件进行匹配。本发明一种基于深度学习的政策匹配方法包括如下方法步骤:
步骤S1、创建第一政策条件集,第一政策条件集中包括多个第一政策条件。
通过梳理常见的政策文件,创建第一政策条件集,第一政策条件集中包括多个第一政策条件。
每个第一政策条件包括条件名称、英文标签、数据类型、匹配算法、常用语句等信息。
例如在一个实施例中,第一政策条件为:成立时间,则该第一政策条件包括如表1所示的信息:
表1
条件名称 | 英文标签 | 数据类型 | 匹配算法 | 常用语句 |
成立时间 | EST | int | 年限、时间戳 | 成立一年以上、2012年以后注册 |
例如在另一个实施例中,第一政策条件为:所属行业,则该第一政策条件包括如表2所示的信息:
表2
条件名称 | 英文标签 | 数据类型 | 匹配算法 | 常用语句 |
所属行业 | int | 林木培育 |
例如在又一个实施例中,第一政策条件为:营业收入,则该第一政策条件包括如表3所示的信息:
表3
条件名称 | 英文标签 | 数据类型 | 匹配算法 | 常用语句 |
营业收入 | int | 营业收入超过5000万元(含) |
通过梳理常见的政策文件,创建包含多个第一政策条件的第一政策条件集。
步骤S2、收集政策文件。
收集不同行业、不同政府部门的政策文件N份,并对收集的N份政策文件进行语句提取,获取每一份政策文件的多个语句。
根据本发明的实施例,对收集的N份政策文件进行语句提取(数据清洗),包括如下方法步骤:
步骤S201、去除每一份政策文件中不可见的字符、空格、空行、emoji等字符。
步骤S202、每一份政策文件中无句号分隔的段落、章节内容之间添加句号。
步骤S203、对每一份政策文件的内容按顺序合并为单行内容。
步骤S204、对单行内容切分为多个语句。
在一个优选的实施例中,步骤S204中单行内容切分为多个语句,每个语句长度不大于L1(L1<=540)。
步骤S3、政策文件标注。
根据本发明的实施例,利用第一政策条件集,对N份政策文件进行多分类标注,以及对每一份政策文件的多个语句进行命名实体标注,以及对每一份政策文件的多个语句进行序列到序列标注。
对N份政策文件进行多分类标注。
标注形式为:政策文件:第一政策条件:政策文件标签值。
例如,某一份政策文件对应的第一政策条件集中的第一政策条件的所属行业为畜牧业,则将该份政策文件标注为:政策文件1:所属行业:林木培育或种植或海洋渔业。
又例如,某一份政策文件对应的第一政策条件集中的第一政策条件的所属行业为制造业,则将该份政策文件标注为:政策文件2:所属行业:机械设备或五金或元器件加工。
依次类推,将N份政策文件进行多分类标注。
根据本发明的实施例,对每一份政策文件的多个语句进行命名实体标注,具体采用BIO方式进行标注。
标注形式为:政策文件1:语句1:start:length。
政策文件1:语句2:start:length。
其中,start表示政策文件1的语句的起始位置,length政策文件1的语句的长度。
例如,以政策文件1为畜牧业为例,在政策文件1中的某个语句1对应的第一政策条件集中的第一政策条件为成立时间,则该语句标注为:
政策文件1:成立一年以上、2012年以后注册:start:length。
又例如,以政策文件1为畜牧业为例,在政策文件1中的某个语句2对应的第一政策条件集中的第一政策条件为营业收入,则该语句标注为:
政策文件1:营业收入超过5000万元(含):start:length。
依次类推,将政策文件1、政策文件2、政策文件3、…、政策文件N中的所有语句利用第一政策条件集进行标注。
根据本发明的实施例,对每一份政策文件的多个语句进行序列到序列标注。
标注形式为:政策文件1:语句1:语句表达式。
例如,以政策文件1为畜牧业为例,在政策文件1中的某个语句1对应的第一政策条件集中的第一政策条件为成立时间,则该语句标注为:
政策文件1:成立一年以上:成立时间>1年。
又例如,以政策文件1为畜牧业为例,在政策文件1中的某个语句2对应的第一政策条件集中的第一政策条件为营业收入,则该语句标注为:
政策文件1:营业收入超过5000万元(含):营业收入>=5000万元。
依次类推,将政策文件1、政策文件2、政策文件3、…、政策文件N中的所有语句利用第一政策条件集进行标注。
步骤S4、利用标注好的N份政策文件,以及每一份政策文件命名实体标注的多个语句,以及每一份政策文件序列到序列标注的多个语句,训练M个政策分析模型。
在步骤S3中通过对N份政策文件,以及N份政策文件的多个语句进行标注,将N份政策文件,以及N份政策文件的多个语句与第一政策条件集中的多个第一政策条件进行关联。通过标注好的N份政策文件,以及N份政策文件的多个语句进行政策分析模型训练。
具体地,根据本发明的实施例,利用标注好的N份政策文件,通过transformer-xl类的长文本编码模型,训练政策分析模型。
在训练时,将整个政策文件输入transformer-xl类的长文本编码模型,利用该类模型的递归机制和相对位置编码特性使训练的模型能更完整的获取整个政策的语义信息,对整个政策对应的政策条件内容进行更准确的预测。
根据本发明的实施例,利用每一份政策文件命名实体标注的多个语句,通过BERT+BILSTM+CRF类的模型,训练政策分析模型。
在训练时,将每一份政策文件的每一个语句输入BERT+BILSTM+CRF类的模型,利用该类模型的端到端的特性、transformer强大的特征抽取能力,可以快速的在政策文件中提取类似:XXXX年XX月XX日起施行、成立X年以上的企业的政策条件。
根据本发明的实施例,利用每一份政策文件序列到序列标注的多个语句,通过seq2seq类的序列到序列的翻译模型,训练政策分析模型。
在训练时,将每一份政策文件的每一个语句输入seq2seq类的序列到序列的翻译模型,该类模型用以将需要从政策文件中总结出、概括出的政策条件,以及对原自然语言描述的是一个复杂的条件表达式的情况进行进行智能提。
例如:营业收入规模超过5000万元(含),且较上一年度研发投入增量超过1000万元(含)此类政策条件提取为:营业收入>=5000万元and营业收入年增量>=1000万元。
步骤S5、对待分析的政策文件进行语句提取,获取待分析文件的多个语句,将待分析文件,以及待分析文件的多个语句输入M个政策分析模型,输出待分析文件,以及待分析文件的多个语句对应的第二政策条件。
获取待分析的政策文件,将待分析的政策文件进行语句提取,获取待分析文件的多个语句。
根据本发明的实施例,对待分析的政策文件进行语句提取(数据清洗),包括如下方法步骤:
步骤S501、去除待分析的政策文件中不可见的字符、空格、空行、emoji等字符。
步骤S502、待分析的政策文件中无句号分隔的段落、章节内容之间添加句号。
步骤S503、对待分析的政策文件的内容按顺序合并为单行内容。
步骤S504、对单行内容切分为多个待分析文件的语句。
经过步骤S4训练已经得到M个政策分析模型,将待分析文件,以及待分析文件的多个语句输入M个政策分析模型,输出待分析文件,以及待分析文件的多个语句对应的第二政策条件。
例如在一个实施例中,第二政策条件为:成立时间,则该第二政策条件包括如表4所示的信息:
表4
条件名称 | 英文标签 | 数据类型 | 匹配算法 | 语句 |
成立时间 | EST | int | 年限、时间戳 | 成立一年以上、2012年以后注册 |
例如在另一个实施例中,第二政策条件为:所属行业,则该第二政策条件包括如表5所示的信息:
表5
条件名称 | 英文标签 | 数据类型 | 匹配算法 | 语句 |
所属行业 | int | 林木培育 |
例如在又一个实施例中,第二政策条件为:营业收入,则该第二政策条件包括如表6所示的信息:
表6
条件名称 | 英文标签 | 数据类型 | 匹配算法 | 语句 |
营业收入 | int | 营业收入超过5000万元(含) |
步骤S6、将M个政策分析模型输出的待分析文件,以及待分析文件的多个语句对应的第二政策条件,合并成第二政策条件集,并对第二政策条件集进行数据标准化处理。
将得到的待分析文件,以及待分析文件的多个语句对应的多个第二政策条件,合并生成第二政策条件集,第二政策条件集中包括多个第二政策条件。
根据本发明的实施例,对生成的第二政策条件集进行数据标准化处理,包括如下处理方法:
步骤S601:第二政策条件为日期类条件,标准化为时间戳。
步骤S602:第二政策条件为数值类条件,根据第二政策条件集中的数据类型信息标准化为对应的整型、浮点型等数据。
步骤S603:将所有带有中文表述语句对应的第二政策条件,标准化为表达式,如:大于5年标准化为>5年。
步骤S604:将所有带有单位语句对应的第二政策条件,值标准化为使用最小单位表示的不带单位数值,如:5000万元标准化为50000000。
步骤S605:将所有需要从企业信息数据中获取的数据,标准化为带格式的企业信息相应的字段键值,如:营业收入标准化为${income}。
步骤S606:将所有包含复杂表达式的语句对应的第二政策条件分解为表达式树,如图2所示本发明一个实施例中一个第二政策条件分解为表达式树的示意图,树的左子树表示KEY,右子树表示第二政策条件的值。
步骤S607:将所有包含非表达式类的语句对应的第二政策条件转换为表达式树,转换方式为通过第二政策条件的匹配算法字段进行表达式转换。
例如,文本类的匹配算法转换为相等、正则匹配、相似度匹配等操作符,左子树为KEY,右子树为政策中识别出的条件值。
步骤S7、获取企业信息数据和第二政策条件集,将企业信息数据和第二政策条件集匹配,并计算每个第二政策条件的偏差值。
获取企业信息数据和经过数据标准化处理的第二政策条件集,将企业信息数据和第二政策条件集匹配。
通过如下方法获取企业信息数据:
通过企业标识调用API等方式从政务集约化平台中获取本企业所有相关数据,并向企业用户展示已经获取到的企业相关信息。企业用户确认相关信息,补充缺失的数据及修正未及时更新的旧数据。
根据本发明的实施例,企业信息数据和第二政策条件集匹配按照如下方法匹配:
步骤S701、遍历每个第二政策条件表达式树的每节点;
步骤S702、如果左子树为KEY,则从企业信息数据中取出相应的值;
步骤S703、计算对应父节点的操作结果;
步骤S704,重复步骤S701至步骤S703,计算出整个表达式树的结果,整个结果为匹配则表示企业信息数据和第二政策条件集匹配成功。
根据本发明的实施例,查找出所有左子树为KEY的节点,用该节点中取出的企业信息数据和右子树代表的第二政策条件进行偏差值计算。
每个第二政策条件的偏差值通过如下方法计算:
对于数值类第二政策条件,其条件偏差=(Vkey-Vtarget)/Vtarget;
对于文本类第二政策条件,其
其中,VECkey和VECtarget表示经过BERT类的模型计算后的第二政策条件,与企业信息数据的语义向量。
步骤S8、对每个第二政策条件的偏差值进行截取,利用截取后的每个第二政策条件的偏差值,计算企业信息数据与政策文件的符合度,并显示企业信息数据与政策文件的符合度。
根据本发明的实施例,每个第二政策条件的偏差值的截取规则为:
当第二政策条件的偏差值大于0,则第二政策条件的偏差值取0;
当第二政策条件的偏差值小于-1,则第二政策条件的偏差值取-1;
当第二政策条件的偏差值范围在[-1,0],则第二政策条件的偏差值不进行截取,按照实际计算得到的第二政策条件的偏差值计算符合度。
根据本发明的实施例,企业信息数据与政策文件的符合度通过如下方法计算:
其中,S表示对第二政策条件集中第二政策条件的数量;Ri表示截取后的第二政策条件偏差值,Wi表示每个第二政策条件的权重。
企业信息数据与政策文件的符合度取值范围在[0,100],当企业信息数据与政策文件的符合度越接近100,则企业信息数据与政策文件的政策条件越符合。当企业信息数据与政策文件的符合度=100时,则企业信息数据与政策文件完全符合。
最后将计算得到的企业信息数据与政策文件的符合度向企业用户展示。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (8)
1.一种基于深度学习的政策匹配方法,其特征在于,所述政策匹配方法包括如下方法步骤;
S1、创建第一政策条件集,其中,第一政策条件集中包括多个第一政策条件;
S2、收集不同行业、不同政府部门的政策文件N份,并对收集的N份政策文件进行语句提取,获取每一份政策文件的多个语句;
S3、利用第一政策条件集,对N份政策文件进行多分类标注,以及对每一份政策文件的多个语句进行命名实体标注,以及对每一份政策文件的多个语句进行序列到序列标注;
S4、利用标注好的N份政策文件,以及每一份政策文件命名实体标注的多个语句,以及每一份政策文件序列到序列标注的多个语句,训练M个政策分析模型;
S5、对待分析的政策文件进行语句提取,获取待分析文件的多个语句,将待分析文件,以及待分析文件的多个语句输入M个政策分析模型,输出待分析文件,以及待分析文件的多个语句对应的第二政策条件;
S6、将M个政策分析模型输出的待分析文件,以及待分析文件的多个语句对应的第二政策条件,合并成第二政策条件集,并对第二政策条件集进行数据标准化处理;
S7、获取企业信息数据和第二政策条件集,将企业信息数据和第二政策条件集匹配,并计算每个第二政策条件的偏差值;
S8、对每个第二政策条件的偏差值进行截取,利用截取后的每个第二政策条件的偏差值,计算企业信息数据与政策文件的符合度,并显示企业信息数据与政策文件的符合度;
其中,每个第二政策条件的偏差值的截取规则为:
当第二政策条件的偏差值大于0,则第二政策条件的偏差值取0;
当第二政策条件的偏差值小于-1,则第二政策条件的偏差值取-1;
当第二政策条件的偏差值范围在[-1,0],则第二政策条件的偏差值不进行截取;
企业信息数据与政策文件的符合度通过如下方法计算:
其中,S表示对第二政策条件集中第二政策条件的数量;Ri表示截取后的第二政策条件偏差值,Wi表示每个第二政策条件的权重。
2.根据权利要求1所述的政策匹配方法,其特征在于,在步骤S2中,对收集的N份政策文件进行语句提取包括:
S201、去除每一份政策文件中不可见的字符、空格、空行、emoji字符;
S202、每一份政策文件中无句号分隔的段落、章节内容之间添加句号;
S203、对每一份政策文件的内容按顺序合并为单行内容;
S204、对单行内容切分为多个语句。
3.根据权利要求1所述的政策匹配方法,其特征在于,在步骤S4中,利用标注好的N份政策文件,通过transformer-xl类的长文本编码模型,训练政策分析模型。
4.根据权利要求1所述的政策匹配方法,其特征在于,在步骤S4中,利用每一份政策文件命名实体标注的多个语句,通过BERT+BILSTM+CRF类的模型,训练政策分析模型。
5.根据权利要求1所述的政策匹配方法,其特征在于,在步骤S4中,利用每一份政策文件序列到序列标注的多个语句,通过seq2seq类的序列到序列的翻译模型,训练政策分析模型。
6.根据权利要求1所述的政策匹配方法,其特征在于,在步骤S5中,对待分析的政策文件进行语句提取包括:
S501、去除待分析的政策文件中不可见的字符、空格、空行、emoji等字符;
S502、待分析的政策文件中无句号分隔的段落、章节内容之间添加句号;
S503、对待分析的政策文件的内容按顺序合并为单行内容;
S504、对单行内容切分为多个待分析文件的语句。
7.根据权利要求1所述的政策匹配方法,其特征在于,在步骤S7中,每个第二政策条件的偏差值通过如下方法计算:
对于数值类第二政策条件,其条件偏差=(Vkey-Vtarget)/Vtarget;
对于文本类第二政策条件,
其中,VECkey和VECtarget表示经过BERT类的模型计算后的第二政策条件,与企业信息数据的语义向量。
8.根据权利要求1所述的政策匹配方法,其特征在于,企业信息数据与政策文件的符合度取值范围在[0,100],当企业信息数据与政策文件的符合度=100时,则企业信息数据与政策文件完全符合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311111293.6A CN117235206B (zh) | 2023-08-30 | 2023-08-30 | 一种基于深度学习的政策匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311111293.6A CN117235206B (zh) | 2023-08-30 | 2023-08-30 | 一种基于深度学习的政策匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117235206A CN117235206A (zh) | 2023-12-15 |
CN117235206B true CN117235206B (zh) | 2024-04-30 |
Family
ID=89095834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311111293.6A Active CN117235206B (zh) | 2023-08-30 | 2023-08-30 | 一种基于深度学习的政策匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117235206B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112068844A (zh) * | 2020-09-09 | 2020-12-11 | 西安交通大学 | 面向隐私保护政策的app隐私数据一致性行为分析方法 |
CN112990715A (zh) * | 2021-03-22 | 2021-06-18 | 数字浙江技术运营有限公司 | 政策信息的推送方法和装置 |
CN113435697A (zh) * | 2021-05-21 | 2021-09-24 | 山东省计算中心(国家超级计算济南中心) | 一种智能匹配系统的构建方法 |
WO2022016561A1 (zh) * | 2020-07-22 | 2022-01-27 | 江苏宏创信息科技有限公司 | 一种基于大数据的政策画像ai建模系统及方法 |
CN114626000A (zh) * | 2022-03-10 | 2022-06-14 | 平安国际智慧城市科技股份有限公司 | 政策匹配率的计算方法及装置、存储介质和计算机设备 |
CN114841669A (zh) * | 2022-05-14 | 2022-08-02 | 企知道网络技术有限公司 | 基于机器学习的企业政策匹配方法、装置、电子设备及存储介质 |
CN115422220A (zh) * | 2022-07-11 | 2022-12-02 | 上海通办信息服务有限公司 | 一种基于深度学习模型的自然语言转sql的方法 |
CN115470871A (zh) * | 2022-11-02 | 2022-12-13 | 江苏鸿程大数据技术与应用研究院有限公司 | 基于命名实体识别与关系抽取模型的政策匹配方法及系统 |
CN115840812A (zh) * | 2023-01-03 | 2023-03-24 | 园宝科技(武汉)有限公司 | 一种根据政策文本智能匹配企业的方法及系统 |
-
2023
- 2023-08-30 CN CN202311111293.6A patent/CN117235206B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022016561A1 (zh) * | 2020-07-22 | 2022-01-27 | 江苏宏创信息科技有限公司 | 一种基于大数据的政策画像ai建模系统及方法 |
CN112068844A (zh) * | 2020-09-09 | 2020-12-11 | 西安交通大学 | 面向隐私保护政策的app隐私数据一致性行为分析方法 |
CN112990715A (zh) * | 2021-03-22 | 2021-06-18 | 数字浙江技术运营有限公司 | 政策信息的推送方法和装置 |
CN113435697A (zh) * | 2021-05-21 | 2021-09-24 | 山东省计算中心(国家超级计算济南中心) | 一种智能匹配系统的构建方法 |
CN114626000A (zh) * | 2022-03-10 | 2022-06-14 | 平安国际智慧城市科技股份有限公司 | 政策匹配率的计算方法及装置、存储介质和计算机设备 |
CN114841669A (zh) * | 2022-05-14 | 2022-08-02 | 企知道网络技术有限公司 | 基于机器学习的企业政策匹配方法、装置、电子设备及存储介质 |
CN115422220A (zh) * | 2022-07-11 | 2022-12-02 | 上海通办信息服务有限公司 | 一种基于深度学习模型的自然语言转sql的方法 |
CN115470871A (zh) * | 2022-11-02 | 2022-12-13 | 江苏鸿程大数据技术与应用研究院有限公司 | 基于命名实体识别与关系抽取模型的政策匹配方法及系统 |
CN115840812A (zh) * | 2023-01-03 | 2023-03-24 | 园宝科技(武汉)有限公司 | 一种根据政策文本智能匹配企业的方法及系统 |
Non-Patent Citations (1)
Title |
---|
面向产学研服务的政策匹配方法与系统;罗扬等;计算机系统应用;20221130;第31卷(第11期);第139-146页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117235206A (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107392143B (zh) | 一种基于svm文本分类的简历精确解析方法 | |
CN107145584B (zh) | 一种基于n-gram模型的简历解析方法 | |
WO2019205308A1 (zh) | 信息的输入方法、装置、终端设备及介质 | |
CN110795919A (zh) | 一种pdf文档中的表格抽取方法、装置、设备及介质 | |
CN111209411B (zh) | 一种文档分析的方法及装置 | |
CN107145516B (zh) | 一种文本聚类方法及系统 | |
CN110175334B (zh) | 基于自定义的知识槽结构的文本知识抽取系统和方法 | |
US11010543B1 (en) | Systems and methods for table extraction in documents | |
CN113961685A (zh) | 信息抽取方法及装置 | |
CN110795932B (zh) | 基于地质本体的地质报告文本信息提取方法 | |
CN115116082B (zh) | 一种基于ocr识别算法的一键成档系统 | |
CN102955775A (zh) | 基于上下文语义的外国人名自动识别控制方法 | |
CN114970502B (zh) | 一种应用于数字政府的文本纠错方法 | |
Sagcan et al. | Toponym recognition in social media for estimating the location of events | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
CN117235206B (zh) | 一种基于深度学习的政策匹配方法 | |
CN116522872A (zh) | 一种基于相似度计算的元数据字段中文名补全方法、存储介质及系统 | |
CN109657207B (zh) | 条款的格式化处理方法和处理装置 | |
CN114595661A (zh) | 用于评审投标文件的方法、设备和介质 | |
CN110083817B (zh) | 一种命名排歧方法、装置、计算机可读存储介质 | |
JP2017021602A (ja) | テキスト変換装置、方法、及びプログラム | |
CN117195004B (zh) | 一种融合行业分类和wvLDA主题模型的政策匹配方法 | |
CN114398492B (zh) | 一种在数字领域的知识图谱构建方法、终端及介质 | |
Kronman et al. | The bibliometric database at the Swedish Research Council–contents, methods and indicators | |
CN116681042B (zh) | 基于关键字提取的内容概要生成方法、系统及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |