CN112580348B - 政策文本关联性分析方法及系统 - Google Patents

政策文本关联性分析方法及系统 Download PDF

Info

Publication number
CN112580348B
CN112580348B CN202011469998.1A CN202011469998A CN112580348B CN 112580348 B CN112580348 B CN 112580348B CN 202011469998 A CN202011469998 A CN 202011469998A CN 112580348 B CN112580348 B CN 112580348B
Authority
CN
China
Prior art keywords
policy
sentence
texts
sentences
association
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011469998.1A
Other languages
English (en)
Other versions
CN112580348A (zh
Inventor
孙璐
李向前
刘巍
雷吉成
许卡
巢文涵
郝雅琦
张金言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glabal Tone Communication Technology Co ltd
China Industrial Control Systems Cyber Emergency Response Team
CETC Big Data Research Institute Co Ltd
Original Assignee
Glabal Tone Communication Technology Co ltd
China Industrial Control Systems Cyber Emergency Response Team
CETC Big Data Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glabal Tone Communication Technology Co ltd, China Industrial Control Systems Cyber Emergency Response Team, CETC Big Data Research Institute Co Ltd filed Critical Glabal Tone Communication Technology Co ltd
Priority to CN202011469998.1A priority Critical patent/CN112580348B/zh
Publication of CN112580348A publication Critical patent/CN112580348A/zh
Application granted granted Critical
Publication of CN112580348B publication Critical patent/CN112580348B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种政策文本关联性分析方法及系统。其中,方法包括:获取待进行关联性分析的两个政策文本;判断两个政策文本之间是否具有上下级关系,若是,则将不同的政策文本中的任意两个属性相同的单句组成一个单句对,得到若干单句对;对于每一单句对,判断单句对中的两个单句是否相似,若是,则根据两个单句所属的政策文本类别,确定两个单句之间的关联关系并作为单句对对应的关联关系;根据若干单句对对应的若干关联关系,确定两个政策文本之间的关联关系。本发明实施例提供的方法及系统,通过自然语言处理技术,实现政策文本之间的关联性的自动分析,填补了政策文本之间关联性分析的空白。

Description

政策文本关联性分析方法及系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种政策文本关联性分析方法及系统。
背景技术
随着互联网、人工智能和大数据等计算机技术在各行各业的快速发展,越来越多的计算机领域的政策文本被颁布,以规范和促进计算机技术的发展。
目前对政策文本的研究更多地关注在单篇政策文本上,其仅仅是对政策文本提取主题和关键词以分析政策文本的情感倾向和应用领域等,忽略了政策文本之间的关联性以及政策文本在制定上存在着继承和补充等特点。然而,分析政策文本之间的关联性有利于帮助政策制定者更好地制定新一轮的政策文本,有利于政策研究者科学的分析政策文本的发展脉络变化,有利于政策应用者更好地学习政策文本。
由于政策文本之间的关联性当前并没有被研究,因此亟需提供一种能够分析政策文本之间的关联性的方法。
发明内容
针对现有技术存在的问题,本发明实施例提供一种政策文本关联性分析方法及系统。
第一方面,本发明实施例提供一种政策文本关联性分析方法,包括:
获取待进行关联性分析的两个政策文本;
判断两个所述政策文本之间是否具有上下级关系,若是,则将不同的所述政策文本中的任意两个属性相同的单句组成一个单句对,得到若干所述单句对;
对于每一所述单句对,判断所述单句对中的两个所述单句是否相似,若是,则根据两个所述单句所属的政策文本类别,确定两个所述单句之间的关联关系并作为所述单句对对应的关联关系;
根据若干所述单句对对应的若干关联关系,确定两个所述政策文本之间的关联关系。
在一些实施例中,判断两个所述政策文本之间是否具有上下级关系,包括:
判断两个所述政策文本是否属于同一领域;
若是,则判断两个所述政策文本是否由相同的机构发布;
若是,则判断两个所述政策文本具有上下级关系;若否,则判断两个所述政策文本是否分别由中央发布和由地方发布;
若是,则判断两个所述政策文本具有上下级关系;若否,则判断两个所述政策文本是否分别由上级机构发布和由下级机构发布;
若是,则判断两个所述政策文本具有上下级关系。
在一些实施例中,将不同的所述政策文本中的任意两个属性相同的单句组成一个单句对,之前还包括:
对于两个所述政策文本中的每一所述单句,将所述单句输入至训练后的神经网络模型,获取训练后的所述神经网络模型输出的所述单句所属的政策文本类别和所述单句的属性;
其中,训练后的所述神经网络模型基于训练集训练得到,所述训练集包括若干样本单句和每一所述样本单句所属的样本政策文本类别和每一所述样本单句的样本属性。
在一些实施例中,所述神经网络模型为BERT模型。
在一些实施例中,判断所述单句对中的两个所述单句是否相似,包括:
对所述单句对中的两个所述单句分别进行句法分析,提取每一所述单句中的动词和对应的名词,若两个所述单句的所述动词匹配且所述名词匹配,则判断两个所述单句相似。
在一些实施例中,判断所述单句对中的两个所述单句是否相似,包括:
采用bleu1或word2vec句向量计算两个所述单句之间的相似度,若所述相似度大于预设阈值,则判断两个所述单句相似。
在一些实施例中,根据若干所述单句对对应的若干关联关系,确定两个所述政策文本之间的关联关系,包括:
将若干所述单句对对应的若干关联关系进行类别划分,得到若干关联关系组;其中,同一所述关联关系组中的关联关系均相同,不同的所述关联关系组中的关联关系均不同;
统计每一所述关联关系组中的关联关系的数量,将关联关系的数量最多的所述关联关系组中的任一关联关系作为两个所述政策文本之间的关联关系。
第二方面,本发明实施例提供一种政策文本关联性分析系统,包括:
政策文本获取模块,用于获取待进行关联性分析的两个政策文本;
单句对获取模块,用于判断两个所述政策文本之间是否具有上下级关系,若是,则将不同的所述政策文本中的任意两个属性相同的单句组成一个单句对,得到若干所述单句对;
单句关联关系获取模块,用于对于每一所述单句对,判断所述单句对中的两个所述单句是否相似,若是,则根据两个所述单句所属的政策文本类别,确定两个所述单句之间的关联关系并作为所述单句对对应的关联关系;
政策文本关联关系获取模块,用于根据若干所述单句对对应的若干关联关系,确定两个所述政策文本之间的关联关系。
第三方面,本发明实施例提供一种电子设备,包括存储器和处理器;其中,所述存储器中存储有计算机程序;所述处理器,用于执行所述计算机程序以实现如上所述的政策文本关联性分析方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的政策文本关联性分析方法。
本发明实施例提供的政策文本的政策文本关联性分析方法及系统,通过最先进的自然语言处理技术,对政策文本进行建模,实现政策文本之间关系的自动分析,实现政策文本之间关系的自动判别,有助于帮助政策制定者制定更加合理的政策文本,填补了政策文本之间关联分析的空白。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的政策文本关联性分析方法流程图;
图2为本发明实施例提供的判断两个政策文本之间是否具有上下级关系的流程图;
图3为本发明实施例提供的政策文本关联性分析系统的结构示意图;
图4为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
通过对当前互联网、人工智能和大数据等计算机领域的政策文本进行分析,从政策制定者的角度出发,对政策文本之间的关联关系进行定义,表1为政策文本的关联关系定义表,请参阅表1,政策文本之间的关联关系包括理论指导、规范管理、体系培育和支撑服务四种关系。其中,理论指导是指从产业发展、各种规划等角度从理论上对政策文本进行指导;规范管理是指行业管理、各种管理、规定、标准的制定等对行业进行规范;体系培育是指科技创新、各种创新工程、科技创新支撑计划;支撑服务是指减免/优惠/扶植政策文本对领域的发展进行支撑培育。
表1政策文本的关联关系定义表
关联关系 作用解析 关系定义
理论指导 产业发展、各种规划等从理论上对政策文本进行指导 上级对下级
规范管理 行业管理、各种管理、规定、标准的制定等对行业进行规范 上级对下级
体系培育 科技创新、各种创新工程、科技创新支撑计划 下级对上级
支撑服务 减免/优惠/扶植政策文本对领域的发展进行支撑培育 下级对上级
图1为本发明实施例提供的政策文本关联性分析方法流程图,如图1所示,该分析方法包括:
步骤101,获取待进行关联性分析的两个政策文本。
具体地,随着互联网、人工智能和大数据等计算机技术在各行各业中的快速发展,大量关于互联网、人工智能和大数据等计算机领域的政策文本层出不穷,以规范和促进互联网、人工智能和大数据等计算机技术的发展。本发明实施例中的政策文本即是指互联网、人工智能和大数据等计算机领域的政策文本。为了便于后文描述,将此处获取的两个政策文本分别称为政策文本A和政策文本B。
步骤102,判断两个政策文本之间是否具有上下级关系,若是,则将不同的政策文本中的任意两个属性相同的单句组成一个单句对,得到若干单句对。
具体地,判断政策文本A和政策文本B之间是否具有上下级关系。
例如,若两者属于同一领域,且两者为相同的机构发布,则确定两者之间存在上下级关系,并根据发布时间的早晚,将发布时间早的政策文本作为上级,将发布时间晚的政策文本作为下级。
再例如,若两者属于同一领域,且两者分别为中央发布和地方发布,则确定两者之间存在上下级关系,并将中央发布的政策文本作为上级,将地方发布的政策文本作为下级。
又例如,若两者属于同一领域,且两者分别为上级机构发布和下级机构发布,则确定两者之间存在上下级关系,并将上级机构发布的政策文本的作为上级,将下级机构发布的政策文本的作为下级。
需要说明的是,若两者不属于同一领域,则确定两者之间不存在上下级关系,不进行后续操作。
单句的属性是对单句所描述的政策文本进行总结概括,为了全面概括政策文本的细粒度信息,单句的属性划分为管理、服务、应用、主体和技术五个类别。
为了便于后文描述,假定政策文本A为上级,政策文本B为下级。
获取政策文本A和政策文本B中的若干单句,并确定每一单句的属性。
例如,政策文本A包括单句1、单句2和单句3,政策文本B包括单句4、单句5和单句6,其中,单句1和单句4的属性相同,单句2和单句5的属性相同,单句3和单句6的属性相同。此时将单句1和单句4组成为一个单句对并将其称为单句对1,将单句2和单句5组成为一个单句对并将其称为单句对2,单句3和单句6组成为一个单句对并将其称为单句对3,从而得到上述3个单句对。
步骤103,对于每一单句对,判断单句对中的两个单句是否相似,若是,则根据两个单句所属的政策文本类别,确定两个单句之间的关联关系并作为单句对对应的关联关系。
具体地,单句所属的政策文本类别是描述单句在政策文本中具有的作用,单句所属的政策文本类别划分为理论指导、规范管理、体系培育和支撑服务四个类别。
对于单句对1,若单句1和单句2相似,则根据单句1所属的政策文本类别和单句2所属的政策文本类别,确定单句1和单句2之间的关联关系并作为单句对1对应的关联关系1。对于单句对2,若单句3和单句4相似,则根据单句3所属的政策文本类别和单句4所属的政策文本类别,确定单句3和单句4之间的关联关系并作为单句对2对应的关联关系2。对于单句对3,若单句5和单句6相似,则根据单句5所属的政策文本类别和单句6所属的政策文本类别,确定单句5和单句6之间的关联关系并作为单句对3对应的关联关系3。
例如,对于单句对1,单句1所属的政策文本类别是理论指导,单句4所属的政策文本类别是支撑服务,那么单句1对单句4之间的关联关系是理论指导关系(或支撑服务关系),将理论指导关系作为单句对1对应的关联关系。
步骤104,根据若干单句对对应的若干关联关系,确定两个政策文本之间的关联关系。
具体地,根据关联关系1、关联关系2和关联关系3,确定政策文本A和政策文本B之间的关联关系。例如,关联关系1为理论指导、关联关系2为理论指导、关联关系3为规范管理,根据少数服从多数的原则,确定政策文本A和政策文本B之间的关联关系为理论指导。
本发明实施例提供的政策文本关联性分析方法,通过最先进的自然语言处理技术,对政策文本进行建模,实现政策文本之间关系的自动分析,实现政策文本之间关系的自动判别,有助于帮助政策制定者制定更加合理的政策文本,填补了政策文本之间关联分析的空白。
在一些实施例中,判断两个政策文本之间是否具有上下级关系,包括:
判断两个政策文本是否属于同一领域。
若是,则判断两个政策文本是否由相同的机构发布。
若是,则判断两个政策文本具有上下级关系;若否,则判断两个政策文本是否分别由中央发布和由地方发布。
若是,则判断两个政策文本具有上下级关系;若否,则判断两个政策文本是否分别由上级机构发布和由下级机构发布。
若是,则判断两个政策文本具有上下级关系。
具体地,图2详细示出了判断两个政策文本之间是否具有上下级关系的流程,此处不再赘述。
在一些实施例中,将不同的政策文本中的任意两个属性相同的单句组成一个单句对,之前还包括:
对于两个政策文本中的每一单句,将单句输入至训练后的神经网络模型,获取训练后的神经网络模型输出的单句所属的政策文本类别和单句的属性。其中,训练后的神经网络模型基于训练集训练得到,训练集包括若干样本单句和每一样本单句所属的样本政策文本类别和每一样本单句的样本属性。
具体地,从政策文本数据库中挑选十篇政策文本以覆盖互联网、人工智能和大数据等计算机领域,然后对每篇政策文本进行分句。
为了将挑选出的政策文本转化为神经网络模型能够进行有监督训练的数据,对部分数据进行人工标注。此处具体为对分好句的单句进行所属政策文本类别的标注和单句属性标注。这些标注好的数据用于之后的单句所属政策文本类别分类和单句属性识别等任务中进行有监督训练。
为了使政策文本数据能够输入到神经网络模型中进行训练,基于中文文本数据,训练Bpe词典,代替传统的结巴分词方法,使用Bpe算法对政策文本进行分词,作为神经网络模型的输入。
需要说明的是,此处将神经网络模型优选为BERT模型,基于训练后的BERT模型在多项自然语言处理任务中能够达到很好的效果,在此次任务中对比了传统的神经网络模型如TextCnn模型和Lstm模型等的效果,BERT模型能够更好的从深层次提取文本的语义内涵,对于政策文本内容的理解有着重要作用。
在训练后的BERT模型的基础上,在上层搭建全连接网络和Softmax,采用交叉熵损失函数计算模型的损失。
训练时将政策文本以及标注好的结果同时输入到BERT模型中,供到BERT模型学习并调整参数。在训练完成后,将到BERT模型保存到本地,并采用十折交叉验证对训练模型结果进行评估。
在一些实施例中,判断单句对中的两个单句是否相似,包括:
对单句对中的两个单句分别进行句法分析,提取每一单句中的动词和对应的名词,若两个单句的动词匹配且名词匹配,则判断两个单句相似。
在一些实施例中,判断单句对中的两个单句是否相似,包括:
采用bleu1或word2vec句向量计算两个单句之间的相似度,若相似度大于预设阈值,则判断两个单句相似。其中,预设阈值优选为0.3。
在一些实施例中,根据若干单句对对应的若干关联关系,确定两个政策文本之间的关联关系,包括:
将若干单句对对应的若干关联关系进行类别划分,得到若干关联关系组;其中,同一关联关系组中的关联关系均相同,不同的关联关系组中的关联关系均不同。
统计每一关联关系组中的关联关系的数量,将关联关系的数量最多的关联关系组中的任一关联关系作为两个政策文本之间的关联关系。
具体地,若上述单句对1对应的关联关系1是理论指导,上述单句对2对应的关联关系2是理论指导,上述单句对3对应的关联关系3是规范管理,则将上述三个关联关系进行类别划分,得到2个关联关系组,第1个关联关系组中的关联关系分别为理论指导和理论指导,第2个关联关系组中的关联关系为规范管理。第1个关联关系组中的关联关系的数量为2,第2个关联关系组中的关联关系的数量为1,2大于1,因此将第1个关联关系组中的理论指导作为政策文本1与政策文本2之间的关联关系,即作为上级的政策文本1对作为下级的政策文本2起到理论指导作用。
图3为本发明实施例提供的政策文本关联性分析系统的结构示意图,如图3所示,该系统包括:
政策文本获取模块301,用于获取待进行关联性分析的两个政策文本;单句对获取模块302,用于判断两个政策文本之间是否具有上下级关系,若是,则将不同的政策文本中的任意两个属性相同的单句组成一个单句对,得到若干单句对;单句关联关系获取模块303,用于对于每一单句对,判断单句对中的两个单句是否相似,若是,则根据两个单句所属的政策文本类别,确定两个单句之间的关联关系并作为单句对对应的关联关系;政策文本关联关系获取模块304,用于根据若干单句对对应的若干关联关系,确定两个政策文本之间的关联关系。
具体地,本发明实施例提供的系统具体用于执行上述政策文本关联性分析方法实施例,本发明实施例对此不再进行赘述。本发明实施例提供的系统,通过最先进的自然语言处理技术,对政策文本进行建模,实现政策文本之间关系的自动分析,实现政策文本之间关系的自动判别,有助于帮助政策制定者制定更加合理的政策文本,填补了政策文本之间关联分析的空白。
图4为本发明实施例提供的电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储在存储器403上并可在处理器401上运行的计算机程序,以执行上述各实施例提供的方法,例如包括:获取待进行关联性分析的两个政策文本;判断两个政策文本之间是否具有上下级关系,若是,则将不同的政策文本中的任意两个属性相同的单句组成一个单句对,得到若干单句对;对于每一单句对,判断单句对中的两个单句是否相似,若是,则根据两个单句所属的政策文本类别,确定两个单句之间的关联关系并作为单句对对应的关联关系;根据若干单句对对应的若干关联关系,确定两个政策文本之间的关联关系。
此外,上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:获取待进行关联性分析的两个政策文本;判断两个政策文本之间是否具有上下级关系,若是,则将不同的政策文本中的任意两个属性相同的单句组成一个单句对,得到若干单句对;对于每一单句对,判断单句对中的两个单句是否相似,若是,则根据两个单句所属的政策文本类别,确定两个单句之间的关联关系并作为单句对对应的关联关系;根据若干单句对对应的若干关联关系,确定两个政策文本之间的关联关系。
以上所描述的系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种政策文本关联性分析方法,其特征在于,包括:
获取待进行关联性分析的两个政策文本;
判断两个所述政策文本之间是否具有上下级关系,若是,则将不同的所述政策文本中的任意两个属性相同的单句组成一个单句对,得到若干所述单句对;所述单句的属性是对单句所描述的政策文本进行总结概括,所述单句的属性划分为管理、服务、应用、主体和技术五个类别;
对于每一所述单句对,判断所述单句对中的两个所述单句是否相似,若是,则根据两个所述单句所属的政策文本类别,确定两个所述单句之间的关联关系并作为所述单句对对应的关联关系;所述单句所属的政策文本类别是描述单句在政策文本中具有的作用,所述单句所属的政策文本类别划分为理论指导、规范管理、体系培育和支撑服务四个类别;两个所述单句之间的关联关系为其中一个所述单句所属的政策文本类别;
根据若干所述单句对对应的若干关联关系,确定两个所述政策文本之间的关联关系。
2.根据权利要求1所述的政策文本关联性分析方法,其特征在于,判断两个所述政策文本之间是否具有上下级关系,包括:
判断两个所述政策文本是否属于同一领域;
若是,则判断两个所述政策文本是否由相同的机构发布;
若是,则判断两个所述政策文本具有上下级关系;若否,则判断两个所述政策文本是否分别由中央发布和由地方发布;
若是,则判断两个所述政策文本具有上下级关系;若否,则判断两个所述政策文本是否分别由上级机构发布和由下级机构发布;
若是,则判断两个所述政策文本具有上下级关系。
3.根据权利要求1所述的政策文本关联性分析方法,其特征在于,将不同的所述政策文本中的任意两个属性相同的单句组成一个单句对,之前还包括:
对于两个所述政策文本中的每一所述单句,将所述单句输入至训练后的神经网络模型,获取训练后的所述神经网络模型输出的所述单句所属的政策文本类别和所述单句的属性;
其中,训练后的所述神经网络模型基于训练集训练得到,所述训练集包括若干样本单句和每一所述样本单句所属的样本政策文本类别和每一所述样本单句的样本属性。
4.根据权利要求3所述的政策文本关联性分析方法,其特征在于,所述神经网络模型为BERT模型。
5.根据权利要求1所述的政策文本关联性分析方法,其特征在于,判断所述单句对中的两个所述单句是否相似,包括:
对所述单句对中的两个所述单句分别进行句法分析,提取每一所述单句中的动词和对应的名词,若两个所述单句的所述动词匹配且所述名词匹配,则判断两个所述单句相似。
6.根据权利要求1所述的政策文本关联性分析方法,其特征在于,判断所述单句对中的两个所述单句是否相似,包括:
采用bleu1或word2vec句向量计算两个所述单句之间的相似度,若所述相似度大于预设阈值,则判断两个所述单句相似。
7.根据权利要求1所述的政策文本关联性分析方法,其特征在于,根据若干所述单句对对应的若干关联关系,确定两个所述政策文本之间的关联关系,包括:
将若干所述单句对对应的若干关联关系进行类别划分,得到若干关联关系组;其中,同一所述关联关系组中的关联关系均相同,不同的所述关联关系组中的关联关系均不同;
统计每一所述关联关系组中的关联关系的数量,将关联关系的数量最多的所述关联关系组中的任一关联关系作为两个所述政策文本之间的关联关系。
8.一种政策文本关联性分析系统,其特征在于,包括:
政策文本获取模块,用于获取待进行关联性分析的两个政策文本;
单句对获取模块,用于判断两个所述政策文本之间是否具有上下级关系,若是,则将不同的所述政策文本中的任意两个属性相同的单句组成一个单句对,得到若干所述单句对;所述单句的属性是对单句所描述的政策文本进行总结概括,所述单句的属性划分为管理、服务、应用、主体和技术五个类别;
单句关联关系获取模块,用于对于每一所述单句对,判断所述单句对中的两个所述单句是否相似,若是,则根据两个所述单句所属的政策文本类别,确定两个所述单句之间的关联关系并作为所述单句对对应的关联关系;所述单句所属的政策文本类别是描述单句在政策文本中具有的作用,所述单句所属的政策文本类别划分为理论指导、规范管理、体系培育和支撑服务四个类别;两个所述单句之间的关联关系为其中一个所述单句所属的政策文本类别;
政策文本关联关系获取模块,用于根据若干所述单句对对应的若干关联关系,确定两个所述政策文本之间的关联关系。
9.一种电子设备,其特征在于,包括存储器和处理器;其中,所述存储器中存储有计算机程序;所述处理器,用于执行所述计算机程序以实现如权利要求1-7中任意一项所述的政策文本关联性分析方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任意一项所述的政策文本关联性分析方法。
CN202011469998.1A 2020-12-15 2020-12-15 政策文本关联性分析方法及系统 Active CN112580348B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011469998.1A CN112580348B (zh) 2020-12-15 2020-12-15 政策文本关联性分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011469998.1A CN112580348B (zh) 2020-12-15 2020-12-15 政策文本关联性分析方法及系统

Publications (2)

Publication Number Publication Date
CN112580348A CN112580348A (zh) 2021-03-30
CN112580348B true CN112580348B (zh) 2024-05-28

Family

ID=75135009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011469998.1A Active CN112580348B (zh) 2020-12-15 2020-12-15 政策文本关联性分析方法及系统

Country Status (1)

Country Link
CN (1) CN112580348B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800246B (zh) * 2021-04-09 2021-08-31 北京智源人工智能研究院 一种政策谱系构建方法、装置和电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009048455A (ja) * 2007-08-21 2009-03-05 Nippon Hoso Kyokai <Nhk> 節間関係推定装置およびコンピュータプログラム
CN105893444A (zh) * 2015-12-15 2016-08-24 乐视网信息技术(北京)股份有限公司 情感分类方法及装置
CN109493265A (zh) * 2018-11-05 2019-03-19 北京奥法科技有限公司 一种基于深度学习的政策解读方法及政策解读系统
CN109522557A (zh) * 2018-11-16 2019-03-26 中山大学 文本关系抽取模型的训练方法、装置及可读存储介质
CN110046351A (zh) * 2019-04-19 2019-07-23 福州大学 规则驱动下基于特征的文本关系抽取方法
CN110287407A (zh) * 2019-05-22 2019-09-27 宁波优策信息技术有限公司 一种基于属性特征矩阵的产业政策智能处理方法
CN110765265A (zh) * 2019-09-06 2020-02-07 平安科技(深圳)有限公司 信息分类抽取方法、装置、计算机设备和存储介质
CN111930937A (zh) * 2020-06-28 2020-11-13 山东师范大学 基于bert的智慧政务文本多分类方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10678830B2 (en) * 2018-05-31 2020-06-09 Fmr Llc Automated computer text classification and routing using artificial intelligence transfer learning
US11210468B2 (en) * 2018-09-28 2021-12-28 Innoplexus Ag System and method for comparing plurality of documents
US11625573B2 (en) * 2018-10-29 2023-04-11 International Business Machines Corporation Relation extraction from text using machine learning

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009048455A (ja) * 2007-08-21 2009-03-05 Nippon Hoso Kyokai <Nhk> 節間関係推定装置およびコンピュータプログラム
CN105893444A (zh) * 2015-12-15 2016-08-24 乐视网信息技术(北京)股份有限公司 情感分类方法及装置
CN109493265A (zh) * 2018-11-05 2019-03-19 北京奥法科技有限公司 一种基于深度学习的政策解读方法及政策解读系统
CN109522557A (zh) * 2018-11-16 2019-03-26 中山大学 文本关系抽取模型的训练方法、装置及可读存储介质
CN110046351A (zh) * 2019-04-19 2019-07-23 福州大学 规则驱动下基于特征的文本关系抽取方法
CN110287407A (zh) * 2019-05-22 2019-09-27 宁波优策信息技术有限公司 一种基于属性特征矩阵的产业政策智能处理方法
CN110765265A (zh) * 2019-09-06 2020-02-07 平安科技(深圳)有限公司 信息分类抽取方法、装置、计算机设备和存储介质
CN111930937A (zh) * 2020-06-28 2020-11-13 山东师范大学 基于bert的智慧政务文本多分类方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于文本数据关联分析的京津冀科技创新政策的研究;毛维娜 等;《机构案例》;20191231;第5卷(第4期);第079-090页 *

Also Published As

Publication number Publication date
CN112580348A (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
Bucur Using opinion mining techniques in tourism
Speer et al. AnalogySpace: Reducing the Dimensionality of Common Sense Knowledge.
CN106503055A (zh) 一种从结构化文本到图像描述的生成方法
Nhlabano et al. Impact of text pre-processing on the performance of sentiment analysis models for social media data
CN116756347B (zh) 一种基于大数据的语义信息检索方法
Saranya et al. A Machine Learning-Based Technique with IntelligentWordNet Lemmatize for Twitter Sentiment Analysis.
Wang Using machine learning and natural language processing to analyze library chat reference transcripts
Wen et al. DesPrompt: Personality-descriptive prompt tuning for few-shot personality recognition
CN114416969B (zh) 一种基于背景增强的lstm-cnn在线评论情感分类方法及系统
Sanchez-Gomez et al. Sentiment-oriented query-focused text summarization addressed with a multi-objective optimization approach
CN107797981B (zh) 一种目标文本识别方法及装置
CN112580348B (zh) 政策文本关联性分析方法及系统
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN111680501B (zh) 基于深度学习的问询信息识别方法、装置及存储介质
CN112487165A (zh) 一种基于关键词的问答方法、装置及介质
CN107133226A (zh) 一种区分主题的方法及装置
Mohebbi et al. Texts semantic similarity detection based graph approach.
Matsumoto et al. Ego-state estimation from short texts based on sentence distributed representation
CN113761837A (zh) 实体关系类型确定方法、装置和设备及存储介质
Adel et al. An interval type-2 fuzzy ontological similarity measure
CN115080732A (zh) 投诉工单处理方法、装置、电子设备和存储介质
Handayani et al. Sentiment Analysis of Bank BNI User Comments Using the Support Vector Machine Method
Wen et al. Sentiment Analysis of Social Media Comments based on Random Forest and Support Vector Machine
CN114942980B (zh) 一种确定文本匹配方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant