CN109493265A - 一种基于深度学习的政策解读方法及政策解读系统 - Google Patents
一种基于深度学习的政策解读方法及政策解读系统 Download PDFInfo
- Publication number
- CN109493265A CN109493265A CN201811307253.8A CN201811307253A CN109493265A CN 109493265 A CN109493265 A CN 109493265A CN 201811307253 A CN201811307253 A CN 201811307253A CN 109493265 A CN109493265 A CN 109493265A
- Authority
- CN
- China
- Prior art keywords
- policy
- text
- interpretation
- word
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000013135 deep learning Methods 0.000 title claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 15
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 238000013145 classification model Methods 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims 1
- 238000002372 labelling Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 22
- 239000000463 material Substances 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004134 energy conservation Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000009958 sewing Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于深度学习的政策解读方法及智能化政策解读系统,本发明主要分为三个模块,分别为政策采集模块、政策解读模块、信息展示模块;其首先根据政府政策网公布的最新政策,实时采集政府政策网公布的最新政策,并下载政策原文;通过全文语义分析算法抽取并解读政策中的关键信息及核心内容;根据政策中抽取信息的属性,将该属性及其对应的内容存储到数据库中;根据大量同类政策的属性抽取结果比对,进行政策解读模型的优化,使该模型能适配更多类型政策;本系统能够自动的获取政策内容,并自动的进行政策解读和存储;与现有技术相比,本发明的政策解读方法效率更高,对于解读后的属性及其对应内容更准确,形成便于用户查询和了解的政策信息表。
Description
技术领域
本发明涉及人工智能领域,特涉及一种基于深度学习的政策解读方法及政策解读系统。
背景技术
政策是国家政府机关和政党组织公布的一些重要文献,为了实现所代表的阶级、阶层的意志,以权威形式标准化地规定在一定时期内,应该达到的奋斗目标、遵循的行动原则、完成的明确任务、实行的工作方式、采取的一般步骤和具体措施。
政策具有以下特点:
①阶级性:是政策的最根本特点,在阶级社会中、政策只代表特定阶级的利益,从来不代表全体社会成员的利益、不反映所有人的意志。
②正误性:任何阶级及其主体的政策都有正确与错误之分。
③时效性:政策是在一定时间内的历史条件和国情条件下,推行的现实政策。
④表述性:就表现形态而言,政策不是物质实体,而是外化为符号表达的观念和信息,它由有权机关用语言和文字等表达手段进行表述。
随着人工智能技术的快速发展,出现一种电子政务技术;电子政务,其为运用计算机、网络和通信等现代信息技术手段,实现政府组织结构和工作流程的优化重组,超越时间、空间和跨部门的限制,建成一个精简、高效、廉洁、公平的政府运作模式,以便全方位地向社会提供优质、规范、透明、符合国际水准的管理与服务。
在电子政务中,政府机关的各种数据、文件、档案、社会经济数据都以数字形式存贮于网络服务器中,可采用快速检索技术进行查询。
虽然电子政务的推广使得人们能够及时、快速的获取到政府所公布的政策,但是人们要了解这些政策以及如何办理这些政策需要花费大量的时间来了解政策的内容以及办理政策所需的材料。特别是有些办理要求较多的政策,虽然有详细的文字说明,百姓及企业仍然很难清楚完整的了解政策的内容以及办理政策所需的材料。
目前应用比较普遍的政策解读方法和系统,主要还是依靠人工来解读政策信息,并将解读出来的内容通过人工的方式进行对应存储,这样的操作过程中将存在以下问题:
1、人工解读效率低,需要耗费大量人力;
2、信息量较大,信息录入容易出错;
3、内容更新不及时,信息滞后。
由此可见,提供一种能够自动、及时以及可以精确解读政府政策的方法及其工作方法是本领域亟需要的解决方案。
发明内容
本发明提供了一种基于深度学习的政策解读方法及政策解读系统,具有使政策解读效率更高的特点。
本发明还提供了一种计算机可读存储介质,具有能够便于实施下述任何一种方法的特点。
根据本发明提供的一种基于深度学习的政策解读方法及政策解读系统,包括政策全文语义理解并分类、智能信息抽取、政策解读模型优化。
一种基于深度学习的政策解读方法及政策解读系统,所述的政策解读方法及系统包括如下步骤:
(1)根据政府政策网公布的最新政策,实时采集政策原文;
(2)根据采集到的政策原文,调用本发明的核心“政策解读”模块:
1)政策全文语义理解并构建政策文本分类模型;
2)信息抽取算法;
3)解读模型自优化;
(3)根据获取得到的政策属性以及对应的内容,存储到对应的数据库中并展示解读后的结果。
在政策解读方法所述步骤(1)中,实时扫描政府政策网公布的最新政策文献,采集并下载政策原文到政策原文资料库中。
在政策解读方法所述步骤(2)中,所述政策全文语义理解并构建政策文本分类模型:
其中,政策全文语义理解,将政策资料库中最新的政策文件全部转为txt文本,遍历所有txt文本,将每个文本依次进行预处理、分词、去停用词,然后对该文本进行全文语义理解并记录,通过对政策原文的全文理解学习到的政策属性包括但不限于政策名称、政策类型、针对对象、办理条件、公布时间、有效期、公布单位、办理时间、办理地点、办理人员、受理单位、受理时间、处理时间、针对地区、办理所需证件、办理所需材料以及材料数量等;
其中构建政策文本分类模型,首先要得到语料库,语料库是一系列docx政策文本,这些政策文本按照主题归入到不同分类的目录中,目录标题是这些政策主题信息的关键字,例如:大数据、环境、节能、工业互联网、教育、税收、医疗、人口、住房、自然科学、工程技术等;
利用Bunch数据结构来表示这个语料库,将主题信息,文本文件名,文本标签(就是文本的主题),文本内容全部存入Bunch类型中,通过绑定为Bunch数据类型,实现了语料库的变量表示,然后将语料库包含的所有词统一到同一个词向量空间中;
通过对预处理文件的统计得到词典,词典中包含预处理后的词以及统计时给于该词的编号,对每个文本建立一个特征向量,以词典中每个词的tfidf值作为特征向量中该词对应维的值,使用朴素贝叶斯算法构建分类器,以每个文本的特征向量作为分类器输入,以每个文本的主题作为分类标签,进行文本主题分类模型训练,最终获得所述政策文本分类模型;
所述tfidf值计算公式表示为:
tfidf=tf×idf
tf=所述词在所属文本中的出现次数;
idf=lg(文本总数/(1+包含所述词的文本数))。
其中,信息抽取算法,通过读取docx政策文本,每一段落建立相应的索引;依据标题对政策文本进行分块,标题分为一级标题和二级标题,一级标题对应的是政策解读的属性,属性的内容通过两个相邻一级标题之间的内容确定;当无法抽取到下一个一级标题的内容时,则最后抽取到的标题内容为最后的一级标题;
一级标题包含二级标题,二级标题的内容抽取方式和一级标题的内容提取方式一致;
然后基于第一次的提取信息,进行进一步的解析;
为了获取个别属性,运用了命名实体识别技术;本质上命名实体识别是一个序列标注任务;
这里我们利用深度学习算法,构建LSTM-CRF模型;通过对大量政策以及其他相关文本的标注,对文本中的单字均贴上标签,标签采用“BIO”体系,即实体的第一个字为B_*,其余字为I_*,非实体字统一标记为O;
以句子为单位,将一个含有n个字的句子(字的序列)记作
x=(x1,x2,…,xn)
其中xi表示句子的第i个字在字典中的id,进而可以得到每个字的one-hot向量,维数是字典大小;
利用预训练或随机初始化的embedding矩阵将句子中的每个字xi由one-hot向量映射为低维空间中稠密的字向量;再将生成的字向量输入到双向LSTM层中,自动提取句子特征,以捕捉词的前后缀等单字的形态特征;在双向LSTM层后接入CRF层来做句子级别的标签预测;建立LSTM-CRF模型,通过训练,最终识别并抽取文本中的标题、类型、申报条件、提交材料、结束日期等多种属性和对应内容。
其中,政策解读模型自优化,对于不同类型的政策原文,本发明的政策解读系统将自动识别并生成对应类型的政策信息的属性表,以及每个属性的近义词表,近义词表是对属性的一个补充,映射;根据大量同类政策的属性抽取结果比对,进行该类政策解读模型的优化,使该模型能适配更多类型、更多属性的政策,从而达到政策解读模型自优化的效果。
对于最新获取到的政策原文,可采用以上政策文本分类模型和LSTM-CRF模型,属性搜索以及编写识别模板的方式来进行政策解读的工作。
在所述步骤(3)中基于步骤(2)中所获取到的政策属性以及对应的内容,将数据存储到对应数据库中,并展示该政策的解读结果。
根据本发明的政府政策解读方法及其工作方法能够自动的扫描并采集政策原文,并自动的进行政策解读和存储,形成了便于用户查询和了解解读后的信息,整个过程无需人工干预,自动完成。
与现有技术相比,本发明的政策解读方法,能够自动、快速以及准确的解读政府政策网公布的政策文献,具有解读政策效率更高、存储数据更精准、解读后的政策信息表更新更及时的特点。
根据本发明提供的一种计算机可读存储介质,存储有便于处理器加载并执行上述任意一种的方法的计算机程序。
附图说明
图1为本发明中进行政府政策解读的结构图;
图2为本发明中提供政府公布的政策文献解读方法运行流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本说明书(包括摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换;即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
针对现有电子政务中政府公布的政策文献都是通过网页进行公布的,为此本发明提供政府的政策解读方法通过直接从公布政策的网页直接采集政策原文并进行解读,从而实现政府政策的自动、及时、精确的解读并展示。
参见图2,为本发明中提供政府公布的政策文献解读方法运行流程图,由图可知,整个解读过程包括如下3大步骤:
步骤1,根据政府政策网公布的最新政策,实时采集政策原文;
步骤2,根据采集到的政策原文,调用本发明的核心“政策解读”模块:
1)政策全文语义理解并构建政策文本分类模型;
2)信息抽取算法;
3)解读模型自优化。
步骤3,根据获取得到的政策属性以及对应的内容,存储到对应的数据库中并展示解读后的结果。
作为本发明的一种实施方式,所述步骤1中,实时扫描政府政策网公布的最新政策文献,采集并下载政策原文到政策原文资料库中,在本实施方式中保存政策原文时系统自动将不同文件类型的政策原文转换为docx文件。
作为本发明的一种实施方式,所述步骤2中,
其中,政策全文语义理解,将政策资料库中最新的docx政策文件全部转为txt文本,遍历所有txt文本,将每个文本依次进行预处理、分词、去停用词,然后对该文本进行全文语义理解并记录,通过对政策原文的全文理解而学习到对应政策的关键属性及对应内容,属性包括但不限于政策名称、政策类型、针对对象、办理条件、公布时间、有效期、公布单位、办理时间、办理地点、办理人员、受理单位、受理时间、处理时间、针对地区、办理所需证件、办理所需材料以及材料数量等;
其中,构建政策文本分类模型,首先要得到语料库,语料库是一系列docx政策文本,这些政策文本按照主题归入到不同分类的目录中,目录的标题是这些政策主题信息,例如:大数据、环境、节能、工业互联网、教育、税收、医疗、人口、住房、自然科学、工程技术等;
利用Bunch数据结构来表示这个语料库,将主题信息,文本文件名,文本标签(就是文本的主题),文本内容全部存入Bunch类型中,通过绑定为Bunch数据类型,实现了语料库的变量表示,然后将语料库包含的所有词统一到同一个词向量空间中;
通过对预处理文件的统计得到词典,词典中包含预处理后的词以及统计时给于该词的编号,对每个文本建立一个特征向量,以词典中每个词的tfidf值作为特征向量中该词对应维的值,使用朴素贝叶斯算法构建分类器,以每个文本的特征向量作为分类器输入,以每个文本的主题作为分类标签,进行文本主题分类模型训练,最终获得所述政策文本分类模型;
所述tfidf值计算公式表示为:
tfidf=tf×idf
tf=所述词在所属文本中的出现次数;
idf=lg(文本总数/(1+包含所述词的文本数))。
其中,信息抽取算法,通过对政策全文语义理解并读取docx政策文本,每一段落建立相应的索引;依据标题对政策文本进行分块,标题分为一级标题和二级标题,一级标题对应的是政策解读的属性,属性的内容通过两个相邻一级标题之间的内容确定;当无法抽取到下一个一级标题的内容时,则最后抽取到的标题内容为最后的一级标题;
一级标题包含二级标题,二级标题的内容抽取方式和一级标题的内容提取方式一致;
然后基于第一次的提取信息,进行进一步的解析;
为了获取个别属性,运用了命名实体识别技术;本质上命名实体识别是一个序列标注任务;
这里我们利用深度学习算法,构建LSTM-CRF模型;通过对大量政策以及其他相关文本的标注,对文本中的单字均贴上标签,标签采用“BIO”体系,即实体的第一个字为B_*,其余字为I_*,非实体字统一标记为O;
以句子为单位,将一个含有n个字的句子(字的序列)记作
x=(x1,x2,…,xn)
其中xi表示句子的第i个字在字典中的id,进而可以得到每个字的one-hot向量,维数是字典大小;
利用预训练或随机初始化的embedding矩阵将句子中的每个字xi由one-hot向量映射为低维空间中稠密的字向量;再将生成的字向量输入到双向LSTM层中,自动提取句子特征,以捕捉词的前后缀等单字的形态特征;在双向LSTM层后接入CRF层来做句子级别的标签预测;建立LSTM-CRF模型,通过训练,最终识别并抽取文本中的标题、类型、申报条件、提交材料、结束日期等多种属性和对应内容。
其中,政策解读模型自优化,对于不同类型的政策原文,本发明的政策解读系统将自动识别并生成对应类型的政策信息的属性表,以及每个属性的近义词表,近义词表是对属性的一个补充,映射;根据大量同类政策的属性抽取结果比对,进行该类政策解读模型的优化,使该模型能适配更多类型、更多属性的政策,从而达到政策解读模型自优化的效果。
对于最新获取到的政策原文,可采用以上政策文本分类模型和LSTM-CRF模型,属性搜索以及编写识别模板的方式来进行政策解读的工作。
作为本发明的一种实施方式,本方案主要针对对应的政策类型、公布时间、办理条件、政策发文字号三种属性进行举例说明:
以获取政策类型为例,获取政策类型在本实施方式中,通过政策原文语义理解并构建政策文本分类模型中建立的政策文本分类模型来获取;
以获取政策公布日期为例,获取政策公布日期在本实施方式中,文本经过LSTM-CRF模型处理,我们得到了日期在文本中的位置,然后根据其与前后段落之间的关系、内容上的关联性,将它具体匹配到相应的属性中;当日期单独为一段,并且段落后面是公布单位,则与需要的政策文本公布时间这个属性对应;若在一句话在出现两个日期,并且在办理条件的标题下的,则该识别的时间与办理条件有效期信息这个属性对应;
以获取政策发文字号为例,获取政策发文字号在本实施方式中,通过分析政策文本,由于发文字号的书写规则有着固定范式,例如“京经信委发〔2018〕73号”,通过规则,编写识别模板,具体通过编写正则表达式,遍历搜索整个正文内容,并根据遍历搜索的结果来最终确定该政策的发文字号。
在所述步骤(3)中基于步骤(2)中所获取到的政策属性以及对应的内容,将数据存储到对应数据库中,并展示该政策的解读结果。
作为本发明的一种实施方式,系统结合了大数据分析、信息抽取、机器学习、神经网络算法等多项技术,政府政策解读方法及其工作方法能够自动的扫描并采集政策原文,并自动的进行政策解读和存储,形成了便于用户查询和了解解读后的信息,整个过程无需人工干预,自动完成。
作为本发明的一种实施方式,政府政策解读方法及其工作方法能够自动的扫描并采集政策原文,并自动的进行政策解读和存储,形成了便于用户查询和了解解读后的信息,整个过程无需人工干预,自动完成。
作为本发明的一种实施方式,政府政策解读方法及其工作方法,能够自动、快速以及准确的解读政府政策网公布的政策文献,具有解读政策效率更高、存储数据更精准、解读后的政策信息表更新更及时的特点。
作为本发明的一种实施方式,提供一种计算机可读存储介质,存储有便于处理器加载并执行上述任意一种的方法的计算机程序。
Claims (10)
1.一种基于深度学习的政策解读方法及政策解读系统,包括:政策全文语义理解并构建政策文本分类模型、智能信息抽取、解读模型自优化三个模块。
2.根据权利要求1所述的政策全文语义理解并构建政策文本分类模型:
其中,政策全文语义理解,将政策资料库中最新的政策文件全部转为txt文本,遍历所有txt文本,将每个文本依次进行预处理、分词、去停用词,然后对该文本进行全文语义理解并记录,通过对政策原文的全文理解而学习到对应政策的关键属性及对应内容。
3.根据权利要求1所述的政策全文语义理解并构建政策文本分类模型:
其中,构建政策文本分类模型,首先要得到语料库,语料库是一系列docx政策文本,通过权利要求2中对政策全文进行语义理解,从而学习到政策的主题内容,这些政策文本按照主题内容归入到不同分类的目录中,目录标题是这些政策主题信息中的关键字。
4.根据权利要求3所述的政策文本分类,所述的分类计算方法:
利用Bunch数据结构来表示这个语料库,将主题信息,文本文件名,文本标签(就是文本的主题),文本内容全部存入Bunch类型中,通过绑定为Bunch数据类型,实现了语料库的变量表示,然后将语料库包含的所有词统一到同一个词向量空间中;
通过对预处理文件的统计得到词典,词典中包含预处理后的词以及统计时给于该词的编号,对每个文本建立一个特征向量,以词典中每个词的tfidf值作为特征向量中该词对应维的值,使用朴素贝叶斯算法构建分类器,以每个文本的特征向量作为分类器输入,以每个文本的主题作为分类标签,进行文本主题分类模型训练,最终获得所述政策文本分类模型;
所述tfidf值计算公式表示为:
tfidf=tf×idf
tf=所述词在所属文本中的出现次数;
idf=lg(文本总数/(1+包含所述词的文本数))。
5.根据权利要求1所述的智能信息抽取,所述的信息抽取算法包括:
通过对政策全文语义理解并读取docx政策文本,每一段落建立相应的索引;依据标题对政策文本进行分块,标题分为一级标题和二级标题,一级标题对应的是政策解读的属性,属性的内容通过两个相邻一级标题之间的内容确定;当无法抽取到下一个一级标题的内容时,则最后抽取到的标题内容为最后的一级标题;
一级标题包含二级标题,二级标题的内容抽取方式和一级标题的内容提取方式一致;
然后基于第一次的提取信息,进行进一步的解析;
为了获取个别属性,运用了命名实体识别技术;本质上命名实体识别是一个序列标注任务;
6.根据权利要求5所述的信息抽取算法,所述的信息抽取计算方法:
这里我们利用深度学习算法,构建LSTM-CRF模型;通过对大量政策以及其他相关文本的标注,对文本中的单字均贴上标签,标签采用“BIO”体系,即实体的第一个字为B_*,其余字为I_*,非实体字统一标记为O;
以句子为单位,将一个含有n个字的句子(字的序列)记作
x=(x1,x2,…,xn)
其中xi表示句子的第i个字在字典中的id,进而可以得到每个字的one-hot向量,维数是字典大小;
利用预训练或随机初始化的embedding矩阵将句子中的每个字xi由one-hot向量映射为低维空间中稠密的字向量;再将生成的字向量输入到双向LSTM层中,自动提取句子特征,以捕捉词的前后缀等单字的形态特征;在双向LSTM层后接入CRF层来做句子级别的标签预测;建立LSTM-CRF模型,通过训练,最终识别并抽取文本中的关键属性及对应内容。
7.根据权利要求1所述的政策解读模型自优化,所述的政策解读模型自由化方法包括:
对于不同类型的政策原文,本发明的政策解读系统将自动识别并生成对应类型的政策信息的属性表,以及每个属性的近义词表,近义词表是对属性的一个补充,映射;根据大量同类政策的属性抽取结果比对,进行该类政策解读模型的优化,使该模型能适配更多类型、更多属性的政策,从而达到政策解读模型自优化的效果。
8.对于最新获取到的政策原文,可从新调用权利要求2到7的方法,进行政策全文理解,政策分类,信息抽取,以及后期如有相同类型的政策进行模型自由化,从而实现对最新获取到的政策原文方进行政策解读。
9.一种基于深度学习的政策解读方法及政策解读系统,所述的工作方法步骤包括:
(1)根据政府政策网公布的最新政策,实时采集政策原文;
(2)根据采集到的政策原文,调用本发明的核心“政策解读”模块:
1)政策全文语义理解并构建政策文本分类模型;
2)信息抽取算法;
3)解读模型自优化;
(3)根据获取得到的政策属性以及对应的内容,存储到对应的数据库中并
展示解读后的结果。
10.一种计算机可读存储介质,存储有便于处理器加载并执行权利要求1到9任意一种的方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811307253.8A CN109493265A (zh) | 2018-11-05 | 2018-11-05 | 一种基于深度学习的政策解读方法及政策解读系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811307253.8A CN109493265A (zh) | 2018-11-05 | 2018-11-05 | 一种基于深度学习的政策解读方法及政策解读系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109493265A true CN109493265A (zh) | 2019-03-19 |
Family
ID=65693854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811307253.8A Pending CN109493265A (zh) | 2018-11-05 | 2018-11-05 | 一种基于深度学习的政策解读方法及政策解读系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109493265A (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245225A (zh) * | 2019-06-21 | 2019-09-17 | 广东政沣云计算有限公司 | 一种政策研究解读方法、系统、存储介质和服务器 |
CN110609983A (zh) * | 2019-08-19 | 2019-12-24 | 广州利科科技有限公司 | 一种政策文件结构化分解方法 |
CN111160031A (zh) * | 2019-12-13 | 2020-05-15 | 华南理工大学 | 一种基于词缀感知的社交媒体命名实体识别方法 |
CN111241152A (zh) * | 2019-12-30 | 2020-06-05 | 广州高企云信息科技有限公司 | 政策信息挖掘方法、装置及云服务器 |
CN112131385A (zh) * | 2020-09-15 | 2020-12-25 | 天津大学 | 一种隐私政策的结构分析方法 |
CN112184133A (zh) * | 2019-07-02 | 2021-01-05 | 黎嘉明 | 一种基于人工智能的政务办公系统预置批示与分工方法 |
CN112257442A (zh) * | 2020-09-27 | 2021-01-22 | 重庆生产力促进中心 | 一种基于扩充语料库神经网络的政策文件信息提取方法 |
CN112395860A (zh) * | 2020-11-27 | 2021-02-23 | 山东省计算中心(国家超级计算济南中心) | 一种大规模并行政策数据知识抽取方法及系统 |
CN112487179A (zh) * | 2019-09-11 | 2021-03-12 | 珠海格力电器股份有限公司 | 一种口语语义理解方法、装置及系统 |
CN112541352A (zh) * | 2020-12-23 | 2021-03-23 | 上海永骁智能技术有限公司 | 一种基于深度学习的政策解读方法 |
CN112580331A (zh) * | 2020-12-15 | 2021-03-30 | 国家工业信息安全发展研究中心 | 政策文本的知识图谱构建方法及系统 |
CN112580348A (zh) * | 2020-12-15 | 2021-03-30 | 国家工业信息安全发展研究中心 | 政策文本关联性分析方法及系统 |
CN112906382A (zh) * | 2021-02-05 | 2021-06-04 | 山东省计算中心(国家超级计算济南中心) | 基于图神经网络的政策文本多标签标注方法及系统 |
CN112967021A (zh) * | 2021-03-04 | 2021-06-15 | 南通苏博办公服务有限公司 | 基于大数据的惠企政策智能匹配系统 |
CN113032552A (zh) * | 2021-05-25 | 2021-06-25 | 南京鸿程信息科技有限公司 | 一种基于文本摘要的政策要点抽取方法与提取系统 |
CN113065994A (zh) * | 2021-03-29 | 2021-07-02 | 南京莱科智能工程研究院有限公司 | 一种政策演化分析系统和方法 |
CN113095637A (zh) * | 2021-03-25 | 2021-07-09 | 北京理工大学 | 生物能和碳捕集与封存技术经济可行性的评估方法及系统 |
CN113254512A (zh) * | 2021-04-26 | 2021-08-13 | 中国人民解放军军事科学院国防科技创新研究院 | 一种军民融合政策信息数据分析优化系统 |
CN113537609A (zh) * | 2021-07-26 | 2021-10-22 | 北京清博智能科技有限公司 | 一种基于文本智能挖掘的政策热点预测方法 |
CN113609836A (zh) * | 2021-09-29 | 2021-11-05 | 深圳市指南针医疗科技有限公司 | 医疗政策全量定义解析系统及方法 |
CN114596182A (zh) * | 2022-03-09 | 2022-06-07 | 王淑娟 | 一种基于大数据的政务管理方法及系统 |
CN115470871A (zh) * | 2022-11-02 | 2022-12-13 | 江苏鸿程大数据技术与应用研究院有限公司 | 基于命名实体识别与关系抽取模型的政策匹配方法及系统 |
CN117520552A (zh) * | 2024-01-08 | 2024-02-06 | 北京中科江南信息技术股份有限公司 | 政策文本处理方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107885721A (zh) * | 2017-10-12 | 2018-04-06 | 北京知道未来信息技术有限公司 | 一种基于lstm的命名实体识别方法 |
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN108256065A (zh) * | 2018-01-16 | 2018-07-06 | 智言科技(深圳)有限公司 | 基于关系检测和强化学习的知识图谱推理方法 |
CN108304911A (zh) * | 2018-01-09 | 2018-07-20 | 中国科学院自动化研究所 | 基于记忆神经网络的知识抽取方法以及系统和设备 |
CN108334591A (zh) * | 2018-01-30 | 2018-07-27 | 天津中科智能识别产业技术研究院有限公司 | 基于聚焦爬虫技术的行业分析方法及系统 |
CN108491438A (zh) * | 2018-02-12 | 2018-09-04 | 陆夏根 | 一种科技政策检索分析方法 |
-
2018
- 2018-11-05 CN CN201811307253.8A patent/CN109493265A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107885721A (zh) * | 2017-10-12 | 2018-04-06 | 北京知道未来信息技术有限公司 | 一种基于lstm的命名实体识别方法 |
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN108304911A (zh) * | 2018-01-09 | 2018-07-20 | 中国科学院自动化研究所 | 基于记忆神经网络的知识抽取方法以及系统和设备 |
CN108256065A (zh) * | 2018-01-16 | 2018-07-06 | 智言科技(深圳)有限公司 | 基于关系检测和强化学习的知识图谱推理方法 |
CN108334591A (zh) * | 2018-01-30 | 2018-07-27 | 天津中科智能识别产业技术研究院有限公司 | 基于聚焦爬虫技术的行业分析方法及系统 |
CN108491438A (zh) * | 2018-02-12 | 2018-09-04 | 陆夏根 | 一种科技政策检索分析方法 |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245225A (zh) * | 2019-06-21 | 2019-09-17 | 广东政沣云计算有限公司 | 一种政策研究解读方法、系统、存储介质和服务器 |
CN112184133A (zh) * | 2019-07-02 | 2021-01-05 | 黎嘉明 | 一种基于人工智能的政务办公系统预置批示与分工方法 |
CN110609983A (zh) * | 2019-08-19 | 2019-12-24 | 广州利科科技有限公司 | 一种政策文件结构化分解方法 |
CN110609983B (zh) * | 2019-08-19 | 2023-06-09 | 广州利科科技有限公司 | 一种政策文件结构化分解方法 |
CN112487179B (zh) * | 2019-09-11 | 2024-05-31 | 珠海格力电器股份有限公司 | 一种口语语义理解方法、装置及系统 |
CN112487179A (zh) * | 2019-09-11 | 2021-03-12 | 珠海格力电器股份有限公司 | 一种口语语义理解方法、装置及系统 |
CN111160031A (zh) * | 2019-12-13 | 2020-05-15 | 华南理工大学 | 一种基于词缀感知的社交媒体命名实体识别方法 |
CN111241152A (zh) * | 2019-12-30 | 2020-06-05 | 广州高企云信息科技有限公司 | 政策信息挖掘方法、装置及云服务器 |
CN111241152B (zh) * | 2019-12-30 | 2020-09-15 | 广州高企云信息科技有限公司 | 政策信息挖掘方法、装置及云服务器 |
CN112131385A (zh) * | 2020-09-15 | 2020-12-25 | 天津大学 | 一种隐私政策的结构分析方法 |
CN112257442A (zh) * | 2020-09-27 | 2021-01-22 | 重庆生产力促进中心 | 一种基于扩充语料库神经网络的政策文件信息提取方法 |
CN112395860A (zh) * | 2020-11-27 | 2021-02-23 | 山东省计算中心(国家超级计算济南中心) | 一种大规模并行政策数据知识抽取方法及系统 |
CN112580348A (zh) * | 2020-12-15 | 2021-03-30 | 国家工业信息安全发展研究中心 | 政策文本关联性分析方法及系统 |
CN112580331A (zh) * | 2020-12-15 | 2021-03-30 | 国家工业信息安全发展研究中心 | 政策文本的知识图谱构建方法及系统 |
CN112580348B (zh) * | 2020-12-15 | 2024-05-28 | 国家工业信息安全发展研究中心 | 政策文本关联性分析方法及系统 |
CN112541352A (zh) * | 2020-12-23 | 2021-03-23 | 上海永骁智能技术有限公司 | 一种基于深度学习的政策解读方法 |
CN112906382B (zh) * | 2021-02-05 | 2022-06-21 | 山东省计算中心(国家超级计算济南中心) | 基于图神经网络的政策文本多标签标注方法及系统 |
CN112906382A (zh) * | 2021-02-05 | 2021-06-04 | 山东省计算中心(国家超级计算济南中心) | 基于图神经网络的政策文本多标签标注方法及系统 |
CN112967021A (zh) * | 2021-03-04 | 2021-06-15 | 南通苏博办公服务有限公司 | 基于大数据的惠企政策智能匹配系统 |
CN113095637A (zh) * | 2021-03-25 | 2021-07-09 | 北京理工大学 | 生物能和碳捕集与封存技术经济可行性的评估方法及系统 |
CN113065994A (zh) * | 2021-03-29 | 2021-07-02 | 南京莱科智能工程研究院有限公司 | 一种政策演化分析系统和方法 |
CN113254512A (zh) * | 2021-04-26 | 2021-08-13 | 中国人民解放军军事科学院国防科技创新研究院 | 一种军民融合政策信息数据分析优化系统 |
CN113032552A (zh) * | 2021-05-25 | 2021-06-25 | 南京鸿程信息科技有限公司 | 一种基于文本摘要的政策要点抽取方法与提取系统 |
CN113032552B (zh) * | 2021-05-25 | 2021-08-27 | 南京鸿程信息科技有限公司 | 一种基于文本摘要的政策要点抽取方法与提取系统 |
CN113537609A (zh) * | 2021-07-26 | 2021-10-22 | 北京清博智能科技有限公司 | 一种基于文本智能挖掘的政策热点预测方法 |
CN113609836A (zh) * | 2021-09-29 | 2021-11-05 | 深圳市指南针医疗科技有限公司 | 医疗政策全量定义解析系统及方法 |
CN113609836B (zh) * | 2021-09-29 | 2022-01-28 | 深圳市指南针医疗科技有限公司 | 医疗政策全量定义解析系统及方法 |
CN114596182A (zh) * | 2022-03-09 | 2022-06-07 | 王淑娟 | 一种基于大数据的政务管理方法及系统 |
CN115470871B (zh) * | 2022-11-02 | 2023-02-17 | 江苏鸿程大数据技术与应用研究院有限公司 | 基于命名实体识别与关系抽取模型的政策匹配方法及系统 |
CN115470871A (zh) * | 2022-11-02 | 2022-12-13 | 江苏鸿程大数据技术与应用研究院有限公司 | 基于命名实体识别与关系抽取模型的政策匹配方法及系统 |
CN117520552A (zh) * | 2024-01-08 | 2024-02-06 | 北京中科江南信息技术股份有限公司 | 政策文本处理方法、装置、设备及存储介质 |
CN117520552B (zh) * | 2024-01-08 | 2024-04-16 | 北京中科江南信息技术股份有限公司 | 政策文本处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109493265A (zh) | 一种基于深度学习的政策解读方法及政策解读系统 | |
CN111428053B (zh) | 一种面向税务领域知识图谱的构建方法 | |
CN110825882B (zh) | 一种基于知识图谱的信息系统管理方法 | |
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
Senthil Kumaran et al. | Towards an automated system for intelligent screening of candidates for recruitment using ontology mapping (EXPERT) | |
CN114595344B (zh) | 面向农作物品种管理的知识图谱构建方法及装置 | |
CN115455935A (zh) | 一种文本信息智能处理系统 | |
CN108345596A (zh) | 楼宇信息融合服务平台 | |
CN104102721A (zh) | 信息推荐方法和装置 | |
CN112036842B (zh) | 一种科技服务智能匹配装置 | |
Johnson | Biodiversity informatics | |
CA3060498A1 (en) | Method and system for integrating web-based systems with local document processing applications | |
Das et al. | A CV parser model using entity extraction process and big data tools | |
CN112182241A (zh) | 一种空管领域知识图谱的自动化构建方法 | |
CN115687647A (zh) | 公证文书生成方法、装置、电子设备及存储介质 | |
Wang et al. | Analysing CV corpus for finding suitable candidates using knowledge graph and BERT | |
CN108681977A (zh) | 一种律师信息处理方法和系统 | |
CN109271479A (zh) | 一种简历结构化处理方法 | |
CN117574858A (zh) | 一种基于大语言模型的类案检索报告自动生成方法 | |
CN115760495A (zh) | 一种实现法律案例自动标签化的方法及装置 | |
CN114780744A (zh) | 一种面向知识图谱构建的人物简历解析方法 | |
Ponnaboyina et al. | Smart recruitment system using deep learning with natural language processing | |
Pertsas et al. | Ontology-driven information extraction from research publications | |
CN112989811A (zh) | 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法 | |
Bhalerao et al. | Social media mining using machine learning techniques as a survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190319 |
|
WD01 | Invention patent application deemed withdrawn after publication |