CN109493265A

CN109493265A - 一种基于深度学习的政策解读方法及政策解读系统

Info

Publication number: CN109493265A
Application number: CN201811307253.8A
Authority: CN
Inventors: 吴琼
Original assignee: Beijing Aofa Technology Co Ltd
Current assignee: Beijing Aofa Technology Co Ltd
Priority date: 2018-11-05
Filing date: 2018-11-05
Publication date: 2019-03-19

Abstract

本发明提供了一种基于深度学习的政策解读方法及智能化政策解读系统，本发明主要分为三个模块，分别为政策采集模块、政策解读模块、信息展示模块；其首先根据政府政策网公布的最新政策，实时采集政府政策网公布的最新政策，并下载政策原文；通过全文语义分析算法抽取并解读政策中的关键信息及核心内容；根据政策中抽取信息的属性，将该属性及其对应的内容存储到数据库中；根据大量同类政策的属性抽取结果比对，进行政策解读模型的优化，使该模型能适配更多类型政策；本系统能够自动的获取政策内容，并自动的进行政策解读和存储；与现有技术相比，本发明的政策解读方法效率更高，对于解读后的属性及其对应内容更准确，形成便于用户查询和了解的政策信息表。

Description

一种基于深度学习的政策解读方法及政策解读系统

技术领域

本发明涉及人工智能领域，特涉及一种基于深度学习的政策解读方法及政策解读系统。

背景技术

政策是国家政府机关和政党组织公布的一些重要文献，为了实现所代表的阶级、阶层的意志，以权威形式标准化地规定在一定时期内，应该达到的奋斗目标、遵循的行动原则、完成的明确任务、实行的工作方式、采取的一般步骤和具体措施。

政策具有以下特点：

①阶级性：是政策的最根本特点，在阶级社会中、政策只代表特定阶级的利益，从来不代表全体社会成员的利益、不反映所有人的意志。

②正误性：任何阶级及其主体的政策都有正确与错误之分。

③时效性：政策是在一定时间内的历史条件和国情条件下，推行的现实政策。

④表述性：就表现形态而言，政策不是物质实体，而是外化为符号表达的观念和信息，它由有权机关用语言和文字等表达手段进行表述。

随着人工智能技术的快速发展，出现一种电子政务技术；电子政务，其为运用计算机、网络和通信等现代信息技术手段，实现政府组织结构和工作流程的优化重组，超越时间、空间和跨部门的限制，建成一个精简、高效、廉洁、公平的政府运作模式，以便全方位地向社会提供优质、规范、透明、符合国际水准的管理与服务。

在电子政务中，政府机关的各种数据、文件、档案、社会经济数据都以数字形式存贮于网络服务器中，可采用快速检索技术进行查询。

虽然电子政务的推广使得人们能够及时、快速的获取到政府所公布的政策，但是人们要了解这些政策以及如何办理这些政策需要花费大量的时间来了解政策的内容以及办理政策所需的材料。特别是有些办理要求较多的政策，虽然有详细的文字说明，百姓及企业仍然很难清楚完整的了解政策的内容以及办理政策所需的材料。

目前应用比较普遍的政策解读方法和系统，主要还是依靠人工来解读政策信息，并将解读出来的内容通过人工的方式进行对应存储，这样的操作过程中将存在以下问题：

1、人工解读效率低，需要耗费大量人力；

2、信息量较大，信息录入容易出错；

3、内容更新不及时，信息滞后。

由此可见，提供一种能够自动、及时以及可以精确解读政府政策的方法及其工作方法是本领域亟需要的解决方案。

发明内容

本发明提供了一种基于深度学习的政策解读方法及政策解读系统，具有使政策解读效率更高的特点。

本发明还提供了一种计算机可读存储介质，具有能够便于实施下述任何一种方法的特点。

根据本发明提供的一种基于深度学习的政策解读方法及政策解读系统，包括政策全文语义理解并分类、智能信息抽取、政策解读模型优化。

一种基于深度学习的政策解读方法及政策解读系统，所述的政策解读方法及系统包括如下步骤：

(1)根据政府政策网公布的最新政策，实时采集政策原文；

(2)根据采集到的政策原文，调用本发明的核心“政策解读”模块：

1)政策全文语义理解并构建政策文本分类模型；

2)信息抽取算法；

3)解读模型自优化；

(3)根据获取得到的政策属性以及对应的内容，存储到对应的数据库中并展示解读后的结果。

在政策解读方法所述步骤(1)中，实时扫描政府政策网公布的最新政策文献，采集并下载政策原文到政策原文资料库中。

在政策解读方法所述步骤(2)中，所述政策全文语义理解并构建政策文本分类模型：

其中，政策全文语义理解，将政策资料库中最新的政策文件全部转为txt文本，遍历所有txt文本，将每个文本依次进行预处理、分词、去停用词，然后对该文本进行全文语义理解并记录，通过对政策原文的全文理解学习到的政策属性包括但不限于政策名称、政策类型、针对对象、办理条件、公布时间、有效期、公布单位、办理时间、办理地点、办理人员、受理单位、受理时间、处理时间、针对地区、办理所需证件、办理所需材料以及材料数量等；

其中构建政策文本分类模型，首先要得到语料库，语料库是一系列docx政策文本，这些政策文本按照主题归入到不同分类的目录中，目录标题是这些政策主题信息的关键字，例如：大数据、环境、节能、工业互联网、教育、税收、医疗、人口、住房、自然科学、工程技术等；

利用Bunch数据结构来表示这个语料库，将主题信息，文本文件名，文本标签(就是文本的主题)，文本内容全部存入Bunch类型中，通过绑定为Bunch数据类型，实现了语料库的变量表示，然后将语料库包含的所有词统一到同一个词向量空间中；

通过对预处理文件的统计得到词典，词典中包含预处理后的词以及统计时给于该词的编号，对每个文本建立一个特征向量，以词典中每个词的tfidf值作为特征向量中该词对应维的值，使用朴素贝叶斯算法构建分类器，以每个文本的特征向量作为分类器输入，以每个文本的主题作为分类标签，进行文本主题分类模型训练，最终获得所述政策文本分类模型；

所述tfidf值计算公式表示为：

tfidf＝tf×idf

tf＝所述词在所属文本中的出现次数；

idf＝lg(文本总数/(1+包含所述词的文本数))。

其中，信息抽取算法，通过读取docx政策文本，每一段落建立相应的索引；依据标题对政策文本进行分块，标题分为一级标题和二级标题，一级标题对应的是政策解读的属性，属性的内容通过两个相邻一级标题之间的内容确定；当无法抽取到下一个一级标题的内容时，则最后抽取到的标题内容为最后的一级标题；

一级标题包含二级标题，二级标题的内容抽取方式和一级标题的内容提取方式一致；

然后基于第一次的提取信息，进行进一步的解析；

为了获取个别属性，运用了命名实体识别技术；本质上命名实体识别是一个序列标注任务；

这里我们利用深度学习算法，构建LSTM-CRF模型；通过对大量政策以及其他相关文本的标注，对文本中的单字均贴上标签，标签采用“BIO”体系，即实体的第一个字为B_*，其余字为I_*，非实体字统一标记为O；

以句子为单位，将一个含有n个字的句子(字的序列)记作

x＝(x₁,x₂,…,x_n)

其中x_i表示句子的第i个字在字典中的id，进而可以得到每个字的one-hot向量，维数是字典大小；

利用预训练或随机初始化的embedding矩阵将句子中的每个字x_i由one-hot向量映射为低维空间中稠密的字向量；再将生成的字向量输入到双向LSTM层中，自动提取句子特征，以捕捉词的前后缀等单字的形态特征；在双向LSTM层后接入CRF层来做句子级别的标签预测；建立LSTM-CRF模型，通过训练，最终识别并抽取文本中的标题、类型、申报条件、提交材料、结束日期等多种属性和对应内容。

其中，政策解读模型自优化，对于不同类型的政策原文，本发明的政策解读系统将自动识别并生成对应类型的政策信息的属性表，以及每个属性的近义词表，近义词表是对属性的一个补充，映射；根据大量同类政策的属性抽取结果比对，进行该类政策解读模型的优化，使该模型能适配更多类型、更多属性的政策，从而达到政策解读模型自优化的效果。

对于最新获取到的政策原文，可采用以上政策文本分类模型和LSTM-CRF模型，属性搜索以及编写识别模板的方式来进行政策解读的工作。

在所述步骤(3)中基于步骤(2)中所获取到的政策属性以及对应的内容，将数据存储到对应数据库中，并展示该政策的解读结果。

根据本发明的政府政策解读方法及其工作方法能够自动的扫描并采集政策原文，并自动的进行政策解读和存储，形成了便于用户查询和了解解读后的信息，整个过程无需人工干预，自动完成。

与现有技术相比，本发明的政策解读方法，能够自动、快速以及准确的解读政府政策网公布的政策文献，具有解读政策效率更高、存储数据更精准、解读后的政策信息表更新更及时的特点。

根据本发明提供的一种计算机可读存储介质，存储有便于处理器加载并执行上述任意一种的方法的计算机程序。

附图说明

图1为本发明中进行政府政策解读的结构图；

图2为本发明中提供政府公布的政策文献解读方法运行流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本说明书(包括摘要和附图)中公开的任一特征，除非特别叙述，均可被其他等效或者具有类似目的的替代特征加以替换；即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

针对现有电子政务中政府公布的政策文献都是通过网页进行公布的，为此本发明提供政府的政策解读方法通过直接从公布政策的网页直接采集政策原文并进行解读，从而实现政府政策的自动、及时、精确的解读并展示。

参见图2，为本发明中提供政府公布的政策文献解读方法运行流程图，由图可知，整个解读过程包括如下3大步骤：

步骤1，根据政府政策网公布的最新政策，实时采集政策原文；

步骤2，根据采集到的政策原文，调用本发明的核心“政策解读”模块：

1)政策全文语义理解并构建政策文本分类模型；

2)信息抽取算法；

3)解读模型自优化。

步骤3，根据获取得到的政策属性以及对应的内容，存储到对应的数据库中并展示解读后的结果。

作为本发明的一种实施方式，所述步骤1中，实时扫描政府政策网公布的最新政策文献，采集并下载政策原文到政策原文资料库中，在本实施方式中保存政策原文时系统自动将不同文件类型的政策原文转换为docx文件。

作为本发明的一种实施方式，所述步骤2中，

其中，政策全文语义理解，将政策资料库中最新的docx政策文件全部转为txt文本，遍历所有txt文本，将每个文本依次进行预处理、分词、去停用词，然后对该文本进行全文语义理解并记录，通过对政策原文的全文理解而学习到对应政策的关键属性及对应内容，属性包括但不限于政策名称、政策类型、针对对象、办理条件、公布时间、有效期、公布单位、办理时间、办理地点、办理人员、受理单位、受理时间、处理时间、针对地区、办理所需证件、办理所需材料以及材料数量等；

其中，构建政策文本分类模型，首先要得到语料库，语料库是一系列docx政策文本，这些政策文本按照主题归入到不同分类的目录中，目录的标题是这些政策主题信息，例如：大数据、环境、节能、工业互联网、教育、税收、医疗、人口、住房、自然科学、工程技术等；

所述tfidf值计算公式表示为：

tfidf＝tf×idf

tf＝所述词在所属文本中的出现次数；

idf＝lg(文本总数/(1+包含所述词的文本数))。

其中，信息抽取算法，通过对政策全文语义理解并读取docx政策文本，每一段落建立相应的索引；依据标题对政策文本进行分块，标题分为一级标题和二级标题，一级标题对应的是政策解读的属性，属性的内容通过两个相邻一级标题之间的内容确定；当无法抽取到下一个一级标题的内容时，则最后抽取到的标题内容为最后的一级标题；

然后基于第一次的提取信息，进行进一步的解析；

以句子为单位，将一个含有n个字的句子(字的序列)记作

x＝(x₁,x₂,…,x_n)

作为本发明的一种实施方式，本方案主要针对对应的政策类型、公布时间、办理条件、政策发文字号三种属性进行举例说明：

以获取政策类型为例，获取政策类型在本实施方式中，通过政策原文语义理解并构建政策文本分类模型中建立的政策文本分类模型来获取；

以获取政策公布日期为例，获取政策公布日期在本实施方式中，文本经过LSTM-CRF模型处理，我们得到了日期在文本中的位置，然后根据其与前后段落之间的关系、内容上的关联性，将它具体匹配到相应的属性中；当日期单独为一段，并且段落后面是公布单位，则与需要的政策文本公布时间这个属性对应；若在一句话在出现两个日期，并且在办理条件的标题下的，则该识别的时间与办理条件有效期信息这个属性对应；

以获取政策发文字号为例，获取政策发文字号在本实施方式中，通过分析政策文本，由于发文字号的书写规则有着固定范式，例如“京经信委发〔2018〕73号”，通过规则，编写识别模板，具体通过编写正则表达式，遍历搜索整个正文内容，并根据遍历搜索的结果来最终确定该政策的发文字号。

作为本发明的一种实施方式，系统结合了大数据分析、信息抽取、机器学习、神经网络算法等多项技术，政府政策解读方法及其工作方法能够自动的扫描并采集政策原文，并自动的进行政策解读和存储，形成了便于用户查询和了解解读后的信息，整个过程无需人工干预，自动完成。

作为本发明的一种实施方式，政府政策解读方法及其工作方法能够自动的扫描并采集政策原文，并自动的进行政策解读和存储，形成了便于用户查询和了解解读后的信息，整个过程无需人工干预，自动完成。

作为本发明的一种实施方式，政府政策解读方法及其工作方法，能够自动、快速以及准确的解读政府政策网公布的政策文献，具有解读政策效率更高、存储数据更精准、解读后的政策信息表更新更及时的特点。

作为本发明的一种实施方式，提供一种计算机可读存储介质，存储有便于处理器加载并执行上述任意一种的方法的计算机程序。

Claims

1.一种基于深度学习的政策解读方法及政策解读系统，包括：政策全文语义理解并构建政策文本分类模型、智能信息抽取、解读模型自优化三个模块。

2.根据权利要求1所述的政策全文语义理解并构建政策文本分类模型：

其中，政策全文语义理解，将政策资料库中最新的政策文件全部转为txt文本，遍历所有txt文本，将每个文本依次进行预处理、分词、去停用词，然后对该文本进行全文语义理解并记录，通过对政策原文的全文理解而学习到对应政策的关键属性及对应内容。

3.根据权利要求1所述的政策全文语义理解并构建政策文本分类模型：

其中，构建政策文本分类模型，首先要得到语料库，语料库是一系列docx政策文本，通过权利要求2中对政策全文进行语义理解，从而学习到政策的主题内容，这些政策文本按照主题内容归入到不同分类的目录中，目录标题是这些政策主题信息中的关键字。

4.根据权利要求3所述的政策文本分类，所述的分类计算方法：

所述tfidf值计算公式表示为：

tfidf＝tf×idf

tf＝所述词在所属文本中的出现次数；

idf＝lg(文本总数/(1+包含所述词的文本数))。

5.根据权利要求1所述的智能信息抽取，所述的信息抽取算法包括：

通过对政策全文语义理解并读取docx政策文本，每一段落建立相应的索引；依据标题对政策文本进行分块，标题分为一级标题和二级标题，一级标题对应的是政策解读的属性，属性的内容通过两个相邻一级标题之间的内容确定；当无法抽取到下一个一级标题的内容时，则最后抽取到的标题内容为最后的一级标题；

然后基于第一次的提取信息，进行进一步的解析；

6.根据权利要求5所述的信息抽取算法，所述的信息抽取计算方法：

以句子为单位，将一个含有n个字的句子(字的序列)记作

x＝(x₁,x₂,…,x_n)

利用预训练或随机初始化的embedding矩阵将句子中的每个字x_i由one-hot向量映射为低维空间中稠密的字向量；再将生成的字向量输入到双向LSTM层中，自动提取句子特征，以捕捉词的前后缀等单字的形态特征；在双向LSTM层后接入CRF层来做句子级别的标签预测；建立LSTM-CRF模型，通过训练，最终识别并抽取文本中的关键属性及对应内容。

7.根据权利要求1所述的政策解读模型自优化，所述的政策解读模型自由化方法包括：

对于不同类型的政策原文，本发明的政策解读系统将自动识别并生成对应类型的政策信息的属性表，以及每个属性的近义词表，近义词表是对属性的一个补充，映射；根据大量同类政策的属性抽取结果比对，进行该类政策解读模型的优化，使该模型能适配更多类型、更多属性的政策，从而达到政策解读模型自优化的效果。

8.对于最新获取到的政策原文，可从新调用权利要求2到7的方法，进行政策全文理解，政策分类，信息抽取，以及后期如有相同类型的政策进行模型自由化，从而实现对最新获取到的政策原文方进行政策解读。

9.一种基于深度学习的政策解读方法及政策解读系统，所述的工作方法步骤包括：

(1)根据政府政策网公布的最新政策，实时采集政策原文；

1)政策全文语义理解并构建政策文本分类模型；

2)信息抽取算法；

3)解读模型自优化；

(3)根据获取得到的政策属性以及对应的内容，存储到对应的数据库中并

展示解读后的结果。

10.一种计算机可读存储介质，存储有便于处理器加载并执行权利要求1到9任意一种的方法的计算机程序。