CN109191354A

CN109191354A - 一种基于自然语言处理的全民社管任务分发方法

Info

Publication number: CN109191354A
Application number: CN201810951662.5A
Authority: CN
Inventors: 水新莹; 张宇光; 黄亚坤; 苏洋
Original assignee: Anhui Xunfei Intelligent Technology Co Ltd
Current assignee: Anhui Xunfei Intelligent Technology Co Ltd
Priority date: 2018-08-21
Filing date: 2018-08-21
Publication date: 2019-01-11

Abstract

本发明公开了一种基于自然语言处理的全民社管任务分发方法，涉及智慧城市与电子政务领域，该方法包括以下主要步骤：(1)数据预处理；(2)分词操作；(3)采用贝叶斯算法对步骤1和步骤2进行模型训练，并得出贝叶斯分类器模型；(4)将上报信息进行分类，并分发到相关的部门进行处理，相关部门对分类的准确性做标记，并将标记和处理过程反馈到日志数据库中；(5)贝叶斯分类器的修正，全民社管的有效运用，对于增强市民自主管理意识，提升市民对政府服务的满意度，促进社会和谐稳定正在产生重大的意义。

Description

一种基于自然语言处理的全民社管任务分发方法

技术领域

本发明涉及智慧城市与电子政务领域，具体涉及一种基于自然语言处理的全民社管任务分发方法。

背景技术：

数字城管化管理是建设智慧城市的重要组成部分，数字化的城市管理通过自动化采集用户的上报信息，并对能够根据用户上报的异构化数据信息，分析上报任务所属的负责部分，及时通过自动分发系统向相关部门进行任务传达，从而，使用户反馈或上报的信息能够得到及时、高效的处理，能够有效提升电子政务的服务质量与用户体验。现有的任务分发系统主要是根据用户上报过程中的选择所属的部门进行分类，通常，用户对上报的内容所属领域并不熟悉，用户的选择比较模糊，不利于任务的精准分发。

因此，通过采集数字城管的历史上报数据，基于自然语言处理和贝叶斯段文本分类算法，一方面，深度挖掘用户上报信息的含义，并通过相关历史标签数据训练结果有效对上报任务进行分类；另一方面，上报任务的自动分发有效代理了人工任务分类，不仅提高了效率，节约了成本，而且提升了用户体验。“全民社管”运行以来，一些群众高度关注的问题及时得到了有效解决。互联网爆料的便捷正在提升市民参与城市治理的热情，数据业务化的协同机制不断倒逼部门转变工作方式提升工作水平，市民的反馈评价也持续优化城市运行问题的精准发现和有效处理。全民社管的有效运用，对于增强市民自主管理意识，提升市民对政府服务的满意度，促进社会和谐稳定正在产生重大的意义

如申请号为CN201310688203.X公开了一种任务分发方法及扫描器，该方法包括：节点类型为管理节点的扫描器需要分发任务时，针对所管理的各扫描器，分别执行下述操作：确定该扫描器执行待分发任务时的资源消耗指标以及该扫描器的当前剩余负载，所述资源消耗指标表征了扫描器执行任务时的资源消耗情况；根据所述资源消耗指标和当前剩余负载，确定该扫描器执行所述待分发任务时的负载均衡因子；根据确定出的负载均衡因子，在所管理的各扫描器中选择出满足预设的分发条件的扫描器，并将所述待分发任务分发给选择出的扫描器。但是该种任务分发方法及扫描器并未公开如何根据用户上报信息的含义，并通过相关历史标签数据训练结果有效对上报任务进行分类的技术方案。

如申请号为CN201310302794.2公开了一种任务分发方法、分发节点及系统，包括：第一分发节点接收客户端发送的任务请求；第一分发节点根据第一DHT环的信息，将任务请求发送给位于第一DHT环上且与任务请求匹配的业务节点，以便于与任务请求匹配的业务节点对任务请求进行处理，且第一分发节点通过与任务请求匹配的业务节点对应的布隆过滤器记录客户端与业务节点的会话信息。还提供了一种分发节点及系统。但是该种任务分发方法、分发节点及系统并未公开如何根据用户上报信息的含义，并通过相关历史标签数据训练结果有效对上报任务进行分类的技术方案。

发明内容

本发明的目的在于提供一种基于自然语言处理的全民社管任务分发方法，以解决现有技术中导致的上述多项缺陷。

一种基于自然语言处理的全民社管任务分发方法，其特征在于，该方法包括以下主要步骤：

(1)数据预处理：用于抽取数字城管历史数据，对数据进行数据清洗、数据规则化处理，提高数据质量，同时也利于后续数据处理工作；

(2)分词操作：用于对数字城管历史数据的案卷描述内容进行分词操作，同时对错别字、近义词做相对应的识别；

(3)采用贝叶斯算法对步骤1和步骤2进行模型训练，并得出贝叶斯分类器模型；

(4)将上报信息进行分类，并分发到相关的部门进行处理，相关部门对分类的准确性做标记，并将标记和处理过程反馈到日志数据库中；

(5)贝叶斯分类器的修正：系统定期抽取数字城管历史记录和日志数据库中的反馈信息，贝叶斯分类器根据信息和记录进行离线学习和训练，并对其进行十折交叉学习，将新训练的贝叶斯模型与现在正在使用的模型进行准确性对比，若新的模型准确性高于现有模型，则进行模型更新。

优选的，所述数字城管历史数据包括案卷编码、案卷类型、案卷大类编码、案卷小类、案卷描述和位置描述，并采用公式描述来定义为H＝{ajbm,ajlx,ajdl,ajxl,ajms,ajwzms}。

优选的，所述数字城管历史数据对其进行异常数据处理，包括案卷编码重复、案卷大类或小类编码超过定义范围，令处理之后为H′。

优选的，将H′中的ajdl,ajxl,ajms抽离出来，对ajms做分词处理，使ajms→ajms″＝{w₁,w₂,…,w_i}，其中ajms′表示经过分词处理之后的案卷描述信息，w_i是分词之后的第i个词；在分词过程中需要注意停用词与错别字的问题，有以下步骤：

步骤一、根据停用词库去除ajms里的敏感词、脏话、语气叹词以及停用词后得到ajms′；

步骤二、根据错别字库将ajms′中存在错别字纠正为正确的词语，得到ajms″；

将ajdl,ajxl进行融合，得到新的案卷类别编码ajlxbm，将ajlxbm与ajms″组和成新的二元组S＝＜ajms″,ajlxbm＞。

优选的，采用TF-IDF算法对S进行关键词提取，对每个ajms″中的w_i，分别统计其TF_i、IDF_i，然后按以下公式计算其TF-IDF值，

计算ajms″中的平均TF-IDF值

其中，|ajms″|是ajms″中的词语个数，

将ajms″中TF-IDF值大于等于的词语作为关键词，得到新的ajms″′，对二元组进行S更新，得到新的二元组S′＝＜ajms″′,ajlxbm＞。

优选的，所述贝叶斯分类器可由以下方式得到：首先贝叶斯公式为：

p(x|y)＝p(x,y)/p(y) (1)

p(y|x)＝p(x,y)/p(x) (2)

p(x,y)＝p(y|x)p(x) (3)

p(x|y)＝p(y|x)p(x)/p(y) (4)

其次将S′对其中的数据，按照＜ajms″′,ajlxbm＞，分别计算整个ajlxbm中出现的所有词语分别对应每个类别的概率，其计算公式如公式(5)所示：

其中分子加1与分母加n是做拉普拉斯平滑操作，防止分子中出现为1的情况，在计算完所有的p(w_k|class_i)之后，便得到了贝叶斯分类器。

优选的，所述贝叶斯分类器的修正的方式为：将数字城管历史记录与步骤4的日志数据库数据处理按步骤1、步骤2和步骤3处理之后，对其进行随机十等分，每次取其中九份进行第四步贝叶斯模型训练，并使用第十份数据进行模型准确性验证，重复十次，记录新的贝叶斯分类器的准确性，将新训练的贝叶斯模型与现在正在使用的模型进行准确性对比，若新的模型准确性高于现有模型，则进行模型更新。

本发明的优点在于：该种基于自然语言处理的全民社管任务分发方法，通过采集数字城管的历史上报数据，基于自然语言处理和贝叶斯段文本分类算法，一方面，深度挖掘用户上报信息的含义，并通过相关历史标签数据训练结果有效对上报任务进行分类；另一方面，上报任务的自动分发有效代理了人工任务分类，不仅提高了效率，节约了成本，而且提升了用户体验，对于增强市民自主管理意识，提升市民对政府服务的满意度，促进社会和谐稳定正在产生重大的意义。

附图说明

图1为本发明的分发流程图。

图2为本发明的中贝叶斯分类器训练流程图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

如图1和图2所示，一种基于自然语言处理的全民社管任务分发方法，其特征在于，该方法包括以下主要步骤：

值得注意的是，所述数字城管历史数据包括案卷编码、案卷类型、案卷大类编码、案卷小类、案卷描述和位置描述，并采用公式描述来定义为H＝{ajbm,ajlx,ajdl,ajxl,ajms,ajwzms}。

在本实施例中，所述数字城管历史数据对其进行异常数据处理，包括案卷编码重复、案卷大类或小类编码超过定义范围，令处理之后为H′，由于数字城管系统的特性，不存在空字段问题。需要对H做异常数据处理，包括案卷编码重复、案卷大类或小类编码超过定义范围。

在本实施例中，将H′中的ajdl,ajxl,ajms抽离出来，对ajms做分词处理，使ajms→ajms″＝{w₁,w₂,…,w_i}，其中ajms′表示经过分词处理之后的案卷描述信息，w_i是分词之后的第i个词；在分词过程中需要注意停用词与错别字的问题，有以下步骤：

在本实施例中，采用TF-IDF算法对S进行关键词提取，对每个ajms″中的w_i，分别统计其TF_i、IDF_i，然后按以下公式计算其TF-IDF值，

计算ajms″中的平均TF-IDF值

其中，|ajms″|是ajms″中的词语个数，

将ajms″中TF-IDF值大于等于的词语作为关键词，得到新的ajms″′，对二元组进行S更新，得到新的二元组S′＝＜ajms″′,ajlxbm＞，TF-IDF的主要思想就是：如果某个词在一篇文档中出现的频率高，即它的词频(TF)高；并且在语料库中其他文档中很少出现，即逆文档频频(IDF)高，则认为这个词具有很好的类别区分能力。

在本实施例中，所述贝叶斯分类器可由以下方式得到：首先贝叶斯公式为：

p(x|y)＝p(x,y)/p(y) (1)

p(y|x)＝p(x,y)/p(x) (2)

p(x,y)＝p(y|x)p(x) (3)

p(x|y)＝p(y|x)p(x)/p(y) (4)

得到贝叶斯分类器之后便可进行全民社管任务分发工作。设新上报得到信息为shxx，首先对shxx做分词操作，包括近义词、敏感词处理，然后对其进行关键词提取，得到上报信息关键词列表shxx′＝{w₁,w₂,…,w_k}，对于shxx′中的每一个词分别计算器所属类别，最后将类别概率中最大的类别作为贝叶斯分类的分类结果，并向相关部门进行分发，同时由相关部门对本次分发准确性做标记，并将本次处理过程存入日志数据库中。

此外，所述贝叶斯分类器的修正的方式为：将数字城管历史记录与步骤4的日志数据库数据处理按步骤1、步骤2和步骤3处理之后，对其进行随机十等分，每次取其中九份进行第四步贝叶斯模型训练，并使用第十份数据进行模型准确性验证，重复十次，记录新的贝叶斯分类器的准确性，将新训练的贝叶斯模型与现在正在使用的模型进行准确性对比，若新的模型准确性高于现有模型，则进行模型更新。

基于上述，该种基于自然语言处理的全民社管任务分发方法，该方法包括以下主要步骤：(1)数据预处理；(2)分词操作；(3)采用贝叶斯算法对步骤1和步骤2进行模型训练，并得出贝叶斯分类器模型；(4)将上报信息进行分类，并分发到相关的部门进行处理，相关部门对分类的准确性做标记，并将标记和处理过程反馈到日志数据库中；(5)贝叶斯分类器的修正，通过采集数字城管的历史上报数据，基于自然语言处理和贝叶斯段文本分类算法，一方面，深度挖掘用户上报信息的含义，并通过相关历史标签数据训练结果有效对上报任务进行分类；另一方面，上报任务的自动分发有效代理了人工任务分类，不仅提高了效率，节约了成本，而且提升了用户体验，对于增强市民自主管理意识，提升市民对政府服务的满意度，促进社会和谐稳定正在产生重大的意义。

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims

1.一种基于自然语言处理的全民社管任务分发方法，其特征在于，该方法包括以下主要步骤：

2.根据权利要求1所述的一种基于自然语言处理的全民社管任务分发方法，其特征在于：所述数字城管历史数据包括案卷编码、案卷类型、案卷大类编码、案卷小类、案卷描述和位置描述，并采用公式描述来定义为H＝{ajbm,ajlx,ajdl,ajxl,ajms,ajwzms}。

3.根据权利要求1所述的一种基于自然语言处理的全民社管任务分发方法，其特征在于：所述数字城管历史数据对其进行异常数据处理，包括案卷编码重复、案卷大类或小类编码超过定义范围，令处理之后为H′。

4.根据权利要求3所述的一种基于自然语言处理的全民社管任务分发方法，其特征在于：将H′中的ajdl,ajxl,ajms抽离出来，对ajms做分词处理，使ajms→ajms″＝{w₁,w₂,…,w_i}，其中ajms′表示经过分词处理之后的案卷描述信息，w_i是分词之后的第i个词；在分词过程中需要注意停用词与错别字的问题，有以下步骤：

5.根据权利要求4所述的一种基于自然语言处理的全民社管任务分发方法，其特征在于：采用TF-IDF算法对S进行关键词提取，对每个ajms″中的w_i，分别统计其TF_i、IDF_i，然后按以下公式计算其TF-IDF值，

计算ajms″中的平均TF-IDF值

其中，|ajms″是ajms″中的词语个数，

6.根据权利要求5所述的一种基于自然语言处理的全民社管任务分发方法，其特征在于：所述贝叶斯分类器可由以下方式得到：首先贝叶斯公式为：

p(x|y)＝p(x,y)/p(y) (1)

p(y|x)＝p(x,y)/p(x) (2)

p(x,y)＝p(y|x)p(x) (3)

p(x|y)＝p(y|x)p(x)/p(y) (4)

7.根据权利要求1所述的一种基于自然语言处理的全民社管任务分发方法，其特征在于：所述贝叶斯分类器的修正的方式为：将数字城管历史记录与步骤4的日志数据库数据处理按步骤1、步骤2和步骤3处理之后，对其进行随机十等分，每次取其中九份进行第四步贝叶斯模型训练，并使用第十份数据进行模型准确性验证，重复十次，记录新的贝叶斯分类器的准确性，将新训练的贝叶斯模型与现在正在使用的模型进行准确性对比，若新的模型准确性高于现有模型，则进行模型更新。