CN112581106B

CN112581106B - 一种融合处置机构网格语义的政务事件自动派单方法

Info

Publication number: CN112581106B
Application number: CN202110202001.4A
Authority: CN
Inventors: 刘秀; 钱程扬; 杨亚宁; 冯赛; 武汉
Original assignee: Suzhou Industrial Park Surveying Mapping And Geoinformation Co ltd
Current assignee: Yuance Information Technology Co ltd
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2021-05-28
Anticipated expiration: 2041-02-23
Also published as: CN112581106A

Abstract

本发明提供一种融合处置机构网格语义的政务事件自动派单方法，包括如下步骤：S10.政务事件历史数据集获取：S20.事件数据预处理与语义特征提取；S30.构建事件处置方式预测模型

：以历史数据集和与历史数据对应的地理位置作为输入，以处置机构编码作为最终输出，采用深度神经网络方式构建并训练预测模型

；S40.构建事件处置机构预测模型

；S50.使用训练获得的预测模型

和预测模型

来进行预测，输出需要处理该事件的对应事件机构编码。本发明通过一种基于深度神经网络的模型来同时预测业务类型和处置机构所在网格，并能够通过处置机构预测模型来获得最终的处置机构编码。

Description

一种融合处置机构网格语义的政务事件自动派单方法

技术领域

本发明涉及政府热线事件的智能化处理技术领域，特别涉及一种融合处置机构网格语义的政务事件自动派单方法。

背景技术

随着互联网和大数据技术的发展，为加快建设服务型政府，提高社会治理的水平，建设12345等热线服务平台已成为“互联网+政务服务”体系建设的重要内容，这些平台普遍整合了包括电话、网站、微信、APP等在内的线上线下各类服务渠道，为政民互动提供了高效便捷的沟通桥梁。在一个中大规模的城市，政务热线每年可以产生数以百万计的事件数据，这些数据的主要内容以文本方式被记录在数据库中，而在派单和处理过程中是有派单人员和网格人员等基层执行者逐条进行处理。因此，迫切需要结合智能化手段来构建对政务事件数据的自动化语义理解能力，提高事项理解、派单和处理的效率。

事件的高效派发处置取决于两个关键因素：（1）直接依赖政务服务的责任清单和处置规则，根据事件类型和业务管理类型梳理责任清单是社会综合整理普遍需要的基础性工作，但各地市实际情况复杂多变，因此预测模型的普适性会面临较大挑战。（2）通常较多关注事件发生的地点，然而最终处置机构在纵向上可能位于不同精细程度（市级、区级、街道级、社区级等）的管理网格，在横向上可能涉及不同的业务管理条线，且这些业务条线也大多有各自的多层网格划分。

因此，事件究竟该由哪个级别的哪个机构来负责处置，同时涉及到业务类别和地理位置两类信息，且是一个综合了多级业务归口信息、多层空间网格信息之后的一个决策问题。已公开的大部分技术或偏重于文本分类型，以同一类别体系下的标签预测为目标；或是仅将地理空间信息用作事件位置标识，未将空间信息作为一种特征或规律用于模型的学习。

中国专利文献CN104008108A公开了一种GIS地图栅格化处理方法、装置及投诉处理方法、系统。该文件使用地理位置的方式是采用一种栅格化方法将全幅地图划分为多个网格，而这些网格的作用仅仅用于标识投诉文本所处的地理位置所在，其目的主要用于将客户投诉定位到对应的区域，用于分析和解决该区域的投诉问题。对于如何将文本事件所获取的地理坐标当做输入源之一，建立学习模型以实现同时从地理位置和业务信息中学习事件特征，从而解决事件派单预测问题方面，未见提及。

中国专利文献CN110543562A提出了一种基于事件图谱的城市治理事件自动分拨方法及系统，该文件公开了通过事件描述结合空间位置的自动分拨方法，进一步提高了转派效率。具体使用的方法是从事件信息中获取地址描述，并基于该地址所在空间位置确定事件处理单位，及其类别预测和空间位置的获取是两个独立的部分，分别确定类别和位置后再基于图谱确定处理机构，这种方法有区域局限性，若更换地区，原有图谱方案无法发挥作用，且其位置的确定是基于分词提取和POI关系库匹配，对于不在POI库中的地址，则无法得出结果。该文献未针对以下问题提出解决方案：（1）空间位置上的责任主体会因为业务分类、区域权责的不同而有差异；（2）事件分类预测模型的过程仅使用自然语言文本处理技术，未结合地理位置进行联合训练，即自动分派和地理定位是两个完全独立的过程，因此地理位置和业务分类隐含的深层特征没有进行进一步提取，难获得交叉。

中国专利文献CN109325116A提出了一种基于深度学习的城市事件自动分类派发方法及装置。该文献公布了一个基于卷积神经网络模型的分类模型，进行业务编码分类，相比于人工分类，实现了机器根据模型一次运算，有助于系统运行效率的提升。但对地理信息的使用仅限于从事件描述中提取地址信息进行事件定位，未对地址信息的深层语义进行提取，也未将业务分类和地理位置进行模型深度融合。

中国专利文献CN108573031A公开了一种基于内容的投诉分类方法和系统，尽管也是对于政务类热线文本的分类处理，但是只考虑了职能部门的分发处理。而实际中，结合我国条块融合管理的现状，实际中派发部门除了这种职能类的条线部门，还包括市-区-街道-社区-网格这些“块”，只考虑职能无法实现不同位置的派发，比如以该专利中的实例为例，其虽然具备确定“某某街有小贩乱摆摊行为。”的细分结果为城管大队的能力，但是无法确定具体为哪个街道的城市管理部门，因此一般需要层层下派，而更高效的方式应是明确派发至具体的处置单位。此外，该专利的分类方法采用的是朴素贝叶斯和决策树，是比较传统的机器学习方法。

综上所述，已有技术或部分解决了事件的业务分类问题，或在此基础上引入了事件发生的地理位置用于辅助判断。但对地理位置的关注局限于事件发生位置，并未涉及处理机构所处网格的预测判别。鉴于处置机构的最终判定是一个存在较高复杂性的决策过程，基于上述信息很难直接利用学习模型来完整判断和预测事件所对应的最终处置机构。此外，已有技术因为没有同时兼顾业务类别和空间位置的联合训练模型，自动派单方法在不同城市之间的通用性将受到限制。

针对现有技术中存在的问题，本发明公布了一种融合空间位置表征的政务事件派单预测模型，该模型将地理位置融合入最终派单机构的预测过程。

发明内容

为解决现有技术中存在的上述问题，本发明在关注事件发生位置作为输入项的同时，明确提出了事件处置机构所在的空间网格，应当作为模型预测输出的重要组成部分，并结合这项改进，进一步提升事件派单的处理效率。

本发明提供的具体技术方案如下：一种融合处置机构网格语义的政务事件自动派单方法，包括如下步骤：

S10. 政务事件历史数据集获取：政务事件历史数据的重要关键字段包括：事件类别，事件描述文本，网格编号、事件处置机构编码；其中，事件类别包括事件大类、事件中类、事件小类，事件大、中、小类取得相应的业务编码；事件处置机构为派单处置机构；事件描述文本为接线员根据热线电话信息记录下来的，与详细经过和用户诉求相关的完整文字描述；

S20. 事件数据预处理与语义特征提取：先对事件描述文本进行预处理，然后获取词向量矩阵

，提取事件发生地点对应的地名地址信息，并获得地名地址向量

；

S30. 构建事件处置方式预测模型

：以步骤获取的S20词向量矩阵

和地名地址向量

作为输入，以事件类别的业务编码和网格编号作为最终输出，采用深度神经网络方式构建并训练事件处置方式预测模型

；

S40. 构建事件处置机构预测模型

：以事件类别对应的业务编码和网格编号作为输入，事件处置机构编码为输出，采用SVM 模型训练并构建事件处置机构预测模型

；

S50.新发生事件的处置机构预测：使用训练获得的事件处置方式预测模型

和事件处置机构预测模型

来进行预测，输出需要处理该事件的对应事件处置机构编码。

具体地，步骤S50中的新事件的描述文本经过S20相同的预处理与语义特征提取后，输入到模型

，通过S303的事件派单处置方式判定，获得新事件的各级事件类别的业务编码和网格编码，再将业务编码和网格编码输入到模型

，获得最终机构编码。

优选地，S20步骤中所提及的预处理包括文本清洗与过滤、停用词处理、标点符号处理、文本分词等技术环节。在更优化条件下，可以引入用户自定义的政务服务与社会治理的领域词典，来提高文本分析的性能和准确性。

优选地，通过S20步骤中语义特征提取获得地名地址向量

和词向量矩阵

；

其中，地名地址向量

获取步骤为：

S201.事件发生地点的解析：根据事件发生地点的文字描述获取与事件发生直接相关的地名地址信息，并对其进行标准化处理；

S202.通过获取词嵌入表征

和经纬度向量

，求得地名地址向量

；

词向量矩阵

的获取步骤为：

S2001.事件描述文本的语义特征提取：使用Word2Vec技术用于对分词后的文本序列进行词嵌入表征，获得事件描述文本的每一个词的预训练词向量；

S2002.事件描述文本的语义特征映射：基于事件中词序列的顺序结构，将事件描述文本序列转换为词向量矩阵

，设置词序列的长度为定值a，超出部分截断，而不足的使用0补齐。

其中，本发明中事件描述文本的语义特征映射原理是对词序列进行截断后在映射到词向量矩阵，不是截断向量矩阵。

优选地，步骤S202中地名地址向量

获取方法为包括如下步骤：

S2021.事件发生地点的地理编码：基于地理编码坐标的计算和推测方法，获得地名地址的经纬度坐标信息解算，以能获取的最高精度经纬度坐标为准，无法准确获得经纬度坐标的记录，则以获得的最小行政区域范围中心点为输出经纬度坐标；对所获得的经纬度坐标进行归一化处理，得到经纬度向量

；

S2022.事件发生地点的语义特征提取：基于Word2Vec技术，通过预训练实现地址和地名信息的词嵌入表征

，由于其主要表征地理位置，

隐含了地理位置的语义特征；

S2023. 将词嵌入表征

和经纬度向量

拼接，获得地名地址向量

，即：

。

优选地，所述S30所述的构建事件处置方式预测模型

，其包括如下步骤：

S301.事件派单处置方式建模：深层特征提取模块同时使用词向量矩阵

和地名地址向量

作为输入；

S302.派单方式预测的损失定义

及训练事件处置方式预测模型

过程：样本数据集按一定比例随机分割成训练集和验证集，损失定义L考虑了业务类型的预测损失

和处置机构所处网格的预测损失

，其中，

由业务大、中、小各类预测损失构成；

由各层网格预测局部损失和全局损失共同构成；其公式如下：

每一轮迭代完成后均计算验证集的损失，当验证集损失连续十轮没有增加时，停止迭代，保留损失最小的模型参数；

S303.事件派单处置方式预测结果判定：将训练后的事件处置预测模型

输入词向量矩阵

和地名地址向量

，输出获得事件分别在各级事件分类下的概率分布以及网格编码的全局概率分布，取各级事件分类下的最大概率对应的事件类别作为事件在该级分类下的预测类别；网格编码的全局概率分布，其每个值在0到1之间，表示事件落在该网格（含各级网格）的可能性，取超过阈值K 的为预测网格。

优选地，业务类型的预测损失

和机构所处网格的预测损失

计算方式如下：

为局部损失，

为全局损失，

为各层事业类别的业务编码的损失权重，c为事件类别，h为层数，H为最大层数，

为各层网格编码损失权重，a 为网格编码；

为样本个数，

为多分类交叉熵函数，

为二分类交叉函数，

为第

个样本在第h层所含业务类别的真实概率分布，

为第

个样本在第h层所含业务类别的预测概率分布，

为第

个样本在第h层所含网格类别的真实概率分布，

为第

个样本在第h层所含网格类别的预测概率分布，

为第

个样本所有网格类别的真实概率分布，

为第

个样本所有网格类别的预测概率分布。

优选地，步骤S301事件派单处置方式建模，具体包括：

S3011.事件类别预测模块：使用CNN结构的网络从词向量矩阵

中提取业务语义特征，获得特征向量

，特征向量

经过隐层

，

最终获得

，每个隐层

由前一层级的隐层输出

和当前的特征向量

共同决定；其中，

是通过

的非线性变化得到，经过不同隐层分支输出得到大、中、小三个层级的事件类别的业务编码概率分布

,其中i 表示层级，

；h为隐层；

S3012.处置机构网格编号预测模块：将事件类别预测的最终隐层

通过非线性变换得到

，将

和表征地理空间位置的向量

进行拼接作为空间网格编码预测模块的输入，与事件类别预测模块类似，经过多个隐层得到全局输出，经过隐层分支分别得到每级网格编码的局部输出，每个隐层由前一隐层输出和输入向量共同决定，空间网格编码预测的最终输出由每级的局部输出和全局输出综合得到。

优选地，空间网格编码预测模块的最终输出计算公式为：

其中，

为处置机构所在空间网格编码预测的最终输出，

为处置机构所在网格编码的全局预测概率，

为局部网格预测概率，此外，

为权重系数，用于调节全局预测概率和局部预测概率之间的权重，A为网格编码，H为最大层数。

优选地，步骤S3011中隐层

通过如下公式计算得到，

其中，

为激活函数ReLU，

为权重项，

为偏置项；

步骤S3011中事件类别预测模块的最终输出

通过如下公式计算得到，

其中，

为softmax函数，

为权重项，

为偏置项。

本发明基于自然语言处理技术和地理位置语义理解对政务事件描述文本进行解析，通过一种基于深度神经网络的模型来同时预测业务类型和处置机构所在网格，并能够通过处置机构预测模型来获得最终的处置机构编码。

与现有技术相对比，本发明的有益效果如下：

（1）考虑到不同业务类别的投诉，其处置机构可能对应不同行政级别这一特点，在预测模型中将事件类别信息和地理位置信息做了融合，使得神经网络能够从中学习获得两类信息的交互特征。

（2）本发明中对处置机构网格的预测过程不需要依赖于本地机构坐标信息，而使用一定程度缓解了地址坐标未登记完全的问题。

（3）本发明中分级预测的方式考虑了业务类别标签和网格编码标签的内部层级依赖关系。且派发起点可以是任意级别的行政层级，而预测结果可能是任意粒度的网格编码，这也符合政务事件处置的实际情况。

（4）本发明可用于自动确定处置机构，使派单流程自动化、智能化，有助于简化坐席人员进行事件登记派发时的人工判断和手动选取操作过程，降低坐席人员的工作量，提高事件整体处理效率。

（5）本发明是一种基于业务分类和地理位置的联合训练模型，因此已训练好的模型还可以应用于业务归口或网格划分模式不完全一致的其他城市或地区，仅需要基于当地的历史数据通过迁移学习的方式来对该模型进行优化训练即可。

（6）大部分现有技术偏重于文本分类型，其分类目标都是同一类别体系下的标签，确定文本属于该类别体系下的某个或多个标签。然而，本发明的特殊之处在于，针对事件描述文本需要分派的处置单位的确定为目标场景，即将最终目标确立为预测输出最终需要处置该事件的具体机构。这个目标与上述其他目标的主要复杂性与差异性在于，一个具体事件的处置机构一方面与负责该事件的业务管理条线相关，也与所处地理位置，以及伴随的政府机构设置情况有关。在城市核心区，这种处理分类大多更为清晰，然而在基层乡镇或区县中，实际分工可能根据实际情况变得更为精简。因此，不同的城市和区域在职责清单层面呈现出更多的个性化，即便是同样的事情，在不同的地方和管理层级，处置机构也很有可能不同。因此，从整体上看，事件的处置机构的确定不仅需要关注文本中与业务类别相关的信息量，而且需要同时关注事件发生的地理空间位置和处置机构所在位置。

（7）与现有技术（如专利文献CN110543562A）相比，本发明中的类别预测和网格预测不是独立进行，而是融合在一个模型中，支持任意级别行政区作为派发起点进行模型训练，对于具有相似事件分类结构的地区，可以通过迁移学习快速进行训练预测，本发明通过预训练模型获取位置实体的特征向量表示，并辅以坐标信息提高准确率，能缓解不在POI库中地址的问题。

（8）目前因为其中业务信息和空间信息的复杂性，想要高效地判定具体的派单对象，迫切需要减少对坐席工作人员不均衡的经验积累和人为判断能力的依赖，本发明基于以上现状，采用构建深度学习模型的方式，将业务信息和空间信息同时作为模型的输入数据，通过神经网络的非线性拟合能力来对事件处置和派单问题进行深层次特征提取和建模，以实现从文字段落式事件描述到明确判别最终处置机构的自动化机器预测模式。该方法在降低事件分派整体难度、提高城市治理的处置效率、节省大量消耗的人力资源，减少经验不均衡带来的错误风险等方面具有重要意义。

（9）本发明提供的预测模型

考虑的损失，具体为业务类型的预测损失

和机构所处网格的预测损失

，从而进行模型训练，使得预测更加准确。

附图说明

图1为本发明提供的网格规划示意图。

图2是本发明中事件处置机构预测判定的流程图。

图3是本发明中事件处置方式预测模型

的结构图。

附图标记如下：

a：社区；b：街道；c：区。

具体实施方式

下面结合附图，对本发明提供的一种融合处置机构网格语义的政务事件自动派单方法进行具体说明。

本发明针对事件描述文本需要分派的处置机构的确定为目标场景，即将最终目标确立为预测输出最终需要处理该事件的具体机构。这个目标与上述其他目标的主要复杂性与差异性在于，一个具体事件的处置机构一方面与负责该事件的业务管理条线相关，也与所处地理位置，以及伴随的政府机构设置情况有关。在城市核心区，这种处理分类大多更为清晰，然而在基层乡镇或区县中，实际分工可能根据实际情况变得更为精简。因此，不同的城市和区域在职责清单层面呈现出更多的个性化，即便是同样的事情，在不同的地方和管理层级，处置机构也很有可能不同。因此，从整体上看，事件的处置机构的确定不仅需要关注文本中与业务类别相关的信息量，而且需要同时关注事件发生的地理空间位置和处置机构所在位置。

如图1所示，处置机构分为三层：分别为社区a，街道b 和区c；以处置机构判定为目标，其难点是处置机构与业务类别并不是一一对应关系。比如判定了一条文本投诉为水问题，已经知道了业务类别，但仍然无法确定由哪个机构来处理，一是因为不同地区的授权处置机构不同，比如A区停水全部由某水务公司管理，而B街道的停水由街道集中管理；二是因为不同地区行政管理的下沉程度不同，比如C区停水由行政单位街道某下辖社区管理；因此，在发明中除了确定类别信息，还需要确定网格信息，且本专利中这个网格信息包含两个层次：首先，提取出来的位置属于哪个网格，如目标位置本身可以分派给1、12、121三种不同归属，记作（1,12,121）；其次，属于哪一层的网格，即网格深度，假设为A区网格规划，停水处置机构为水务公司，其实际位置应截止到区（1），假设为B区网格规划，停水处置机构为某街道，则其实际位置应截止到街道（1,12），假设为C区网格规划，停水处置机构为某社区，则其实际位置应截止到社区（1,12,121），可知，同一类别在不同位置，会产生不同的位置路径。反之，不同类别在同一位置，也会产生不同的位置路径，如A区同位置的邻里纠纷事件由具体社区管理，则其实际位置路径为（1,12,121）。因此本专利中综合了类别信息和位置信息，并构建模型来联合预测业务类别和机构所处位置。在二者基础上，可通过另一个独立的分类算法（如SVM）来实现对处置机构的预测判定。

具体地，如图2-3所示，一种融合处置机构网格语义的政务事件自动派单方法，包括如下步骤：

S10. 政务事件历史数据集获取：政务事件历史数据的重要关键字段包括：事件类别，事件描述文本，网格编号、处置机构编码；其中，事件类别包括事件大类、事件中类、事件小类，事件大、中、小类应取得相应的业务编码；处置机构为派单处置机构；事件描述文本为接线员根据热线电话信息记录下来的，针对事件详细经过和用户诉求相关的完整文字描述；

其中，网格编码来源于每条投诉文本实际处置机构直属行政区域的地理编码，如对流动摊贩的处置机构为“唯亭街道执法大队”，则其直属行政区域“唯亭街道”的网格编码为“320571052”，假定以市级行政区为根节点，目标网格为包含区-街道-社区的三级网格，则抽取其标签为“71”、“71052”，其中“71”为 “工业园区”的区级网格编码，“71052”为“唯亭街道”的街道级网格编码。又如对无证无照的处置机构为“区市场监督管理局”，则其直属行政区域为园区，对应网格编码“320571”，抽取标签为“71”

，提取事件发生地点对应的地名地址信息，并获得地名地址信息的向量表示

；

其中，本发明在获取词向量矩阵

和地名地址向量之前均需要对事件描述文本进行预处理，其中，本发明提供的预处理包括文本清洗与过滤、停用词处理、标点符号处理、文本分词等技术环节。在更优化条件下，可以引入用户自定义的政务服务与社会治理的领域词典，来提高文本分析的性能和准确性。

其中，通过S20步骤中所提及的事件数据预处理与语义特征提取获得地名地址向量

和词向量矩阵

；其中，地名地址向量

获取步骤为：

S202.通过获取词嵌入表征

和经纬度向量

，求得地名地址向量

；

词向量矩阵

的获取步骤为：

，设置词序列的长度为定值a，超出部分截断，而不足的用0补齐。其中，本发明中事件描述文本的语义特征映射原理是对词序列进行截断后在映射到词向量矩阵，不是截断向量矩阵。

具体地，步骤S202中地名地址向量

获取方法为包括如下步骤：

；

，由于其主要表征地理位置，

隐含了地理位置的语义特征；

S2023. 将词嵌入表征

和经纬度向量

拼接，获得地名地址向量

，

即：

。

S30. 构建事件处置方式预测模型

：以历史数据集中的事件描述文本和S20中获取的与历史数据对应的地理位置信息作为输入，以事件类别和网格编号作为最终输出，采用深度神经网络方式构建并训练预测模型

；

其中，本发明提供的所述S30所述的构建事件处置方式预测模型

，其包括如下步骤：

和地名地址向量

作为输入；

S302.派单方式预测的损失定义

及训练事件处置方式预测模型

过程：样本数据集按一定比例随机分割成训练集和验证集，损失定义

考虑了业务类型的预测损失

和处置机构所处网格的预测损失

，其中，

由业务大、中、小各类预测损失构成；

由各层网格预测局部损失和全局损失函共同构成；其公式如下：

其中，业务类型的预测损失

和机构所处网格的预测损失

计算方式如下：

为局部损失，

为全局损失，

为各层事业类别的业务编码的损失权重，c为事件类别，h 为层数，H为最大层数，

为各层网格编码损失权重，a 为网格编码；N为样本个数，

为多分类交叉熵函数，

为二分类交叉函数，

为第

个样本在第h层所含业务类别的真实概率分布，

为第

个样本在第

层所含业务类别的预测概率分布，

为第

个样本在第h层所含网格类别的真实概率分布，

为第

个样本在第h层所含网格类别的预测概率分布，

为第

个样本所有网格类别的真实概率分布，

为第

个样本所有网格类别的预测概率分布。

输入词向量矩阵

和地名地址向量

步骤S301.事件派单处置方式建模，具体包括：

S3011.事件类别预测模块：使用CNN结构的网络从词向量矩阵

中提取业务语义特征，获得特征向量

，特征向量

经过隐层

，

最终获得

，每个隐层

由前一层级的隐层输出

和当前的特征向量

共同决定；其中，

是通过

，其中i 表示层级，

；h为隐层；

其中所述卷积结构（CNN）包含卷积层和池化层，卷积层使用不同大小卷积核提取特征，如[2,3,4]，激活函数为ReLU函数，池化层采用最大池化提取主要特征，最后将主要特征拼接成一维向量作为该投诉文本的特征向量；其中隐层指的是神经网格的中间层。所述隐层均为全连接结构，并加入Dropout防止过拟合。所述事件类别预测部分的输出激活函数均采用Softmax函数。

其中，隐层

通过如下公式计算得到，

其中，

为激活函数ReLU，

权重项，

为偏置项；

其中，本发明提供的事件类别预测模块的最终输出

通过如下公式计算得到，

其中，

为softmax函数，

为权重项，

为偏置项。

通过非线性变换得到

，将

和表征地理空间位置的向量

进行拼接作为空间网格编码预测模块的输入，与事件类别预测模块类似，经过多个隐层得到全局输出，经过隐层分支分别得到每级网格编码的局部输出，每个隐层由前一隐层输出和输入向量共同决定，空间网格编码预测的最终输出由每级的局部输出和全局输出综合得到。所述网格编码预测部分的局部输出和全局输出激活函数均采用Sigmoid函数；具体地，空间网格编码预测模块的最终输出计算公式为：

其中，

为处置机构所在空间网格编码预测的最终输出，

为处置机构所在网格编码的全局预测概率，

为局部网格预测概率，此外，

S40.构建事件处置机构预测模型

：以事件类别对应的业务编码和网格编号作为输入，事件处置机构编码为输出，采用SVM 模型训练事件处置机构预测模型

；

其中，S40在模型训练的时候输入不是S30中获得的事件类别对应的业务编码和网格编号，是原始工单中的业务编码和网格编码；只有在预测的时候，输入使用的才是S30获得的事件类别对应的业务编码和网格编号；

S50.新发生事件的处置机构预测：使用训练获得的处置方式预测模型

和事件处置机构预测模型

，通过S303的预测判定方式，获得新事件的各级事件类别的业务编码和网格编码，再将业务编码和网格编码输入到模型

，获得最终的机构编码。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均包含在本发明的保护范围之内。

Claims

1.一种融合处置机构网格语义的政务事件自动派单方法，其特征在于，包括如下步骤：

S10. 政务事件历史数据集获取：政务事件历史数据的重要关键字段包括：事件类别、事件描述文本、网格编号、事件处置机构编码；其中，事件类别包括事件大类、事件中类、事件小类，事件大、中、小类取得相应的业务编码；事件处置机构为派单处置机构；事件描述文本为接线员根据热线电话信息记录下来的、与详细经过和用户诉求相关的完整文字描述；

S20. 事件数据预处理与语义特征提取：先对事件描述文本进行预处理，然后获取词向量矩阵t _v，提取事件发生地点对应的地名地址信息，并获得地名地址向量l _v；

S30. 构建事件处置方式预测模型 M_d：以步骤S20获取的词向量矩阵t _v和地名地址向量l _v作为输入，以事件类别的业务编码和网格编号作为最终输出，采用深度神经网络方式构建并训练事件处置方式预测模型 M_d；

S40. 构建事件处置机构预测模型 M_o：以事件类别对应的业务编码和网格编号作为输入，事件处置机构编码为输出，采用SVM 模型训练并构建事件处置机构预测模型M_o；

S50.新发生事件的处置机构预测：使用训练获得的事件处置方式预测模型 M_d和事件处置机构预测模型M_o来进行预测，输出需要处理该新发生事件的对应事件处置机构编码；

所述步骤S30所述的构建事件处置方式预测模型M_d，其包括如下步骤：

S301.事件派单处置方式建模：深层特征提取模块同时使用词向量矩阵t _v和地名地址向量l _v作为输入；

S302.派单方式预测的损失定义L及训练事件处置方式预测模型M_d过程：样本数据集按比例随机分割成训练集和验证集，损失定义L考虑了业务类型的预测损失L _class和处置机构所处网格的预测损失L _area，其中，L _class由业务大、中、小各类预测损失构成；L _area由各层网格预测局部损失和全局损失共同构成；其公式如下：

L=L _class+ L _area

S303.事件派单处置方式预测结果判定：将训练后的事件处置方式预测模型M_d输入词向量矩阵t _v和地名地址向量l _v，输出获得事件分别在各级事件分类下的概率分布以及网格编号的全局概率分布，取各级事件分类下的最大概率对应的事件类别的业务编码作为事件在各级分类下的预测类别；网格编号的全局概率分布，其每个值在0到1之间，表示事件落在该网格的可能性，取超过阈值K 的为预测网格。

2.如权利要求1所述的一种融合处置机构网格语义的政务事件自动派单方法，其特征在于，步骤S20中所述的对事件描述文本进行预处理包括文本清洗与过滤、停用词处理、标点符号处理、文本分词。

3.如权利要求1所述的一种融合处置机构网格语义的政务事件自动派单方法，其特征在于，通过步骤S20中所述的事件数据预处理与语义特征提取获得地名地址向量l _v和词向量矩阵t _v；

其中，地名地址向量l _v获取步骤为：

S202.通过获取词嵌入表征l _v1和经纬度向量l _v2，求得地名地址向量l _v；

词向量矩阵t _v的获取步骤为：

S2001.事件描述文本的语义特征提取：使用Word2Vec技术对分词后的文本序列进行词嵌入表征，获得事件描述文本的每一个词的预训练词向量；

S2002.事件描述文本的语义特征映射：基于事件中词序列的顺序结构，将事件描述文本序列转换为词向量矩阵t _v，设置词序列的长度为定值a，超出部分截断，而不足的使用0补齐。

4.如权利要求3所述的一种融合处置机构网格语义的政务事件自动派单方法，其特征在于，步骤S202中地名地址向量l _v获取方法为包括如下步骤：

S2021.事件发生地点的地理编码：基于地理编码坐标的计算和推测方法，获得地名地址的经纬度坐标信息解算，以能获取的最高精度经纬度坐标为准，无法准确获得经纬度坐标的记录，则以获得的最小行政区域范围中心点为输出经纬度坐标；对所获得的经纬度坐标进行归一化处理，得到经纬度向量l _v2；

S2022.事件发生地点的语义特征提取：基于Word2Vec技术，通过预训练实现地址和地名信息的词嵌入表征l _v1，由于其表征地理位置，l _v1包含了地理位置的语义特征；

S2023. 将词嵌入表征l _v1和经纬度向量l _v2拼接，获得地名地址向量l _v，即：l _v= l _v1⨁l _v2。

5.如权利要求1所述的一种融合处置机构网格语义的政务事件自动派单方法，其特征在于，步骤S50中的新发生事件的事件描述文本经过步骤S20相同的事件数据预处理与语义特征提取后，输入到事件处置方式预测模型M_d，通过步骤S303的事件派单处置方式预测结果判定，获得新发生事件的各级事件类别的业务编码和网格编号，再将业务编码和网格编号输入到事件处置机构预测模型M_o，获得最终事件处置机构编码。

6.如权利要求1所述的一种融合处置机构网格语义的政务事件自动派单方法，其特征在于，业务类型的预测损失L _class和事件处置机构所处网格的预测损失L _area计算方式如下：

L _area= L _L+L _G

L _L为局部损失，L _G为全局损失，

为各层网格编号损失权重，a为网格编号；N为样本个数；mce(*)为多分类交叉熵函数，bce(*)为二分类交叉函数，y _ci为第i个样本在第h 层所含业务类别的真实概率分布，p _ci为第i个样本在第h 层所含业务类别的预测概率分布，y _- l _i为第i个样本在第h层所含网格类别的真实概率分布，p _- l _i为第i个样本在第h 层所含网格类别的预测概率分布，y _-ɡ_i为第i个样本所有网格类别的真实概率分布，p _-ɡ_i为第i个样本所有网格类别的预测概率分布。

7.如权利要求1所述的一种融合处置机构网格语义的政务事件自动派单方法，其特征在于，步骤S301事件派单处置方式建模，具体包括：

S3011.事件类别预测模块：使用CNN结构的网络从词向量矩阵t _v中提取业务语义特征，获得特征向量fc，特征向量fc经过隐层