CN113360657A

CN113360657A - 一种公文智能分发办理方法、装置及计算机设备

Info

Publication number: CN113360657A
Application number: CN202110735686.9A
Authority: CN
Inventors: 许建兵; 费维进; 冯伟; 李军; 陶飞
Original assignee: Anhui Suncn Pap Information Technology Co ltd
Current assignee: Anhui Suncn Pap Information Technology Co ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-09-07
Anticipated expiration: 2041-06-30
Also published as: CN113360657B

Abstract

本发明提供一种公文智能分发办理方法、装置及计算机设备，其中方法包括以下步骤：对已发公文和待发公文进行文本数据预处理，分别获得已发公文和待发公文的文本词向量；建立多层神经网络模型；通过已发公文的文本词向量对多层神经网络模型进行训练，并获得已发公文的多标签二分类向量；将已发公文的多标签二分类向量与公文接收人员信息进行对应建立索引，获得人员索引标签；将待发公文的文本词向量输入训练好的多层神经网络模型进行学习，在输出中选取概率最大的标签作为待发公文标签；通过待发公文标签从人员索引标签中获取公文接收人员信息；将待发公文自动分发至公文接收人员；本申请采用自动发送公文，提高了公文派发速度和派发准确性。

Description

一种公文智能分发办理方法、装置及计算机设备

技术领域

本发明属于数据处理技术领域，特别涉及一种公文智能分发办理方法、装置及计算机设备。

背景技术

基于目前大数据的背景下，每天政务人员需要移交的公文数不胜数。但是，目前政务人员在移交过程中，需要手动选择派发对象，派发的公文类型，主要过程是政务人员根据以往的经验或者特定政务人员要求等去派发公文。这种手动派发的过程，资源耗费成本比较大，且派发时间也较长，当政务人员需派发公文较多时，会以一定概率出现派发错误等现象，这样不仅浪费政务人员的时间，而且很大程度会造成正确派发的延误。

传统的业务场景是用直接文本相似匹配、关联规则和聚类的单一算法方式进行派发公文，或者人为手动选择派发的方式去派发公文。

根据传统相似匹配算法进行派送，其中会涉及到相似属性的判断以及人为事先定义公文类别标签。有些公文之间会涉及到相关关系，若是采用关联规则算法，会涉及到政务人员收到不属于自己的公文。

聚类算法聚类相似公文时，其中聚类的数目不好确定，以及每次输入数据都得重新聚类比较耗时费力，这种形式对单个工作人员可能会处理多个标签的文件时，会发生聚类标签不准，进而派发的文件会有遗漏。

现有的处理长文本数据，存在以下问题：

1.传统的处理长文本数据，概念是基于本次业务场景，通过人的过往发送公文经验去派送待处理的公文。人的过往发送公文经验，在一定程度上，可以基于文本之间出现很大的相似度方式去派送，但是，对于很长的文本来说，查看它的内容以及标题等后在派送，会浪费很多的时间，甚至这种派发文件的人员可能会出现更换，可替代性太弱。

2.基于传统相似匹配去度量派送的公文，一般来说，常用的算法是计算文本之间的距离的理念的欧式距离或者余弦定理等。一方面，算法端这类算法比较成熟，处理也不复杂，但是相似度的阈值(-1，1)不是很好界定，还会出现文本可长可短等情景，直接比较相似度，会一定程度增加相似性匹配的困难。另一方面，从数据出发，以往的公文之间会存在一定的联系，当新的公文出现时，会出现多个相关性等，会一定程度上，造成相关性混乱，进而导致公文派送错误。

3.基于聚类的层面去派送需派送的公文，聚类算法模块实现也较容易。但是，聚类的数目，也就是本文涉及的多分类标签的标签，很不好确定，其次，以往公文之间会出现一定的相似性当新文本数据进行聚类时，会不会出现一定程度的聚类重合进而影响聚类的效果，若是进行每个类一次聚时，会避免聚类重合，但是聚类的数目很难界定。

发明内容

针对上述问题，本发明提供一种公文智能分发办理方法、装置及计算机设备，采用自动分发公文。

一种公文智能分发办理方法，包括以下步骤：

对已发公文和待发公文进行文本数据预处理，分别获得已发公文和待发公文的文本词向量；

建立多层神经网络模型；

通过已发公文的文本词向量对多层神经网络模型进行训练，并获得已发公文的多标签二分类向量；

将已发公文的多标签二分类向量与公文接收人员信息进行对应建立索引，获得人员索引标签；

将待发公文的文本词向量输入训练好的多层神经网络模型进行学习，在输出中选取概率最大的标签作为待发公文标签；

通过待发公文标签从人员索引标签中获取公文接收人员信息；

将待发公文自动分发至公文接收人员。

进一步的，文本数据预处理包括以下步骤：

对公文的文本标题和内容，分别进行结巴分词，获取公文标题词语集合和内容词语集合；

将标题词语集合和内容词语集合输入word2vec模型进行训练，获得公文标题的词向量和内容的词向量；

对公文标题的词向量和内容的词向量赋予权重并进行合并，获取公文的文本词向量。

进一步的，通过已发公文的文本词向量对多层神经网络模型进行训练，并获得已发公文的多标签二分类向量，具体如下：

通过多层神经网络模型对已发公文的文本词向量进行特征提取学习，获得已发公文的特征向量；

采用sigmoid做多层神经网络模型输出层的激活函数，对已发公文的特征向量进行二分类处理，获得已发公文的标签的集合向量矩阵；

采用binary crossentropy损失函数，对已发公文的标签的集合向量矩阵进行修正，获得已发公文的多标签二分类向量。

进一步的，将已发公文的多标签二分类向量与公文接收人员信息进行对应建立索引，获得人员索引标签，具体如下：

收集已分发公文所对应的第一标签和接收人员信息；

合并已分发公文的多标签二分类向量和接收人员信息，获得规则库；

对规则库中的分发公文的标签与所对应的接收人员建立标签索引，获得人员索引标签。

进一步的，待发公文自动分发采用邮件形式发送。

进一步的，结巴分词，使用停用词词典以及自定义词典。

进一步的，多层神经网络模型包括输入层、隐藏层、输出层。

本发明还提供一种公文智能分发办理装置，包括：

获取模块，用于对已发公文和待发公文进行文本数据预处理，分别获得已发公文和待发公文的文本词向量；

建立模块，用于建立多层神经网络模型；

第一计算模块，用于通过已发公文的文本词向量对多层神经网络模型进行训练，并获得已发公文的多标签二分类向量；

索引模块，用于将已发公文的多标签二分类向量与公文接收人员信息进行对应建立索引，获得人员索引标签；

第二计算模块，用于将待发公文的文本词向量输入训练好的多层神经网络模型进行学习，在输出中选取概率最大的标签作为待发公文标签；

提取模块，用于通过待发公文标签从人员索引标签中获取公文接收人员信息；

发送模块，用于将待发公文自动分发至公文接收人员。

进一步的，获取模块包括数据处理单元，

数据处理单元用于对公文的文本标题和内容，分别进行结巴分词，获取公文标题词语集合和内容词语集合；

数据处理单元还用于将标题词语集合和内容词语集合输入word2vec模型进行训练，获得公文标题的词向量和内容的词向量；

数据处理单元还用于将对公文标题的词向量和内容的词向量赋予权重并进行合并，获取公文的文本词向量。

进一步的，第一计算模块包括：

第一计算子单元，用于通过多层神经网络模型对已发公文的文本词向量进行特征提取学习，获得已发公文的特征向量；

第二计算子单元，用于采用sigmoid做多层神经网络模型输出层的激活函数，对已发公文的特征向量进行二分类处理，获得已发公文的标签的集合向量矩阵；

第三计算子单元，用于采用binary crossentropy损失函数，对已发公文的标签的集合向量矩阵进行修正，获得已发公文的多标签二分类向量。

进一步的，索引模块包括：

收集单元，用于收集已分发公文所对应的第一标签和接收人员信息；

合并单元，用于合并已分发公文的多标签二分类向量和接收人员信息，获得规则库；

映射单元，用于对规则库中的分发公文的标签与所对应的接收人员建立标签索引，获得人员索引标签。

本发明还提供一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，处理器执行计算机程序时实现公文智能分发办理方法的步骤。

本发明的有益效果：提高了公文派发速度和派发准确性，不会遗漏相关需被分发人员；采用自动发送公文，简化了人员工作，提高了工作效率高。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明实施例的一种公文智能分发办理方法的流程示意图；

图2示出了根据本发明实施例的一种公文智能分发办理方法的文本数据预处理流程示意图；

图3示出了根据本发明实施例的一种公文智能分发办理方法的对多层神经网络模型进行训练流程示意图；

图4示出了根据本发明实施例的一种公文智能分发办理方法的获得人员索引标签流程示意图；

图5示出了根据本发明实施例的一种公文智能分发办理方法的邮件登录流程示意图；

图6示出了根据本发明实施例的一种公文智能分发办理方法的邮件发送流程示意图；

图7示出了根据本发明实施例的一种公文智能分发办理装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1示出了根据本发明实施例的一种公文智能分发办理方法的流程示意图，一种公文智能分发办理方法，包括以下步骤：

S1、对已发公文和待发公文进行文本数据预处理，分别获得已发公文和待发公文的文本词向量。

S2、建立多层神经网络模型。

本步骤中，多层神经网络模型为3层的神经网络，包括输入层、隐藏层、输出层。

S3、通过已发公文的文本词向量对多层神经网络模型进行训练，并获得已发公文的多标签二分类向量。

本步骤中，采取前期对已派送的公文进行人为打标签，然后进行归类，最后做有监督的标签分类模型。

人为打标签的过程，就是对已有公文规定标签方式为[a1,a2,a3,a4,a5...an，an+1]这种方式去打标签，也就是说，按顺序对公文类型进行排序，第一位置是某种公文类型a1，第二个位置是某种类型a2，一直排到最后一种公文跟前面公文类型都不一样an为止,an+1是代表以往公文中都不含有的公文类型。

需要说明的是，有监督的标签分类模型是指，提前对已发的公文类型进行人工打标签，以及对没有出现的已发公文再加一类标签，然后将这些标签以及对应的公文输入到有多层神经网络模型中去训练，加上一些网络层等结构，更优化的输出待发送的公文的标签模型。

S4、将已发公文的多标签二分类向量与公文接收人员信息进行对应建立索引，获得人员索引标签。

S5、将待发公文的文本词向量输入训练好的多层神经网络模型进行学习，在输出中选取概率最大的标签作为待发公文标签。

本步骤中，待发公文标签为与待发公文的文本词向量相似度最高的已发公文的标签。

S6、通过待发公文标签从人员索引标签中获取公文接收人员信息。

S7、将待发公文自动分发至公文接收人员。

本实施例基于已有的政务人员派发公文的业务场景，将手动这一过程实现自动派发的过程的改变，并且这种变化中涉及基于一定规则和算法的融合做公文标签(撰写的，已移交派送过的)去做理论基础，较大程度上可以很好的提高公文派发速度以及派错的容错性较小，不会遗漏相关需被分发人员。

其中还会涉及到根据公文标签与人员派送的公文做索引，确保文件跟人员是具有直接的对应关系，进而直接通过派送的政务人员写好就通过上述流程处理完毕后，自动触发邮件给需被派送的政务人员邮箱的流程。

这样实现自动化派送文件，将公文直接派送到相对应派发过的政务人员，这样不仅涉及文件派发不会遗漏，节省手动选择派发的时间，极大提高了工作效率以及简化了公文流转的流程。

具体的，请参阅图2，图2示出了根据本发明实施例的一种公文智能分发办理方法的文本数据预处理流程示意图，S1步骤中的文本数据预处理包括以下步骤：

S11、对公文的文本标题和内容，分别进行结巴分词，获取公文标题词语集合和内容词语集合。

本实施例的结巴分词，使用停用词词典以及自定义词典。

停用词词典包含一些符号或者常用词语等，自定义词典可以来源于自己编辑或者是知网等渠道，大多数停用词词典效果相同，本文使用知网提供，作用是加入停用词词典可以降低文本的维度以及常用词删除不影响文本本意。

自定义词典是用户防止有些词语被误切分开，自定义词典可以根据场景自行设置，为后续的数据特征构造提供便利。

S12、将标题词语集合和内容词语集合输入word2vec模型进行训练，获得公文标题的词向量和内容的词向量。

此步骤中，使用word2vec模型，主要是将文本词语向量化，并从高维降到低维的效果，可用于后期比较文本词向量，主要保证长短不一的数据能够到同一维度处理。

S13、对公文标题的词向量和内容的词向量赋予权重并进行合并，获取公文的文本词向量。

具体的，考虑到公文内容可能存在涉及多个标签。因此，本实施例基于加权的概念，对标题以及内容赋予权重进行公文的合并，获得公文的特征向量。

示例的，标题的词向量权重取70％，内容的词向量权重取30％，具体如下：

公文的文本词向量＝标题的词向量*70％+正文的词向量*30％

本实施例从单个公文数据考虑，减少数据处理，提高效率，通过加权进行合并，让公文标签集中化，提取更加准确。

具体的，请查阅图3，图3示出了根据本发明实施例的一种公文智能分发办理方法的对多层神经网络模型进行训练流程示意图，步骤S3包括以下步骤：

S31、通过多层神经网络模型对已发公文的文本词向量进行特征提取学习，获得已发公文的特征向量。

S32、采用sigmoid做多层神经网络模型输出层的激活函数，对已发公文的特征向量进行二分类处理，获得已发公文的标签的集合向量矩阵。

本步骤中，已发公文的标签的集合向量矩阵以及返回其标注的标签向量，1代表有标签，0代表无标签。采用sigmoid做输出层的激活函数，若公文输出层是n个节点对应一个n维向量，希望sigmoid对每一个节点的值做一次激活，从而输出每个节点分别是1概率，和0概率。

输出值通过sigmoid函数将其限制在0-1的范围内，超过设定阈值就把最终对应标签的数值输出为1，反之设置为0。

S33、采用binary crossentropy损失函数，对已发公文的标签的集合向量矩阵进行修正，获得已发公文的多标签二分类向量。

本步骤中，采用binary crossentropy损失函数不断降低输出和标签之间的交叉熵。其实就相当于模型使标签为1的节点的输出值更靠近1，标签为0的节点的输出值更靠近0。

示例的，输出的多标签二分类向量为[1,0,1,0,0，1，......]，其中1代表属于该位置公文的标签类别，0代表该公文不属于该标签类别。

具体的，请参阅图4，图4示出了根据本发明实施例的一种公文智能分发办理方法的获得人员索引标签流程示意图，步骤S4包括以下步骤：

S41、收集已分发公文所对应的第一标签和接收人员信息。

S42、合并已分发公文的多标签二分类向量和接收人员信息，获得规则库。

本步骤中，有的人员可能涉及多个标签的内容，取集合并集的概念，对只要对应标签接收过公文，既默认同类标签的公文也需分发。或者自我设定，当一个人员含有不止有一个标签时，可以设置至少有几个标签重合时才能分发的规则，具体视业务情况而定。

S43、对规则库中的分发公文的标签与所对应的接收人员建立标签索引，获得人员索引标签。

需要说明的是，通过人员索引标签能够获得公文接收人员的信息。因此，当有新的需被派送的公文的标签明确时，即探寻两个标签是否有相同在等位置上，若是相同即派发，本文默认只要有一个等位置一致即派发。若是想更精确，但是可能会遗漏不发，可以定义至少有几个标签等位置相同时再派发。

具体的，步骤S7自动发送采用邮件形式发送。采用python中内部发送邮件的插件形式，自动进行公文派送选择。

自动分发过程：当撰写人写好公文后，通过上述方法，对已写好的公文自动打好标签，进而根据建立的公文标签与接收公文人员的规则库自动进行分发公文。

分发的过程涉及到登录，写邮件，发送等。

请参阅图5，图5示出了根据本发明实施例的一种公文智能分发办理方法的邮件登录流程示意图，其中，登录中涉及到服务器设置以及登录的账号与密码以及服务器地址等。

请参阅图6，图6示出了根据本发明实施例的一种公文智能分发办理方法的邮件发送流程示意图，发送过程中涉及到发送人账号，发送的邮件表标题以及邮件的内容等；发送即启动上述程序即完成公文邮件的自动发送。

服务器设置：即SMTP(简单邮件传输协议)的操作模块，在发送邮件的过程中起到服务器之间互相通信的作用。或SMTP_SSL(Secure Sockets Layer安全套接层),及其继任者传输层安全(Transport Layer Security，TLS)是为网络通信提供安全及数据完整性的一种安全协议。默认设置这些设置为允许操作。

服务器地址：即使用的邮箱地址。

本实施例在降低误差且保障不会遗漏派送的原则下，采取自定义标签，然后在做二分类算法的融合，且给文本依次做标签的排序进而训练的多个标签的多个二分类模型。对后面的需派公文，直接输入到多标签二分类模型中，能够较准确的输出其标签向量矩阵。

同时，对以往的派送过公文的人员与派送过的公文建立索引，具体是与每一个标签建立详细的索引，确保公文派送不遗漏以及多个标签进行判断人与公文的对应过程。

本实施例建立标注人员与公文的索引关系库，在一定程度上，降低相关性关系公文的乱派送情形，提高公文派发的准确性以及简便收公文人员的工作，在最大化不遗漏的情境下，也减少过多派发的累赘。

简化了人员工作以及降低不可替代性的问题，其工作过程也较容易实现，效率高效耗时少。

为了更好地实施以上方法，本发明实施例还提供一种公文智能分发办理装置，请参阅图7，图7示出了根据本发明实施例的一种公文智能分发办理装置的结构示意图。

一种公文智能分发办理装置包括：

获取模块，用于对已发公文和待发公文进行文本数据预处理，分别获得已发公文和待发公文的文本词向量。

建立模块，用于建立多层神经网络模型。

第一计算模块，用于通过已发公文的文本词向量对多层神经网络模型进行训练，并获得已发公文的多标签二分类向量。

索引模块，用于将已发公文的多标签二分类向量与公文接收人员信息进行对应建立索引，获得人员索引标签。

第二计算模块，用于将待发公文的文本词向量输入训练好的多层神经网络模型进行学习，在输出中选取概率最大的标签作为待发公文标签。

提取模块，用于通过待发公文标签从人员索引标签中获取公文接收人员信息。

发送模块，用于将待发公文自动分发至公文接收人员。

具体的，获取模块包括数据处理单元，数据处理单元用于对公文的文本标题和内容，分别进行结巴分词，获取公文标题词语集合和内容词语集合；

具体的，第一计算模块包括：

第一计算子单元，用于通过多层神经网络模型对已发公文的文本词向量进行特征提取学习，获得已发公文的特征向量。

第二计算子单元，用于采用sigmoid做多层神经网络模型输出层的激活函数，对已发公文的特征向量进行二分类处理，获得已发公文的标签的集合向量矩阵。

具体的，索引模块包括：

合并单元，用于合并已分发公文的多标签二分类向量和接收人员信息，获得规则库。

本发明实施例还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

建立多层神经网络模型；

将待发公文自动分发至公文接收人员。

在一个实施例中，计算机程序被处理器执行时还实现文本数据预处理，文本数据预处理包括以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现通过已发公文的文本词向量对多层神经网络模型进行训练，并获得已发公文的多标签二分类向量，具体如下：

在一个实施例中，计算机程序被处理器执行时还实现将已发公文的多标签二分类向量与公文接收人员信息进行对应建立索引，获得人员索引标签，具体如下：

收集已分发公文所对应的第一标签和接收人员信息；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。

计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。

其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种公文智能分发办理方法，其特征在于，包括以下步骤：

建立多层神经网络模型；

将待发公文自动分发至公文接收人员。

2.根据权利要求1所述的公文智能分发办理方法，其特征在于，

所述文本数据预处理包括以下步骤：

3.根据权利要求1所述的公文智能分发办理方法，其特征在于，

通过已发公文的文本词向量对多层神经网络模型进行训练，并获得已发公文的多标签二分类向量，具体如下：

4.根据权利要求1所述的公文智能分发办理方法，其特征在于，

将已发公文的多标签二分类向量与公文接收人员信息进行对应建立索引，获得人员索引标签，具体如下：

收集已分发公文所对应的第一标签和接收人员信息；

5.根据权利要求1所述的公文智能分发办理方法，其特征在于，所述待发公文自动分发采用邮件形式发送。

6.根据权利要求2所述的公文智能分发办理方法，其特征在于，所述结巴分词，使用停用词词典以及自定义词典。

7.根据权利要求1-6任一所述的公文智能分发办理方法，其特征在于，所述多层神经网络模型包括输入层、隐藏层、输出层。

8.一种公文智能分发办理装置，其特征在于，包括：

建立模块，用于建立多层神经网络模型；

发送模块，用于将待发公文自动分发至公文接收人员。

9.根据权利要求8所述的公文智能分发办理装置，其特征在于，所述获取模块包括数据处理单元，

所述数据处理单元用于对公文的文本标题和内容，分别进行结巴分词，获取公文标题词语集合和内容词语集合；

所述数据处理单元还用于将标题词语集合和内容词语集合输入word2vec模型进行训练，获得公文标题的词向量和内容的词向量；

所述数据处理单元还用于将对公文标题的词向量和内容的词向量赋予权重并进行合并，获取公文的文本词向量。

10.根据权利要求8所述的公文智能分发办理装置，其特征在于，所述第一计算模块包括：

11.根据权利要求8所述的公文智能分发办理装置，其特征在于，所述索引模块包括：

12.一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，其特征在于，所述处理器执行计算机程序时实现权利要求1-7任一所述方法的步骤。