CN113360657A - 一种公文智能分发办理方法、装置及计算机设备 - Google Patents
一种公文智能分发办理方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN113360657A CN113360657A CN202110735686.9A CN202110735686A CN113360657A CN 113360657 A CN113360657 A CN 113360657A CN 202110735686 A CN202110735686 A CN 202110735686A CN 113360657 A CN113360657 A CN 113360657A
- Authority
- CN
- China
- Prior art keywords
- document
- official document
- official
- label
- published
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 239000013598 vector Substances 0.000 claims abstract description 153
- 238000003062 neural network model Methods 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Strategic Management (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种公文智能分发办理方法、装置及计算机设备,其中方法包括以下步骤:对已发公文和待发公文进行文本数据预处理,分别获得已发公文和待发公文的文本词向量;建立多层神经网络模型;通过已发公文的文本词向量对多层神经网络模型进行训练,并获得已发公文的多标签二分类向量;将已发公文的多标签二分类向量与公文接收人员信息进行对应建立索引,获得人员索引标签;将待发公文的文本词向量输入训练好的多层神经网络模型进行学习,在输出中选取概率最大的标签作为待发公文标签;通过待发公文标签从人员索引标签中获取公文接收人员信息;将待发公文自动分发至公文接收人员;本申请采用自动发送公文,提高了公文派发速度和派发准确性。
Description
技术领域
本发明属于数据处理技术领域,特别涉及一种公文智能分发办理方法、装置及计算机设备。
背景技术
基于目前大数据的背景下,每天政务人员需要移交的公文数不胜数。但是,目前政务人员在移交过程中,需要手动选择派发对象,派发的公文类型,主要过程是政务人员根据以往的经验或者特定政务人员要求等去派发公文。这种手动派发的过程,资源耗费成本比较大,且派发时间也较长,当政务人员需派发公文较多时,会以一定概率出现派发错误等现象,这样不仅浪费政务人员的时间,而且很大程度会造成正确派发的延误。
传统的业务场景是用直接文本相似匹配、关联规则和聚类的单一算法方式进行派发公文,或者人为手动选择派发的方式去派发公文。
根据传统相似匹配算法进行派送,其中会涉及到相似属性的判断以及人为事先定义公文类别标签。有些公文之间会涉及到相关关系,若是采用关联规则算法,会涉及到政务人员收到不属于自己的公文。
聚类算法聚类相似公文时,其中聚类的数目不好确定,以及每次输入数据都得重新聚类比较耗时费力,这种形式对单个工作人员可能会处理多个标签的文件时,会发生聚类标签不准,进而派发的文件会有遗漏。
现有的处理长文本数据,存在以下问题:
1.传统的处理长文本数据,概念是基于本次业务场景,通过人的过往发送公文经验去派送待处理的公文。人的过往发送公文经验,在一定程度上,可以基于文本之间出现很大的相似度方式去派送,但是,对于很长的文本来说,查看它的内容以及标题等后在派送,会浪费很多的时间,甚至这种派发文件的人员可能会出现更换,可替代性太弱。
2.基于传统相似匹配去度量派送的公文,一般来说,常用的算法是计算文本之间的距离的理念的欧式距离或者余弦定理等。一方面,算法端这类算法比较成熟,处理也不复杂,但是相似度的阈值(-1,1)不是很好界定,还会出现文本可长可短等情景,直接比较相似度,会一定程度增加相似性匹配的困难。另一方面,从数据出发,以往的公文之间会存在一定的联系,当新的公文出现时,会出现多个相关性等,会一定程度上,造成相关性混乱,进而导致公文派送错误。
3.基于聚类的层面去派送需派送的公文,聚类算法模块实现也较容易。但是,聚类的数目,也就是本文涉及的多分类标签的标签,很不好确定,其次,以往公文之间会出现一定的相似性当新文本数据进行聚类时,会不会出现一定程度的聚类重合进而影响聚类的效果,若是进行每个类一次聚时,会避免聚类重合,但是聚类的数目很难界定。
发明内容
针对上述问题,本发明提供一种公文智能分发办理方法、装置及计算机设备,采用自动分发公文。
一种公文智能分发办理方法,包括以下步骤:
对已发公文和待发公文进行文本数据预处理,分别获得已发公文和待发公文的文本词向量;
建立多层神经网络模型;
通过已发公文的文本词向量对多层神经网络模型进行训练,并获得已发公文的多标签二分类向量;
将已发公文的多标签二分类向量与公文接收人员信息进行对应建立索引,获得人员索引标签;
将待发公文的文本词向量输入训练好的多层神经网络模型进行学习,在输出中选取概率最大的标签作为待发公文标签;
通过待发公文标签从人员索引标签中获取公文接收人员信息;
将待发公文自动分发至公文接收人员。
进一步的,文本数据预处理包括以下步骤:
对公文的文本标题和内容,分别进行结巴分词,获取公文标题词语集合和内容词语集合;
将标题词语集合和内容词语集合输入word2vec模型进行训练,获得公文标题的词向量和内容的词向量;
对公文标题的词向量和内容的词向量赋予权重并进行合并,获取公文的文本词向量。
进一步的,通过已发公文的文本词向量对多层神经网络模型进行训练,并获得已发公文的多标签二分类向量,具体如下:
通过多层神经网络模型对已发公文的文本词向量进行特征提取学习,获得已发公文的特征向量;
采用sigmoid做多层神经网络模型输出层的激活函数,对已发公文的特征向量进行二分类处理,获得已发公文的标签的集合向量矩阵;
采用binary crossentropy损失函数,对已发公文的标签的集合向量矩阵进行修正,获得已发公文的多标签二分类向量。
进一步的,将已发公文的多标签二分类向量与公文接收人员信息进行对应建立索引,获得人员索引标签,具体如下:
收集已分发公文所对应的第一标签和接收人员信息;
合并已分发公文的多标签二分类向量和接收人员信息,获得规则库;
对规则库中的分发公文的标签与所对应的接收人员建立标签索引,获得人员索引标签。
进一步的,待发公文自动分发采用邮件形式发送。
进一步的,结巴分词,使用停用词词典以及自定义词典。
进一步的,多层神经网络模型包括输入层、隐藏层、输出层。
本发明还提供一种公文智能分发办理装置,包括:
获取模块,用于对已发公文和待发公文进行文本数据预处理,分别获得已发公文和待发公文的文本词向量;
建立模块,用于建立多层神经网络模型;
第一计算模块,用于通过已发公文的文本词向量对多层神经网络模型进行训练,并获得已发公文的多标签二分类向量;
索引模块,用于将已发公文的多标签二分类向量与公文接收人员信息进行对应建立索引,获得人员索引标签;
第二计算模块,用于将待发公文的文本词向量输入训练好的多层神经网络模型进行学习,在输出中选取概率最大的标签作为待发公文标签;
提取模块,用于通过待发公文标签从人员索引标签中获取公文接收人员信息;
发送模块,用于将待发公文自动分发至公文接收人员。
进一步的,获取模块包括数据处理单元,
数据处理单元用于对公文的文本标题和内容,分别进行结巴分词,获取公文标题词语集合和内容词语集合;
数据处理单元还用于将标题词语集合和内容词语集合输入word2vec模型进行训练,获得公文标题的词向量和内容的词向量;
数据处理单元还用于将对公文标题的词向量和内容的词向量赋予权重并进行合并,获取公文的文本词向量。
进一步的,第一计算模块包括:
第一计算子单元,用于通过多层神经网络模型对已发公文的文本词向量进行特征提取学习,获得已发公文的特征向量;
第二计算子单元,用于采用sigmoid做多层神经网络模型输出层的激活函数,对已发公文的特征向量进行二分类处理,获得已发公文的标签的集合向量矩阵;
第三计算子单元,用于采用binary crossentropy损失函数,对已发公文的标签的集合向量矩阵进行修正,获得已发公文的多标签二分类向量。
进一步的,索引模块包括:
收集单元,用于收集已分发公文所对应的第一标签和接收人员信息;
合并单元,用于合并已分发公文的多标签二分类向量和接收人员信息,获得规则库;
映射单元,用于对规则库中的分发公文的标签与所对应的接收人员建立标签索引,获得人员索引标签。
本发明还提供一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,处理器执行计算机程序时实现公文智能分发办理方法的步骤。
本发明的有益效果:提高了公文派发速度和派发准确性,不会遗漏相关需被分发人员;采用自动发送公文,简化了人员工作,提高了工作效率高。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明实施例的一种公文智能分发办理方法的流程示意图;
图2示出了根据本发明实施例的一种公文智能分发办理方法的文本数据预处理流程示意图;
图3示出了根据本发明实施例的一种公文智能分发办理方法的对多层神经网络模型进行训练流程示意图;
图4示出了根据本发明实施例的一种公文智能分发办理方法的获得人员索引标签流程示意图;
图5示出了根据本发明实施例的一种公文智能分发办理方法的邮件登录流程示意图;
图6示出了根据本发明实施例的一种公文智能分发办理方法的邮件发送流程示意图;
图7示出了根据本发明实施例的一种公文智能分发办理装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1示出了根据本发明实施例的一种公文智能分发办理方法的流程示意图,一种公文智能分发办理方法,包括以下步骤:
S1、对已发公文和待发公文进行文本数据预处理,分别获得已发公文和待发公文的文本词向量。
S2、建立多层神经网络模型。
本步骤中,多层神经网络模型为3层的神经网络,包括输入层、隐藏层、输出层。
S3、通过已发公文的文本词向量对多层神经网络模型进行训练,并获得已发公文的多标签二分类向量。
本步骤中,采取前期对已派送的公文进行人为打标签,然后进行归类,最后做有监督的标签分类模型。
人为打标签的过程,就是对已有公文规定标签方式为[a1,a2,a3,a4,a5...an,an+1]这种方式去打标签,也就是说,按顺序对公文类型进行排序,第一位置是某种公文类型a1,第二个位置是某种类型a2,一直排到最后一种公文跟前面公文类型都不一样an为止,an+1是代表以往公文中都不含有的公文类型。
需要说明的是,有监督的标签分类模型是指,提前对已发的公文类型进行人工打标签,以及对没有出现的已发公文再加一类标签,然后将这些标签以及对应的公文输入到有多层神经网络模型中去训练,加上一些网络层等结构,更优化的输出待发送的公文的标签模型。
S4、将已发公文的多标签二分类向量与公文接收人员信息进行对应建立索引,获得人员索引标签。
S5、将待发公文的文本词向量输入训练好的多层神经网络模型进行学习,在输出中选取概率最大的标签作为待发公文标签。
本步骤中,待发公文标签为与待发公文的文本词向量相似度最高的已发公文的标签。
S6、通过待发公文标签从人员索引标签中获取公文接收人员信息。
S7、将待发公文自动分发至公文接收人员。
本实施例基于已有的政务人员派发公文的业务场景,将手动这一过程实现自动派发的过程的改变,并且这种变化中涉及基于一定规则和算法的融合做公文标签(撰写的,已移交派送过的)去做理论基础,较大程度上可以很好的提高公文派发速度以及派错的容错性较小,不会遗漏相关需被分发人员。
其中还会涉及到根据公文标签与人员派送的公文做索引,确保文件跟人员是具有直接的对应关系,进而直接通过派送的政务人员写好就通过上述流程处理完毕后,自动触发邮件给需被派送的政务人员邮箱的流程。
这样实现自动化派送文件,将公文直接派送到相对应派发过的政务人员,这样不仅涉及文件派发不会遗漏,节省手动选择派发的时间,极大提高了工作效率以及简化了公文流转的流程。
具体的,请参阅图2,图2示出了根据本发明实施例的一种公文智能分发办理方法的文本数据预处理流程示意图,S1步骤中的文本数据预处理包括以下步骤:
S11、对公文的文本标题和内容,分别进行结巴分词,获取公文标题词语集合和内容词语集合。
本实施例的结巴分词,使用停用词词典以及自定义词典。
停用词词典包含一些符号或者常用词语等,自定义词典可以来源于自己编辑或者是知网等渠道,大多数停用词词典效果相同,本文使用知网提供,作用是加入停用词词典可以降低文本的维度以及常用词删除不影响文本本意。
自定义词典是用户防止有些词语被误切分开,自定义词典可以根据场景自行设置,为后续的数据特征构造提供便利。
S12、将标题词语集合和内容词语集合输入word2vec模型进行训练,获得公文标题的词向量和内容的词向量。
此步骤中,使用word2vec模型,主要是将文本词语向量化,并从高维降到低维的效果,可用于后期比较文本词向量,主要保证长短不一的数据能够到同一维度处理。
S13、对公文标题的词向量和内容的词向量赋予权重并进行合并,获取公文的文本词向量。
具体的,考虑到公文内容可能存在涉及多个标签。因此,本实施例基于加权的概念,对标题以及内容赋予权重进行公文的合并,获得公文的特征向量。
示例的,标题的词向量权重取70%,内容的词向量权重取30%,具体如下:
公文的文本词向量=标题的词向量*70%+正文的词向量*30%
本实施例从单个公文数据考虑,减少数据处理,提高效率,通过加权进行合并,让公文标签集中化,提取更加准确。
具体的,请查阅图3,图3示出了根据本发明实施例的一种公文智能分发办理方法的对多层神经网络模型进行训练流程示意图,步骤S3包括以下步骤:
S31、通过多层神经网络模型对已发公文的文本词向量进行特征提取学习,获得已发公文的特征向量。
S32、采用sigmoid做多层神经网络模型输出层的激活函数,对已发公文的特征向量进行二分类处理,获得已发公文的标签的集合向量矩阵。
本步骤中,已发公文的标签的集合向量矩阵以及返回其标注的标签向量,1代表有标签,0代表无标签。采用sigmoid做输出层的激活函数,若公文输出层是n个节点对应一个n维向量,希望sigmoid对每一个节点的值做一次激活,从而输出每个节点分别是1概率,和0概率。
输出值通过sigmoid函数将其限制在0-1的范围内,超过设定阈值就把最终对应标签的数值输出为1,反之设置为0。
S33、采用binary crossentropy损失函数,对已发公文的标签的集合向量矩阵进行修正,获得已发公文的多标签二分类向量。
本步骤中,采用binary crossentropy损失函数不断降低输出和标签之间的交叉熵。其实就相当于模型使标签为1的节点的输出值更靠近1,标签为0的节点的输出值更靠近0。
示例的,输出的多标签二分类向量为[1,0,1,0,0,1,......],其中1代表属于该位置公文的标签类别,0代表该公文不属于该标签类别。
具体的,请参阅图4,图4示出了根据本发明实施例的一种公文智能分发办理方法的获得人员索引标签流程示意图,步骤S4包括以下步骤:
S41、收集已分发公文所对应的第一标签和接收人员信息。
S42、合并已分发公文的多标签二分类向量和接收人员信息,获得规则库。
本步骤中,有的人员可能涉及多个标签的内容,取集合并集的概念,对只要对应标签接收过公文,既默认同类标签的公文也需分发。或者自我设定,当一个人员含有不止有一个标签时,可以设置至少有几个标签重合时才能分发的规则,具体视业务情况而定。
S43、对规则库中的分发公文的标签与所对应的接收人员建立标签索引,获得人员索引标签。
需要说明的是,通过人员索引标签能够获得公文接收人员的信息。因此,当有新的需被派送的公文的标签明确时,即探寻两个标签是否有相同在等位置上,若是相同即派发,本文默认只要有一个等位置一致即派发。若是想更精确,但是可能会遗漏不发,可以定义至少有几个标签等位置相同时再派发。
具体的,步骤S7自动发送采用邮件形式发送。采用python中内部发送邮件的插件形式,自动进行公文派送选择。
自动分发过程:当撰写人写好公文后,通过上述方法,对已写好的公文自动打好标签,进而根据建立的公文标签与接收公文人员的规则库自动进行分发公文。
分发的过程涉及到登录,写邮件,发送等。
请参阅图5,图5示出了根据本发明实施例的一种公文智能分发办理方法的邮件登录流程示意图,其中,登录中涉及到服务器设置以及登录的账号与密码以及服务器地址等。
请参阅图6,图6示出了根据本发明实施例的一种公文智能分发办理方法的邮件发送流程示意图,发送过程中涉及到发送人账号,发送的邮件表标题以及邮件的内容等;发送即启动上述程序即完成公文邮件的自动发送。
服务器设置:即SMTP(简单邮件传输协议)的操作模块,在发送邮件的过程中起到服务器之间互相通信的作用。或SMTP_SSL(Secure Sockets Layer安全套接层),及其继任者传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。默认设置这些设置为允许操作。
服务器地址:即使用的邮箱地址。
本实施例在降低误差且保障不会遗漏派送的原则下,采取自定义标签,然后在做二分类算法的融合,且给文本依次做标签的排序进而训练的多个标签的多个二分类模型。对后面的需派公文,直接输入到多标签二分类模型中,能够较准确的输出其标签向量矩阵。
同时,对以往的派送过公文的人员与派送过的公文建立索引,具体是与每一个标签建立详细的索引,确保公文派送不遗漏以及多个标签进行判断人与公文的对应过程。
本实施例建立标注人员与公文的索引关系库,在一定程度上,降低相关性关系公文的乱派送情形,提高公文派发的准确性以及简便收公文人员的工作,在最大化不遗漏的情境下,也减少过多派发的累赘。
简化了人员工作以及降低不可替代性的问题,其工作过程也较容易实现,效率高效耗时少。
为了更好地实施以上方法,本发明实施例还提供一种公文智能分发办理装置,请参阅图7,图7示出了根据本发明实施例的一种公文智能分发办理装置的结构示意图。
一种公文智能分发办理装置包括:
获取模块,用于对已发公文和待发公文进行文本数据预处理,分别获得已发公文和待发公文的文本词向量。
建立模块,用于建立多层神经网络模型。
第一计算模块,用于通过已发公文的文本词向量对多层神经网络模型进行训练,并获得已发公文的多标签二分类向量。
索引模块,用于将已发公文的多标签二分类向量与公文接收人员信息进行对应建立索引,获得人员索引标签。
第二计算模块,用于将待发公文的文本词向量输入训练好的多层神经网络模型进行学习,在输出中选取概率最大的标签作为待发公文标签。
提取模块,用于通过待发公文标签从人员索引标签中获取公文接收人员信息。
发送模块,用于将待发公文自动分发至公文接收人员。
具体的,获取模块包括数据处理单元,数据处理单元用于对公文的文本标题和内容,分别进行结巴分词,获取公文标题词语集合和内容词语集合;
数据处理单元还用于将标题词语集合和内容词语集合输入word2vec模型进行训练,获得公文标题的词向量和内容的词向量;
数据处理单元还用于将对公文标题的词向量和内容的词向量赋予权重并进行合并,获取公文的文本词向量。
具体的,第一计算模块包括:
第一计算子单元,用于通过多层神经网络模型对已发公文的文本词向量进行特征提取学习,获得已发公文的特征向量。
第二计算子单元,用于采用sigmoid做多层神经网络模型输出层的激活函数,对已发公文的特征向量进行二分类处理,获得已发公文的标签的集合向量矩阵。
第三计算子单元,用于采用binary crossentropy损失函数,对已发公文的标签的集合向量矩阵进行修正,获得已发公文的多标签二分类向量。
具体的,索引模块包括:
收集单元,用于收集已分发公文所对应的第一标签和接收人员信息;
合并单元,用于合并已分发公文的多标签二分类向量和接收人员信息,获得规则库。
映射单元,用于对规则库中的分发公文的标签与所对应的接收人员建立标签索引,获得人员索引标签。
本发明实施例还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
对已发公文和待发公文进行文本数据预处理,分别获得已发公文和待发公文的文本词向量;
建立多层神经网络模型;
通过已发公文的文本词向量对多层神经网络模型进行训练,并获得已发公文的多标签二分类向量;
将已发公文的多标签二分类向量与公文接收人员信息进行对应建立索引,获得人员索引标签;
将待发公文的文本词向量输入训练好的多层神经网络模型进行学习,在输出中选取概率最大的标签作为待发公文标签;
通过待发公文标签从人员索引标签中获取公文接收人员信息;
将待发公文自动分发至公文接收人员。
在一个实施例中,计算机程序被处理器执行时还实现文本数据预处理,文本数据预处理包括以下步骤:
对公文的文本标题和内容,分别进行结巴分词,获取公文标题词语集合和内容词语集合;
将标题词语集合和内容词语集合输入word2vec模型进行训练,获得公文标题的词向量和内容的词向量;
对公文标题的词向量和内容的词向量赋予权重并进行合并,获取公文的文本词向量。
在一个实施例中,计算机程序被处理器执行时还实现通过已发公文的文本词向量对多层神经网络模型进行训练,并获得已发公文的多标签二分类向量,具体如下:
通过多层神经网络模型对已发公文的文本词向量进行特征提取学习,获得已发公文的特征向量;
采用sigmoid做多层神经网络模型输出层的激活函数,对已发公文的特征向量进行二分类处理,获得已发公文的标签的集合向量矩阵;
采用binary crossentropy损失函数,对已发公文的标签的集合向量矩阵进行修正,获得已发公文的多标签二分类向量。
在一个实施例中,计算机程序被处理器执行时还实现将已发公文的多标签二分类向量与公文接收人员信息进行对应建立索引,获得人员索引标签,具体如下:
收集已分发公文所对应的第一标签和接收人员信息;
合并已分发公文的多标签二分类向量和接收人员信息,获得规则库;
对规则库中的分发公文的标签与所对应的接收人员建立标签索引,获得人员索引标签。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。
计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (12)
1.一种公文智能分发办理方法,其特征在于,包括以下步骤:
对已发公文和待发公文进行文本数据预处理,分别获得已发公文和待发公文的文本词向量;
建立多层神经网络模型;
通过已发公文的文本词向量对多层神经网络模型进行训练,并获得已发公文的多标签二分类向量;
将已发公文的多标签二分类向量与公文接收人员信息进行对应建立索引,获得人员索引标签;
将待发公文的文本词向量输入训练好的多层神经网络模型进行学习,在输出中选取概率最大的标签作为待发公文标签;
通过待发公文标签从人员索引标签中获取公文接收人员信息;
将待发公文自动分发至公文接收人员。
2.根据权利要求1所述的公文智能分发办理方法,其特征在于,
所述文本数据预处理包括以下步骤:
对公文的文本标题和内容,分别进行结巴分词,获取公文标题词语集合和内容词语集合;
将标题词语集合和内容词语集合输入word2vec模型进行训练,获得公文标题的词向量和内容的词向量;
对公文标题的词向量和内容的词向量赋予权重并进行合并,获取公文的文本词向量。
3.根据权利要求1所述的公文智能分发办理方法,其特征在于,
通过已发公文的文本词向量对多层神经网络模型进行训练,并获得已发公文的多标签二分类向量,具体如下:
通过多层神经网络模型对已发公文的文本词向量进行特征提取学习,获得已发公文的特征向量;
采用sigmoid做多层神经网络模型输出层的激活函数,对已发公文的特征向量进行二分类处理,获得已发公文的标签的集合向量矩阵;
采用binary crossentropy损失函数,对已发公文的标签的集合向量矩阵进行修正,获得已发公文的多标签二分类向量。
4.根据权利要求1所述的公文智能分发办理方法,其特征在于,
将已发公文的多标签二分类向量与公文接收人员信息进行对应建立索引,获得人员索引标签,具体如下:
收集已分发公文所对应的第一标签和接收人员信息;
合并已分发公文的多标签二分类向量和接收人员信息,获得规则库;
对规则库中的分发公文的标签与所对应的接收人员建立标签索引,获得人员索引标签。
5.根据权利要求1所述的公文智能分发办理方法,其特征在于,所述待发公文自动分发采用邮件形式发送。
6.根据权利要求2所述的公文智能分发办理方法,其特征在于,所述结巴分词,使用停用词词典以及自定义词典。
7.根据权利要求1-6任一所述的公文智能分发办理方法,其特征在于,所述多层神经网络模型包括输入层、隐藏层、输出层。
8.一种公文智能分发办理装置,其特征在于,包括:
获取模块,用于对已发公文和待发公文进行文本数据预处理,分别获得已发公文和待发公文的文本词向量;
建立模块,用于建立多层神经网络模型;
第一计算模块,用于通过已发公文的文本词向量对多层神经网络模型进行训练,并获得已发公文的多标签二分类向量;
索引模块,用于将已发公文的多标签二分类向量与公文接收人员信息进行对应建立索引,获得人员索引标签;
第二计算模块,用于将待发公文的文本词向量输入训练好的多层神经网络模型进行学习,在输出中选取概率最大的标签作为待发公文标签;
提取模块,用于通过待发公文标签从人员索引标签中获取公文接收人员信息;
发送模块,用于将待发公文自动分发至公文接收人员。
9.根据权利要求8所述的公文智能分发办理装置,其特征在于,所述获取模块包括数据处理单元,
所述数据处理单元用于对公文的文本标题和内容,分别进行结巴分词,获取公文标题词语集合和内容词语集合;
所述数据处理单元还用于将标题词语集合和内容词语集合输入word2vec模型进行训练,获得公文标题的词向量和内容的词向量;
所述数据处理单元还用于将对公文标题的词向量和内容的词向量赋予权重并进行合并,获取公文的文本词向量。
10.根据权利要求8所述的公文智能分发办理装置,其特征在于,所述第一计算模块包括:
第一计算子单元,用于通过多层神经网络模型对已发公文的文本词向量进行特征提取学习,获得已发公文的特征向量;
第二计算子单元,用于采用sigmoid做多层神经网络模型输出层的激活函数,对已发公文的特征向量进行二分类处理,获得已发公文的标签的集合向量矩阵;
第三计算子单元,用于采用binary crossentropy损失函数,对已发公文的标签的集合向量矩阵进行修正,获得已发公文的多标签二分类向量。
11.根据权利要求8所述的公文智能分发办理装置,其特征在于,所述索引模块包括:
收集单元,用于收集已分发公文所对应的第一标签和接收人员信息;
合并单元,用于合并已分发公文的多标签二分类向量和接收人员信息,获得规则库;
映射单元,用于对规则库中的分发公文的标签与所对应的接收人员建立标签索引,获得人员索引标签。
12.一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,其特征在于,所述处理器执行计算机程序时实现权利要求1-7任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110735686.9A CN113360657B (zh) | 2021-06-30 | 2021-06-30 | 一种公文智能分发办理方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110735686.9A CN113360657B (zh) | 2021-06-30 | 2021-06-30 | 一种公文智能分发办理方法、装置及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113360657A true CN113360657A (zh) | 2021-09-07 |
CN113360657B CN113360657B (zh) | 2023-10-24 |
Family
ID=77537442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110735686.9A Active CN113360657B (zh) | 2021-06-30 | 2021-06-30 | 一种公文智能分发办理方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113360657B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116704522A (zh) * | 2023-08-02 | 2023-09-05 | 京华信息科技股份有限公司 | 一种辅助公文分办的方法及系统 |
Citations (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722726A (zh) * | 2012-06-05 | 2012-10-10 | 江苏省电力公司南京供电公司 | 一种基于动态二叉树的svm多分类方法 |
CN104915386A (zh) * | 2015-05-25 | 2015-09-16 | 中国科学院自动化研究所 | 一种基于深度语义特征学习的短文本聚类方法 |
CN104951551A (zh) * | 2015-06-26 | 2015-09-30 | 深圳市腾讯计算机系统有限公司 | 一种数据分类方法及系统 |
US20160371392A1 (en) * | 2015-06-17 | 2016-12-22 | Qualcomm Incorporated | Selectively indexing data entries within a semi-structured database |
US20170026350A1 (en) * | 2015-07-24 | 2017-01-26 | Skyhigh Networks, Inc. | Searchable encryption enabling encrypted search based on document type |
CN107609356A (zh) * | 2017-08-09 | 2018-01-19 | 南京信息工程大学 | 基于标签模型的文本无载体信息隐藏方法 |
CN108573047A (zh) * | 2018-04-18 | 2018-09-25 | 广东工业大学 | 一种中文文本分类模型的训练方法及装置 |
CN108920513A (zh) * | 2018-05-31 | 2018-11-30 | 深圳市图灵机器人有限公司 | 一种多媒体数据处理方法、装置和电子设备 |
CN109271523A (zh) * | 2018-11-23 | 2019-01-25 | 中电科大数据研究院有限公司 | 一种基于信息检索的政府公文主题分类方法 |
CN109471937A (zh) * | 2018-10-11 | 2019-03-15 | 平安科技(深圳)有限公司 | 一种基于机器学习的文本分类方法及终端设备 |
CN109491953A (zh) * | 2018-12-11 | 2019-03-19 | 中新金桥数字科技(北京)有限公司 | 一种跨设备实时同步阅读内容的方法 |
CN109657135A (zh) * | 2018-11-13 | 2019-04-19 | 华南理工大学 | 一种基于神经网络的学者用户画像信息抽取方法及模型 |
CN109947512A (zh) * | 2019-03-18 | 2019-06-28 | 北京字节跳动网络技术有限公司 | 一种文本适配显示方法、装置、服务器及存储介质 |
CN109992669A (zh) * | 2019-04-08 | 2019-07-09 | 浙江大学 | 一种基于语言模型和强化学习的关键词问答方法 |
CN110059181A (zh) * | 2019-03-18 | 2019-07-26 | 中国科学院自动化研究所 | 面向大规模分类体系的短文本标签方法、系统、装置 |
CN110442767A (zh) * | 2019-07-31 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种确定内容互动平台标签的方法、装置及可读存储介质 |
CN110727875A (zh) * | 2019-12-17 | 2020-01-24 | 杭州实在智能科技有限公司 | 一种法律案件代理的智能分发方法与系统 |
CN110737783A (zh) * | 2019-10-08 | 2020-01-31 | 腾讯科技(深圳)有限公司 | 一种推荐多媒体内容的方法、装置及计算设备 |
CN110781686A (zh) * | 2019-10-30 | 2020-02-11 | 普信恒业科技发展(北京)有限公司 | 一种语句相似度计算方法、装置及计算机设备 |
CN110990560A (zh) * | 2018-09-30 | 2020-04-10 | 北京国双科技有限公司 | 一种司法数据处理方法及系统 |
CN111400242A (zh) * | 2020-02-20 | 2020-07-10 | 西安交通大学 | 一种自动公文分拣派发方法和系统 |
CN111522948A (zh) * | 2020-04-22 | 2020-08-11 | 中电科新型智慧城市研究院有限公司 | 一种智能处理公文的方法及其系统 |
CN111639258A (zh) * | 2020-05-20 | 2020-09-08 | 苏州遐迩信息技术有限公司 | 一种基于神经网络的新闻推荐方法 |
CN111639291A (zh) * | 2020-05-29 | 2020-09-08 | 腾讯科技(武汉)有限公司 | 内容分发方法、装置、电子设备以及存储介质 |
CN111885399A (zh) * | 2020-06-29 | 2020-11-03 | 腾讯科技(武汉)有限公司 | 内容分发方法、装置、电子设备以及存储介质 |
CN111984792A (zh) * | 2020-09-02 | 2020-11-24 | 深圳壹账通智能科技有限公司 | 网站分类方法、装置、计算机设备及存储介质 |
CN112199526A (zh) * | 2020-09-30 | 2021-01-08 | 北京字节跳动网络技术有限公司 | 一种多媒体内容发布的方法、装置、电子设备及存储介质 |
CN112364172A (zh) * | 2020-10-16 | 2021-02-12 | 上海晏鼠计算机技术股份有限公司 | 一种政务公文领域知识图谱构建方法 |
CN112507095A (zh) * | 2020-12-15 | 2021-03-16 | 平安国际智慧城市科技股份有限公司 | 基于弱监督学习的信息识别方法及相关设备 |
CN112667780A (zh) * | 2020-12-31 | 2021-04-16 | 上海众源网络有限公司 | 一种评论信息的生成方法、装置、电子设备及存储介质 |
-
2021
- 2021-06-30 CN CN202110735686.9A patent/CN113360657B/zh active Active
Patent Citations (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722726A (zh) * | 2012-06-05 | 2012-10-10 | 江苏省电力公司南京供电公司 | 一种基于动态二叉树的svm多分类方法 |
CN104915386A (zh) * | 2015-05-25 | 2015-09-16 | 中国科学院自动化研究所 | 一种基于深度语义特征学习的短文本聚类方法 |
US20160371392A1 (en) * | 2015-06-17 | 2016-12-22 | Qualcomm Incorporated | Selectively indexing data entries within a semi-structured database |
CN104951551A (zh) * | 2015-06-26 | 2015-09-30 | 深圳市腾讯计算机系统有限公司 | 一种数据分类方法及系统 |
US20170026350A1 (en) * | 2015-07-24 | 2017-01-26 | Skyhigh Networks, Inc. | Searchable encryption enabling encrypted search based on document type |
CN107609356A (zh) * | 2017-08-09 | 2018-01-19 | 南京信息工程大学 | 基于标签模型的文本无载体信息隐藏方法 |
CN108573047A (zh) * | 2018-04-18 | 2018-09-25 | 广东工业大学 | 一种中文文本分类模型的训练方法及装置 |
CN108920513A (zh) * | 2018-05-31 | 2018-11-30 | 深圳市图灵机器人有限公司 | 一种多媒体数据处理方法、装置和电子设备 |
CN110990560A (zh) * | 2018-09-30 | 2020-04-10 | 北京国双科技有限公司 | 一种司法数据处理方法及系统 |
CN109471937A (zh) * | 2018-10-11 | 2019-03-15 | 平安科技(深圳)有限公司 | 一种基于机器学习的文本分类方法及终端设备 |
CN109657135A (zh) * | 2018-11-13 | 2019-04-19 | 华南理工大学 | 一种基于神经网络的学者用户画像信息抽取方法及模型 |
CN109271523A (zh) * | 2018-11-23 | 2019-01-25 | 中电科大数据研究院有限公司 | 一种基于信息检索的政府公文主题分类方法 |
CN109491953A (zh) * | 2018-12-11 | 2019-03-19 | 中新金桥数字科技(北京)有限公司 | 一种跨设备实时同步阅读内容的方法 |
CN110059181A (zh) * | 2019-03-18 | 2019-07-26 | 中国科学院自动化研究所 | 面向大规模分类体系的短文本标签方法、系统、装置 |
CN109947512A (zh) * | 2019-03-18 | 2019-06-28 | 北京字节跳动网络技术有限公司 | 一种文本适配显示方法、装置、服务器及存储介质 |
CN109992669A (zh) * | 2019-04-08 | 2019-07-09 | 浙江大学 | 一种基于语言模型和强化学习的关键词问答方法 |
CN110442767A (zh) * | 2019-07-31 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种确定内容互动平台标签的方法、装置及可读存储介质 |
CN110737783A (zh) * | 2019-10-08 | 2020-01-31 | 腾讯科技(深圳)有限公司 | 一种推荐多媒体内容的方法、装置及计算设备 |
CN110781686A (zh) * | 2019-10-30 | 2020-02-11 | 普信恒业科技发展(北京)有限公司 | 一种语句相似度计算方法、装置及计算机设备 |
CN110727875A (zh) * | 2019-12-17 | 2020-01-24 | 杭州实在智能科技有限公司 | 一种法律案件代理的智能分发方法与系统 |
CN111400242A (zh) * | 2020-02-20 | 2020-07-10 | 西安交通大学 | 一种自动公文分拣派发方法和系统 |
CN111522948A (zh) * | 2020-04-22 | 2020-08-11 | 中电科新型智慧城市研究院有限公司 | 一种智能处理公文的方法及其系统 |
CN111639258A (zh) * | 2020-05-20 | 2020-09-08 | 苏州遐迩信息技术有限公司 | 一种基于神经网络的新闻推荐方法 |
CN111639291A (zh) * | 2020-05-29 | 2020-09-08 | 腾讯科技(武汉)有限公司 | 内容分发方法、装置、电子设备以及存储介质 |
CN111885399A (zh) * | 2020-06-29 | 2020-11-03 | 腾讯科技(武汉)有限公司 | 内容分发方法、装置、电子设备以及存储介质 |
CN111984792A (zh) * | 2020-09-02 | 2020-11-24 | 深圳壹账通智能科技有限公司 | 网站分类方法、装置、计算机设备及存储介质 |
CN112199526A (zh) * | 2020-09-30 | 2021-01-08 | 北京字节跳动网络技术有限公司 | 一种多媒体内容发布的方法、装置、电子设备及存储介质 |
CN112364172A (zh) * | 2020-10-16 | 2021-02-12 | 上海晏鼠计算机技术股份有限公司 | 一种政务公文领域知识图谱构建方法 |
CN112507095A (zh) * | 2020-12-15 | 2021-03-16 | 平安国际智慧城市科技股份有限公司 | 基于弱监督学习的信息识别方法及相关设备 |
CN112667780A (zh) * | 2020-12-31 | 2021-04-16 | 上海众源网络有限公司 | 一种评论信息的生成方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
张维冲;王芳;黄毅;: "基于图数据库的贵州省大数据政策知识建模研究", 数字图书馆论坛, no. 04, pages 32 - 40 * |
李军;刘春贺;赵迎迎;丁一;刘兴川;: "人工智能在政府智能办公中的潜在应用研究", 智能城市, no. 22, pages 15 - 16 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116704522A (zh) * | 2023-08-02 | 2023-09-05 | 京华信息科技股份有限公司 | 一种辅助公文分办的方法及系统 |
CN116704522B (zh) * | 2023-08-02 | 2023-11-24 | 京华信息科技股份有限公司 | 一种辅助公文分办的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113360657B (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11392838B2 (en) | Method, equipment, computing device and computer-readable storage medium for knowledge extraction based on TextCNN | |
WO2018032937A1 (zh) | 一种文本信息分类方法及其装置 | |
CN108664574B (zh) | 信息的输入方法、终端设备及介质 | |
CN110110335A (zh) | 一种基于层叠模型的命名实体识别方法 | |
CN109871446A (zh) | 意图识别中的拒识方法、电子装置及存储介质 | |
CN110245557B (zh) | 图片处理方法、装置、计算机设备及存储介质 | |
CN108170759A (zh) | 投诉案件处理的方法、装置、计算机设备及存储介质 | |
CN113434688B (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
CN107748783A (zh) | 一种基于句向量的多标签公司描述文本分类方法 | |
CN113360657A (zh) | 一种公文智能分发办理方法、装置及计算机设备 | |
CA3002100A1 (en) | Unsupervised domain adaptation with similarity learning for images | |
CN113704534A (zh) | 图像处理方法、装置及计算机设备 | |
CN113159133A (zh) | 数据标注方法及装置、电子设备、存储介质 | |
CN116342137A (zh) | 客户数据回收再分配方法、装置、计算机设备及存储介质 | |
CN114298819A (zh) | 一种企业信用风险预测方法 | |
Vishwanath et al. | Deep reader: Information extraction from document images via relation extraction and natural language | |
Kumar et al. | Spam email detection using ID3 algorithm and hidden Markov model | |
CN115294593A (zh) | 一种图像信息抽取方法、装置、计算机设备及存储介质 | |
CN110688833B (zh) | 文本校正方法、装置和设备 | |
CN113901216A (zh) | 数据标注、表格信息的提取方法、装置及电子设备 | |
CN113449525A (zh) | 一种基于实体识别的文件智能流转方法及系统 | |
CN111475647A (zh) | 一种文档处理方法、装置及服务器 | |
CN111460088A (zh) | 相似文本的检索方法、装置和系统 | |
CN111783869A (zh) | 训练数据筛选方法、装置、电子设备及存储介质 | |
CN112131920B (zh) | 用于扫描图像中的表格信息的数据结构生成 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |