CN108038162B

CN108038162B - 基于公文片段和二分图匹配的公文审批人智能推荐方法

Info

Publication number: CN108038162B
Application number: CN201711275900.7A
Authority: CN
Inventors: 洪微明; 王建旭; 齐蕾蕾; 沈宏杰
Original assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd
Priority date: 2017-12-06
Filing date: 2017-12-06
Publication date: 2022-02-25
Anticipated expiration: 2037-12-06
Also published as: CN108038162A

Abstract

本发明属于智能信息系统领域，特别涉及一种基于公文片段和二分图匹配的公文审批人智能推荐方法，本发明包括步骤1、提取公文的特征信息和审批人的属性信息；步骤2、分别计算公文的匹配率和公文审批人评分矩阵；步骤3、根据公文整体匹配率确定最优审批人，结合二分图匹配策略确定推荐审批人集合。本发明提供一种基于公文片段和二分图匹配的公文审批人智能推荐方法，能够有效地提升电子公文审批流程的智能性和效率。

Description

基于公文片段和二分图匹配的公文审批人智能推荐方法

技术领域

本发明属于智能信息系统领域，特别涉及一种基于公文片段和二分图匹配的公文审批人智能推荐方法。

背景技术

电子审批系统是近些年来随着电子政务、网上审批和信息服务中心的建设发展起来的，有关电子审批系统的研究主要集中在软件系统的基本模型设计与实现层面，而对电子审批系统的基本概念和基本理论的系统性研究很少。

公文审批是电子审批系统的主要功能之一，是企事业单位日常办公的重要组成部分。公文的收发是企事业单位领会上级精神、发布重要通知、审阅和通过最重要文件的重要手段，也是一种最正式的信息发布渠道。由于其正式性和权威性，公文的审批是行政领导、工作人员相当繁重的一项工作。公文电子流程审批系统的出现，为公文的审批工作带来了极大的便利性。在公文流转过程中，不可避免的要准确选择公文下一审批人。正确的审批人选择要求用户对流程较为熟悉，提高了用户的使用成本。国内外学者有关电子政务系统的研究很多，但涉及新兴的电子审批系统的研究较少，尤其是在提升系统智能性和高效率研究方面相对匮乏。

发明内容

针对现有技术中的缺陷，本发明提供一种基于公文片段和二分图匹配的公文审批人智能推荐方法，能够有效地提升电子公文审批流程的智能性和效率。

本发明提出一种基于公文片段和二分图匹配的公文审批人智能推荐方法，其特征在于：其步骤为：

步骤1、提取公文的特征信息P和审批人的属性信息T；

步骤2、分别计算公文的匹配率s和公文审批人评分矩阵R*；

步骤3、根据公文整体匹配率确定最优审批人，结合二分图匹配策略确定推荐审批人集合；

步骤3-1、根据分块公文的匹配率，采用加权平均的方法计算出公文整体匹配率，根据公文整体匹配率确定最优的审批人；

步骤3-2、根据公文审批人评分矩阵，结合二分图匹配策略确定推荐审批人集合。

优选的，在步骤1中，公文的特征信息包含使用范围、公文性质、紧急程度，审批人的属性信息包括所属部门、范围权限。

优选的，在步骤2中，根据提取公文的特征信息和审批人的属性信息，分别计算公文的整体匹配率和公文审批人评分矩阵；公文的整体匹配率由分块公文的匹配率经加权计算而得；按照根据Factorization CF算法计算预测审批人的评分矩阵R^*。

优选的，步骤3-1中其详细步骤为：

(1)将总长度为α的公文平均分割成d块，每块公文的平均长度为α_ave＝α/d；

(2)考虑公文块中的部分匹配情况，分析出公文分块长度与特征信息长度之间的关系，确定误差率的上限是部分匹配发生的概率，即2β_ave/α_ave，根据公文审批流程匹配算法将审批人的属性信息与公文块的特征信息进行匹配，得出每块公文的匹配率，即s_i＝q_i/α_ave，q_i表示第i块公文的特征信息匹配成功的总长度；

(3)确定各公文块匹配率的权值，权值大小x_i应与单块公文匹配率s_i的大小相对应，即匹配率越高权值越大；匹配率最终值即为每块公文匹配率的加权平均值，即

(4)根据公文的审批流程匹配率算法，得出审批流程中下一个审批人的匹配率，即

其中t为审批人个数；

(5)将匹配率用排序算法进行排序，选择出最高匹配率值

即第i位审批人的匹配率值最高，所以公文审批流程中下一审批人选择第i位审批人。

优选的，步骤3-2中其详细步骤为：

(1)确定预测评分矩阵：根据所收集的特征信息集P和审批人的属性信息集T，按照根据Factorization CF算法计算预测审批人的评分矩阵R^*；

(2)构建推荐二分图：设置评分阈值Tr，按照R^*确定候选推荐审批人列表Cu，获得公文候选审批人推荐列表Cu；以非匹配边连接公文f与其Cu中的公文审批人，获得初始状态的推荐二分图；

(3)生成推荐列表：在生成公文审批人推荐列表时，根据不同的情况，分别进行计算。

优选的，在生成公文审批人推荐列表时，根据不同的情况，分别进行计算，详细步骤为：

(Ⅰ)当公文Cu中存在IC≠0的预测公文审批人时，将审批人a添加到Tu中，并从Cu中移除公文审批人a；同时，更新公文审批人a的公文审批人容量，ICa-1；将二分图中公文f与公文审批人a间的边由非匹配边转变为匹配边；

(Ⅱ)当公文Cu中所有公文审批人的IC＝0时，采用广度优先搜索策略获得该公文用户节点的一条推荐增广路。在推荐增广路p＝v₁→v₂→...→v_2n-1→v_2n中，v_奇为公文用户节点，v_偶为公文审批人节点；将该推荐增广路v_2k-1→v_2k转变为匹配边，v_2k→v_2k+1转变为非匹配边；并根据边的转换，修改相应公文的Tu与Cu，将v_2k代表的公文审批人添加到v_2k-1的公文Tu中，将v_2k代表的公文审批人从v_2k+1的公文用户Cu中移除；对推荐增广路v_2n所代表公文审批人的公文审批人容量进行减一操作，IC_2n-1；

(Ⅲ)当公文候选推荐列表中的公文审批人容量均为0，且不存在从该公文用户节点出发的推荐增广路时，此时将候选推荐列表中评分最高的公文审批人添加到公文推荐列表中，不改变公文审批人的公文审批人容量值。

由上述技术方案可知，本发明提供一种基于公文片段和二分图匹配的公文审批人智能推荐方法，能够有效地提升电子公文审批流程的智能性和效率。

附图说明

图1示出了本发明提供的基于公文片段和二分图匹配的公文审批人智能推荐方法的示意图；

图2示出了本发明提供的公文片段的审批人匹配推荐流程图；

图3示出了本发明提供的二分图匹配策略的审批人推荐流程图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只是作为示例，而不能以此来限制本发明的保护范围。

如图1至图3所示，本发明提供一种基于公文片段和二分图匹配的公文审批人智能推荐方法，包括：

步骤1、提取系统公文特征信息和审批人的属性信息；

步骤2、根据所收集的特征信息和属性信息建立公文和审批人的匹配推荐模型；

步骤3、考虑公文和审批人整体匹配情况、审批人推荐的准确性和推荐方案的合理性等要求，基于最优的匹配结果和较高的准确率确定最优的公文审批人推荐结果；

步骤1首先提取公文的使用范围、公文性质、紧急程度等特征信息，审批人包含所属部门、范围权限等内容的属性信息；

步骤2中，假设在公文和审批人模型中有n个公文，构成公文集合F，记作F＝{f₁,f₂,...,f_n}；有m个公文审批人，构成的公文审批人集合A，记作A＝{a₁,a₂,...,a_m}。公文审批流程匹配形式化定义为：给定多个公文特征信息的集合{P₁，P₂，…，P_k}(k≥2)，这里k称为特征信息个数，特征信息P_i用字节串b₁b₂…b_m’表示，其中m’称为特征信息P的长度；用字节串c₁c₂…c_n’表示审批人属性信息T，其中n’称为属性信息的长度。若属性信息T中的某字串a_ja_j+1…a_j+m’-1与特征信息P_i的各个字节一一对应，则称T从j开始匹配P_i，或称P_i匹配T与j。

公文的预测审批人用一个n×m维矩阵相似度评分矩阵描述，记作矩阵R，其中矩阵的每一项R(f,a)表示公文f对公文审批人a的真实相似度评分。公文对未评分公文审批人的预测评分由n×m维矩阵R^*表示，其中矩阵的每一项R^*(f,a)表示公文f对公文审批人a的预测评分。公文审批人的推荐列表记为Tu，推荐列表长度为N，公文审批人可被推荐的次数记为审批人容量，用IC表示。推荐初始时，所有公文审批人的审批人容量相同。

步骤3-1中根据公文和审批人整体匹配情况，确定最优的公文和审批人匹配结果，算法分为计算公文匹配率和确定最优的公文审批人两个阶段。

1)在根据模型假设，若属性信息T中的某字串a_ja_j+1…a_j+r-1与特征信息P_i的前r个字节b₁b₂…b_r一一对应，则称T从j开始前缀匹配P_i，匹配长度为r；若属性信息T中的某字串a_ja_j+1…a_j+r-1与特征信息P_i的后r个字节b_m’-r+1b_m’-r+2…b_m’一一对应，则称T从j开始后缀匹配P_i，匹配长度为r。若T从1起后缀匹配P_i，则称T后缀首匹配P_i；若T从n’-r+1起前缀匹配P_i，则称T前缀末匹配P_i。这2种特征匹配都称为T部分匹配P_i，并将一般的T匹配P称为完全匹配。如图1所示，公文被分成3块，左边一块前缀末匹配属性信息串①，右边一块后缀首匹配属性信息串③，中间这一块不但完全匹配属性信息串②，还部分匹配属性信息串①③。

在公文审批流程匹配中，特征信息集合{P₁，P₂，…，P_k}中最大特征信息长度为m’，属性信息T可能被分成若干部分{T₁，T₂，…，T_s}，并约定每一部分T_j都不小于最大特征信息长度m’；那么T与某特征信息P_i匹配的必要条件是{T₁，T₂，…，T_s}中存在某个数据块T_j满足下列3个条件之一：

(1)T_j完全匹配特征信息P_i，其匹配长度为m_i’；

(2)T_j前缀末匹配特征信息P_i，其匹配长度不小于m_i’/2；

(3)T_j后缀首匹配特征信息P_i，其匹配长度不小于m_i’/2。

因而，如果公文审批流程匹配算法能在属性信息T中匹配出特征信息P_i，则一定可以在T的一个分块T_j中匹配特征信息P_i的一个长度不小于1/2的子特征信息长度，而且如果匹配上的是P_i的一个真子特征信息，那么匹配字串必定位于T_j的首部或尾部。

在上述过程中，为了避免状态数目剧增，可以用P^-1代替P的所有后缀加入状态机，但是在扫描过程中，需要对属性块的前m’个字节做一个逆向扫描。用T^-1，P^-1表示属性信息和特征信息的逆。那么，T前缀末匹配P，等价于T^-1后缀首匹配P^-1。

假定特征信息集中包含k个特征信息串，特征信息串的平均长度为β_ave；公文总长为α，匹配时公文被分割成d个分块匹配，则平均长度为α_ave＝α/d。匹配过程中的误差主要受公文分块长度和特征信息长度相互关系的影响：

(Ⅰ)当公文分块长度不小于特征信息长度，即α_ave≥β_ave时，无论如何都不可能有匹配长度小于特征信息1/2的部分匹配，此时误差率为0；

(Ⅱ)当公文分块长度不大于特征信息长度的1/2，即α_ave≤β_ave/2时，不可能匹配到长度超过特征信息1/2的特征片段，此时误差率为100％；

(Ⅲ)当公文分块长度在以上范围内时，即β_ave/2≤α_ave≤β_ave时，如果特征串落在3个公文块中，就会发生误差，此时误差率为β_ave/α_ave-1。

在本方法中，完全匹配是不会导致误差的，误差必然发生在部分匹配的情况下，且误差率的上限是部分匹配发生的概率，即2β_ave/α_ave。

根据上述方法，可以得到公文块中的审批流程匹配率为：

s_i＝q_i/α_ave

式中，s_i表示第i块公文的审批流程匹配率，q_i表示第i块公文的特征信息匹配成功的总长度，α_ave表示公文块的平均长度。

由于匹配时公文被分割成d个分块，所以完整公文的审批流程匹配率集合为{s₁，s₂，…s_d}，记公文审批流程匹配率的权重集合为{x₁，x₂…，x_d}，公文的审批流程匹配率的加权平均值为：

根据以上分析可知，当匹配率越高时，匹配误差越小。为了减小匹配误差，权值大小x_i应与单块文本匹配率s_i的大小相对应，即匹配率越高权值越大。经过计算得到公文的审批流程匹配率的加权平均值

即为最终结果。

2)在确定最优审批人阶段，根据上述公文的审批流程匹配率算法，得出审批流程中下一个审批人的匹配率，即

其中t为审批人个数。将匹配率用排序算法进行排序，选择出最高匹配率值

步骤3-2.上述推荐算法是基于公文匹配率的大小确定最优审批人的过程，本部分基于二分图匹配策略提出一种公文审批人智能推荐方法。

在基于二分图匹配策略智能推荐方法中，首先设置相似度评分阈值Tr，公文f的候选审批人推荐列表：Cu＝{a|a∈A，f∈F and R*(f，a)＞Tr}，候选列表Cu中的元素a可视为预计审批公文f的审批人。推荐二分图记作G＝＜F，A，E＞，F为公文节点的集合，A为公文审批人节点的集合，E为公文f与公文审批人a间关系的集合。其中，连接公文f与其Cu中公文审批人的边称为匹配边，连接公文f与其Tu中公文审批人的边称为非匹配边。审批人推荐增广路是一组边的集合，要求从一个公文节点出发，依次经过非匹配边、匹配边、…、非匹配边，并且最后的公文审批人节点审批人容量不为0，则这样的路径称为审批人推荐增广路。

与前述方法类似，审批人推荐的过程分为预测公文未评分审批人的评分值与生成Top-N审批推荐列表两个阶段。本方法考虑智能推荐的准确率，兼顾推荐人的多样性因素，寻找从该公文节点开始的推荐增广路，并置换增广路中的推荐的准确率与非匹配边。

假设向每个公文推荐两个公文审批人，公文审批人容量IC为2。此刻f3公文推荐列表未满，且候选推荐列表中公文审批人a1与a5的IC值均为0。AD-Improved算法寻找到f3→a1→f1→a2增广路。将a1推荐给f3，将a2推荐给f1。由此实现了f3公文用户的推荐。并且增加了冷门审批人a2的推荐。将a2推荐给f1虽然可能会有损推荐准确率，然而，由于设置了R*(f1，a2)＞Tr，f1公文对a2公文审批人仍然具有较高的预测评分。因此，在增强总体多样性的同时，该算法仍然具有较好准确率。

AD-Improved算法可分为下列步骤：

步骤1)预测评分矩阵：根据已有的评分预测方法，预测未评分审批人的评分，并对公文选取评分最高的N个公文审批人构建Top-N推荐列表。本方法假定预测评分矩阵R^*为已知条件。

步骤2)构建推荐二分图：构建推荐二分图过程如下。首先，设置评分阈值Tr，并基于预测评分矩阵R^*，获得公文候选审批人推荐列表Cu。其次，以非匹配边连接公文f与其Cu中的公文审批人，即为算法初始状态的推荐二分图。

步骤3)生成推荐列表：向公文生成审批人推荐列表时，可能会出现三种情况：

(Ⅰ)公文Cu中存在IC不为0的预测公文审批人，为了保证推荐准确率，选择预测评分值最高的审批人a推荐给公文，即将审批人a添加到Tu中，并从Cu中移除公文审批人a。同时，由于公文审批人a进行了一次推荐，需要对公文审批人a的公文审批人容量进行更新，ICa-1。最后，二分图中公文f与公文审批人a间的边由非匹配边转变为匹配边；

(Ⅱ)公文Cu中所有公文审批人IC均为0，从该公文用户节点出发点采用广度优先搜索策略可以获得至少一条推荐增广路。推荐增广路起始于公文节点，终止于公文审批人节点。推荐增广路p＝v₁→v₂→…→v_2n-1→v_2n中，v_奇为公文用户节点，v_偶为公文审批人节点。将该推荐增广路v_2k-1→v_2k转变为匹配边，v_2k→v_2k+1转变为非匹配边。并根据边的转换，修改相应公文的Tu与Cu，将v_2k代表的公文审批人添加到v_2k-1的公文Tu中，将v_2k代表的公文审批人从v_2k ^₊ ₁的公文用户Cu中移除。对推荐增广路v_2n所代表公文审批人的公文审批人容量进行减一操作，IC_2n-1；

(Ⅲ)公文候选推荐列表中的公文审批人容量均为0，且不存在从该公文用户节点出发的推荐增广路。此刻无法提高系统总体多样性，为了保证算法准确率，将候选推荐列表中评分最高的公文审批人添加到公文推荐列表中。不改变公文审批人的公文审批人容量值。

综上所述，基于二分图匹配策略的公文审批人智能推荐过程如下：

输入：R^*，Tr，IC

输出：Top-N推荐列表

算法复杂度分析，对于由n个公文，m个公文审批人构成的智能推荐系统进行算法复杂度分析。假设推荐列表长度为N。以最坏情况进行考虑，假设公文的每次推荐都需要进行寻找推荐增广路，增广路复杂度为O(m*n)。系统有n个公文且需要重复N次，复杂度为O(N*m²*n)。由于N通常为5左右的常数，相对于系统中公文数量与公文审批人数量而言可以忽略不计，因而本算法的时间复杂度为O(m²*n)。

如图2所示，基于公文片段审批流程匹配算法，其步骤为：

步骤1、提取公文中的特征信息P和审批人的属性信息T；

步骤2、将总长度为α的公文平均分割成d块，每块公文的平均长度为α_ave＝α/d；

步骤3、考虑公文块中的部分匹配情况，分析出公文分块长度与特征信息长度之间的关系，确定误差率的上限是部分匹配发生的概率，即2β_ave/α_ave，根据公文审批流程匹配算法将审批人的属性信息与公文块的特征信息进行匹配，得出每块公文的匹配率，即s_i＝q_i/α_ave(q_i表示第i块公文的特征信息匹配成功的总长度)。

步骤4、确定各公文块匹配率的权值，权值大小x_i应与单块公文匹配率s_i的大小相对应，即匹配率越高权值越大。匹配率最终值即为每块公文匹配率的加权平均值，即

步骤5、根据公文的审批流程匹配率算法，得出审批流程中下一个审批人的匹配率，即

其中t为审批人个数。

步骤6、将匹配率用排序算法进行排序，选择出最高匹配率值

如图3所示，基于二分图匹配策略的公文审批人智能推荐方法，其步骤为：

步骤1、确定预测评分矩阵：根据所收集的特征信息集P和审批人的属性信息集T，按照根据Factorization CF算法计算预测审批人的评分矩阵R*；

步骤2、构建推荐二分图：设置评分阈值Tr，按照R*确定候选推荐审批人列表Cu，获得公文候选审批人推荐列表Cu。以非匹配边连接公文f与其Cu中的公文审批人，获得初始状态的推荐二分图。

步骤3、生成推荐列表：在生成公文审批人推荐列表时，根据不同的情况，分别进行计算：

(Ⅰ)当公文Cu中存在IC≠0的预测公文审批人时，将审批人a添加到Tu中，并从Cu中移除公文审批人a。同时，更新公文审批人a的公文审批人容量，ICa-1。将二分图中公文f与公文审批人a间的边由非匹配边转变为匹配边；

(Ⅱ)当公文Cu中所有公文审批人的IC＝0时，采用广度优先搜索策略获得该公文用户节点的一条推荐增广路。推荐增广路p＝v₁→v₂→...→v_2n-1→v_2n中，v_奇为公文用户节点，v_偶为公文审批人节点。将该推荐增广路v_2k-1→v_2k转变为匹配边，v_2k→v_2k+1转变为非匹配边。并根据边的转换，修改相应公文的Tu与Cu，将v_2k代表的公文审批人添加到v_2k-1的公文Tu中，将v_2k代表的公文审批人从v_2k+1的公文用户Cu中移除。对推荐增广路v_2n所代表公文审批人的公文审批人容量进行减一操作，IC_2n-1；

(Ⅲ)当公文候选推荐列表中的公文审批人容量均为0，且不存在从该公文用户节点出发的推荐增广路时。此时将候选推荐列表中评分最高的公文审批人添加到公文推荐列表中。不改变公文审批人的公文审批人容量值。

在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

需要说明的是，本发明的说明书附图中的框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与获得机指令的组合来实现。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.基于公文片段和二分图匹配的公文审批人智能推荐方法，其特征在于：其步骤为：

步骤1、提取公文的特征信息P和审批人的属性信息T；

步骤2、分别计算公文的匹配率s和公文审批人评分矩阵R*；

步骤3-2、根据公文审批人评分矩阵，结合二分图匹配策略确定推荐审批人集合；

步骤3-1中其详细步骤为：

其中t为审批人个数；

(5)将匹配率用排序算法进行排序，选择出最高匹配率值

2.根据权利要求1所述的基于公文片段和二分图匹配的公文审批人智能推荐方法，其特征在于：在步骤1中，公文的特征信息包含使用范围、公文性质、紧急程度，审批人的属性信息包括所属部门、范围权限。

3.根据权利要求1所述的基于公文片段和二分图匹配的公文审批人智能推荐方法，其特征在于：在步骤2中，根据提取公文的特征信息和审批人的属性信息，分别计算公文的整体匹配率和公文审批人评分矩阵；公文的整体匹配率由分块公文的匹配率经加权计算而得；按照根据Factorization CF算法计算预测审批人的评分矩阵R^*。

4.根据权利要求1所述的基于公文片段和二分图匹配的公文审批人智能推荐方法，其特征在于：步骤3-2中其详细步骤为：

5.根据权利要求4所述的基于公文片段和二分图匹配的公文审批人智能推荐方法，其特征在于：在生成公文审批人推荐列表时，根据不同的情况，分别进行计算，详细步骤为：

(I)当公文Cu中存在IC≠0的预测公文审批人时，将审批人a添加到Tu中，并从Cu中移除公文审批人a；同时，更新公文审批人a的公文审批人容量，ICa-1；将二分图中公文f与公文审批人a间的边由非匹配边转变为匹配边；

(II)当公文Cu中所有公文审批人的IC＝0时，采用广度优先搜索策略获得该公文用户节点的一条推荐增广路；在推荐增广路p＝v₁→v₂→...→v_2n-1→v_2n中，v_奇为公文用户节点，v_偶为公文审批人节点；将该推荐增广路v_2k-1→v_2k转变为匹配边，v_2k→v_2k+1转变为非匹配边；并根据边的转换，修改相应公文的Tu与Cu，将v_2k代表的公文审批人添加到v_2k-1的公文Tu中，将v_2k代表的公文审批人从v_2k+1的公文用户Cu中移除；对推荐增广路v_2n所代表公文审批人的公文审批人容量进行减一操作，IC_2n-1；

(III)当公文候选推荐列表中的公文审批人容量均为0，且不存在从该公文用户节点出发的推荐增广路时，此时将候选推荐列表中评分最高的公文审批人添加到公文推荐列表中，不改变公文审批人的公文审批人容量值。