CN110489667A

CN110489667A - 基于用户画像的智能公文流转技术

Info

Publication number: CN110489667A
Application number: CN201910769054.7A
Authority: CN
Inventors: 于劲松; 杜胜贤; 武耀; 代京; 唐荻音; 刘浩
Original assignee: Beijing University of Aeronautics and Astronautics
Current assignee: Beihang University; Beijing University of Aeronautics and Astronautics
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2019-11-22

Abstract

本发明公开一种基于用户画像的公文流转方法，所述方法包括用户画像和公文推荐两个模块：用户画像模块主要负责基于用户历史行为的用户特征提取；公文推荐模块基于用户画像为待处理的公文推荐合适的办公人员。本发明采用当下主流的doc2vec、TF‑IDF等自然语言处理算法，将文档转换为向量的形式来对公文进行特征描述，能够充分挖掘公文特征。本发明基于Python开发，将算法搭建在B/S架构的OA当中，具有很强的实用性，能够在很大程度上提高公文流转的效率。

Description

基于用户画像的智能公文流转技术

技术领域

本发明涉及基于用户画像的智能公文流转技术，研究面向工作人员的基于办公文件内容的推荐技术。

背景技术

随着大数据和云计算的发展，大量的事务处理构筑在私有云环境之上，计算模式从面向过程、面向对象逐步发展到面向数据的计算。办公自动化的未来发展方向便是云办公，将政企办公完全建立在云计算技术基础上。业务人员不必同时运行多种应用软件，只需在相同的应用环境中就能完成数据的提交和流转，可以根据不同用户的权限提供对文档的不同级别的应用，例如浏览、修改、审批等，文档可根据自定义的工作流，自动传输到下一个文档使用者，实现了办公自动化，提高了工作效率。办公智能化服务同样具有良好的发展前景，它能够在用户允许时自动生成要填写的数据，能够引导用户填写正确的表单，能够自动检查数据是否正确，填写完成后能够快速得到有效的逻辑数据，可以极大的提高工作效率与准确性。

虽然现有的系统改变了原有的公文处理模式，但是并没有改变公文的处理流程，也就是说，没有将先进的管理方法增加进来。纵观目前比较常用的产品，它们所能够提供的功能基本都是围绕公文的处理，其附加的功能无论从深度还是广度来说都远远不能令我们满意。其根本原因就是这些系统只是单纯地处理公文，没有对已处理公文加以利用，也就是说，没有做到知识的积累，无法根据这些已有的信息为企业需要做出决策服务。这就是当前系统所处的困境。随着人工智能的飞速发展，在办公系统中实现与用户行为分析的结合并提供智能化服务已经成为新的需求。

但是，伴随信息技术的迅速膨胀，企业所产生的公文激增，如何更高效地管理这些公文就成了各公司亟待解决的难题。与此同时，企业的不断发展造成了企业的组织构成越来越复杂，使得公文的流转过程也越发复杂，面对如此大量的公文，如何做好公文的分发任务也是一个难题。因此，针对私有云环境下信息数据呈现海量、分散、动态变化的特点，需要进行私有云环境下办公服务个性化服务关键技术研究。

目前，国内外常用的推荐算法有协同过滤算法，基于内容的推荐算法，混合推荐算法。

发明内容

基于用户行为的智能公文流转技术用于提高公文流转的效率，具备用户画像构建、公文的向量模型生成、公文相似度计算、用户标签提取、公文推荐功能，动态加载知识库执行算法。公文数据与用户画像构建以及公文向量模型算法的解耦合可令开发人员单独进行算法开发和项目试验。

基于用户行为的智能公文流转技术的特点在于：运用Python语言编程，搭建在实际的OA(Office Automation,办公自动化)平台上，采用RESTful(Representational StateTransfer,表征性状态转移)API作为交互接口。系统框架主要包括公文向量计算模块、用户标签提取模块、用户画像构建模块、公文推荐模块。其中公文向量计算模块通过算法计算将公文处理成数学上的向量形式；用户标签提取模块的功能在于从公文中提取关键词来为用户打标签；用户画像构建模块的功能在于基于公文向量、用户标签、用户身份信息来构建用户画像；公文推荐模块的功能在于基于用户画像为待办公文推荐办理人员。

本发明的优点在于：

1.以办公人员为核心，通过对历史公文的处理，得到文档的向量化表示，可以将计算机不可量化的汉字转化为数学中的向量从而计算公文相似度。

2.按照办公人员的日常办公内容、办公习惯和相关权限，通过为用户打标签并通过基于历史处理公文的方式构建用户画像，能够充分反映用户的特征。

3.办公系统智能化技术采用RESTful API访问数据资源。RESTful架构遵循统一接口原则，统一接口包含了一组受限的预定义的操作，通过使用相同的接口进行所有资源的访问。

附图说明

图1为说明书符号定义表

图2为用户画像构建流程图

图3为公文推荐流程示意图

图4为LDA算法流程图

图5为word2vec算法示意图

具体实施方案

下面对本发明提供的基于用户行为的智能公文流转技术进行详细说明：

1.系统框架

推荐功能基于用户画像构建完整性，在具有一定办公人员信息完整性的基础上展开，具体应用场景包括业务办理工作人员推荐和内容推荐。本发明中用户画像构建框架和公文推荐框架分别如图2和图3所示。

通过LDA(Latent Dirichlet Allocation,潜在狄利克雷分布)、doc2vec、word2vec等方法对用户处理过的公文进行向量化表示。采用TF-IDF(Term Frequency–Inverse Document Frequency,词频和逆文本频率)算法从用户处理过的公文中提取标签，并结合办公人员与自己的职位特征，如工作性质和工作权限等信息，构建用户的画像。

基于内容推荐算法，面向特定的公文，以训练好的海量公文为基础，采用LDA、TF-IDF、word2vec等算法提取此公文的特征信息。结合已经构建好的用户画像，计算此公文的信息与用户画像信息的匹配度，推荐最合适的业务办公人员。

2.模型构建算法

(1)用户画像构建

围绕私有云环境下服务化智能办公系统平台的需要，面向办公人员和办公流程的典型需求，构建智能化办公模型架构。通过LDA、word2vec、doc2vec等方法对用户处理过的公文进行向量化表示。采用TF-IDF算法从用户处理过的公文中提取标签特征，并结合办公人员与自己的职位特征，如工作性质和工作权限等信息，构建用户的画像：

r_u＝{d_u,f_u,t_u,tag_u}

其中d_u代表用户处理过的公文，f_u代表用户的个人信息，t_u代表用户的活跃时间信息，tag_u代表用户的标签特征。

对于用户画像r_u，其历史公文记录可以通过word2vec和doc2vec以及LDA模型计算得到文档的向量表示和主题分布情况。用户标签tag_u可以通过TF-IDF模型提取关键字。对于每个用户u，可以统计其活跃时间信息为：

t_u＝{v_t1(u),v_t2(u)...v_t24(u)}

其中v_t(u)代表用户在时间段t内活跃的天数。将每天按照24个小时分为24个时间段，以此可以得到完整的用户画像信息。

(2)文档的向量化表示

1)TF-IDF提取关键词权重

通过办公系统中的用户行为日志，包括办公人员的通知浏览记录、办公操作记录、公文阅读记录、办公人员通信记录，以办公人员为中心，通过TF-IDF算法进行公文的关键词提取，为办公人员添加标签，并且随着标签频率的增加，标签的权重也在增加，计算公式为：

tfidf_ij＝tf_ij×idf_ij

其中表示文章中某个关键词在整篇文章中出现的频率。表示逆文本频率，它可以降低在各个文档中出现频率均比较高的词的权重。

通过TF-IDF算法，可以依据办公人员所处理的公文等信息提取出关键字并为办公人员打上标签。

2)LDA文档主题生成模型计算文档潜在主题分布

LDA是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并在这个主题中以一定概率选择某个词语”这样一个过程得到。其中，文档到主题和主题到词均服从多项式分布。

LDA是一种非监督机器学习技术，可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化成了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

对于语料库中的每篇文档，LDA定义了如下生成过程：

①对每一篇文档，从主题分布中抽取一个主题；

②从上述被抽到的主题所对应的单词分布中抽取一个单词；

③重复上述过程直至遍历文档中的每一个单词。

语料库中的每一篇文档与T(通过反复试验等方法事先给定)个主题的一个多项分布相对应，将该多项分布记为θ，其超参数为α。每个主题又与词汇表中的V个单词的一个多项分布相对应，将这个多项分布记为其超参数为β。其算法模型图如图4所示，其中K代表主题数目，M代表文档数目，N代表文档中的单词数目。通过吉布斯采样的方法，为文档中的每个单词分配主题，待训练稳定后，即可得到LDA模型。

对于一篇新来的文档，可以通过训练好的模型直接计算出主题分布。

3)word2vec与doc2vec将文章与词汇转换为词向量

word2vec是一群用来产生词向量的相关模型。这些模型为双层的神经网络，用来训练以重新建构词向量库。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系。如图5所示。

word2vec的训练过程如下：

①将经过分词处理后的单词采用独热型编码的方式表示。

②将上一步得到的词向量乘投影矩阵得到隐藏层的输入，再通过激活函数得到隐藏层的输出。但是为了简便计算通常采用将输入层的输出直接求和得到隐藏层的输入。

③输出层是一棵霍夫曼树，其中叶子节点就是对应词汇表中的词，非叶子节点等价于隐藏层到输出层的参数。通过训练模型可以得到输入层与隐藏层之间的权重。

④将初始的独热型编码的单词表示与输入层和隐层之间的权重相乘即得到单词的词向量表示。

doc2vec的训练过程与word2vec相似。输入层在word2vec的输入层基础上增加一个段落向量，在对单词进行训练时段落向量也会参与训练。训练完成后，即可得到整个段落和文档的向量表示。在得到文档中词的向量表示后，即可用来计算文档之间的相似度。

(3)基于用户画像的办公人员推荐

对于要处理的公文，以经过训练的海量公文数据为基础，通过TF-IDF、word2vec和doc2vec等算法来提取公文的特征信息。选取用户的历史处理公文计算其中与该公文的文档相似性最高的N篇公文，计算其相似度的平均值vecsim。为了增加推荐的精准性，可以采用LDA辅助的方式计算文档之间的主题相似性ldasim。结合两者可以得到相似性计算结果：

docsim＝α·vecsim+(1-α)·ldasim

其中α是介于0到1之间的实数。

同时采用TF-IDF算法计算出文档的关键字，并将关键字与用户标签特征tag_u的匹配次数作为文档相似性的权重。结合构建的用户画像采用协同过滤算法，从而得到处理此公文的人员推荐列表。

当待办公文涉及时限因素时，将用户的活跃时间段也纳入计算的范畴。为推荐结果加上用户处理公文的活跃时间信息，从而可以推荐出在时限内能处理此公文的最佳人员列表。以此可以加快公文流转的效率，为用户提供智能化、个性化的服务，提高办公的效率和质量。

Claims

1.基于用户行为的智能公文流转技术，其特征在于：具备用户画像构建、公文的向量模型生成、公文相似度计算、用户标签提取、公文推荐功能，动态加载知识库执行算法。公文数据与用户画像构建以及公文向量模型算法的解耦合可令开发人员单独进行算法开发和项目试验。

2.根据权利要求1所述的基于用户行为的智能公文流转技术，其特征在于：围绕私有云环境下服务化智能办公系统平台的需要，面向办公人员和办公流程的典型需求，构建智能化办公模型架构。通过LDA、word2vec、doc2vec等方法对用户处理过的公文进行向量化表示。采用TF-IDF算法从用户处理过的公文中提取标签特征，并结合办公人员与自己的职位特征，如工作性质和工作权限等信息，构建用户的画像。

3.根据权利要求1所述的基于用户行为的智能公文流转技术，其特征在于：对于要处理的公文，以经过训练的海量公文数据为基础，通过LDA、word2vec和doc2vec算法来提取公文的特征信息。同时采用TF-IDF算法计算出文档的关键字，结合构建的用户画像采用协同过滤算法，从而得到处理此公文的人员推荐列表。

4.根据权利要求1所述的基于用户行为的智能公文流转技术，其特征在于：当待办公文涉及时限因素时，将用户的活跃时间段也纳入计算的范畴。为推荐结果加上用户处理公文的活跃时间信息，从而可以推荐出在时限内能处理此公文的最佳人员列表。