CN109101534A

CN109101534A - 一种基于文本规则的自动文档分发方法和装置

Info

Publication number: CN109101534A
Application number: CN201810670929.3A
Authority: CN
Inventors: 罗奔
Original assignee: Zhuhai Hongqiao Hi Tech Co Ltd
Current assignee: Zhuhai Hongqiao Hi Tech Co Ltd
Priority date: 2018-06-26
Filing date: 2018-06-26
Publication date: 2018-12-28

Abstract

本申请公开了一种基于文本规则的自动文档分发方法，包括以下步骤：获取待分发文档的使用信息，其中使用信息至少包括的文档标题和文档类型；根据待分发文档的使用信息以及记录已分发文档的标注库，构建训练样本；基于训练样本，建立并训练多层感知分类器以形成分发规则配置文件；以及加载分发规则配置文件，根据分发规则配置文件分发待分发文档。本申请还公开了与上述方法相对应的一种基于文本规则的自动文档分发装置。本申请的有益效果为：通过分析不同的文档被分发方在使用文档的类型和标题上的显著差异，训练文档的多层感知分类器以形成分发规则配置文件，实现了多团队协同工作下的文档自动分发。

Description

一种基于文本规则的自动文档分发方法和装置

技术领域

本申请涉及信息分析领域，尤其涉及基于文本规则的自动文档分发方法和装置。

背景技术

随着网络技术的发展及服务器的租赁成本不断下降，不少大型公司或研究机构都采用远程办公的方式，将在地理上不同位置的相关工作团队集结在一起工作，以提高工作效率。由于各个团队之间工作内容的相关性，其内部所各自形成的文档往往需要通过局域网等方式分享到共享服务器上，以供团队内部或其他团队参考。

以大型公司为例，其位于相邻城市的多家分公司在规划某个营销活动时，在该区域内的多家分公司的各个团队需要相互协同，以执行统一调配物资，营造大型宣传声势或资金结算汇总等活动。在执行上述活动的过程中，分公司的各个团队之间日常交流不可避免地需要形成多份相关的记录文档，并作为日后备案汇总的基础。

但是，由于日常交流所形成的文档数量过于庞大，如果采用人手识别的方式将无法及时地将所有文档分发到各分公司的相关团队成员。现有的方法是针对具体的应用场景搭建相应的系统平台，对相关文档针对性进行管理维护。例如授权公告号为CN206557387U的实用新型专利，其通过在城市规划数据搭建的统一数据平台上搭建数据智能分发系统，从而实现了数据的定向发送。然而，该实施方案仅针对特定的应用场合而定制化，并且需要前期投入大量平台搭建工作，从而仅适用于业务操作流程相对稳定的场合，无法方便快捷地复用到其他场景。

发明内容

本申请的目的是解决现有技术的不足，提供一种基于文本规则的自动文档分发方法和装置，能够获得对多应用场景下的各种类型的文档自动进行分发的效果。

为了实现上述目的，本申请采用以下的技术方案。

首先，本申请提出一种基于文本规则的自动文档分发方法。上述方法包括以下步骤：获取待分发文档的使用信息，其中使用信息至少包括的文档标题和文档类型；根据待分发文档的使用信息以及记录已分发文档的标注库，构建训练样本；基于训练样本，建立并训练多层感知分类器以形成分发规则配置文件；以及加载分发规则配置文件，根据分发规则配置文件分发待分发文档。

进一步地，在本申请的上述方法中，标注库至少包括文档特征向量和标注分发结果。

再进一步地，在本申请的上述方法中，根据待分发文档的使用信息以及记录已分发文档的标注库，构建训练样本进一步包括以下子步骤：根据待分发文档的使用信息，对文档标题作中文分词；对已经分词的文档标题和文档类型，分别按照主题形成主题分布向量，以及按照文档类型形成文档类型向量；拼接主题分布向量和文档类型向量，形成文档特征向量作为训练样本的部分。

再进一步地，在本申请的上述方法中，主题分布向量是基于LDA(LatentDirichlet Allocation，隐含狄利克雷分布)主题模型迭代生成的。

再进一步地，在本申请的上述方法中，训练样本还包括已分发文档的数量。

进一步地，在本申请的上述方法中，多层感知分类器是采用反向传播算法训练。

进一步地，本申请的上述方法还可包括以下步骤：基于已分发文档，验证多层感知分类器所形成的分发规则配置文件。

其次，本申请还提出一种基于文本规则的自动文档分发装置。上述装置包括以下模块：文档采集模块，用于获取待分发文档的使用信息，其中使用信息至少包括的文档标题和文档类型；数据标注模块，用于根据待分发文档的使用信息以及记录已分发文档的标注库，构建训练样本；规则生成模块，用于基于训练样本，建立并训练多层感知分类器以形成分发规则配置文件；以及文档分发模块，用于加载分发规则配置文件，根据分发规则配置文件分发待分发文档。

进一步地，在本申请的上述装置中，标注库至少包括文档特征向量和标注分发结果。

再进一步地，在本申请的上述装置中，根数据标注模块可进一步包括以下子模块：分词模块，用于根据待分发文档的使用信息，对文档标题作中文分词；构建模块，用于对已经分词的文档标题和文档类型，分别按照主题形成主题分布向量，以及按照文档类型形成文档类型向量；拼接模块，用于拼接主题分布向量和文档类型向量，形成文档特征向量作为训练样本的部分。

再进一步地，在本申请的上述方法中，主题分布向量是基于LDA主题模型迭代生成的。

再进一步地，在本申请的上述装置中，训练样本还包括已分发文档的数量。

进一步地，在本申请的上述装置中，多层感知分类器是采用反向传播算法训练。

进一步地，本申请的上述装置还可包括以下模块：验证测试模块，用于基于已分发文档，验证多层感知分类器所形成的分发规则配置文件。

最后，本申请还公开了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如前述任一项所述方法的步骤。

本申请的有益效果为：通过分析不同的文档被分发方在使用文档的类型和标题上的显著差异，训练文档的多层感知分类器以形成分发规则配置文件，实现了多团队协同工作下的文档自动分发。

附图说明

图1所示为本申请所公开的基于文本规则的自动文档分发方法的总体流程图；

图2所示为构建训练样本的子步骤方法流程图；

图3所示为验证基于文本规则的自动文档分发方法流程的示意图；

图4所示为本申请所公开的基于文本规则的自动文档分发装置的模块结构图。

具体实施方式

以下将结合实施例和附图对本申请的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本申请的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。附图中各处使用的相同的附图标记指示相同或相似的部分。

本申请所公开技术方案是基于以下的假设：不同岗位的被发送方在使用的工作文档内容和类型是不一样的。团队的工作文档本身拥有足够显著的信息用于描述团队的岗位特性。利用工作文档的使用信息差异性，可以一定程度上准确地反推团队的特性。例如，策划销售人员一般使用Word、Excel和PowerPoint等商业办公软件，从而其工作文档多是doc、xls或者ppt等格式，且其标题较少甚至不会使用“某某流程图”、“某某算法说明”或“某某系统架构图”等软件开发人员常用词。因此，基于被发送方的工作文档，可以推定其所在团队的工作性质。进一步地，本领域技术人员可以根据待分发文档的其他信息(例如撰写人员的岗位、等级或文档的撰写日期)，从而使得文档的分发更为准确。

为方便说明本申请所列举的实施例，本申请按照一个实际业务场景中待分发文档可能被分发到的多个不同类似团队，将团队划分为几个基本类别：产品技术人员、产品销售人员、技术支持人员(例如售后服务人员)、财务管理人员和其他。进一步地，即使是分发至该团队的文档，亦可以根据文档的密级进一步地分发至不同级别的人员。此外，上述应用场景仅作为待文档被分发方分类的一个例子，并不是对本申请所适用场景进行限制。本领域技术人员可以根据具体的应用场景，采用不同的被分发方划分方式。本申请对此不予限定。

基于上述理由，本申请所公开的技术方案将待分发文档的使用信息作为判断标准，对文档进行自动分发。具体地，参照图1所示的方法流程图，根据本申请所公开的一个实施例，所述基于文本规则的自动文档分发方法，包括以下步骤：获取待分发文档的使用信息，其中使用信息至少包括的文档标题和文档类型(即文件格式，例如PDF、DOC、XLS或者JPG等等各种常见的文件格式)；根据待分发文档的使用信息以及记录已分发文档的标注库，构建训练样本；基于训练样本，建立并训练多层感知分类器以形成分发规则配置文件；以及加载分发规则配置文件，根据分发规则配置文件分发待分发文档。

在本申请的一个或多个方法实施例中，需要获取待分发文档的使用信息主要针对常用的文档类型(例如常用的文本文档格式DOC、表格文档格式XLS或者工程图纸格式DWG等等)和文档标题。具体待分发文档的使用信息可以通过抓取对待分发文档的文件名获得。关于获取使用信息的具体方式，本领域技术人员可以根据具体的应用场景而采用本领域常规技术手段实现。本申请对此不予限定。

在本申请的上述一个或多个方法实施例中，标注库包括但是不限于被分发方的特征向量和标注分发结果。其中，被分发方的特征向量是基于使用信息形成的。标注分发结果是根据已分发文档形成的。此外，标注库还可以包括各被分发方的关键词。例如，若待分发文档的标题包含“金额”、“财务”、“收支”等财务会计关键词时，则被分发方是财务管理人员的概率比较大。

对于文档特征向量，传统的方案是通过构造文档标题的文本类特征形成，即把多个文档标题组合在一起视为普通文本，并先后对列表文本执行中文分词、词语筛选和特性表示等文本处理技术，构造对应的特征向量。具体地，可采用本领域常用的开源工具结巴分词对文档标题执行中文分词处理；然后，利用TF-IDF(词频—逆向文件频率，termfrequency–inverse document frequency)排序筛选方法，把区分度较小的词语滤除；最后，特性向量采用词语0-1表示法生成。

这种方法对于专业性比较强的规范文本，特征的区分度效果较好。但是，对于文档标题这类短小的文本，上述方法生成的特征区分度较差。此外，该方法忽略了被分发方的文档可能具有不同的主题和内容类别。换句话说，使用信息至少包含以下两方面的信息：文档标题，和文档类型。而上述传统方法构建文本类特征时，由于只考虑了文档标题这单一的信息，忽略了文档类型这一重要信息；因此，诸如待分发文档的主题和内容等隐含的信息并没有被充分挖掘和利用，从而降低了被分发方的特征向量的区分度。

基于上述理由，本申请采用主题聚类的方法，针对文档标题构建特征。具体地，参照图2所示的构建训练样本进的子步骤方法流程图，在本申请的上述一个或多个方法实施例中，根据待分发文档的使用信息以及记录已分发文档的标注库，构建训练样本进一步包括以下子步骤：根据待分发文档的使用信息，对文档标题作中文分词；对已经分词的文档标题和文档类型，分别按照主题形成主题分布向量，以及按照文档类型形成文档类型向量；拼接主题分布向量和文档类型向量，形成文档特征向量作为训练样本的部分。其中主题分布向量的各个分量表示根据文档标题中出现的关键词，该待分发文档属于某个主题的概率。文档类型向量则表示各被分发方目前所持有该类文档类型数量。具体地，由于文档类型可以从文件名的后缀确定，因此在本申请的一个或多个方法实施例中，文档类型向量中的每个分量表示各被分发方的已分发文档中具有该文档类型的文档数量(文档类型向量中的某个分量为零则表示相应的被分发方不具有该文档类型的已分发文档)。文档类型向量还可以采用本领域其他常用技术手段实现，以表示待分发文档的文档类型方面的特征。本申请对此不予限定。文档特征向量可以简单地将主题分布向量和文档类型向量拼接在一起而形成(即文档特征向量的集合是主题分布向量的集合和文档类型向量的集合所构成的笛卡尔积)。训练样本可以只包括上述定义的文档特征向量，或进一步地包括其他可以用于判断文档分发的信息。

进一步地，在本申请的上述一个或多个方法实施例中，训练样本还包括已分发文档的数量。事实上，由于被分发方的各份已分发文档不一定都具有规范的文档类型，因此在上述方法实施例中文档类型向量的各个分量之和可以是小于已分发文档的数量。基于上述理由，以分发文档的数量可通过结合文档类型向量以计算不确定的文档类型，从而进一步地提高文档自动分发的准确率。

在本申请的上述一个或多个方法实施例中，主题分布向量是基于LDA主题模型迭代生成的。LDA主题模型的具体训练过程作为本领域的公知常识，本申请在此不详细展开描述。本申请只是在此指出，对于每个被分发方，其所有已分发文档的文档标题将被组成集合，作为LDA主题模型中的一份训练文档，从而生成每个被分发方的主题分布向量。

在本申请的上述一个或多个方法实施例中，多层感知分类器是采用反向传播算法训练，以在适当的时间内获得具有可用的多层感知分类器。具体的多层感知分类器创建和训练可以本领域的常用技术手段实现。本申请对此不予限定。

参照图3所示的方法流程的示意图，在本申请的上述一个或多个方法实施例中，可基于已分发文档，验证多层感知分类器所形成的分发规则配置文件。例如，管理人员可以定期随机筛选10～20已被标识为正确分发的文档(其可以通过上述方法分发或由人手分发)。这些已被标识为正确分发的文档与执行分发规则配置文件后所输出的预测结果做匹配，从而统计所提供技术方案准确率，或者作为反馈信息调整分类器的参数。

参照图4所示的模块结构图，根据本申请所公开的一个实施例，所述基于文本规则的自动文档分发装置，包括以下模块：文档采集模块，用于获取待分发文档的使用信息，其中使用信息至少包括的文档标题和文档类型(即文件格式，例如PDF、DOC、XLS或者JPG等等各种常见的文件格式)；数据标注模块，用于根据待分发文档的使用信息以及记录已分发文档的标注库，构建训练样本；规则生成模块，用于基于训练样本，建立并训练多层感知分类器以形成分发规则配置文件；以及文档分发模块，用于加载分发规则配置文件，根据分发规则配置文件分发待分发文档。

在本申请的一个或多个装置实施例中，需要获取待分发文档的使用信息主要针对常用的文档类型(例如常用的文本文档格式DOC、表格文档格式XLS或者工程图纸格式DWG等等)和文档标题。具体待分发文档的使用信息可以通过抓取对待分发文档的文件名获得。关于获取使用信息的具体方式，本领域技术人员可以根据具体的应用场景而采用本领域常规技术手段实现。本申请对此不予限定。

在本申请的上述一个或多个装置实施例中，标注库包括但是不限于被分发方的特征向量和标注分发结果。其中，被分发方的特征向量是基于使用信息形成的。标注分发结果是根据已分发文档形成的。此外，标注库还可以包括各被分发方的关键词。例如，若待分发文档的标题包含“金额”、“财务”和“收支”等财务会计关键词时，则被分发方是财务管理人员的概率比较大。

对于文档特征向量，传统的方案是通过构造文档标题的文本类特征形成，即把多个文档标题组合在一起视为普通文本，并先后对列表文本执行中文分词、词语筛选和特性表示等文本处理技术，构造对应的特征向量。具体地，可采用本领域常用的开源工具结巴分词对文档标题执行中文分词处理；然后，利用TF-IDF排序筛选方法，把区分度较小的词语滤除；最后，特性向量采用词语0-1表示法生成。

基于上述理由，本申请采用主题聚类的方法，针对文档标题构建特征。具体地，在本申请的上述一个或多个装置实施例中，数据标注模块可进一步包括以下子模块：分词模块，用于根据待分发文档的使用信息，对文档标题作中文分词；构建模块，用于对已经分词的文档标题和文档类型，分别按照主题形成主题分布向量，以及按照文档类型形成文档类型向量；拼接模块，用于拼接主题分布向量和文档类型向量，形成文档特征向量作为训练样本的部分。其中主题分布向量的各个分量表示根据文档标题中出现的关键词，该待分发文档属于某个主题的概率。文档类型向量则表示各被分发方目前所持有该类文档类型数量。具体地，由于文档类型可以从文件名的后缀确定，因此在本申请的一个或多个装置实施例中，文档类型向量中的每个分量表示各被分发方的已分发文档中具有该文档类型的文档数量(文档类型向量中的某个分量为零则表示相应的被分发方不具有该文档类型的已分发文档)。文档类型向量还可以采用本领域其他常用技术手段实现，以表示待分发文档的文档类型方面的特征。本申请对此不予限定。用户特征向量可以简单地将主题分布向量和文档类型向量拼接在一起而形成(即文档特征向量的集合是主题分布向量的集合和文档类型向量的集合所构成的笛卡尔积)。训练样本可以只包括上述定义的文档特征向量，或进一步地包括其他可以用于判断文档分发的信息。

进一步地，在本申请的上述一个或多个装置实施例中，训练样本还包括已分发文档的数量。事实上，由于被分发方的各份已分发文档不一定都具有规范的文档类型，因此在上述方法实施例中文档类型向量的各个分量之和可以是小于已分发文档的数量。基于上述理由，以分发文档的数量可通过结合文档类型向量以计算不确定的文档类型，从而进一步地提高文档自动分发的准确率。

在本申请的上述一个或多个装置实施例中，主题分布向量是基于LDA主题模型迭代生成的。LDA主题模型的具体训练过程作为本领域的公知常识，本申请在此不详细展开描述。本申请只是在此指出，对于每个被分发方，其所有已分发文档的文档标题将被组成集合，作为LDA主题模型中的一份训练文档，从而生成每个被分发方的主题分布向量。

在本申请的上述一个或多个装置实施例中，多层感知分类器是采用反向传播算法训练，以在适当的时间内获得具有可用的多层感知分类器。具体的多层感知分类器创建和训练可以本领域的常用技术手段实现。本申请对此不予限定。

在本申请的上述一个或多个装置实施例中，还包括以下模块：验证测试模块，用于基于已分发文档，验证多层感知分类器所形成的分发规则配置文件。例如，管理人员可以定期随机筛选10～20已被标识为正确分发的文档(其可以通过上述方法分发或由人手分发)。验证测试模块将这些已被标识为正确分发的文档与执行分发规则配置文件后所输出的预测结果做匹配，从而统计所提供技术方案准确率，或者作为反馈信息调整分类器的参数。

应当认识到，本申请的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

尽管本申请的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释，从而有效地涵盖本申请的预定范围。此外，上文以发明人可预见的实施例对本申请进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本申请的非实质性改动仍可代表本申请的等效改动。

Claims

1.一种基于文本规则的自动文档分发方法，其特征在于，包括以下步骤：

获取待分发文档的使用信息，其中使用信息至少包括的文档标题和文档类型；

根据待分发文档的使用信息以及记录已分发文档的标注库，构建训练样本；

基于训练样本，建立并训练多层感知分类器以形成分发规则配置文件；以及

加载分发规则配置文件，根据分发规则配置文件分发待分发文档。

2.根据权利要求1所述的方法，其特征在于，标注库至少包括文档特征向量和标注分发结果。

3.根据权利要求2所述的方法，其特征在于，根据待分发文档的使用信息以及记录已分发文档的标注库，构建训练样本进一步包括以下子步骤：

根据待分发文档的使用信息，对文档标题作中文分词；

对已经分词的文档标题和文档类型，分别按照主题形成主题分布向量，以及按照文档类型形成文档类型向量；

拼接主题分布向量和文档类型向量，形成文档特征向量作为训练样本的部分。

4.根据权利要求3所述的方法，其特征在于，主题分布向量是基于LDA主题模型迭代生成的。

5.根据权利要求3所述的方法，其特征在于，训练样本还包括已分发文档的数量。

6.根据权利要求1所述的方法，其特征在于，多层感知分类器是采用反向传播算法训练。

7.根据权利要求1所述的方法，其特征在于，还包括以下步骤：

基于已分发文档，验证多层感知分类器所形成的分发规则配置文件。

8.一种基于文本规则的自动文档分发装置，其特征在于，包括以下模块：

文档采集模块，用于获取待分发文档的使用信息，其中使用信息至少包括的文档标题和文档类型；

数据标注模块，用于根据待分发文档的使用信息以及记录已分发文档的标注库，构建训练样本；

规则生成模块，用于基于训练样本，建立并训练多层感知分类器以形成分发规则配置文件；以及

文档分发模块，用于加载分发规则配置文件，根据分发规则配置文件分发待分发文档。

9.根据权利要求8所述的装置，其特征在于，还包括以下模块：

验证测试模块，用于基于已分发文档，验证多层感知分类器所形成的分发规则配置文件。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于该指令被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。