CN109189883A - 一种电子文件的智能派发方法及装置 - Google Patents
一种电子文件的智能派发方法及装置 Download PDFInfo
- Publication number
- CN109189883A CN109189883A CN201810901835.2A CN201810901835A CN109189883A CN 109189883 A CN109189883 A CN 109189883A CN 201810901835 A CN201810901835 A CN 201810901835A CN 109189883 A CN109189883 A CN 109189883A
- Authority
- CN
- China
- Prior art keywords
- electronic file
- machine learning
- historical
- file content
- electronic document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种电子文件的智能派发方法及装置,涉及电子文件处理技术领域。方法包括:获得各历史电子文件内容作为机器学习样本;对每一历史电子文件内容通过自然语言处理分词方法进行分词处理,获得词汇集合;从所述词汇集合中确定高频词汇作为机器学习特征;对每一历史电子文件内容使用信息检索加权算法,计算该历史电子文件内容在各机器学习特征上的信息检索加权数值;根据各历史电子文件的接收方信息确定电子文件类型;根据各机器学习特征、各电子文件类型和各信息检索加权数值形成学习矩阵;根据所述学习矩阵,采用机器学习算法进行拟合训练,生成派发模型;获得待处理电子文件,并经过所述派发模型进行派发处理。
Description
技术领域
本发明涉及电子文件处理技术领域,尤其涉及一种电子文件的智能派发方法及装置。
背景技术
随着互联网和计算机技术的不断发展,当前各行各业大多已经开始采用电子办公,即各种单据已经开始采用电子文件的形式,例如电子邮件、银行等行业的客服单、物流等行业的提货单等等。
现有的各行各业中,企业人员众多,分支机构和职位也较为繁多,在进行电子办公时,大多需要将各种电子文件进行频繁的分派和转发。例如企业总裁的一个电子邮件可能会下发给各分支机构的总经理,再由各分支机构的总经理下发到各部门负责人,再由各部门负责人下发给各员工等。同样,各种客服单、提货单等电子文件也可能存在被层层转发和分派的问题。目前,电子文件的派发大多是由人工负责处理,这降低了派发的及时性和准确性,使得电子文件不能又快有准地到达目的地。
发明内容
本发明的实施例提供一种电子文件的智能派发方法及装置,以实现各类电子文件的智能派发,无需人工干涉,提高电子文件派发的准确性和及时性。
为达到上述目的,本发明采用如下技术方案:
一种电子文件的智能派发方法,包括:
获得各历史电子文件内容作为机器学习样本;
对每一历史电子文件内容通过自然语言处理分词方法进行分词处理,获得词汇集合;
从所述词汇集合中确定高频词汇作为机器学习特征;
对每一历史电子文件内容使用信息检索加权算法,计算该历史电子文件内容在各机器学习特征上的信息检索加权数值;
根据各历史电子文件的接收方信息确定电子文件类型;
根据各机器学习特征、各电子文件类型和各信息检索加权数值形成学习矩阵;
根据所述学习矩阵,采用机器学习算法进行拟合训练,生成派发模型;
获得待处理电子文件,并经过所述派发模型进行派发处理。
具体的,所述获得各历史电子文件内容作为机器学习样本,包括:
从预先设置的电子文件系统中获得各历史电子文件内容;
将各历史文件内容导入到预设格式的数据库中,以作为机器学习样本;所述预设格式的数据库中包含数据表,所述数据表包括电子文件内容对应的数据项和数据类型。
具体的,所述对每一历史电子文件内容通过自然语言处理分词方法进行分词处理,获得词汇集合,包括:
获取预先设置的电子文件所属领域的专有词典和停用词典;
根据所述专有词典和停用词典,采用自然语言处理分词方法对每一历史电子文件内容进行分词处理,获得词汇集合。
具体的,所述从所述词汇集合中确定高频词汇作为机器学习特征,包括:
从所述词汇集合中获得全部历史电子文件内容进行分词后的全部词汇和各词汇出现次数;
根据各词汇出现次数和预先设置的出现频率阈值,将大于所述预先设置的出现频率阈值的词汇确定为高频词汇,以作为机器学习特征。
具体的,所述根据各历史电子文件的接收方信息确定电子文件类型,包括:
在历史电子文件为历史电子邮件时,根据历史电子邮件的收件人标记该历史电子邮件的类型;
在历史电子文件为历史工作单据时,根据历史工作单据的接收方标记该历史工作单据的类型;所述历史工作单据包括历史客户服务单。
具体的,所述根据各机器学习特征、各电子文件类型和各信息检索加权数值形成学习矩阵,包括:
根据N个机器学习特征和M个历史电子文件内容,形成M×N的学习矩阵;所述学习矩阵中的每个值为一历史电子文件内容在一机器学习特征上的信息检索加权数值;所述M个历史电子文件内容中的每个与其电子文件类型相对应。
具体的,所述根据所述学习矩阵,采用机器学习算法进行拟合训练,生成派发模型,包括:
将所述学习矩阵中的历史电子文件内容划分为两部分,分别形成训练集和验证集;
将所述学习矩阵中的训练集的每个历史电子文件内容对应的信息检索加权数值作为输入,相对应的电子文件类型作为输出,采用各种机器学习算法进行拟合训练,形成多个候选派发模型;所述各种机器学习算法包括朴素贝叶斯算法、支持向量机算法、逻辑回归算法、决策树算法、随机森林算法和梯度提升决策树算法;
将所述学习矩阵中的验证集的每个历史电子文件内容对应的信息检索加权数值作为输入,获得各候选派发模型的输出结果,并根据所述输出结果和相对应的电子文件类型进行比较,确定各候选派发模型的准确率;
将准确率大于预先设置的准确率阈值的多个候选派发模型作为派发模型。
具体的,所述获得待处理电子文件,并经过所述派发模型进行派发处理,包括:
获得待处理电子文件;
对待处理电子文件通过自然语言处理分词方法进行分词处理,并确定待处理电子文件在各机器学习特征上的信息检索加权数值;
将所述待处理电子文件对应的信息检索加权数值输入到各派发模型中,得到每个派发模型对应的电子文件类型;
通过德尔菲法从每个派发模型对应的电子文件类型中确定最佳预测结果;
根据所述最佳预测结果确定待处理电子文件的接收方信息,并向所述接收方发送该待处理电子文件。
一种电子文件的智能派发装置,包括:
机器学习样本获得单元,用于获得各历史电子文件内容作为机器学习样本;
分词处理单元,用于对每一历史电子文件内容通过自然语言处理分词方法进行分词处理,获得词汇集合;
机器学习特征确定单元,用于从所述词汇集合中确定高频词汇作为机器学习特征;
信息检索加权计算单元,用于对每一历史电子文件内容使用信息检索加权算法,计算该历史电子文件内容在各机器学习特征上的信息检索加权数值;
电子文件类型确定单元,用于根据各历史电子文件的接收方信息确定电子文件类型;
学习矩阵形成单元,用于根据各机器学习特征、各电子文件类型和各信息检索加权数值形成学习矩阵;
派发模型生成单元,用于根据所述学习矩阵,采用机器学习算法进行拟合训练,生成派发模型;
派发处理单元,用于获得待处理电子文件,并经过所述派发模型进行派发处理。
另外,所述机器学习样本获得单元,具体用于:
从预先设置的电子文件系统中获得各历史电子文件内容;
将各历史文件内容导入到预设格式的数据库中,以作为机器学习样本;所述预设格式的数据库中包含数据表,所述数据表包括电子文件内容对应的数据项和数据类型。
此外,所述分词处理单元,具体用于:
获取预先设置的电子文件所属领域的专有词典和停用词典;
根据所述专有词典和停用词典,采用自然语言处理分词方法对每一历史电子文件内容进行分词处理,获得词汇集合。
另外,所述机器学习特征确定单元,具体用于:
从所述词汇集合中获得全部历史电子文件内容进行分词后的全部词汇和各词汇出现次数;
根据各词汇出现次数和预先设置的出现频率阈值,将大于所述预先设置的出现频率阈值的词汇确定为高频词汇,以作为机器学习特征。
另外,所述电子文件类型确定单元,具体用于:
在历史电子文件为历史电子邮件时,根据历史电子邮件的收件人标记该历史电子邮件的类型;
在历史电子文件为历史工作单据时,根据历史工作单据的接收方标记该历史工作单据的类型;所述历史工作单据包括历史客户服务单。
另外,所述学习矩阵形成单元,具体用于:
根据N个机器学习特征和M个历史电子文件内容,形成M×N的学习矩阵;所述学习矩阵中的每个值为一历史电子文件内容在一机器学习特征上的信息检索加权数值;所述M个历史电子文件内容中的每个与其电子文件类型相对应。
另外,所述派发模型生成单元,具体用于:
将所述学习矩阵中的历史电子文件内容划分为两部分,分别形成训练集和验证集;
将所述学习矩阵中的训练集的每个历史电子文件内容对应的信息检索加权数值作为输入,相对应的电子文件类型作为输出,采用各种机器学习算法进行拟合训练,形成多个候选派发模型;所述各种机器学习算法包括朴素贝叶斯算法、支持向量机算法、逻辑回归算法、决策树算法、随机森林算法和梯度提升决策树算法;
将所述学习矩阵中的验证集的每个历史电子文件内容对应的信息检索加权数值作为输入,获得各候选派发模型的输出结果,并根据所述输出结果和相对应的电子文件类型进行比较,确定各候选派发模型的准确率;
将准确率大于预先设置的准确率阈值的多个候选派发模型作为派发模型。
另外,所述派发处理单元,具体用于:
获得待处理电子文件;
对待处理电子文件通过自然语言处理分词方法进行分词处理,并确定待处理电子文件在各机器学习特征上的信息检索加权数值;
将所述待处理电子文件对应的信息检索加权数值输入到各派发模型中,得到每个派发模型对应的电子文件类型;
通过德尔菲法从每个派发模型对应的电子文件类型中确定最佳预测结果;
根据所述最佳预测结果确定待处理电子文件的接收方信息,并向所述接收方发送该待处理电子文件。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获得各历史电子文件内容作为机器学习样本;
对每一历史电子文件内容通过自然语言处理分词方法进行分词处理,获得词汇集合;
从所述词汇集合中确定高频词汇作为机器学习特征;
对每一历史电子文件内容使用信息检索加权算法,计算该历史电子文件内容在各机器学习特征上的信息检索加权数值;
根据各历史电子文件的接收方信息确定电子文件类型;
根据各机器学习特征、各电子文件类型和各信息检索加权数值形成学习矩阵;
根据所述学习矩阵,采用机器学习算法进行拟合训练,生成派发模型;
获得待处理电子文件,并经过所述派发模型进行派发处理。
一种计算机设备,包括存储器、处理器及存储在存储上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
获得各历史电子文件内容作为机器学习样本;
对每一历史电子文件内容通过自然语言处理分词方法进行分词处理,获得词汇集合;
从所述词汇集合中确定高频词汇作为机器学习特征;
对每一历史电子文件内容使用信息检索加权算法,计算该历史电子文件内容在各机器学习特征上的信息检索加权数值;
根据各历史电子文件的接收方信息确定电子文件类型;
根据各机器学习特征、各电子文件类型和各信息检索加权数值形成学习矩阵;
根据所述学习矩阵,采用机器学习算法进行拟合训练,生成派发模型;
获得待处理电子文件,并经过所述派发模型进行派发处理。
本发明实施例提供的一种电子文件的智能派发方法及装置,首先,获得各历史电子文件内容作为机器学习样本;对每一历史电子文件内容通过自然语言处理分词方法进行分词处理,获得词汇集合;从所述词汇集合中确定高频词汇作为机器学习特征;对每一历史电子文件内容使用信息检索加权算法,计算该历史电子文件内容在各机器学习特征上的信息检索加权数值;根据各历史电子文件的接收方信息确定电子文件类型;根据各机器学习特征、各电子文件类型和各信息检索加权数值形成学习矩阵;根据所述学习矩阵,采用机器学习算法进行拟合训练,生成派发模型;之后,获得待处理电子文件,并经过所述派发模型进行派发处理。可见,本发明通过机器学习方式,可以对电子文件进行智能派发处理,无需人工干涉,提高电子文件派发的准确性和及时性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种电子文件的智能派发方法的流程图一;
图2为本发明实施例提供的一种电子文件的智能派发方法的流程图二;
图3为本发明实施例中的学习矩阵示意图;
图4为本发明实施例提供的一种电子文件的智能派发装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供一种电子文件的智能派发方法,包括:
步骤101、获得各历史电子文件内容作为机器学习样本。
步骤102、对每一历史电子文件内容通过自然语言处理分词方法进行分词处理,获得词汇集合。
步骤103、从词汇集合中确定高频词汇作为机器学习特征。
步骤104、对每一历史电子文件内容使用信息检索加权算法,计算该历史电子文件内容在各机器学习特征上的信息检索加权数值。
步骤105、根据各历史电子文件的接收方信息确定电子文件类型。
步骤106、根据各机器学习特征、各电子文件类型和各信息检索加权数值形成学习矩阵。
步骤107、根据学习矩阵,采用机器学习算法进行拟合训练,生成派发模型。
步骤108、获得待处理电子文件,并经过派发模型进行派发处理。
本发明实施例提供的一种电子文件的智能派发方法,通过机器学习方式,可以对电子文件进行智能派发处理,无需人工干涉,降低了人力成本,提高电子文件派发的准确性和及时性,缩短了电子文件的流转时长。
为了使本领域的技术人员更好的了解本发明,下面列举一个更为详细的实施例,如图2所示,本发明实施例提供一种电子文件的智能派发方法,包括:
步骤201、从预先设置的电子文件系统中获得各历史电子文件内容。
值得说明的是,本发明实施例中的电子文件可以是指电子邮件、银行等行业的客户服务单,以及还可以是订货单、发货单等需要在企业各部门中转的电子文件。本领域技术人员在不付出创造性劳动的基础上,还可想到很多的电子文件,此处不再赘述。因此,本发明实施例中的电子文件系统可以是电子邮件系统、工单系统等。
此处的获得各历史电子文件内容可以是例如从电子邮件系统中获得各历史电子邮件,或者从工单系统中获得各历史客户服务单。
步骤202、将各历史文件内容导入到预设格式的数据库中,以作为机器学习样本;预设格式的数据库中包含数据表,数据表包括电子文件内容对应的数据项和数据类型。
此处,预设格式的数据库可以为MySQL数据库,但不仅局限于此。
另外,该数据表中包括的数据项用于表示电子文件内容中的实际内容,例如电子邮件的数据项和数据类型可以如表1所示:
表1:
数据项 | 数据类型(长度) |
发件人 | VARchar(100) |
收件人 | TEXT |
抄送人 | TEXT |
主题 | VARchar(500) |
正文 | TEXT |
发送时间 | DATETIME |
邮件工作类别 | VARchar(2) |
而客户服务单的数据项和数据类型可以如表2所示:
表2:
步骤203、获取预先设置的电子文件所属领域的专有词典和停用词典。
通过设置专用词典和停用词典可以使后续的分词处理过程更为快捷准确。电子文件所述领域的专有词典和停用词典可以有很多,例如在某金融IT领域,可定义12000个以上的专有词典。
步骤204、根据专有词典和停用词典,采用自然语言处理分词方法对每一历史电子文件内容进行分词处理,获得词汇集合。
下面列举两个分词处理的例子,例如:
电子邮件内容:“年度各项重点工程管理技术创新和流程优化工作有序开展。为促进专题成果的有效推广和价值回报,激励勇于创新、追求卓越、不断探索工艺改进的技术先进个人,进一步提升全员改进的成效,现开展改进达人评优活动,通过选拨改进达人,发现人才,为在实施层面发挥技术带头作用、具有优秀代表性的员工创造舞台,树立榜样”。
该电子邮件内容分词处理后为:“年度各项重点工程技术创新流程优化有序开展促进专题成果有效推广价值回报激励勇于创新追求卓越不断探索工艺改进技术先进个人进一步提升全员改进成效开展改进达人评优活动选拨改进达人发现人才层面发挥技术带头作用具有优秀代表性员工创造舞台树立榜样”。
又例如一客户服务单内容:“我行客户在网银上提示USBKEY即将到期,进行证书下载操作时,在安装页面提示安装了证书下载控件,输入证书序列号、验证码、证件类型(组织机构代码证)、证件号码(组织机构代码证号)后,证书不能下载,页面提示:证书处于非激活状态,下载失败”。
则该客户服务单内容分词处理后为“客户网银提示USBKEY到期证书下载安装页面提示安装证书下载控件证书序列号验证码证件类型组织机构代码证件号码证书不能下载页面提示证书非激活状态下载失败”。
步骤205、从词汇集合中获得全部历史电子文件内容进行分词后的全部词汇和各词汇出现次数。
步骤206、根据各词汇出现次数和预先设置的出现频率阈值,将大于预先设置的出现频率阈值的词汇确定为高频词汇,以作为机器学习特征。
步骤207、对每一历史电子文件内容使用信息检索加权算法,计算该历史电子文件内容在各机器学习特征上的信息检索加权数值。
例如该信息检索加权算法可采用TF-IDF(Term Frequency-Inverse DocumentFrequency,一种用于信息检索与数据挖掘的常用加权技术)等算法。
步骤208、根据各历史电子文件的接收方信息确定电子文件类型。
例如,该历史电子文件为历史电子邮件,则可以根据历史电子邮件的收件人标记该历史电子邮件的类型。
又例如,历史电子文件为历史工作单据,如历史客户服务单,则可以根据历史工作单据的接收方标记该历史工作单据的类型,例如历史客户服务单的所属部门,所属产品等。
步骤209、根据N个机器学习特征和M个历史电子文件内容,形成M×N的学习矩阵。
其中,学习矩阵中的每个值为一历史电子文件内容在一机器学习特征上的信息检索加权数值;M个历史电子文件内容中的每个与其电子文件类型相对应。
例如,该M×N的学习矩阵可以如图3所示,其中包括N个机器学习特征(即词汇:故障、报错、证书、控件等等),还包括M个历史电子文件内容对应的各行的信息检索加权数值,其中一部分为训练集,另一部分作为验证集。而最后的标签则表示电子文件类型。
步骤210、将学习矩阵中的历史电子文件内容划分为两部分,分别形成训练集和验证集。
例如,可以将学习矩阵中的80%作为训练集,20%作为验证集,但不仅局限于此。
步骤211、将学习矩阵中的训练集的每个历史电子文件内容对应的信息检索加权数值作为输入,相对应的电子文件类型作为输出,采用各种机器学习算法进行拟合训练,形成多个候选派发模型。
其中,各种机器学习算法包括朴素贝叶斯算法、支持向量机算法、逻辑回归算法、决策树算法、随机森林算法和梯度提升决策树算法等,此处不再一一列举。
步骤212、将学习矩阵中的验证集的每个历史电子文件内容对应的信息检索加权数值作为输入,获得各候选派发模型的输出结果,并根据输出结果和相对应的电子文件类型进行比较,确定各候选派发模型的准确率。
步骤213、将准确率大于预先设置的准确率阈值的多个候选派发模型作为派发模型。
步骤214、获得待处理电子文件。
步骤215、对待处理电子文件通过自然语言处理分词方法进行分词处理,并确定待处理电子文件在各机器学习特征上的信息检索加权数值。
步骤216、将待处理电子文件对应的信息检索加权数值输入到各派发模型中,得到每个派发模型对应的电子文件类型。
步骤217、通过德尔菲法从每个派发模型对应的电子文件类型中确定最佳预测结果。
德尔菲法(Delphi)是一种专家调查法,是一种反馈匿名函询法,其大致流程是:在对所要预测的问题征得专家的意见之后,进行整理、归纳、统计,在匿名反馈给各专家,再次征求意见,再集中,再反馈,直至得到一致的意见。
步骤218、根据最佳预测结果确定待处理电子文件的接收方信息,并向接收方发送该待处理电子文件。
本发明实施例提供的一种电子文件的智能派发方法,通过机器学习方式,可以对电子文件进行智能派发处理,无需人工干涉,降低了人力成本,提高电子文件派发的准确性和及时性,缩短了电子文件的流转时长。
可见,本发明提供了低成本、高效率、高准确性的基于人工智能和自然语言处理的电子文件的智能分析和派发的方法。通过对历史电子文件的处理方式的学习和训练,让程序具备与人脑类似的预测能力。尤其适合电子邮件、问题客户服务单等数量众多和内部产品数量众多的大中型企业。本发明可替代旧有的人工分析和派发方式,可设置为7×24(7天,24小时)不间断运行,能有效降低人力成本,提高电子文件的处理的准确性、处理效率。另外,本发明对适用的环境要求很低,迁移性好,Windows或者Unix/Linux环境都能适用,无论是商业版的oracle和DB2或免费版的MySql数据库均可适用。
对应于上述的方法实施例,如图4所示,本发明实施例提供一种电子文件的智能派发装置,包括:
机器学习样本获得单元31,用于获得各历史电子文件内容作为机器学习样本。
分词处理单元32,用于对每一历史电子文件内容通过自然语言处理分词方法进行分词处理,获得词汇集合。
机器学习特征确定单元33,用于从词汇集合中确定高频词汇作为机器学习特征。
信息检索加权计算单元34,用于对每一历史电子文件内容使用信息检索加权算法,计算该历史电子文件内容在各机器学习特征上的信息检索加权数值。
电子文件类型确定单元35,用于根据各历史电子文件的接收方信息确定电子文件类型。
学习矩阵形成单元36,用于根据各机器学习特征、各电子文件类型和各信息检索加权数值形成学习矩阵。
派发模型生成单元37,用于根据学习矩阵,采用机器学习算法进行拟合训练,生成派发模型。
派发处理单元38,用于获得待处理电子文件,并经过派发模型进行派发处理。
另外,该机器学习样本获得单元31,具体用于:
从预先设置的电子文件系统中获得各历史电子文件内容。
将各历史文件内容导入到预设格式的数据库中,以作为机器学习样本;预设格式的数据库中包含数据表,数据表包括电子文件内容对应的数据项和数据类型。
此外,该分词处理单元32,具体用于:
获取预先设置的电子文件所属领域的专有词典和停用词典。
根据专有词典和停用词典,采用自然语言处理分词方法对每一历史电子文件内容进行分词处理,获得词汇集合。
另外,该机器学习特征确定单元33,具体用于:
从词汇集合中获得全部历史电子文件内容进行分词后的全部词汇和各词汇出现次数。
根据各词汇出现次数和预先设置的出现频率阈值,将大于预先设置的出现频率阈值的词汇确定为高频词汇,以作为机器学习特征。
另外,该电子文件类型确定单元35,具体用于:
在历史电子文件为历史电子邮件时,根据历史电子邮件的收件人标记该历史电子邮件的类型。
在历史电子文件为历史工作单据时,根据历史工作单据的接收方标记该历史工作单据的类型;历史工作单据包括历史客户服务单。
另外,该学习矩阵形成单元36,具体用于:
根据N个机器学习特征和M个历史电子文件内容,形成M×N的学习矩阵;学习矩阵中的每个值为一历史电子文件内容在一机器学习特征上的信息检索加权数值;M个历史电子文件内容中的每个与其电子文件类型相对应。
另外,该派发模型生成单元37,具体用于:
将学习矩阵中的历史电子文件内容划分为两部分,分别形成训练集和验证集。
将学习矩阵中的训练集的每个历史电子文件内容对应的信息检索加权数值作为输入,相对应的电子文件类型作为输出,采用各种机器学习算法进行拟合训练,形成多个候选派发模型;各种机器学习算法包括朴素贝叶斯算法、支持向量机算法、逻辑回归算法、决策树算法、随机森林算法和梯度提升决策树算法。
将学习矩阵中的验证集的每个历史电子文件内容对应的信息检索加权数值作为输入,获得各候选派发模型的输出结果,并根据输出结果和相对应的电子文件类型进行比较,确定各候选派发模型的准确率。
将准确率大于预先设置的准确率阈值的多个候选派发模型作为派发模型。
另外,该派发处理单元38,具体用于:
获得待处理电子文件。
对待处理电子文件通过自然语言处理分词方法进行分词处理,并确定待处理电子文件在各机器学习特征上的信息检索加权数值。
将待处理电子文件对应的信息检索加权数值输入到各派发模型中,得到每个派发模型对应的电子文件类型。
通过德尔菲法从每个派发模型对应的电子文件类型中确定最佳预测结果。
根据最佳预测结果确定待处理电子文件的接收方信息,并向接收方发送该待处理电子文件。
本发明实施例提供的一种电子文件的智能派发装置,通过机器学习方式,可以对电子文件进行智能派发处理,无需人工干涉,降低了人力成本,提高电子文件派发的准确性和及时性,缩短了电子文件的流转时长。
另外,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获得各历史电子文件内容作为机器学习样本。
对每一历史电子文件内容通过自然语言处理分词方法进行分词处理,获得词汇集合。
从词汇集合中确定高频词汇作为机器学习特征。
对每一历史电子文件内容使用信息检索加权算法,计算该历史电子文件内容在各机器学习特征上的信息检索加权数值。
根据各历史电子文件的接收方信息确定电子文件类型。
根据各机器学习特征、各电子文件类型和各信息检索加权数值形成学习矩阵。
根据学习矩阵,采用机器学习算法进行拟合训练,生成派发模型。
获得待处理电子文件,并经过派发模型进行派发处理。
另外,本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储上并可在处理器上运行的计算机程序,处理器执行程序时实现以下步骤:
获得各历史电子文件内容作为机器学习样本。
对每一历史电子文件内容通过自然语言处理分词方法进行分词处理,获得词汇集合。
从词汇集合中确定高频词汇作为机器学习特征。
对每一历史电子文件内容使用信息检索加权算法,计算该历史电子文件内容在各机器学习特征上的信息检索加权数值。
根据各历史电子文件的接收方信息确定电子文件类型。
根据各机器学习特征、各电子文件类型和各信息检索加权数值形成学习矩阵。
根据学习矩阵,采用机器学习算法进行拟合训练,生成派发模型。
获得待处理电子文件,并经过派发模型进行派发处理。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (18)
1.一种电子文件的智能派发方法,其特征在于,包括:
获得各历史电子文件内容作为机器学习样本;
对每一历史电子文件内容通过自然语言处理分词方法进行分词处理,获得词汇集合;
从所述词汇集合中确定高频词汇作为机器学习特征;
对每一历史电子文件内容使用信息检索加权算法,计算该历史电子文件内容在各机器学习特征上的信息检索加权数值;
根据各历史电子文件的接收方信息确定电子文件类型;
根据各机器学习特征、各电子文件类型和各信息检索加权数值形成学习矩阵;
根据所述学习矩阵,采用机器学习算法进行拟合训练,生成派发模型;
获得待处理电子文件,并经过所述派发模型进行派发处理。
2.根据权利要求1所述的电子文件的智能派发方法,其特征在于,所述获得各历史电子文件内容作为机器学习样本,包括:
从预先设置的电子文件系统中获得各历史电子文件内容;
将各历史文件内容导入到预设格式的数据库中,以作为机器学习样本;所述预设格式的数据库中包含数据表,所述数据表包括电子文件内容对应的数据项和数据类型。
3.根据权利要求1所述的电子文件的智能派发方法,其特征在于,所述对每一历史电子文件内容通过自然语言处理分词方法进行分词处理,获得词汇集合,包括:
获取预先设置的电子文件所属领域的专有词典和停用词典;
根据所述专有词典和停用词典,采用自然语言处理分词方法对每一历史电子文件内容进行分词处理,获得词汇集合。
4.根据权利要求1所述的电子文件的智能派发方法,其特征在于,所述从所述词汇集合中确定高频词汇作为机器学习特征,包括:
从所述词汇集合中获得全部历史电子文件内容进行分词后的全部词汇和各词汇出现次数;
根据各词汇出现次数和预先设置的出现频率阈值,将大于所述预先设置的出现频率阈值的词汇确定为高频词汇,以作为机器学习特征。
5.根据权利要求1所述的电子文件的智能派发方法,其特征在于,所述根据各历史电子文件的接收方信息确定电子文件类型,包括:
在历史电子文件为历史电子邮件时,根据历史电子邮件的收件人标记该历史电子邮件的类型;
在历史电子文件为历史工作单据时,根据历史工作单据的接收方标记该历史工作单据的类型;所述历史工作单据包括历史客户服务单。
6.根据权利要求1所述的电子文件的智能派发方法,其特征在于,所述根据各机器学习特征、各电子文件类型和各信息检索加权数值形成学习矩阵,包括:
根据N个机器学习特征和M个历史电子文件内容,形成M×N的学习矩阵;所述学习矩阵中的每个值为一历史电子文件内容在一机器学习特征上的信息检索加权数值;所述M个历史电子文件内容中的每个与其电子文件类型相对应。
7.根据权利要求1所述的电子文件的智能派发方法,其特征在于,所述根据所述学习矩阵,采用机器学习算法进行拟合训练,生成派发模型,包括:
将所述学习矩阵中的历史电子文件内容划分为两部分,分别形成训练集和验证集;
将所述学习矩阵中的训练集的每个历史电子文件内容对应的信息检索加权数值作为输入,相对应的电子文件类型作为输出,采用各种机器学习算法进行拟合训练,形成多个候选派发模型;所述各种机器学习算法包括朴素贝叶斯算法、支持向量机算法、逻辑回归算法、决策树算法、随机森林算法和梯度提升决策树算法;
将所述学习矩阵中的验证集的每个历史电子文件内容对应的信息检索加权数值作为输入,获得各候选派发模型的输出结果,并根据所述输出结果和相对应的电子文件类型进行比较,确定各候选派发模型的准确率;
将准确率大于预先设置的准确率阈值的多个候选派发模型作为派发模型。
8.根据权利要求7所述的电子文件的智能派发方法,其特征在于,所述获得待处理电子文件,并经过所述派发模型进行派发处理,包括:
获得待处理电子文件;
对待处理电子文件通过自然语言处理分词方法进行分词处理,并确定待处理电子文件在各机器学习特征上的信息检索加权数值;
将所述待处理电子文件对应的信息检索加权数值输入到各派发模型中,得到每个派发模型对应的电子文件类型;
通过德尔菲法从每个派发模型对应的电子文件类型中确定最佳预测结果;
根据所述最佳预测结果确定待处理电子文件的接收方信息,并向所述接收方发送该待处理电子文件。
9.一种电子文件的智能派发装置,其特征在于,包括:
机器学习样本获得单元,用于获得各历史电子文件内容作为机器学习样本;
分词处理单元,用于对每一历史电子文件内容通过自然语言处理分词方法进行分词处理,获得词汇集合;
机器学习特征确定单元,用于从所述词汇集合中确定高频词汇作为机器学习特征;
信息检索加权计算单元,用于对每一历史电子文件内容使用信息检索加权算法,计算该历史电子文件内容在各机器学习特征上的信息检索加权数值;
电子文件类型确定单元,用于根据各历史电子文件的接收方信息确定电子文件类型;
学习矩阵形成单元,用于根据各机器学习特征、各电子文件类型和各信息检索加权数值形成学习矩阵;
派发模型生成单元,用于根据所述学习矩阵,采用机器学习算法进行拟合训练,生成派发模型;
派发处理单元,用于获得待处理电子文件,并经过所述派发模型进行派发处理。
10.根据权利要求9所述的电子文件的智能派发装置,其特征在于,所述机器学习样本获得单元,具体用于:
从预先设置的电子文件系统中获得各历史电子文件内容;
将各历史文件内容导入到预设格式的数据库中,以作为机器学习样本;所述预设格式的数据库中包含数据表,所述数据表包括电子文件内容对应的数据项和数据类型。
11.根据权利要求9所述的电子文件的智能派发装置,其特征在于,所述分词处理单元,具体用于:
获取预先设置的电子文件所属领域的专有词典和停用词典;
根据所述专有词典和停用词典,采用自然语言处理分词方法对每一历史电子文件内容进行分词处理,获得词汇集合。
12.根据权利要求9所述的电子文件的智能派发装置,其特征在于,所述机器学习特征确定单元,具体用于:
从所述词汇集合中获得全部历史电子文件内容进行分词后的全部词汇和各词汇出现次数;
根据各词汇出现次数和预先设置的出现频率阈值,将大于所述预先设置的出现频率阈值的词汇确定为高频词汇,以作为机器学习特征。
13.根据权利要求9所述的电子文件的智能派发装置,其特征在于,所述电子文件类型确定单元,具体用于:
在历史电子文件为历史电子邮件时,根据历史电子邮件的收件人标记该历史电子邮件的类型;
在历史电子文件为历史工作单据时,根据历史工作单据的接收方标记该历史工作单据的类型;所述历史工作单据包括历史客户服务单。
14.根据权利要求9所述的电子文件的智能派发装置,其特征在于,所述学习矩阵形成单元,具体用于:
根据N个机器学习特征和M个历史电子文件内容,形成M×N的学习矩阵;所述学习矩阵中的每个值为一历史电子文件内容在一机器学习特征上的信息检索加权数值;所述M个历史电子文件内容中的每个与其电子文件类型相对应。
15.根据权利要求9所述的电子文件的智能派发装置,其特征在于,所述派发模型生成单元,具体用于:
将所述学习矩阵中的历史电子文件内容划分为两部分,分别形成训练集和验证集;
将所述学习矩阵中的训练集的每个历史电子文件内容对应的信息检索加权数值作为输入,相对应的电子文件类型作为输出,采用各种机器学习算法进行拟合训练,形成多个候选派发模型;所述各种机器学习算法包括朴素贝叶斯算法、支持向量机算法、逻辑回归算法、决策树算法、随机森林算法和梯度提升决策树算法;
将所述学习矩阵中的验证集的每个历史电子文件内容对应的信息检索加权数值作为输入,获得各候选派发模型的输出结果,并根据所述输出结果和相对应的电子文件类型进行比较,确定各候选派发模型的准确率;
将准确率大于预先设置的准确率阈值的多个候选派发模型作为派发模型。
16.根据权利要求15所述的电子文件的智能派发装置,其特征在于,所述派发处理单元,具体用于:
获得待处理电子文件;
对待处理电子文件通过自然语言处理分词方法进行分词处理,并确定待处理电子文件在各机器学习特征上的信息检索加权数值;
将所述待处理电子文件对应的信息检索加权数值输入到各派发模型中,得到每个派发模型对应的电子文件类型;
通过德尔菲法从每个派发模型对应的电子文件类型中确定最佳预测结果;
根据所述最佳预测结果确定待处理电子文件的接收方信息,并向所述接收方发送该待处理电子文件。
17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现以下步骤:
获得各历史电子文件内容作为机器学习样本;
对每一历史电子文件内容通过自然语言处理分词方法进行分词处理,获得词汇集合;
从所述词汇集合中确定高频词汇作为机器学习特征;
对每一历史电子文件内容使用信息检索加权算法,计算该历史电子文件内容在各机器学习特征上的信息检索加权数值;
根据各历史电子文件的接收方信息确定电子文件类型;
根据各机器学习特征、各电子文件类型和各信息检索加权数值形成学习矩阵;
根据所述学习矩阵,采用机器学习算法进行拟合训练,生成派发模型;
获得待处理电子文件,并经过所述派发模型进行派发处理。
18.一种计算机设备,包括存储器、处理器及存储在存储上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
获得各历史电子文件内容作为机器学习样本;
对每一历史电子文件内容通过自然语言处理分词方法进行分词处理,获得词汇集合;
从所述词汇集合中确定高频词汇作为机器学习特征;
对每一历史电子文件内容使用信息检索加权算法,计算该历史电子文件内容在各机器学习特征上的信息检索加权数值;
根据各历史电子文件的接收方信息确定电子文件类型;
根据各机器学习特征、各电子文件类型和各信息检索加权数值形成学习矩阵;
根据所述学习矩阵,采用机器学习算法进行拟合训练,生成派发模型;
获得待处理电子文件,并经过所述派发模型进行派发处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810901835.2A CN109189883B (zh) | 2018-08-09 | 2018-08-09 | 一种电子文件的智能派发方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810901835.2A CN109189883B (zh) | 2018-08-09 | 2018-08-09 | 一种电子文件的智能派发方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109189883A true CN109189883A (zh) | 2019-01-11 |
CN109189883B CN109189883B (zh) | 2022-01-28 |
Family
ID=64921229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810901835.2A Active CN109189883B (zh) | 2018-08-09 | 2018-08-09 | 一种电子文件的智能派发方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109189883B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110417647A (zh) * | 2019-08-12 | 2019-11-05 | 中国工商银行股份有限公司 | 邮件处理方法、装置、计算机设备和存储介质 |
CN113449525A (zh) * | 2021-07-08 | 2021-09-28 | 安徽商信政通信息技术股份有限公司 | 一种基于实体识别的文件智能流转方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100217768A1 (en) * | 2009-02-20 | 2010-08-26 | Hong Yu | Query System for Biomedical Literature Using Keyword Weighted Queries |
CN104182821A (zh) * | 2014-08-01 | 2014-12-03 | 国家电网公司 | 工单自动派发系统及方法 |
CN106528642A (zh) * | 2016-10-13 | 2017-03-22 | 广东广业开元科技有限公司 | 一种基于tf‑idf特征提取的短文本分类方法 |
CN107679244A (zh) * | 2017-10-30 | 2018-02-09 | 中国联合网络通信集团有限公司 | 文本分类方法及装置 |
CN108197109A (zh) * | 2017-12-29 | 2018-06-22 | 北京百分点信息科技有限公司 | 一种基于自然语言处理的多语言分析方法和装置 |
-
2018
- 2018-08-09 CN CN201810901835.2A patent/CN109189883B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100217768A1 (en) * | 2009-02-20 | 2010-08-26 | Hong Yu | Query System for Biomedical Literature Using Keyword Weighted Queries |
CN104182821A (zh) * | 2014-08-01 | 2014-12-03 | 国家电网公司 | 工单自动派发系统及方法 |
CN106528642A (zh) * | 2016-10-13 | 2017-03-22 | 广东广业开元科技有限公司 | 一种基于tf‑idf特征提取的短文本分类方法 |
CN107679244A (zh) * | 2017-10-30 | 2018-02-09 | 中国联合网络通信集团有限公司 | 文本分类方法及装置 |
CN108197109A (zh) * | 2017-12-29 | 2018-06-22 | 北京百分点信息科技有限公司 | 一种基于自然语言处理的多语言分析方法和装置 |
Non-Patent Citations (1)
Title |
---|
方清华: "信息检索加权理论与技术:基于VSM模型的分析", 《情报杂志》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110417647A (zh) * | 2019-08-12 | 2019-11-05 | 中国工商银行股份有限公司 | 邮件处理方法、装置、计算机设备和存储介质 |
CN110417647B (zh) * | 2019-08-12 | 2021-10-26 | 中国工商银行股份有限公司 | 邮件处理方法、装置、计算机设备和存储介质 |
CN113449525A (zh) * | 2021-07-08 | 2021-09-28 | 安徽商信政通信息技术股份有限公司 | 一种基于实体识别的文件智能流转方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109189883B (zh) | 2022-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Stollenwerk et al. | Flight gate assignment with a quantum annealer | |
CN109831531B (zh) | 求职简历推送方法与装置以及任务推送方法与装置 | |
Ning et al. | An improved quantum genetic algorithm based on MAGTD for dynamic FJSP | |
Edis | Constraint programming approaches to disassembly line balancing problem with sequencing decisions | |
Namitha et al. | Rainfall prediction using artificial neural network on map-reduce framework | |
Purkiss | Corporate manpower planning: a review of models | |
Ansari Ardeh et al. | A novel genetic programming algorithm with knowledge transfer for uncertain capacitated arc routing problem | |
CN110443236A (zh) | 贷后文本要点信息提取方法及装置 | |
CN109189883A (zh) | 一种电子文件的智能派发方法及装置 | |
Rodič et al. | Airport ground crew scheduling using heuristics and simulation | |
Coban et al. | Robust scheduling with logic-based Benders decomposition | |
Thepphakorn et al. | A new multiple objective cuckoo search for university course timetabling problem | |
Mandal et al. | Cognitive system to achieve human-level accuracy in automated assignment of helpdesk email tickets | |
Teucke et al. | Forecasting of seasonal apparel products | |
CN115865777A (zh) | 一种基于rpa技术的招聘订单智能分发路由方法 | |
US20210065225A1 (en) | Information processing method and information processing apparatus | |
US11836657B2 (en) | Resource management planning support device, resource management planning support method, and programs | |
CN113822477A (zh) | 快件拦截处理方法、装置、设备及存储介质 | |
Patel et al. | Explainable prediction of Qcodes for NOTAMs using column generation | |
CN114092057A (zh) | 一种项目模型的构建方法、装置、终端设备和存储介质 | |
Friedrich et al. | Representing production scheduling with constraint answer set programming | |
Clark et al. | Complexity of rule sets induced from data with many lost values and “do not care” conditions | |
Missaoui et al. | Artificial bee colony for blocking flowshop with due date windows | |
Liu et al. | A Bayesian predictor of airline class seats based on multinomial event model | |
Ma et al. | A novel artificial bee colony algorithm for robust permutation flowshop scheduling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |