CN109190001B - 办公文件管理方法 - Google Patents
办公文件管理方法 Download PDFInfo
- Publication number
- CN109190001B CN109190001B CN201811094750.4A CN201811094750A CN109190001B CN 109190001 B CN109190001 B CN 109190001B CN 201811094750 A CN201811094750 A CN 201811094750A CN 109190001 B CN109190001 B CN 109190001B
- Authority
- CN
- China
- Prior art keywords
- file
- training
- files
- classifier
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Operations Research (AREA)
- Economics (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种办公文件管理方法,包括:收集新的文件资料;将所述文件资料以电子文档的形式存储;利用分类器对所述文件资料进行分类,以标记所述文件资料应派发至的负责部门;将所述文件资料派发给所述负责部门。本发明实施例提供的办公文件管理方法,分别收集和存储新的文件资料,采用分类器自动将文件资料分类,然后将文件资料派发给对应的负责部门。该办公文件管理方法极大的减轻了公司文员的工作量,提高了文件资料的派发效率。并且降低对公司文员专业性的依赖程度,避免因此导致的文件管理不善问题。
Description
技术领域
本发明涉及办公文件管理技术领域,尤其涉及办公文件管理方法。
背景技术
日常办公中会用到大量的文件资料,包括会议资料、合同文件、法律文件、技术规范、工作联系单等。这些文件资料需要公司文员收集整理,并分类派发至相应的部门。各部门收文员收文后,再将文件资料派发至具体的相关人员。上述派发流程中,要求公司文员熟悉公司各部门职责和工作内容,能清楚各类文件资料应该与哪个或哪些部门相关。
现有的办公文件管理方法中,由于管理方法太传统,文件资料的派发依靠人工进行,对公司文员的专业性依赖性较高,公司文员变更或业务不熟都会导致文件资料被漏派、多派、错派等文件管理不善的问题发生。
发明内容
本发明的目的在于提供办公文件管理方法,以解决由于现有技术的管理方法太传统,对公司文员的专业性依赖性较高导致的文件管理不善问题。
为达此目的,本发明采用以下技术方案:
办公文件管理方法,包括:
收集新的文件资料;
将所述文件资料以电子文档的形式存储;
利用分类器对所述文件资料进行分类,以标记所述文件资料应派发至的负责部门;
将所述文件资料派发给所述负责部门。
可选的,所述收集文件资料的步骤包括:
通过扫描仪、传真机或电子邮件系统收集所述文件资料。
可选的,所述分类器采用机器学习方法训练而成,以便能够对所述文件资料进行自动分类,所述机器学习方法包括:
获取所有已派发的过往文件,并标记收到所述过往文件的接收部门;
对所述过往文件进行编号和文本预处理;
将所述过往文件按所述编号分为两组,所述编号为单数的一组为训练组,所述编号为双数的一组为测试组,其中,所述训练组中的所述过往文件为训练文件,所述测试组中的所述过往文件为测试文件;
提取所有所述训练文件的实词并组成一份词汇表;
分别提取每一份所述训练文件的实词;
计算每一份所述训练文件的实词的训练TF-IDF值;
根据所述训练TF-IDF值在所述词汇表中的位置排序,得到每一份所述训练文件的训练特征向量;
对所有所述训练文件按所述接收部门进行分组,得到若干个分组;
以每个所述分组中的所有所述训练文件为一个整体,计算得到每个所述分组的分组特征向量;
分别提取每一份所述测试文件的实词;
计算每一份所述测试文件的实词的测试TF-IDF值;
根据所述测试TF-IDF值在所述词汇表中的位置排序,得到每一份所述测试文件的测试特征向量;
针对每一份所述测试文件,分别计算每个所述分组的所述分组特征向量与所述测试特征向量之间的余弦值;
根据所述余弦值的大小,判断所述测试文件是否属于所述余弦值对应的所述分组;
将所有所述测试文件的分组结果与其实际所属分组作比较,计算得到所述分类器的准确率;
若所述准确率大于等于预设值时,则所述分类器采用所述机器学习方法训练而成的工作完成。
可选的,若所述准确率小于预设值时,则将所有分组错误的所述测试文件按序号进行排序,所述序号为单数的并入所述训练组,所述序号为双数的并入所述测试组,再根据所述机器学习方法对所述分类器进行训练,直至所述分类器的准确率大于等于所述预设值。
可选的,所述将所述文件资料派发给所述负责部门的步骤之后还包括:
若所述负责部门收到的所述文件资料不是其负责的,则标记错发信息并反馈给所述分类器;
所述分类器接收到所述错发信息后,标记出错发的所述文件资料对应的准确的负责部门,以便将错发的所述文件资料派发给对应的准确的所述负责部门。
可选的,所述若所述负责部门收到的所述文件资料不是其负责的,则标记错发信息并反馈给所述分类器的步骤之后还包括:
所述分类器接收到所述错发信息后,将错发的所述文件资料并入所述训练组,并采用所述机器学习方法重新训练所述分类器。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例提供的办公文件管理方法,分别收集和存储新的文件资料,采用分类器自动将文件资料分类,然后将文件资料派发给对应的负责部门。该办公文件管理方法极大的减轻了公司文员的工作量,提高了文件资料的派发效率。并且降低对公司文员专业性的依赖程度,避免因此导致的文件管理不善问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的办公文件管理方法的方法流程图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本实施例提供了一种办公文件管理方法,包括以下步骤:
步骤S1:收集新的文件资料;
步骤S2:将所述文件资料以电子文档的形式存储;
步骤S3:利用分类器对所述文件资料进行分类,以标记所述文件资料应派发至的负责部门;
步骤S4:将所述文件资料派发给所述负责部门。
本发明实施例提供的办公文件管理方法,极大的减轻了公司文员的工作量,提高了文件资料的派发效率。并且降低对公司文员专业性的依赖程度,避免因此导致的文件管理不善问题。
可选的,所述收集新的文件资料的方式有多种,例如通过扫描仪、传真机或电子邮件系统收集所述文件资料,其中,扫描仪和传真机具有图文识别功能。
需要说明的是,上述办公文件管理方法中,所述将所述文件资料派发给所述负责部门的步骤之后还包括存储所述文件资料对应的派发至的负责部门相关信息,以此作为历史记录,供查询使用。
可选的,在本申请的另一实施例中,公开了分类器的训练方法。具体的,所述分类器采用机器学习方法训练而成,以便能够对所述文件资料进行自动分类,所述机器学习方法包括以下步骤。
步骤1,获取所有已派发的过往文件,并标记收到所述过往文件的接收部门。
步骤2,对所述过往文件进行编号和文本预处理,文本预处理包括分词、删除虚词,对标题、首尾段落和段落首句的实词增加权重等操作。
步骤3,将所述过往文件按所述编号分为两组,所述编号为单数的一组为训练组,所述编号为双数的一组为测试组,其中,所述训练组中的所述过往文件为训练文件,所述测试组中的所述过往文件为测试文件。
步骤4,提取所有所述训练文件的实词并组成一份词汇表。
步骤5,分别提取每一份所述训练文件的实词。
步骤6,计算每一份所述训练文件的实词的训练TF-IDF值。TF-IDF(TermFrequency/Inverse Document Frequency,词汇频率/逆文本频率值)的计算公式为其中D为全部文件数,Dw是指一个关键词w在Dw个文件出现过。
步骤7,根据所述训练TF-IDF值在所述词汇表中的位置排序,得到每一份所述训练文件的训练特征向量。
步骤8,对所有所述训练文件按所述接收部门进行分组,得到若干个分组。具体的,接收部门的数量和分组的数量一致。需要说明的是,当某一份训练文件同时发给了多个接收部门时,那么该训练文件同时属于发给的多个接收部门对应的多个分组。
步骤9,以每个所述分组中的所有所述训练文件为一个整体,计算得到每个所述分组的分组特征向量,分组特征向量记作X(x1,x2,…,xn),n为正整数。
步骤10,分别提取每一份所述测试文件的实词。
步骤11,计算每一份所述测试文件的实词的测试TF-IDF值。
步骤12,根据所述测试TF-IDF值在所述词汇表中的位置排序,得到每一份所述测试文件的测试特征向量,测试特征向量记作Y(y1,y2,…,yn)。
步骤13,针对每一份所述测试文件,分别计算每个所述分组的所述分组特征向量与所述测试特征向量之间的余弦值,计算公式为
步骤13,根据所述余弦值的大小,判断所述测试文件是否属于所述余弦值对应的所述分组。具体的,若所述余弦值接近于1时,则所述测试文件属于所述余弦值对应的所述分组;若所述余弦值接近于0时,则所述测试文件不属于所述余弦值对应的所述分组。再进一步的,接近于1的数值范围可以为0.95至1之间,接近于0的范围可以是0至0.05之间。然而,其具体的数值范围可以视情况而定。
步骤14,将所有所述测试文件的分组结果与其实际所属分组作比较,计算得到所述分类器的准确率。准确率等于分组正确的测试文件数量除以总的测试文件数量。
步骤15,若所述准确率大于等于预设值时,则所述分类器采用所述机器学习方法训练而成的工作完成。此处预设值可以视情况而定,可以是99.9%,也可以是100%,视公司对准确率的要求而定。
因此,本实施例提供的办公文件管理方法,公开了机器学习方法的具体方法步骤,采用分组方式结合特征向量计算余弦值,使得分类器能够对所述文件资料进行自动分类。
进一步的,若所述准确率小于预设值时,则将所有分组错误的所述测试文件按序号进行排序,所述序号为单数的并入所述训练组,所述序号为双数的并入所述测试组,再根据上述的机器学习方法对所述分类器进行训练,直至所述分类器的准确率大于等于所述预设值。
可选的,在本申请的另一实施例中,所述将所述文件资料派发给所述负责部门的步骤之后还包括:若所述负责部门收到的所述文件资料不是其负责的,则标记错发信息并反馈给所述分类器;所述分类器接收到所述错发信息后,标记出错发的所述文件资料对应的准确的负责部门,以便将错发的所述文件资料派发给对应的准确的所述负责部门。
进一步的,所述若所述负责部门收到的所述文件资料不是其负责的,则标记错发信息并反馈给所述分类器的步骤之后还包括:所述分类器接收到所述错发信息后,将错发的所述文件资料并入所述训练组,并采用上述的所述机器学习方法重新训练所述分类器。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.办公文件管理方法,其特征在于,包括:
收集新的文件资料;
将所述文件资料以电子文档的形式存储;
利用分类器对所述文件资料进行分类,以标记所述文件资料应派发至的负责部门;
将所述文件资料派发给所述负责部门;
所述分类器采用机器学习方法训练而成,以便能够对所述文件资料进行自动分类,所述机器学习方法包括:
获取所有已派发的过往文件,并标记收到所述过往文件的接收部门;
对所述过往文件进行编号和文本预处理;
将所述过往文件按所述编号分为两组,所述编号为单数的一组为训练组,所述编号为双数的一组为测试组,其中,所述训练组中的所述过往文件为训练文件,所述测试组中的所述过往文件为测试文件;
提取所有所述训练文件的实词并组成一份词汇表;
分别提取每一份所述训练文件的实词;
计算每一份所述训练文件的实词的训练TF-IDF值;
根据所述训练TF-IDF值在所述词汇表中的位置排序,得到每一份所述训练文件的训练特征向量;
对所有所述训练文件按所述接收部门进行分组,得到若干个分组;
以每个所述分组中的所有所述训练文件为一个整体,计算得到每个所述分组的分组特征向量;
分别提取每一份所述测试文件的实词;
计算每一份所述测试文件的实词的测试TF-IDF值;
根据所述测试TF-IDF值在所述词汇表中的位置排序,得到每一份所述测试文件的测试特征向量;
针对每一份所述测试文件,分别计算每个所述分组的所述分组特征向量与所述测试特征向量之间的余弦值;
根据所述余弦值的大小,判断所述测试文件是否属于所述余弦值对应的所述分组;
将所有所述测试文件的分组结果与其实际所属分组作比较,计算得到所述分类器的准确率;
若所述准确率大于等于预设值时,则所述分类器采用所述机器学习方法训练而成的工作完成。
2.根据权利要求1所述的办公文件管理方法,其特征在于,所述收集新的文件资料的步骤包括:
通过扫描仪、传真机或电子邮件系统收集所述文件资料。
3.根据权利要求1所述的办公文件管理方法,其特征在于,若所述准确率小于预设值时,则将所有分组错误的所述测试文件按序号进行排序,所述序号为单数的并入所述训练组,所述序号为双数的并入所述测试组,再根据所述机器学习方法对所述分类器进行训练,直至所述分类器的准确率大于等于所述预设值。
4.根据权利要求3所述的办公文件管理方法,其特征在于,所述将所述文件资料派发给所述负责部门的步骤之后还包括:
若所述负责部门收到的所述文件资料不是其负责的,则标记错发信息并反馈给所述分类器;
所述分类器接收到所述错发信息后,标记出错发的所述文件资料对应的准确的负责部门,以便将错发的所述文件资料派发给对应的准确的所述负责部门。
5.根据权利要求4所述的办公文件管理方法,其特征在于,所述若所述负责部门收到的所述文件资料不是其负责的,则标记错发信息并反馈给所述分类器的步骤之后还包括:
所述分类器接收到所述错发信息后,将错发的所述文件资料并入所述训练组,并采用所述机器学习方法重新训练所述分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811094750.4A CN109190001B (zh) | 2018-09-19 | 2018-09-19 | 办公文件管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811094750.4A CN109190001B (zh) | 2018-09-19 | 2018-09-19 | 办公文件管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109190001A CN109190001A (zh) | 2019-01-11 |
CN109190001B true CN109190001B (zh) | 2022-02-11 |
Family
ID=64908546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811094750.4A Active CN109190001B (zh) | 2018-09-19 | 2018-09-19 | 办公文件管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109190001B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104850946A (zh) * | 2015-05-06 | 2015-08-19 | 智慧城市信息技术有限公司 | 紧急事件分发方法、装置及系统 |
CN107391751A (zh) * | 2017-08-15 | 2017-11-24 | 郑州云海信息技术有限公司 | 一种文件分类方法及装置 |
CN107992633A (zh) * | 2018-01-09 | 2018-05-04 | 国网福建省电力有限公司 | 基于关键词特征的电子文档自动分类方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7747555B2 (en) * | 2006-06-01 | 2010-06-29 | Jeffrey Regier | System and method for retrieving and intelligently grouping definitions found in a repository of documents |
US8122043B2 (en) * | 2009-06-30 | 2012-02-21 | Ebsco Industries, Inc | System and method for using an exemplar document to retrieve relevant documents from an inverted index of a large corpus |
CN102761627B (zh) * | 2012-06-27 | 2015-12-09 | 北京奇虎科技有限公司 | 基于终端访问统计的云网址推荐方法及系统及相关设备 |
CN103995876A (zh) * | 2014-05-26 | 2014-08-20 | 上海大学 | 一种基于卡方统计和smo算法的文本分类方法 |
CN105808524A (zh) * | 2016-03-11 | 2016-07-27 | 江苏畅远信息科技有限公司 | 一种基于专利文献摘要的专利自动分类方法 |
-
2018
- 2018-09-19 CN CN201811094750.4A patent/CN109190001B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104850946A (zh) * | 2015-05-06 | 2015-08-19 | 智慧城市信息技术有限公司 | 紧急事件分发方法、装置及系统 |
CN107391751A (zh) * | 2017-08-15 | 2017-11-24 | 郑州云海信息技术有限公司 | 一种文件分类方法及装置 |
CN107992633A (zh) * | 2018-01-09 | 2018-05-04 | 国网福建省电力有限公司 | 基于关键词特征的电子文档自动分类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109190001A (zh) | 2019-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7801392B2 (en) | Image search system, image search method, and storage medium | |
CN108664574B (zh) | 信息的输入方法、终端设备及介质 | |
US20110137898A1 (en) | Unstructured document classification | |
CN110162754B (zh) | 一种岗位描述文档的生成方法及设备 | |
CN111899090B (zh) | 企业关联风险预警方法及系统 | |
CN114117171A (zh) | 一种基于赋能思维的工程档案智能收整方法及系统 | |
CN116433052B (zh) | 一种基于智能化的招标信息采集数据分析评价系统 | |
CN108199951A (zh) | 一种基于多算法融合模型的垃圾邮件过滤方法 | |
CN112926299B (zh) | 一种文本比对方法、合同审阅方法、审核系统 | |
Artama et al. | Classification of official letters using TF-IDF method | |
CN109582783B (zh) | 热点话题检测方法及装置 | |
CN106570076A (zh) | 一种计算机文本分类系统 | |
CN108170691A (zh) | 关联文书的确定方法和装置 | |
CN111104483A (zh) | 基于机器学习的ict系统故障分析及辅助判别方法 | |
CN109190001B (zh) | 办公文件管理方法 | |
CN113269101A (zh) | 一种票据识别方法、装置和设备 | |
CN115687790B (zh) | 基于大数据的广告推送方法、系统及云平台 | |
CN113011174B (zh) | 一种基于文本分析的围标串标识别方法 | |
CN108615124B (zh) | 基于词频分析的企业评价方法及系统 | |
CN110728240A (zh) | 一种对电子卷宗的标题自动识别的方法及装置 | |
CN116340387A (zh) | 一种用于数据表的个人信息披露情况统计分析方法及系统 | |
KR102392644B1 (ko) | 유사도 기반의 문서 분류 장치 및 방법 | |
CN115936748A (zh) | 一种商业大数据分析方法及系统 | |
CN116050404A (zh) | 一种用于电子档案智能分类鉴定的方法及装置 | |
CN114241485A (zh) | 房产证的信息识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |