CN107908774A - 一种文件分类方法、存储介质及设备 - Google Patents

一种文件分类方法、存储介质及设备 Download PDF

Info

Publication number
CN107908774A
CN107908774A CN201711241850.0A CN201711241850A CN107908774A CN 107908774 A CN107908774 A CN 107908774A CN 201711241850 A CN201711241850 A CN 201711241850A CN 107908774 A CN107908774 A CN 107908774A
Authority
CN
China
Prior art keywords
text data
department
unknown document
binary classifier
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711241850.0A
Other languages
English (en)
Inventor
刘立军
罗海涛
汪楫人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yun Yi Tiancheng (beijing) Safety Technology Development Co Ltd
Original Assignee
Yun Yi Tiancheng (beijing) Safety Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yun Yi Tiancheng (beijing) Safety Technology Development Co Ltd filed Critical Yun Yi Tiancheng (beijing) Safety Technology Development Co Ltd
Priority to CN201711241850.0A priority Critical patent/CN107908774A/zh
Publication of CN107908774A publication Critical patent/CN107908774A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种文件分类方法、存储介质及设备,所述方法包括:读取至少一个部门的文本数据,其中至少一部分所述文本数据带有类别标签;学习所述文本数据,生成与部门对应的两类分类器;调用所述分类器扫描未知文档,并判断未知文档所属的类别。本发明可提高文件分类的准确率和效率,减少误分类,能够保证不同部门之间的数据独立性,更利于部门的保密。

Description

一种文件分类方法、存储介质及设备
技术领域
本发明涉及数据处理领域,尤其涉及一种文件分类方法、存储介质及设备。
背景技术
一般要保护的文件不只一个类别,而且分布在多个部门,如果按照通常的文本分类器设计方法,利用所有的训练文档训练一个多类分类器,利用多类分类器对未知文档进行判定,判定该未知文档所属的类别是否属于要保护的类别集合,以此来决定是否对其过滤。由于每个部门各自都有需要保护的文件或不需要保护的文件,而且部门之间的数据互相保密,这种方法的不足在于它会破坏各部门之间的数据独立性,不利于保密,也会造成大量的误分类。
发明内容
针对现有技术中的缺陷,本发明提供一种文件分类方法、存储介质及设备,可提高文件分类的准确率和效率,减少误分类,能够保证不同部门之间的数据独立性,更利于部门的保密。
第一方面,本发明提供了一种文件分类方法,所述方法包括:
读取至少一个部门的文本数据,其中至少一部分所述文本数据带有类别标签;
学习所述文本数据,生成与部门对应的两类分类器;
调用所述分类器扫描未知文档,并判断未知文档所属的类别。
进一步地,所述类别标签包括正例和反例。
进一步地,所述学习所述文本数据,生成与部门对应的两类分类器,具体包括:
对所述文本数据进行分词处理和特征选择,并构造每个所选择的词语的特征向量;
学习各个词语的特征向量,生成对应部门的分类模型文件和两类分类器。
进一步地,所述调用所述分类器扫描未知文档,并判断未知文档所属的类别,具体包括:
调用训练生成一个或多个部门的两类分类器扫描未知文档;
对所述未知文档进行分词处理,并对分词后的每个词语构造其特征向量;
将所述特征向量输入所述两类分类器中,采用所述两类分类器对所述未知文档进行分类。
进一步地,采用所述两类分类器对所述未知文档进行分类,具体包括:采用所述两类分类器将所述特征向量与所述类别标签进行匹配,判断所述未知文档的类别是否是正例,并反馈匹配结果。
进一步地,若所述特征向量和所述类别标签匹配成功则反馈1,匹配失败则反馈-1,未匹配则反馈0。
第二方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
读取至少一个部门的文本数据,其中至少一部分所述文本数据带有类别标签;
学习所述文本数据,生成与部门对应的两类分类器;
调用所述分类器扫描未知文档,并判断未知文档所属的类别。
第三方面,本发明还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
读取至少一个部门的文本数据,其中至少一部分所述文本数据带有类别标签;
学习所述文本数据,生成与部门对应的两类分类器;
调用所述分类器扫描未知文档,并判断未知文档所属的类别。
由上述技术方案可知,本发明提供一种文件分类方法、存储介质及设备,对每个部门均训练与之对应的两类分类器,采用两类分类器来对未知文档进行分类,可提高文件分类的准确率和效率,减少误分类;能够保证不同部门之间的数据独立性,更利于部门的保密目的。
附图说明
图1示出了本发明提供的文件分类方法的流程示意图。
图2示出了对训练文档进行训练的流程示意图。
图3示出了对未知文档进行分类的流程示意图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
实施例一
图1示出了本发明实施例一提供的文件分类方法的流程示意图。如图1所示,所述方法包括:
步骤S1,读取至少一个部门的文本数据,其中至少一部分所述文本数据带有类别标签。
文本数据由运行训练程序的计算机从另一台计算机上的共享目录中读取,读取的文本数据作为训练文档,用于训练相应的分类器。
类别标签有两种,分别是正例(positive)和反例(negative),正例指该训练文本数据需要保护或需要过滤,反例指该训练文本数据不需要保护或不需要过滤。每个部门的训练文档按照其类别标签不同,可以形成三类文件夹:正例文件夹、反例文件夹以及未标记文件夹;其中,正例文件夹中的文本数据的类别标签为正例,反例文件夹中的文本数据的类别标签为反例,未标记文件夹中的文本数据未指定具体的类别标签;其中,正例文件夹和反例文件夹用于训练分类器的分类模型文件,未标记文件夹用于实现半监督学习。
步骤S2,学习所述文本数据,生成该部门的两类分类器。
所读取至少一个部门的文本数据作为训练样本,经学习和训练后,生成该部门的分类模型文件和对应的两类分类器。
本发明实施例采用正例文件夹和反例文件夹的文件集作为训练集进行训练,训练过程如图2所示:首先,对训练样本中的文本数据基于预设词典进行分词处理,对分词后的每个词语根据预设的特征选择规则进行特征选择,后根据部门特征词典对所选取的词语构造其特征向量,学习各个词语的特征向量,结合类别标签,训练生成对应部门的分类模型文件和两类分类器。
训练生成的分类模型文件中包含该部门的部门ID(部门编号),部门ID为正整数,由管理员统一分配并保持唯一,以便与其它部门的分类模型文件相区别。
所述两类分类器优选为SVM分类器,支持向量机学习算法。
若在训练时只指定正例文件夹进行训练,则生成的分类器在分类时将所有识别的文件均判定为正类;若在训练时只指定反例文件夹进行训练,则生成的分类器在分类时将所有识别的文件均判定为反类。
步骤S3,调用所述分类器扫描未知文档,并判断未知文档所属的类别。
步骤S3的具体过程如图3所示:
调用训练生成一个或多个部门的两类分类器分别扫描未知文档,对扫描到的文件名或文件内容等数据基于预设词典进行分词处理,并将要匹配的部门的部门ID作为参数输入该分类器,如输入部门ID为i;
分词后对每个词语分别根据部门i特征词典构造其特征向量,并将特征向量输入部门i分类器;
分类器将特征向量与类别标签进行匹配,确定未知文档是否属于正例,并反馈匹配结果;匹配成功则反馈1,表示该未知文档为正例;匹配失败则反馈-1,表示该未知文档为反例;未匹配则反馈0,表示无法确定该未知文档是否为正例或反例。
根据预设过滤规则,即正例则过滤,反例则不过滤,对不同类别的未知文档进行过滤。
基于以上内容,本发明实施例一可以实现的技术效果为:对每个部门均训练与之对应的两类分类器,采用两类分类器来对未知文档进行分类,可提高文件分类的准确率和效率,减少误分类;能够保证不同部门之间的数据独立性,更利于部门的保密目的。
实施例二
对本发明实施例一对应地,本发明实施例二提供一种计算机可读存储介质,其上存储有计算机程序(指令),该程序(指令)被处理器执行时实现以下步骤:
读取至少一个部门的文本数据,其中至少一部分所述文本数据带有类别标签;
学习所述文本数据,生成与部门对应的两类分类器;
调用所述分类器扫描未知文档,并判断未知文档所属的类别。
上述存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
上述关于计算机可读存储介质的具体限定可以参见实施例一,在此不再赘述。
实施例三
对本发明实施例一对应地,本发明实施例三提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
读取至少一个部门的文本数据,其中至少一部分所述文本数据带有类别标签;
学习所述文本数据,生成与部门对应的两类分类器;
调用所述分类器扫描未知文档,并判断未知文档所属的类别。
上述关于计算机设备的具体限定可以参见实施例一,在此不再赘述。
在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
需要说明的是,本发明的说明书附图中的框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与获得机指令的组合来实现。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (8)

1.一种文件分类方法,其特征在于,所述方法包括:
读取至少一个部门的文本数据,其中至少一部分所述文本数据带有类别标签;
学习所述文本数据,生成与部门对应的两类分类器;
调用所述分类器扫描未知文档,并判断未知文档所属的类别。
2.根据权利要求1所述的文件分类方法,其特征在于,所述类别标签包括正例和反例。
3.根据权利要求1所述的文件分类方法,其特征在于,所述学习所述文本数据,生成与部门对应的两类分类器,具体包括:
对所述文本数据进行分词处理和特征选择,并构造每个所选择的词语的特征向量;
学习各个词语的特征向量,生成对应部门的分类模型文件和两类分类器。
4.根据权利要求1所述的文件分类方法,其特征在于,所述调用所述分类器扫描未知文档,并判断未知文档所属的类别,具体包括:
调用训练生成一个或多个部门的两类分类器扫描未知文档;
对所述未知文档进行分词处理,并对分词后的每个词语构造其特征向量;
将所述特征向量输入所述两类分类器中,采用所述两类分类器对所述未知文档进行分类。
5.根据权利要求4所述的文件分类方法,其特征在于,采用所述两类分类器对所述未知文档进行分类,具体包括:采用所述两类分类器将所述特征向量与所述类别标签进行匹配,判断所述未知文档的类别是否是正例,并反馈匹配结果。
6.根据权利要求5所述的文件分类方法,其特征在于,若所述特征向量和所述类别标签匹配成功则反馈1,匹配失败则反馈-1,未匹配则反馈0。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现以下步骤:
读取至少一个部门的文本数据,其中至少一部分所述文本数据带有类别标签;
学习所述文本数据,生成与部门对应的两类分类器;
调用所述分类器扫描未知文档,并判断未知文档所属的类别。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
读取至少一个部门的文本数据,其中至少一部分所述文本数据带有类别标签;
学习所述文本数据,生成与部门对应的两类分类器;
调用所述分类器扫描未知文档,并判断未知文档所属的类别。
CN201711241850.0A 2017-11-30 2017-11-30 一种文件分类方法、存储介质及设备 Pending CN107908774A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711241850.0A CN107908774A (zh) 2017-11-30 2017-11-30 一种文件分类方法、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711241850.0A CN107908774A (zh) 2017-11-30 2017-11-30 一种文件分类方法、存储介质及设备

Publications (1)

Publication Number Publication Date
CN107908774A true CN107908774A (zh) 2018-04-13

Family

ID=61848241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711241850.0A Pending CN107908774A (zh) 2017-11-30 2017-11-30 一种文件分类方法、存储介质及设备

Country Status (1)

Country Link
CN (1) CN107908774A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193928A (zh) * 2010-03-08 2011-09-21 三星电子(中国)研发中心 基于多层文本分类器的轻量级本体匹配方法
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN106897459A (zh) * 2016-12-14 2017-06-27 中国电子科技集团公司第三十研究所 一种基于半监督学习的文本敏感信息识别方法
WO2017190527A1 (zh) * 2016-05-06 2017-11-09 华为技术有限公司 一种文本数据分类方法及服务器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193928A (zh) * 2010-03-08 2011-09-21 三星电子(中国)研发中心 基于多层文本分类器的轻量级本体匹配方法
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
WO2017190527A1 (zh) * 2016-05-06 2017-11-09 华为技术有限公司 一种文本数据分类方法及服务器
CN106897459A (zh) * 2016-12-14 2017-06-27 中国电子科技集团公司第三十研究所 一种基于半监督学习的文本敏感信息识别方法

Similar Documents

Publication Publication Date Title
US10621727B1 (en) Label and field identification without optical character recognition (OCR)
US9626555B2 (en) Content-based document image classification
CN108520030B (zh) 文本分类方法、文本分类系统及计算机装置
US9396540B1 (en) Method and system for identifying anchors for fields using optical character recognition data
KR102063036B1 (ko) 딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 장치 및 방법
EP3869385A1 (en) Method for extracting structural data from image, apparatus and device
CN110942074A (zh) 字符切分识别方法、装置、电子设备、存储介质
US11630956B2 (en) Extracting data from documents using multiple deep learning models
Yadav et al. A robust approach for offline English character recognition
JP2020087404A (ja) 視覚的関係を推論することによる工業検査シートのデジタル化
CN106803116A (zh) 一种生成资产标签的方法及装置
JP2019057311A (ja) 帳票情報認識装置および帳票情報認識方法
CN107992508B (zh) 一种基于机器学习的中文邮件签名提取方法及系统
Sharma et al. Primitive feature-based optical character recognition of the Devanagari script
CN107688744A (zh) 基于图像特征匹配的恶意文件分类方法及装置
CN109583463A (zh) 训练用于确定文档类别的分类器的系统和方法
CN111783088A (zh) 一种恶意代码家族聚类方法、装置和计算机设备
CN107908774A (zh) 一种文件分类方法、存储介质及设备
JP6445645B1 (ja) 帳票情報認識装置および帳票情報認識方法
Khorsheed Recognizing Cursive Typewritten Text Using Segmentation‐Free System
Yu et al. Convolutional neural networks for figure extraction in historical technical documents
Yuan et al. A novel figure panel classification and extraction method for document image understanding
Crnojević et al. Image processing method for automatic discrimination of hoverfly species
Yoo et al. Mathematical formula recognition based on modified recursive projection profile cutting and labeling with double linked list
KR102282343B1 (ko) 평행 초평면을 이용한 데이터 포인트 분류 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180413

RJ01 Rejection of invention patent application after publication