CN111177084A - 一种文件分类方法、装置、计算机设备及存储介质 - Google Patents

一种文件分类方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111177084A
CN111177084A CN201911327403.6A CN201911327403A CN111177084A CN 111177084 A CN111177084 A CN 111177084A CN 201911327403 A CN201911327403 A CN 201911327403A CN 111177084 A CN111177084 A CN 111177084A
Authority
CN
China
Prior art keywords
file
value
attribute
preset
regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911327403.6A
Other languages
English (en)
Inventor
房倩琦
成威威
许沥文
胡志利
邓德荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Trust Co Ltd
Original Assignee
Ping An Trust Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Trust Co Ltd filed Critical Ping An Trust Co Ltd
Priority to CN201911327403.6A priority Critical patent/CN111177084A/zh
Publication of CN111177084A publication Critical patent/CN111177084A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及信息分类技术领域,提供了一种文件分类方法、装置、计算机设备及存储介质,该文件分类方法包括:获取目标文件的至少一个属性;按照预先设定的衍生规则对属性进行预处理,获得属性对应的衍生变量;判断衍生变量的类别,根据预设的衍生变量的类别与回归树的对应处理关系,在回归模型中查询处理衍生变量的回归树;通过查询得到的回归树对衍生变量进行回归处理,分别获得各颗回归树的预测值,根据各颗回归树的预测值获得目标文件的预测值;根据预先训练好的最佳切分值对预测值进行切分,获得目标文件对应的预测类别。通过本发明的实施,能够有效解决现有的文件分类方法存在特征数据提取难度较大、分类精确度不高的问题。

Description

一种文件分类方法、装置、计算机设备及存储介质
技术领域
本发明涉及信息分类技术领域,尤其涉及一种文件分类方法、装置、计算机设备及存储介质。
背景技术
随着科学技术的不断发展更替,事物的种类越来越多,即使一种事物也可能会存在多种状态,为满足社会生产、消费以及服务等需求,许多人从事工作的性质就是区分某件事物的类别,例如,针对文件的分类,此类工作需要对大量的数据进行统筹分析,需要耗费大量的人力物力。
由于近些年来对人工智能技术的不断投入,人工智能的分类方法越来越准确,利用人工智能技术进行文件分类了广泛的应用。目前,现有技术中针对文件进行分类的方法一般是先提取目标文件的特征数据,然后对目标文件的特征数据,利用分类器对特征数据计算,获得目标文件属于各个类型的概率,最后各个概率大小判断目标文件的所属类型。
虽然通过现有的方法能够对目标文件的类别进行分类,但是,由于特征数据的提取直接影响了分类的结果,因此对特征数据的提取对统计能力要求较高,另外,还容易出现同一个目标文件所属为各个类型的概率相近的情况,使得文件分类的结果不够准确。
综上所述,现有的文件分类方法存在特征数据提取难度较大、分类精确度不高的问题。
发明内容
本发明提供一种文件分类方法、装置、计算机设备及存储介质,以解决现有的文件分类方法存在特征数据提取难度较大、分类精确度不高的问题。
本发明的第一实施例提供一种文件分类方法,包括:
获取目标文件的至少一个属性;
按照预先设定的衍生规则对属性进行预处理,获得属性对应的衍生变量;
判断衍生变量的类别,根据预设的衍生变量的类别与回归树的对应处理关系,在回归模型中查询处理衍生变量的回归树;
通过查询得到的回归树对衍生变量进行回归处理,分别获得各颗回归树的预测值,根据各颗回归树的预测值获得目标文件的预测值;
根据预先训练好的最佳切分值对预测值进行切分,获得目标文件对应的预测类别。
本发明的第二实施例提供一种文件分类装置,包括:
属性获取模块,其用于获取目标文件的至少一个属性;
衍生变量获取模块,其用于按照预先设定的衍生规则对属性进行预处理,获得属性对应的衍生变量;
衍生变量类别判断模块,其用于判断衍生变量的类别,根据预设的衍生变量的类别与回归树的对应处理关系,在回归模型中查询处理衍生变量的回归树;
回归处理模块,其用于通过查询得到的回归树对衍生变量进行回归处理,分别获得各颗回归树的预测值,根据各颗回归树的预测值获得目标文件的预测值;以及
预测类别获取模块,其用于根据预先训练好的最佳切分值对预测值进行切分,获得目标文件对应的预测类别。
本发明的第三实施例提供一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现本发明的第一实施例提供的一种文件分类方法的步骤。
本发明的第四实施例提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现本发明的第一实施例提供的一种文件分类方法的步骤。
在上述文件分类方法、装置、计算机设备及存储介质中,首先,获取目标文件的至少一个属性,然后,按照预先设定的衍生规则对属性进行预处理,获得属性对应的衍生变量,再判断衍生变量的类别,根据预设的衍生变量的类别与回归树的对应处理关系,在回归模型中查询处理衍生变量的回归树,再通过查询得到的回归树对衍生变量进行回归处理,分别获得各颗回归树的预测值,根据各颗回归树的预测值获得目标文件的预测值,最后据预先训练好的最佳切分值对预测值进行切分,获得目标文件对应的预测类别。按照衍生规则对目标文件的属性进行处理,并通过回归模型和最佳切分值获得目标文件对应的预测类别,通过本发明的实施,能够有效解决现有的文件分类方法存在特征数据提取难度较大、分类精确度不高的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的第一实施例的文件分类方法的一应用环境示意图;
图2是本发明的第一实施例的文件分类方法的一流程示意图;
图3是本发明的第一实施例的文件分类方法中步骤12的一流程图;
图4是本发明的第一实施例的文件分类方法中步骤14的一流程图;
图5是本发明的第一实施例的文件分类方法的一流程示意图;
图6是本发明的第三实施例的计算机设备的一模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的第一实施例提供的文件分类方法,可应用于如图1所示的应用环境中,其中,客户端(计算机设备)通过网络与服务端进行通信。服务端获取客户端发送的目标文件的至少一个属性,按照预先设定的衍生规则对属性进行预处理,获得属性对应的衍生变量,判断衍生变量的类别,根据预设的衍生变量的类别与回归树的对应处理关系,在回归模型中查询处理衍生变量的回归树,再通过查询得到的回归树对衍生变量进行回归处理,分别获得各颗回归树的预测值,根据各颗回归树的预测值获得目标文件的预测值,根据预先训练好的最佳切分值对预测值进行切分,获得目标文件对应的预测类别,客户端获取服务端发送的目标文件对应的预测类别。其中,客户端(计算机设备)可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在本发明的第一实施例中,如图2所示,提供一种文件分类方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤11至步骤15。
步骤11:获取目标文件的至少一个属性。
其中,目标文件包括记载信息的载体,例如,目标文件可以是文本、文档、音频等。
另外,属性包括对目标文件进行描述的相关信息,例如,属性可以是与目标文件的作者、名称、目录有关的信息,也可以是对目标文件的具体内容、格式类型进行描述或概括的相关信息,还可以是对目标文件中某些字段出现频率进行统计的相关数据。
在一些示例中,对获取目标文件的至少一个属性的方式不做具体限制,例如,当目标文件为文本时,通过文字识别技术对文本中的信息进行提取;当目标文件为语音时,通过语音识别技术对语音中的信息进行提取;当目标文件为文档时,通过提取文档头或者文档后缀对文档的格式进行判断;当目标文件为图像时,通过图像识别技术对图像中的信息进行提取。
步骤12:按照预先设定的衍生规则对属性进行预处理,获得属性对应的衍生变量。
其中,预先设定的衍生规则为映射表和/或修正公式,通过衍生规则对属性进行加工,衍生变量能够对目标文件的属性进行量化。需要注意的是,针对某一目标文件的其中一个属性,按照预先设定的规则处理后,可以形成与该一个属性对应的一个衍生变量,也可以形成与该一个属性对应多个衍生变量;针对某一目标文件的其中多个属性,按照预先设定的规则处理后,可以形成与该多个属性对应的一个衍生变量,也可以形成与该多个属性对应多个衍生变量。
具体地,通过预先设定的衍生规则对属性进行预处理,将目标文件的属性用更加具象的形式表现出来,以便于对目标文件的属性进行统计和分析。
步骤13:判断衍生变量的类别,根据预设的衍生变量的类别与回归树的对应处理关系,在回归模型中查询处理衍生变量的回归树。
其中,回归模型具体是通过极端梯度提升算法(eXtreme Gradient Boosting,以下简称xgboost算法)形成多颗分类与回归树(Classification and regression tree,以下简称CART回归树)。另外,每颗CART回归树对应一种类别的衍生变量,也就是说,一颗CART回归树与一种类别的衍生变量对应,通过在回归模型中查询处理某种类别的衍生变量的CART回归树。
在一些示例中,当目标文件形成多个衍生变量时,回归模型中的各颗CART回归树分别对应一种类别的衍生变量,各颗CART回归树对各自对应的衍生变量进行分析。
步骤14:通过查询得到的回归树对衍生变量进行回归处理,分别获得各颗回归树的预测值,根据各颗回归树的预测值获得目标文件的预测值。
其中,通过查询得到的回归树对对应类别的衍生变量进行处理,从而获得各颗回归树的预测值,将各颗CART回归树分析得到的预测结果进行求和,获得针对目标文件的预测值。
步骤15:根据预先训练好的最佳切分值对预测值进行切分,获得目标文件对应的预测类别。
其中,根据预先训练好的最佳切分值形成多个预测分类值区间,每个预测分类值区间代表目标文件的预测类别,判断预测值所处的预测分类值区间,进而获知目标文件的预测类别。另外,预测类别用于表示预测目标文件的分类结果,例如,当目标文件为文本时,实际类别可以是文学类、艺术类、科学类等。
通过上述步骤11至步骤15的实施,能够按照衍生规则对目标文件的属性进行处理,进而获得衍生变量,然后通过CART回归树对衍生变量进行分析,获得目标文件的预测值,再根据预先训练好的最佳切分值对目标文件的预测值进行切分,从而获得目标文件对应的预测类别,使得能够从目标文件的属性中提取出对预测值影响较大的衍生变量,使得回归模型获得的预测值更加准确,并通过预先训练好的最佳切分值对预测值进行切分,解决了现有的文件分类方法存在特征数据提取难度较大、分类精确度不高的问题。
如图3所示,上述步骤12包括以下步骤121至步骤122:
步骤121:查询预先设定的与属性对应的修正公式;
步骤122:将属性作为修正公式的变量,将修正公式的计算结果作为属性的衍生变量。
在上述步骤121至步骤122中,根据目标文件的属性不同,选择不同的修正公式对属性进行计算。
为能够更加清楚地理解步骤121至步骤122的内容,列举示例:
该目标文件为文本,该目标文件的其中一个属性为高频词汇时,该属性包含多个在目标文件中频繁出现的词汇(高频词汇A、高频词汇B、高频词汇C和高频词汇D),根据词汇的所属类别(高频词汇A和高频词汇C均为类别M,高频词汇B为类别N,高频词汇D为类别O)和出现频率(高频词汇A出现20次,高频词汇B出现30次,高频词汇C出现40次,高频词汇D出现10次),计算出各类别的词汇在所有高频词汇中的占比,获得类别M占比为60%,类别N占比为30%,类别O占比为10%,将各个类别的占比作为衍生变量。
在本实施例中,通过上述步骤121至步骤122的实施,能够从目标文件的属性中计算得到衍生变量,计算得到的衍生变量更能够代表目标文件的特征,使后续对目标文件的预测更加准确。
另外,在一些示例中,上述步骤12还包括以下内容:
根据预先存储的映射表,查询与属性相映射的状态等级,将查询得到的状态等级确定为得到的衍生变量。
例如:其中一个属性为“词汇“电磁波”在目标文件中出现的频率为5”,此时获得该属性对应的状态等级“物理词汇5分”,另一个属性为“词汇“颅骨”在目标文件中出现的频率为14”,此时获得该属性对应的状态等级为“生理词汇14分”,又一个属性为“词汇“硝酸盐”在目标文件中出现的频率为1”,此时获得该属性对应的状态等级为“化学词汇1分”,将获得的各个状态等级作为衍生变量。
在本实施例中,通过采用映射的方式得到衍生变量,将目标文件的属性进行映射查询,获得状态等级,该状态等级与目标文件的分类结果之间的联系更加密切,使后续对目标文件的预测更加准确。
如图4所示,上述步骤14具体包括以下步骤:
步骤141:当衍生变量为多个时,查询每个衍生变量在对应的回归树中所在的节点。
步骤142:将所在节点的节点值作为对应衍生变量的预测值,并将各个衍生变量的预测值进行求和计算,将计算的结果作为目标文件的预测值。
对于上述步骤141,具体地,查询每个衍生变量在对应的CART回归树中所在的节点。
对于上述步骤142,其中,CART回归树中的各个节点均对应有节点值。具体地,通过下式(1)判断每个衍生变量在对应CART回归树中所在的节点,将所在节点的节点值作为对应衍生变量的预测值:
Figure BDA0002328731440000093
其中,cn代表CART回归树中第n个节点的预测值,I(X∈Rn)表示衍生变量是否在第n个节点上,I(X∈Rn)取值为0(否)或1(是),N表示CART回归树中节点的数量,Rn表示CART回归树中第n个节点,f(x)表示衍生变量x在对应CART回归树中的预测值。
将上述每颗CART回归树分析得到的对应衍生变量的预测结果进行求和计算,计算的结果作为回归模型对目标文件的预测值。具体地,对CART回归树进行求和计算的公式可以表示为:
Figure BDA0002328731440000091
其中,
Figure BDA0002328731440000092
代表回归模型输出的目标文件的预测值,fk(X)代表第k颗回归树对目标文件的预测结果,F为包含的K颗回归树的集合,fk为输入回归模型的目标文件。
在本实施例中,通过上述步骤141和步骤142的实施,回归模型能够对衍生变量进行计算,从而输出针对目标文件的预测值。
如图5所示,获得预先训练好的最佳切分值的步骤包括以下内容:
步骤21:获取多个文件样本中每个文件样本的至少一个属性以及每个文件样本的实际类别。
其中,实际类别代表文件样本的实际分类结果。
步骤22:按照预先设定的衍生规则对获取的文件样本的至少一个属性进行预处理,得到属性对应的衍生变量。
需要注意的是,步骤22中对文件样本的属性进行预处理的方法与步骤12的方法相同,此处不再赘述。
步骤23:通过回归模型对衍生变量进行计算,获得各个文件样本的预测值。
需要注意的是,步骤23中通过回归模型对衍生变量进行计算的方法与步骤14的方法相同,此处不再赘述。
步骤24:将多个文件样本的预测值按照数值大小排序,获得预测值集合。
其中,具体是将多个文件样本的预测值按照从大到小或从小到大的顺序进行排列,形成预测值集合。
步骤25:根据预设的切分值起点及步长依次切分预测值集合,将切分在同一区间中的文件样本划分为同一预测类别。
其中,对预测值集合进行切分的切分值为切分值起点和步长之和或之差,通过更改切分值起点能够获得不同的切分区间。进一步地,切分预测值集合形成M个预测值区间,即代表具有M个预测分类等级,M为大于等于2的正整数。同时,当切分形成M个预测值区间时,采用M-1个不同的切分值进行切分。
需要注意的是,预设的切分值起点和步长可以人为设定,步长越大,预测结果越不准确,预测速度越快;步长越小,预测结果越准确,预测速度越慢。
为能够更好地理解上述步骤25,列举示例。例如,存在一个切分值起点为0,步长为0.001,此时切分值为0.001,通过切分值对预测值集合进行切分,获得两个预测值区间,两个预测值区间分别代表预测分类等级1级和预测分类等级2级;然后将切分值起点和步长之和作为另一个切分值0.002,对预测值集合进行切分,获得另外两个预测值区间,将该两个预测值区间分别代表预测分类等级1级和预测分类等级2级;再将上一个切分值和步长之和作为又一个切分值0.003,对预测值集合进行切分,获得又两个预测值区间,该两个预测值区间分别代表预测分类等级1级和预测分类等级2级,依次类推。
步骤26:将切分获得的各预测类别内的文件样本与各实际类别内的文件样本之间的匹配度进行比较,当匹配度小于预设值时,循环根据预设的切分值起点及步长依次切分预测值集合及本步骤,直到匹配度达到预设要求时,获得最佳切分值。
其中,将切分的各预测类别内的文件样本与各实际类别内的文件样本之间的匹配度最高时的切分值作为最佳切分值。
在上述步骤26中,获取匹配度的方法包括以下内容:
统计各个预测类别内的文件样本和实际类别内的文件样本,计算各预测类别内的文件样本与各实际类别内的文件样本一致的数量,根据各预测类别内的文件样本与各实际类别内的文件样本一致的数量、文件样本的总数量获得匹配度。
为能够更好地理解获取匹配度的方法,列举示例。例如:现有二十个文件样本,实际分类等级分别为A、B,这十五个文件样本中A、B内文件样本数量比值为1:1,预测分类等级为A、B,这二十个文件样本中A、B内文件样本数量比值为3:2,统计得到预测分类等级A内的文件样本属于实际分类等级A内的文件样本数量为10,统计得到预测分类等级B内的文件样本属于实际分类等级B内的文件样本数量为8,因此,此时预测准确18个文件样本,2个文件样本预测错误,此时匹配度为90%。
在本实施例中,通过计算匹配度,从而获知切分预测值集合结果的好坏程度,并通过达到最佳的匹配度,进而获得最佳切分值。
在本实施例中,通过步骤21至步骤26的实施,能够利用挖掘文件样本的属性,获得衍生变量,并通过回归算法获得各个文件样本的预测值,利用二分法对预测值进行处理,使得基于少量的文件样本也可以以分类结果为导向完成训练,减少了对目标文件数量的要求,提高了对文件分类进行训练的效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本发明的第二实施例提供一种文件分类装置,该文件分类装置与上述第一实施例提供的文件分类方法一一对应。
进一步地,该文件分类装置包括属性获取模块、衍生变量获取模块、衍生变量获取模块、回归处理模块和预测类别获取模块。各功能模块详细说明如下:
属性获取模块,其用于获取目标文件的至少一个属性;
衍生变量获取模块,其用于按照预先设定的衍生规则对属性进行预处理,获得属性对应的衍生变量;
衍生变量类别判断模块,其用于判断衍生变量的类别,根据预设的衍生变量的类别与回归树的对应处理关系,在回归模型中查询处理衍生变量的回归树;
回归处理模块,其用于通过查询得到的回归树对衍生变量进行回归处理,分别获得各颗回归树的预测值,根据各颗回归树的预测值获得目标文件的预测值;以及
预测类别获取模块,其用于根据预先训练好的最佳切分值对预测值进行切分,获得目标文件对应的预测类别。
衍生变量获取模块具体还可以包含属性查询子单元和衍生变量计算子单元。各功能子单元详细说明如下:
属性查询子单元,其用于查询预先设定的与属性对应的修正公式;
衍生变量计算子单元,其用于将属性作为修正公式的变量,将修正公式的计算结果作为属性的衍生变量。
回归处理模块具体可以包括节点查询子单元和预测值计算子单元。各功能子单元详细说明如下:
节点查询子单元,其用于当衍生变量为多个时,查询每个衍生变量在对应的回归树中所在的节点;
预测值计算子单元,其用于将所在节点的节点值作为对应衍生变量的预测值,并将各个衍生变量的预测值进行求和计算,将计算的结果作为目标文件的预测值。
该文件分类装置还包括预处理模块、衍生变量获取模块、排序模块、切分模块和最佳切分值获取模块。各功能子单元详细说明如下:
文件样本获取模块,其用于获取多个文件样本中每个文件样本的至少一个属性以及每个文件样本的实际类别;
预处理模块,其用于按照预先设定的衍生规则对获取的文件样本的至少一个属性进行预处理,得到属性对应的衍生变量;
衍生变量获取模块,其用于通过回归模型对衍生变量进行计算,获得各个文件样本的预测值;
排序模块,其用于将多个文件样本的预测值按照数值大小排序,获得预测值集合;
切分模块,其用于根据预设的切分值起点及步长,依次切分预测值集合,将切分在同一区间中的文件样本划分为同一预测类别;
最佳切分值获取模块,其用于将每次切分获得的各预测类别内的文件样本与各实际类别内的文件样本之间的匹配度进行比较,当匹配度达到预设要求时,获得最佳切分值。
最佳切分值获取模块具体可以包括匹配度获取子单元。
匹配度获取子单元,其用于统计各个预测类别内的文件样本和实际类别内的文件样本,计算各预测类别内的文件样本与各实际类别内的文件样本一致的数量,根据各预测类别内的文件样本与各实际类别内的文件样本一致的数量、文件样本的总数量获得匹配度。
关于文件分类装置的具体限定可以参见上文中对于文件分类方法的限定,在此不再赘述。上述文件分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本发明的第三实施例提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文件分类方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现本发明的第一实施例提供的文件分类方法。
本发明的第四实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本发明的第一实施例提供的文件分类方法的步骤,例如图2所示的步骤11至步骤15、如图3所示的步骤121至步骤122、如图4所示的步骤141至步骤142以及如图5所示的步骤21至步骤26。或者,计算机程序被处理器执行时实现上述第一实施例提供的文件分类方法的各模块/单元的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文件分类方法,其特征在于,所述方法包括:
获取目标文件的至少一个属性;
按照预先设定的衍生规则对所述属性进行预处理,获得所述属性对应的衍生变量;
判断所述衍生变量的类别,根据预设的衍生变量的类别与回归树的对应处理关系,在回归模型中查询处理所述衍生变量的回归树;
通过查询得到的回归树对所述衍生变量进行回归处理,分别获得各颗所述回归树的预测值,根据各颗所述回归树的预测值获得所述目标文件的预测值;
根据预先训练好的最佳切分值对所述预测值进行切分,获得所述目标文件对应的预测类别。
2.根据权利要求1所述的文件分类方法,其特征在于,获得所述预先训练好的最佳切分值的步骤包括:
获取多个文件样本中每个文件样本的至少一个属性以及每个所述文件样本的实际类别;
按照预先设定的衍生规则对获取的所述文件样本的至少一个属性进行预处理,得到所述属性对应的衍生变量;
通过回归模型对所述衍生变量进行计算,获得各个所述文件样本的预测值;
将所述多个文件样本的预测值按照数值大小排序,获得预测值集合;
根据预设的切分值起点及步长依次切分预测值集合,将切分在同一区间中的所述文件样本划分为同一预测类别;
将切分获得的各所述预测类别内的所述文件样本与各所述实际类别内的所述文件样本之间的匹配度进行比较,当所述匹配度小于预设值时,循环所述根据预设的切分值起点及步长依次切分预测值集合及本步骤直到所述匹配度达到预设要求时,获得最佳切分值。
3.根据权利要求2所述的文件分类方法,其特征在于,获取所述匹配度包括:
统计各个预测类别内的所述文件样本和所述实际类别内的文件样本,计算各预测类别内的文件样本与各实际类别内的文件样本一致的数量,根据所述各预测类别内的文件样本与各实际类别内的文件样本一致的数量、所述文件样本的总数量获得匹配度。
4.根据权利要求1所述的文件分类方法,其特征在于,所述按照预先设定的衍生规则对所述属性进行预处理,获得所述属性对应的衍生变量包括:
根据预先存储的映射表,查询与所述属性相映射的状态等级,将查询得到的状态等级确定为得到的衍生变量。
5.根据权利要求1所述的文件分类方法,其特征在于,所述按照预先设定的衍生规则对所述属性进行预处理,获得所述属性对应的衍生变量还包括:
查询预先设定的与所述属性对应的修正公式;
将所述属性作为所述修正公式的变量,将所述修正公式的计算结果作为所述属性的衍生变量。
6.根据权利要求1所述的文件分类方法,其特征在于,所述通过查询得到的回归树对所述衍生变量进行回归处理,分别获得各颗所述回归树的预测值,根据各颗所述回归树的预测值获得所述目标文件的预测值包括:
当所述衍生变量为多个时,查询每个所述衍生变量在对应的回归树中所在的节点;
将所在节点的节点值作为对应衍生变量的预测值,并将各个衍生变量的预测值进行求和计算,将计算的结果作为所述目标文件的预测值。
7.一种文件分类装置,其特征在于,包括:
属性获取模块,其用于获取目标文件的至少一个属性;
衍生变量获取模块,其用于按照预先设定的衍生规则对所述属性进行预处理,获得所述属性对应的衍生变量;
衍生变量类别判断模块,其用于判断所述衍生变量的类别,根据预设的衍生变量的类别与回归树的对应处理关系,在回归模型中查询处理所述衍生变量的回归树;
回归处理模块,其用于通过查询得到的回归树对所述衍生变量进行回归处理,分别获得各颗所述回归树的预测值,根据各颗所述回归树的预测值获得所述目标文件的预测值;以及
预测类别获取模块,其用于根据预先训练好的最佳切分值对所述预测值进行切分,获得所述目标文件对应的预测类别。
8.根据权利要求7所述的文件分类装置,其特征在于,还包括:
文件样本获取模块,其用于获取多个文件样本中每个文件样本的至少一个属性以及每个所述文件样本的实际类别;
预处理模块,其用于按照预先设定的衍生规则对获取的所述文件样本的至少一个属性进行预处理,得到所述属性对应的衍生变量;
衍生变量获取模块,其用于通过回归模型对所述衍生变量进行计算,获得各个所述文件样本的预测值;
排序模块,其用于将所述多个文件样本的预测值按照数值大小排序,获得预测值集合;
切分模块,其用于根据预设的切分值起点及步长,依次切分预测值集合,将切分在同一区间中的所述文件样本划分为同一预测类别;
最佳切分值获取模块,其用于将每次切分获得的各所述预测类别内的所述文件样本与各所述实际类别内的所述文件样本之间的匹配度进行比较,当所述匹配度达到预设要求时,获得最佳切分值。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述文件分类方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述文件分类方法的步骤。
CN201911327403.6A 2019-12-20 2019-12-20 一种文件分类方法、装置、计算机设备及存储介质 Pending CN111177084A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911327403.6A CN111177084A (zh) 2019-12-20 2019-12-20 一种文件分类方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911327403.6A CN111177084A (zh) 2019-12-20 2019-12-20 一种文件分类方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111177084A true CN111177084A (zh) 2020-05-19

Family

ID=70654032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911327403.6A Pending CN111177084A (zh) 2019-12-20 2019-12-20 一种文件分类方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111177084A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753926A (zh) * 2020-07-07 2020-10-09 广州驰兴通用技术研究有限公司 一种用于智慧城市的数据共享方法及系统
CN114186873A (zh) * 2021-12-14 2022-03-15 平安银行股份有限公司 加工变量验证方法、装置及相关设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423339A (zh) * 2017-04-29 2017-12-01 天津大学 基于极端梯度推进和随机森林的热门微博预测方法
CN108777674A (zh) * 2018-04-24 2018-11-09 东南大学 一种基于多特征融合的钓鱼网站检测方法
CN109858247A (zh) * 2018-12-26 2019-06-07 江苏博智软件科技股份有限公司 一种基于XGBoost的静态三特征模型的恶意软件分类方法
CN109933667A (zh) * 2019-03-19 2019-06-25 中国联合网络通信集团有限公司 文本分类模型训练方法、文本分类方法及设备
CN110188199A (zh) * 2019-05-21 2019-08-30 北京鸿联九五信息产业有限公司 一种用于智能语音交互的文本分类方法
EP3534283A1 (en) * 2018-03-01 2019-09-04 Crowdstrike, Inc. Classification of source data by neural network processing
CN110378386A (zh) * 2019-06-20 2019-10-25 平安科技(深圳)有限公司 基于有监督的无标记异常识别方法、装置及存储介质
CN110472025A (zh) * 2019-07-15 2019-11-19 平安科技(深圳)有限公司 会话信息的处理方法、装置、计算机设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423339A (zh) * 2017-04-29 2017-12-01 天津大学 基于极端梯度推进和随机森林的热门微博预测方法
EP3534283A1 (en) * 2018-03-01 2019-09-04 Crowdstrike, Inc. Classification of source data by neural network processing
CN108777674A (zh) * 2018-04-24 2018-11-09 东南大学 一种基于多特征融合的钓鱼网站检测方法
CN109858247A (zh) * 2018-12-26 2019-06-07 江苏博智软件科技股份有限公司 一种基于XGBoost的静态三特征模型的恶意软件分类方法
CN109933667A (zh) * 2019-03-19 2019-06-25 中国联合网络通信集团有限公司 文本分类模型训练方法、文本分类方法及设备
CN110188199A (zh) * 2019-05-21 2019-08-30 北京鸿联九五信息产业有限公司 一种用于智能语音交互的文本分类方法
CN110378386A (zh) * 2019-06-20 2019-10-25 平安科技(深圳)有限公司 基于有监督的无标记异常识别方法、装置及存储介质
CN110472025A (zh) * 2019-07-15 2019-11-19 平安科技(深圳)有限公司 会话信息的处理方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
腾讯云: "XGBOOST从原理到实战:二分类 、多分类", Retrieved from the Internet <URL:https://cloud.tencent.com/developer/article/1387686> *
贾文慧: "基于XGBoost算法的骨科辅助诊断模型研究", 信息科技, 15 September 2018 (2018-09-15) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753926A (zh) * 2020-07-07 2020-10-09 广州驰兴通用技术研究有限公司 一种用于智慧城市的数据共享方法及系统
CN114186873A (zh) * 2021-12-14 2022-03-15 平安银行股份有限公司 加工变量验证方法、装置及相关设备
CN114186873B (zh) * 2021-12-14 2024-05-17 平安银行股份有限公司 加工变量验证方法、装置及相关设备

Similar Documents

Publication Publication Date Title
AU2017243270B2 (en) Method and device for extracting core words from commodity short text
US10262059B2 (en) Method, apparatus, and storage medium for text information processing
CN110569500A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN109800307B (zh) 产品评价的分析方法、装置、计算机设备及存储介质
WO2020147395A1 (zh) 基于情感的文本分类处理方法、装置和计算机设备
CN111090719B (zh) 文本分类方法、装置、计算机设备及存储介质
CN110516712B (zh) 虫害图像识别方法、虫害监控方法、装置、设备及介质
CN104991968A (zh) 基于文本挖掘的互联网媒体用户属性分析方法
CN113255370B (zh) 基于语义相似度的行业类型推荐方法、装置、设备及介质
CN110377558A (zh) 文档查询方法、装置、计算机设备和存储介质
CN112395500A (zh) 内容数据推荐方法、装置、计算机设备及存储介质
CN109918498B (zh) 一种问题入库方法和装置
CN109726391B (zh) 对文本进行情感分类的方法、装置及终端
WO2020048048A1 (zh) 不平衡样本数据预处理方法、装置和计算机设备
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN111914159B (zh) 一种信息推荐方法及终端
CN112699923A (zh) 文档分类预测方法、装置、计算机设备及存储介质
CN112329843A (zh) 基于决策树的呼叫数据处理方法、装置、设备及存储介质
CN111177084A (zh) 一种文件分类方法、装置、计算机设备及存储介质
CN111737548A (zh) 点选验证码识别方法、装置、计算机设备和存储介质
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN114626524A (zh) 目标业务网络确定方法、业务处理方法及装置
CN110147449A (zh) 文本分类方法和装置
CN116680401A (zh) 文档处理方法、文档处理装置、设备及存储介质
CN113837319B (zh) 基于聚类的客户分类方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination