CN113722435A - 基于监督学习的分类方法、装置、设备及存储介质 - Google Patents

基于监督学习的分类方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113722435A
CN113722435A CN202111006927.2A CN202111006927A CN113722435A CN 113722435 A CN113722435 A CN 113722435A CN 202111006927 A CN202111006927 A CN 202111006927A CN 113722435 A CN113722435 A CN 113722435A
Authority
CN
China
Prior art keywords
file
maintenance
maintenance file
classification
target operation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111006927.2A
Other languages
English (en)
Inventor
邵岑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111006927.2A priority Critical patent/CN113722435A/zh
Publication of CN113722435A publication Critical patent/CN113722435A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本申请适用于人工智能技术领域,提供了基于监督学习的分类方法、装置、设备及存储介质。包括:获取待分类的运维文件;在运维文件中提取目标运维文件;将目标运维文件输入到已训练的运维文件分类模型中进行处理,得到目标运维文件对应的分类结果;对分类结果进行聚类操作,得到聚类集合;根据聚类集合显示目标运维文件和分类结果。上述方案中,在待分类的运维文件中筛选了符合预设格式的目标运维文件,去除待分类的运维文件中的冗余文件,加快了分类的速度。采用监督学习,基于支持向量机对样本训练集进行训练得到运维文件分类模型,通过该运维文件分类模型对目标运维文件进行分类处理,提高了分类效率,得到的分类结果更加准确。

Description

基于监督学习的分类方法、装置、设备及存储介质
技术领域
本申请属于人工智能技术领域,尤其涉及基于监督学习的分类方法、分类装置、分类设备及存储介质。
背景技术
在日常运维工作中,因工作或项目会产生大量运维文档,许多用户电脑上的运维文档放置杂乱无章。即使将这些运维文档统一放置在一个文件夹里,也未对这些运维文档进行明确的分类,尤其当运维文档的数量增多,更加无法有效管理。随着时间的推移,这些运维文档会越来越多,面对众多又复杂的运维文档,如何进行统一管理,方便文档的快速使用至关重要。
传统的方法大多是用户自行手动分类,但这样分类效率低、容易出错,无法应对大量运维文档的场景,且对分类文档无法统一管理,导致文档不能被快速有效地使用。
发明内容
有鉴于此,本申请实施例提供了基于监督学习的分类方法、分类装置、分类设备及存储介质,以解决传统的运维文档分类方法,分类效率低、容易出错,对分类文档无法统一管理,导致文档不能被快速有效地使用的问题。
本申请实施例的第一方面提供了一种基于监督学习的分类方法,该分类方法包括:
获取待分类的运维文件;
在所述运维文件中提取目标运维文件,所述目标运维文件的文件格式符合预设格式;
将所述目标运维文件输入到已训练的运维文件分类模型中进行处理,得到所述目标运维文件对应的分类结果,所述运维文件分类模型是采用监督学习,基于支持向量机对样本训练集进行训练得到的;
对所述分类结果进行聚类操作,得到聚类集合;
根据所述聚类集合显示所述目标运维文件,以及所述目标运维文件对应的分类结果。
可选地,所述在所述运维文件中提取目标运维文件,包括:
获取预设的文件扫描程序;
采用所述文件扫描程序对所述运维文件进行扫描处理,得到所述目标运维文件。
可选地,所述在所述运维文件中提取目标运维文件,包括:
获取预设的文件扫描程序;
采用所述文件扫描程序对所述运维文件进行扫描处理,得到初始运维文件;
对所述初始运维文件进行去重处理,得到所述目标运维文件。
可选地,所述将所述目标运维文件输入到已训练的运维文件分类模型中进行处理,得到所述目标运维文件对应的分类结果,包括:
获取所述目标运维文件对应的文本内容;
采用所述运维文件分类模型,提取所述文本内容对应的文本向量特征;
对所述文本向量特征进行分类,得到所述分类结果。
可选地,所述采用所述运维文件分类模型,提取所述文本内容对应的文本向量特征,包括:
对所述文本内容进行分词处理,得到多个分词;
采用所述运维文件分类模型对每个分词进行映射处理,得到每个分词对应的词向量特征;
拼接每个分词对应的词向量特征,得到所述文本向量特征。
可选地,所述将所述目标运维文件输入到已训练的运维文件分类模型中进行处理,得到所述目标运维文件对应的分类结果之前,所述分类方法还包括:
获取所述样本训练集,所述样本训练集包括多个样本文件,以及每个样本文件对应的样本分类结果;
基于所述样本训练集对所述支持向量机进行训练,并基于训练结果更新所述支持向量机的参数;
当检测到所述支持向量机对应的损失函数收敛时,得到所述运维文件分类模型。
可选地,所述目标运维文件包括多个子文件,所述聚类集合包括属于同种分类结果的子文件。
本申请实施例的第二方面提供了一种基于监督学习的分类装置,包括:
获取单元,用于获取待分类的运维文件;
提取单元,用于在所述运维文件中提取目标运维文件,所述目标运维文件的文件格式符合预设格式;
第一处理单元,用于将所述目标运维文件输入到已训练的运维文件分类模型中进行处理,得到所述目标运维文件对应的分类结果,所述运维文件分类模型是采用监督学习,基于支持向量机对样本训练集进行训练得到的;
第二处理单元,用于对所述分类结果进行聚类操作,得到聚类集合;
显示单元,用于根据所述聚类集合显示所述目标运维文件,以及所述目标运维文件对应的分类结果。
本申请实施例的第三方面提供了一种基于监督学习的分类设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于监督学习的分类方法的步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的基于监督学习的分类方法的步骤。
本申请实施例的第五方面提供了一种计算机程序产品,当计算机程序产品在分类设备上运行时,使得该设备执行上述第一方面所述的基于监督学习的分类方法的步骤。
本申请实施例提供的基于监督学习的分类方法、分类装置、分类设备及存储介质,具有以下有益效果:
获取待分类的运维文件;在运维文件中提取目标运维文件,目标运维文件的文件格式符合预设格式;将目标运维文件输入到已训练的运维文件分类模型中进行处理,得到目标运维文件对应的分类结果,运维文件分类模型是采用监督学习,基于支持向量机对样本训练集进行训练得到的;对分类结果进行聚类操作,得到聚类集合;根据聚类集合显示目标运维文件和分类结果。上述方案中,先在待分类的运维文件中筛选了符合预设格式的目标运维文件,去除了待分类的运维文件中的冗余文件,加快了分类的速度。没有冗余文件的干扰,提升了分类结果的准确度。采用监督学习,基于支持向量机对样本训练集进行训练得到运维文件分类模型,通过该运维文件分类模型对目标运维文件进行分类处理,提高了分类效率,得到的分类结果更加准确。且对分类结果进行聚类操作,得到聚类集合,根据聚类集合显示目标运维文件和分类结果,实现了对运维文件的统一管理,便于用户快速、有效地使用文件。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一示例性实施例提供的基于监督学习的分类方法的示意性流程图;
图2是本申请一示例性实施例示出的一种基于监督学习的分类方法的步骤S102的具体流程图;
图3是本申请一示例性实施例示出的一种基于监督学习的分类方法的步骤S103的具体流程图;
图4是本申请再一示例性实施例示出的训练运维文件分类模型的方法的具体流程图;
图5是本申请一实施例提供的一种基于监督学习的分类装置的示意图;
图6是本申请另一实施例提供的分类设备的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习/监督学习等几大方向。
请参见图1,图1是本申请一示例性实施例提供的基于监督学习的分类方法的示意性流程图。本申请提供的基于监督学习的分类方法的执行主体为分类设备,其中,该设备包括但不限于智能手机、平板电脑、计算机、个人数字助理(Personal Digital Assistant,PDA)、台式电脑等移动终端,还可以包括各种类型的服务器。
例如,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务。
本申请实施例中以执行主体为计算机终端为例进行说明。
如图1所示的基于监督学习的分类方法可包括:S101~S105,具体如下:
S101:获取待分类的运维文件。
在日常运维工作中,因工作需要或项目需要产生的大量文件,称为运维文件。
示例性地,待分类的运维文件可以包括:项目文件、学习文件、从网络中下载的文件、利用下载软件下载的文件等。
其中,项目文件可以是任意运维项目产生的文件。例如,项目文件可以包括:系统运维(例如,架构层面的分布式缓存、分布式文件系统、日志收集、架构设计、性能优化等)文件、安全运维(例如,整体的安全方案、规范、漏洞监测、安全防护等)文件、应用运维(例如,服务部署、业务部署、版本管理、应用监控等)文件、监控运维(例如运维值班、故障处理等)文件、机房运维(例如,设备巡检、保修、硬件监控等)文件、基础设施运维(例如,系统初始化、网络维护等)文件、基础服务运维(例如,负载均衡、系统监控、资产管理等)文件等。此处仅为示例性说明,对此不做限定。
示例性地,终端在检测到分类指令时,获取待分类的运维文件。分类指令指用于命令终端进行运维文件分类的指令。分类指令可以由用户触发,如用户点击终端中的运维文件分类选项。
获取待分类的运维文件可以是用户上传至终端的待分类的运维文件,也可以是终端根据分类指令中包含的文件地址,提取对应的待分类的运维文件。
S102:在运维文件中提取目标运维文件,目标运维文件的文件格式符合预设格式。
文件格式用于表示目标运维文件的类型。例如,本实施方式中的文件格式可以包括:文本文档(TXT)格式、Microsoft Word 2003文档文件(DOC)格式、Microsoft Word 2003文档文件(DOCX)格式、富文本格式(Rich Text Format,RTF)、WPS文件格式等中的任意一种,或者多种组合。此处仅为示例性说明,对此不做限定。
预设格式可根据用户的实际需求进行设置、调整。例如,可在上述文件格式中挑选合适的格式作为预设格式。
示例性地,待分类的运维文件中包含多个文件,获取每个文件对应的文件格式,选取文件格式为预设格式的文件作为目标运维文件。
示例性地,还可通过预设的文件扫描程序,对运维文件进行扫描处理,得到目标运维文件。
示例性地,还可通过预设的文件扫描程序,对运维文件进行扫描处理,对扫描处理后的文件进行去重,得到目标运维文件。此处均为示例性说明,对此不做限定。
S103:将目标运维文件输入到已训练的运维文件分类模型中进行处理,得到目标运维文件对应的分类结果,运维文件分类模型是采用监督学习,基于支持向量机对样本训练集进行训练得到的。
示例性地,运维文件分类模型是基于支持向量机(Support Vector Machine,SVM)对样本训练集进行训练得到的。其中,样本训练集包括多个样本文件,以及每个文件对应的样本分类结果。
可以理解的是,运维文件分类模型可以由终端预先训练好,也可以由其他设备预先训练好后将运维文件分类模型对应的文件移植至终端中。也就是说,训练该运维文件分类模型的执行主体与使用该运维文件分类模型的执行主体可以是相同的,也可以是不同的。
例如,当采用其他设备训练支持向量机时,其他设备对支持向量机结束训练后,固定支持向量机的参数,得到训练好的运维文件分类模型对应的文件。然后将该文件移植到终端中。
示例性地,通过运维文件分类模型提取目标运维文件对应的文本向量特征,对文本向量特征进行分类,得到目标运维文件对应的分类结果。
S104:对分类结果进行聚类操作,得到聚类集合。
示例性地,当目标运维文件只有一个时,对其进行聚类操作,得到的聚类集合仅包括该目标运维文件。当目标运维文件包括多个子文件时,通过上述S103中的处理,可得到每个子文件对应的分类结果。此时,聚类操作是指将属于同种分类结果的子文件聚合在一起。聚类集合包括属于同种分类结果的子文件。
例如,获取这些子文件,按照每个子文件对应的分类结果进行聚类操作,得到一个或多个聚类集合。每个聚类集合包括一个或多个属于同种分类结果的子文件。
可选地,聚类集合也可以包括属于类似分类结果的子文件。也就是说这些子文件对应的分类结果不一定完全相同,也可以类似。此处仅为示例性说明,对此不做限定。
S105:根据聚类集合显示目标运维文件,以及目标运维文件对应的分类结果。
示例性地,当目标运维文件只有一个时,聚类集合仅包括该目标运维文件,可直接在显示界面显示目标运维文件,以及该目标运维文件对应的分类结果。
当目标运维文件包括多个子文件时,相应得到一个或多个聚类集合。每个聚类集合包括一个或多个属于同种分类结果的子文件。将同一个聚类集合中的子文件放在一起,并在显示界面显示,方便用户查看、使用。
根据运维文件的不同类别,将运维文件的各个子文件在系统界面中展示。便于用户查阅各个运维文件,以及对运维文件进行处理。
上述方案中,先在待分类的运维文件中筛选了符合预设格式的目标运维文件,去除了待分类的运维文件中的冗余文件,加快了分类的速度。没有冗余文件的干扰,提升了分类结果的准确度。采用监督学习,基于支持向量机对样本训练集进行训练得到运维文件分类模型,通过该运维文件分类模型对目标运维文件进行分类处理,提高了分类效率,得到的分类结果更加准确。且对分类结果进行聚类操作,得到聚类集合,根据聚类集合显示目标运维文件和分类结果,实现了对运维文件的统一管理,便于用户快速、有效地使用文件。
请参见图2,图2是本申请一示例性实施例示出的一种基于监督学习的分类方法的步骤S102的具体流程图;可选地,在本申请一些可能的实现方式中,上述S102可包括S1021~S1022,具体如下:
S1021:获取预设的文件扫描程序。
文件扫描程序用于扫描待分类的运维文件中符合预设格式的文件,并将符合预设格式的文件单独提取出来。示例性地,文件扫描程序可以包括:ScanFiles脚本、PaperScan等。
例如,可预先将文件扫描程序存储在本地或者服务器中,根据实际需求在本地或者服务器中选择合适的文件扫描程序。
S1022:采用文件扫描程序对运维文件进行扫描处理,得到目标运维文件。
示例性地,检测待分类的运维文件中文件格式符合预设格式的文件的文件地址,运行文件扫描程序,通过文件扫描程序对该文件地址下存储的所有文件进行扫描,将该文件地址下存储的所有文件保存到列表。保存至列表的所有文件即为目标运维文件。
例如,运行ScanFiles脚本,通过ScanFiles脚本对该文件地址下存储的所有文件进行扫描,将扫描得到的文件单独保存至列表,得到目标运维文件。
上述实施方式中,借助文件扫描程序在待分类的运维文件中提取符合预设格式的目标运维文件,提升了提取文件的速率,减少了提取文件的出错率,侧面提升了运维文件分类的效率。
可选地,在本申请一些可能的实现方式中,上述S102还可包括S1023~S1025。值得说明的是,本实施方式中的S1023~S1025与上述S1021~S1022并列,并非在S1021~S1022后执行S1023~S1025,可根据实际情况选择执行S1021~S1022或S1023~S1025。S1023~S1025具体如下:
S1023:获取预设的文件扫描程序。
本实施方式中的S1023可参考上述S1021中的描述,此处不再赘述。
S1024:采用文件扫描程序对运维文件进行扫描处理,得到初始运维文件。
本实施例中,检测待分类的运维文件中文件格式符合预设格式的文件的文件地址,运行文件扫描程序,通过文件扫描程序对该文件地址下存储的所有文件进行扫描,将该文件地址下存储的所有文件保存到列表。保存至列表的所有文件即为初始运维文件。
值得说明的是,本实施方式中的初始运维文件与上述S1022中的目标运维文件相同,只是在本实施方式中采用了不同的表述。
S1025:对初始运维文件进行去重处理,得到目标运维文件。
示例性地,可通过文件去重程序对初始运维文件进行去重处理,得到目标运维文件。文件去重程序用于去除初始运维文件中的相同文件。例如,文件去重程序可以为DeleRepeat类。
示例性地,利用Java中的DeleRepeat类,按行读取初始运维文件,并且将初始运维文件行中的重复数据删除。将经过去重处理后的文件保存到列表,保存至列表的文件即为目标运维文件。
示例性地,去重时可能出现的情况包括:文件名相同,且各个文件名对应的内容也相同,则仅保留一项文件名以及该文件名对应的内容,删除其余文件名以及其余文件名对应的内容。文件名相同,但各个文件名对应的内容不同,则对文件名进行重命名。文件名不同,各个文件名对应的内容也不同,均保留。文件名不同,但各个文件名对应的内容相同,保留一项文件名以及该文件名对应的内容,删除其余文件名以及其余文件名对应的内容。此处仅为示例性说明,对此不做限定。
可选地,在判断文件内容是否相同时,可采用MD5信息摘要算法(MD5Message-Digest Algorithm)对各个文件内容进行计算,再利用GetFileMD5类根据每个文件内容对应的MD5判断文件内容是否相同。此处仅为示例性说明,对此不做限定。
上述实施方式中,先借助文件扫描程序在待分类的运维文件中提取符合预设格式的初始运维文件,再通过文件去重程序对初始运维文件进行去重处理,得到目标运维文件,剔除了待分类的运维文件中的冗余文件,没有了重复文件的干扰,提升了提取文件的速率,侧面提升了运维文件分类的效率和准确率。
请参见图3,图3是本申请一示例性实施例示出的一种基于监督学习的分类方法的步骤S103的具体流程图;可选地,在本申请一些可能的实现方式中,上述S103可包括S1031~S1033,具体如下:
S1031:获取目标运维文件对应的文本内容。
示例性地,当目标运维文件只有一个时,获取该目标运维文件对应的文本内容。当目标运维文件包含多个子文件时,获取每个子文件对应的文本内容。例如,针对每个子文件,提取该子文件中的文本内容。
可选地,为了提升分类结果的准确性,可对文本内容进行预处理。预处理指提取文本内容中的有效字符,或者预处理也可以为去除文本内容中的冗余信息。
其中,有效字符指文本内容中具有实际意义、对文件分类有影响的信息。当对文本内容的预处理为提取文本内容中的有效字符时,此时,预处理后的文本内容由这些有效字符按照提取有效字符时的顺序组合生成。
冗余信息是指文本内容中没有实际意义、对文件分类没有影响的信息。例如,冗余信息可以是文本内容中的停用词、标点符号等。其中,停用词是指没有实际意义的词,通常为限定词、语气助词、副词、介词、连接词、英文字符、数字、数学字符等。
当对文本内容的预处理为去除文本内容中的冗余信息时,预处理后的文本内容由去除文本内容中的冗余信息之后,剩余的信息依次组合生成。
S1032:采用运维文件分类模型,提取文本内容对应的文本向量特征。
本实施中采用运维文件分类模型,提取文本内容对应的文本向量特征。若文本内容未进行预处理,则提取未进行预处理的文本内容对应的文本向量特征。若文本内容经过了预处理,则提取预处理后的文本内容对应的文本向量特征。
当目标运维文件包含多个子文件时,对应有多个文本内容,则提取每个文本内容对应的文本向量特征。
示例性地,可对文本内容进行分词处理,得到多个分词;采用运维文件分类模型对每个分词进行映射处理,得到每个分词对应的词向量特征;拼接每个分词对应的词向量特征,得到文本向量特征。
还可以是采用运维文件分类模型,直接提取文本内容对应的语义特征,该语义特征即为文本向量特征。
S1033:对文本向量特征进行分类,得到分类结果。
示例性地,当只有一个目标运维文件时,利用运维文件分类模型中的全连接层对文本向量特征进行分类,得到该目标运维文件对应的分类结果。
当目标运维文件有多个子文件时,利用运维文件分类模型中的全连接层,对每个子文件的文本向量特征进行分类,得到每个子文件对应的分类结果。
可选地,也可以通过运维文件分类模型中的svm_predict类对文本向量特征进行分类,得到分类结果。
上述实施方式中,通过已训练的运维文件分类模型可准确地提取到文本内容对应的文本向量特征,进而可根据该文本向量特征准确地为目标运维文件分类。
可选地,在本申请一些可能的实现方式中,上述S1032可包括S10321~S10323,具体如下:
S10321:对文本内容进行分词处理,得到多个分词。
针对每个文本内容,采用运维文件分类模型对文本内容进行分词处理,得到文本内容对应的多个分词。运维文件分类模型中包括分词算法,通过分词算法对目标文本进行分词处理,得到多个分词。
具体地,可以通过分词算法中自带的dict.txt词典生成字典树,根据待分词的文本内容以及字典树生成有向无环图,在有向无环图中查找最大概率路径,确定分词方式,根据分词方式对文本内容进行分词,得到多个分词。
可选地,也可通过Lucene分词器对文本内容进行分词处理,得到文本内容对应的多个分词。此处仅为示例性说明,对此不做限定。
S10322:采用运维文件分类模型对每个分词进行映射处理,得到每个分词对应的词向量特征。
示例性地,通过运维文件分类模型中的网络层对每个分词进行映射处理,即将每个分词映射到公共语义空间,输出每个分词对应的词向量特征。
S10323:拼接每个分词对应的词向量特征,得到文本向量特征。
示例性地,将多个词向量特征进行组合得到句向量,通过运维文件分类模型中的网络层提取句向量的语义特征,即得到文本内容对应的文本向量特征。也可以理解为得到每个子文件对应的文本向量特征。
对每个文本内容进行上述处理,得到每个文本内容对应的文本向量特征。
上述实施方式中,通过已训练的运维文件分类模型可准确地提取到文本内容对应的文本向量特征,进而可根据该文本向量特征准确地为目标运维文件分类。
可选地,在一种可能的实现方式中,也可以是获取目标运维文件对应的文本内容;确定该文本内容对应的关键词;采用运维文件分类模型,提取该关键词对应的关键词向量特征;对关键词向量特征进行分类,得到分类结果。
示例性地,对文本内容进行分词处理,得到多个分词,在多个分词中确定关键词。可通过TF-IDF算法确定关键词。TF-IDF(term frequency–inverse documentfrequency)是一种用于信息检索与数据挖掘的常用加权技术,TF表示词频,即一个词在文本内容中出现的次数;IDF表示逆文档频率,用于在词频的基础上给每个词分配一个重要性权重,它的大小与一个词的常见程度成反比。将词频与逆文档频率的值相乘,得到一个词的TF-IDF值,该词的TF-IDF值表示该词对文本内容的重要性,TF-IDF值越大表示该词对文本内容越重要。将TF-IDF值排在最前面的一个或多个词作为文本内容的关键词。
可通过下述表达式计算每个分词对应的词频。
“词频(TF)=某个词在文本内容的出现次数/文本内容的总词数”或“词频(TF)=某个词在文本内容中的出现次数/该文本内容出现次数最多的词的出现次数”。
通过“逆文档频率(IDF)=log(语料库的文本总数/包含该词的文本数+1)”计算逆文档频率(IDF);其中,分母加1是为了避免所有文本都不包含该词导致分母为0的情况出现,log表示对得到的值取对数;若一个词越常见,则分母越大,逆文档频率就越小越接近0。通过“TF-IDF=词频(TF)*逆文档频率(IDF)”计算该词的TF-IDF值,即该词对文本内容的重要性。计算得到每个词对应的TF-IDF值后,对TF-IDF值进行降序排列,取排在最前面的一个或多个词作为该文本内容的关键词。即得到以TF-IDF对文本内容处理后的关键词。
采用运维文件分类模型对关键词进行映射处理,即将关键词映射到公共语义空间,得到关键词对应的关键词向量特征。利用运维文件分类模型中的全连接层对关键词向量特征进行分类,得到目标运维文件对应的分类结果。对每个文本内容进行上述处理,可得到每个子文件对应的分类结果。此处仅为示例性说明,对此不做限定。
本实施方式中,通过TF-IDF算法可准确地确定文本内容的关键词,进而通过该关键词的关键词向量特征可准备分类。
请参见图4,图4是本申请再一示例性实施例示出的训练运维文件分类模型的方法的具体流程图;可选地,在本申请一些可能的实现方式中,在执行如图1所示的分类方法之前,还可包括构训练的运维文件分类模型的方法,训练的运维文件分类模型的方法可包括:S201~S203,具体如下:
S201:获取样本训练集,样本训练集包括多个样本文件,以及每个样本文件对应的样本分类结果。
示例性的,样本训练集可以来自网络中公开的数据,也可以由人工对样本文件进行分类结果标注。例如,在网络中采集多个样本文件,以及每个样本文件对应的样本分类结果。或者,用户自主搜集样本文件,并对样本文件标记分类结果。
可选地,还可将样本训练集中的一部分数据作为样本测试集,便于后续对训练中的支持向量机进行测试。例如,在样本训练集中选取若干个样本文件,以及这些样本文件各自对应的样本分类结果为样本测试集。
S202:基于样本训练集对支持向量机进行训练,并基于训练结果更新支持向量机的参数。
示例性地,通过支持向量机(训练前的运维文件分类模型中)对样本训练集的每个样本文件进行处理,得到每个样本文件对应的实际分类结果。支持向量机对样本文件进行处理的具体过程,可参考上述S103中的具体过程,此处不再赘述。
S203:当检测到支持向量机对应的损失函数收敛时,得到运维文件分类模型。
在达到预设的训练次数时,对此时的支持向量机进行测试。示例性地,将样本测试集中的样本文件输入此时的支持向量机中进行处理,此时的支持向量机输出该样本文件对应的实际分类结果。基于损失函数计算该实际分类结果与样本测试集中该样本文件对应的样本分类结果之间的损失值。其中,损失函数可以为铰链损失函数。
当检测到损失值不满足预设条件时,调整支持向量机的参数,并继续训练该支持向量机。当损失值满足预设条件时,停止训练该支持向量机,并将训练后的该支持向量机作为已训练好的运维文件分类模型。
例如,假设预设条件为损失值小于或等于预设的损失值阈值。那么,当损失值大于损失值阈值时,调整支持向量机的参数,并继续训练该支持向量机。当损失值小于或等于损失值阈值时,停止训练该支持向量机,并将训练后的该支持向量机作为已训练好的运维文件分类模型。此处仅为示例性说明,对此不做限定。
可选地,在训练过程中,还可对样本训练集进行归一化处理。其中,归一化处理指对样本进行缩放,通常选取[0,1]或[-1,1]范围。此处仅为示例性说明,对此不做限定。示例性地,使用svm_scale类进行数据归一化处理。具体根据下述公式实现:
Figure BDA0003237371040000141
上述(1)式中,a为关键词的词频,min为该词在所有文本中的最小词频,max为该词在所有文本中的最大词频。缩放一方面是为了防止某个特征值过大或过小,从而在训练运维文件分类模型时影响分类精度;另一方面是为了提高计算速度,因为在内核计算时,会用到内积运算和指数运算,不平衡的数据可能会降低计算速度。
上述实施方式中,采用监督学习,基于支持向量机对样本训练集进行训练得到运维文件分类模型。使训练得到的运维文件分类模型鲁棒性好、分类准确率高。
可选地,在一种可能的实现方式中,本申请提供的分类方法也可应用于医疗领域。例如,待分类的文件可以是医疗文件,具体可以是个人健康档案文件、文件、检查报告文件等。对医疗文件进行分类并展示,有助于患者和医生查看病情,为治疗疾病提供方便。
请参见图5,图5是本申请一实施例提供的一种基于监督学习的分类装置的示意图。该分类装置包括的各单元用于执行图1~图4对应的实施例中的各步骤。具体请参阅图1~图4各自对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图5,包括:
获取单元310,用于获取待分类的运维文件;
提取单元320,用于在所述运维文件中提取目标运维文件,所述目标运维文件的文件格式符合预设格式;
第一处理单元330,用于将所述目标运维文件输入到已训练的运维文件分类模型中进行处理,得到所述目标运维文件对应的分类结果,所述运维文件分类模型是采用监督学习,基于支持向量机对样本训练集进行训练得到的;
第二处理单元340,用于对所述分类结果进行聚类操作,得到聚类集合;
显示单元350,用于根据所述聚类集合显示所述目标运维文件,以及所述目标运维文件对应的分类结果。
可选地,所述提取单元320具体用于:
获取预设的文件扫描程序;
采用所述文件扫描程序对所述运维文件进行扫描处理,得到所述目标运维文件。
可选地,所述提取单元320还用于:
获取预设的文件扫描程序;
采用所述文件扫描程序对所述运维文件进行扫描处理,得到初始运维文件;
对所述初始运维文件进行去重处理,得到所述目标运维文件。
可选地,所述第一处理单元330具体用于:
获取所述目标运维文件对应的文本内容;
采用所述运维文件分类模型,提取所述文本内容对应的文本向量特征;
对所述文本向量特征进行分类,得到所述分类结果。
可选地,所述第一处理单元330还用于:
对所述文本内容进行分词处理,得到多个分词;
采用所述运维文件分类模型对每个分词进行映射处理,得到每个分词对应的词向量特征;
拼接每个分词对应的词向量特征,得到所述文本向量特征。
可选地,所述分类装置还包括训练单元,所述训练单元用于:
获取所述样本训练集,所述样本训练集包括多个样本文件,以及每个样本文件对应的样本分类结果;
基于所述样本训练集对所述支持向量机进行训练,并基于训练结果更新所述支持向量机的参数;
当检测到所述支持向量机对应的损失函数收敛时,得到所述运维文件分类模型。
可选地,所述目标运维文件包括多个子文件,所述聚类集合包括属于同种分类结果的子文件。
请参见图6,图6是本申请另一实施例提供的分类设备的示意图。如图6所示,该实施例的分类设备4包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42。所述处理器40执行所述计算机程序42时实现上述各个基于监督学习的分类方法实施例中的步骤,例如图1所示的S101至S103。或者,所述处理器40执行所述计算机程序42时实现上述各实施例中各单元的功能,例如图5所示单元310至330功能。
示例性地,所述计算机程序42可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器41中,并由所述处理器40执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机指令段,该指令段用于描述所述计算机程序42在所述设备4中的执行过程。例如,所述计算机程序42可以被分割为获取单元、提取单元、第一处理单元、第二处理单元以及显示单元,各单元具体功能如上所述。
所述设备可包括,但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图6仅仅是设备4的示例,并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41可以是所述设备的内部存储单元,例如设备的硬盘或内存。所述存储器41也可以是所述设备的外部存储终端,例如所述设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括所述设备的内部存储单元也包括外部存储终端。所述存储器41用于存储所述计算机指令以及所述终端所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机存储介质,计算机存储介质可以是非易失性,也可以是易失性,该计算机存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述各个基于监督学习的分类方法实施例中的步骤。
本申请还提供了一种计算机程序产品,当计算机程序产品在设备上运行时,使得该设备执行上述各个基于监督学习的分类方法实施例中的步骤。
本申请实施例还提供了一种芯片或者集成电路,该芯片或者集成电路包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有该芯片或者集成电路的设备执行上述各个基于监督学习的分类方法实施例中的步骤。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于监督学习的分类方法,其特征在于,包括:
获取待分类的运维文件;
在所述运维文件中提取目标运维文件,所述目标运维文件的文件格式符合预设格式;
将所述目标运维文件输入到已训练的运维文件分类模型中进行处理,得到所述目标运维文件对应的分类结果,所述运维文件分类模型是采用监督学习,基于支持向量机对样本训练集进行训练得到的;
对所述分类结果进行聚类操作,得到聚类集合;
根据所述聚类集合显示所述目标运维文件,以及所述目标运维文件对应的分类结果。
2.如权利要求1所述的分类方法,其特征在于,所述在所述运维文件中提取目标运维文件,包括:
获取预设的文件扫描程序;
采用所述文件扫描程序对所述运维文件进行扫描处理,得到所述目标运维文件。
3.如权利要求1所述的分类方法,其特征在于,所述在所述运维文件中提取目标运维文件,包括:
获取预设的文件扫描程序;
采用所述文件扫描程序对所述运维文件进行扫描处理,得到初始运维文件;
对所述初始运维文件进行去重处理,得到所述目标运维文件。
4.如权利要求1所述的分类方法,其特征在于,所述将所述目标运维文件输入到已训练的运维文件分类模型中进行处理,得到所述目标运维文件对应的分类结果,包括:
获取所述目标运维文件对应的文本内容;
采用所述运维文件分类模型,提取所述文本内容对应的文本向量特征;
对所述文本向量特征进行分类,得到所述分类结果。
5.如权利要求4所述的分类方法,其特征在于,所述采用所述运维文件分类模型,提取所述文本内容对应的文本向量特征,包括:
对所述文本内容进行分词处理,得到多个分词;
采用所述运维文件分类模型对每个分词进行映射处理,得到每个分词对应的词向量特征;
拼接每个分词对应的词向量特征,得到所述文本向量特征。
6.如权利要求1所述的分类方法,其特征在于,所述将所述目标运维文件输入到已训练的运维文件分类模型中进行处理,得到所述目标运维文件对应的分类结果之前,所述分类方法还包括:
获取所述样本训练集,所述样本训练集包括多个样本文件,以及每个样本文件对应的样本分类结果;
基于所述样本训练集对所述支持向量机进行训练,并基于训练结果更新所述支持向量机的参数;
当检测到所述支持向量机对应的损失函数收敛时,得到所述运维文件分类模型。
7.如权利要求1至6任一项所述的分类方法,其特征在于,所述目标运维文件包括多个子文件,所述聚类集合包括属于同种分类结果的子文件。
8.一种基于监督学习的分类装置,其特征在于,包括:
获取单元,用于获取待分类的运维文件;
提取单元,用于在所述运维文件中提取目标运维文件,所述目标运维文件的文件格式符合预设格式;
第一处理单元,用于将所述目标运维文件输入到已训练的运维文件分类模型中进行处理,得到所述目标运维文件对应的分类结果,所述运维文件分类模型是采用监督学习,基于支持向量机对样本训练集进行训练得到的;
第二处理单元,用于对所述分类结果进行聚类操作,得到聚类集合;
显示单元,用于根据所述聚类集合显示所述目标运维文件,以及所述目标运维文件对应的分类结果。
9.一种基于监督学习的分类设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
CN202111006927.2A 2021-08-30 2021-08-30 基于监督学习的分类方法、装置、设备及存储介质 Pending CN113722435A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111006927.2A CN113722435A (zh) 2021-08-30 2021-08-30 基于监督学习的分类方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111006927.2A CN113722435A (zh) 2021-08-30 2021-08-30 基于监督学习的分类方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113722435A true CN113722435A (zh) 2021-11-30

Family

ID=78679276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111006927.2A Pending CN113722435A (zh) 2021-08-30 2021-08-30 基于监督学习的分类方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113722435A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984518A (zh) * 2018-06-11 2018-12-11 人民法院信息技术服务中心 一种面向裁判文书的文本分类方法
CN111309912A (zh) * 2020-02-24 2020-06-19 深圳市华云中盛科技股份有限公司 文本分类方法、装置、计算机设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984518A (zh) * 2018-06-11 2018-12-11 人民法院信息技术服务中心 一种面向裁判文书的文本分类方法
CN111309912A (zh) * 2020-02-24 2020-06-19 深圳市华云中盛科技股份有限公司 文本分类方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
US10698868B2 (en) Identification of domain information for use in machine learning models
US20200081899A1 (en) Automated database schema matching
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
US10789225B2 (en) Column weight calculation for data deduplication
CN111753048B (zh) 文档检索方法、装置、设备及存储介质
US20200125595A1 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
WO2019028990A1 (zh) 代码元素的命名方法、装置、电子设备及介质
KR102373146B1 (ko) 군집 기반 중복문서 제거 장치 및 제거 방법
CN112395875A (zh) 一种关键词提取方法、装置、终端以及存储介质
CN110321466A (zh) 一种基于语义分析的证券资讯查重方法及系统
CN112035480A (zh) 数据表管理方法、装置、设备及存储介质
US10706030B2 (en) Utilizing artificial intelligence to integrate data from multiple diverse sources into a data structure
CN112579781B (zh) 文本归类方法、装置、电子设备及介质
CN114491034A (zh) 一种文本分类方法及智能设备
US20230394236A1 (en) Extracting content from freeform text samples into custom fields in a software application
US11176311B1 (en) Enhanced section detection using a combination of object detection with heuristics
CN117216239A (zh) 文本去重方法、装置、计算机设备及存储介质
CN116226315A (zh) 基于人工智能的敏感信息检测方法、装置及相关设备
CN115906817A (zh) 一种跨语言环境的关键字匹配方法、装置及电子设备
CN113722435A (zh) 基于监督学习的分类方法、装置、设备及存储介质
US9342795B1 (en) Assisted learning for document classification
CN113449063B (zh) 一种构建文档结构信息检索库的方法及装置
US11379669B2 (en) Identifying ambiguity in semantic resources
CN113722484A (zh) 基于深度学习的谣言检测方法、装置、设备及存储介质
WO2013150633A1 (ja) 文書処理システム、及び、文書処理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination