CN109409537A - 一种维修案例分类方法以及装置 - Google Patents
一种维修案例分类方法以及装置 Download PDFInfo
- Publication number
- CN109409537A CN109409537A CN201811149677.6A CN201811149677A CN109409537A CN 109409537 A CN109409537 A CN 109409537A CN 201811149677 A CN201811149677 A CN 201811149677A CN 109409537 A CN109409537 A CN 109409537A
- Authority
- CN
- China
- Prior art keywords
- maintenance cases
- word
- vector
- text
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种维修案例分类方法及装置。该方法包括:获取样本集合的特征词集;根据所述特征词集,获取维修案例的文本向量;向SVM分类决策函数输入所述维修案例的文本向量,得到所述维修案例分类结果。此外,还公开一种维修案例分类装置。实施本申请的方案,能够有效地确定维修案例的特征,提供了更准确的维修案例分类结果。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种维修案例分类方法以及装置。
背景技术
维修案例是维修行业中必不可少的重要资料。在维修机械设备时,维修人员参考相关维修案例能够针对具体问题,采取最合适的维修方案。机械设计人员能够参考相关维修案例找到机械设计方面的不足。目前,通常采用关键字搜索等检索方式,对需要的维修案例进行查找。
但由于机械制造的零件繁多,某些被用于搜索的关键字不能区分开不同类型的维修案例,在用户查找相似维修案例时,难以呈现满足用户需求的案例。
发明内容
本申请实施提供一种维修案例分类方法以及装置,以区分开大量没有标注的维修案例,向用户呈现相似的维修案例。
第一方面,本申请实施例提供了一种维修案例分类方法,包括:获取样本集合的特征词集;根据所述特征词集,获取维修案例的文本向量;向SVM分类决策函数输入所述维修案例的文本向量,得到所述维修案例分类结果。
可选的,所述获取样本集合的特征词集,包括:通过文本分词算法,将所述样本集合的文本进行分词,对分词结果进行词频统计,选取满足词频次数的词语作为特征词集。
可选的,所述根据所述特征词集,获取维修案例的文本向量,包括:通过文本分词算法,将所述维修案例的文本进行分词,根据所述特征词集对分词结果进行处理,得到所述维修案例的文本向量。
可选的,所述方法还包括:获取样本集合的特征向量;根据所述特征向量,得到训练数据集;计算所述训练数据集,建立所述SVM分类决策函数。
可选的,所述获取样本集合的特征向量,包括:根据所述特征词集和所述样本集合的分词结果,得到初始特征向量;计算所述特征词集的词权重对应的加权值;将所述初始特征向量的维度分别乘以对应的加权值,得到所述特征向量。
可选的,所述根据所述特征向量,得到训练数据集,包括:通过所述特征向量的类别,得到和所述特征向量的类别数相同的训练数据集。
可选的,所述计算所述训练数据集,建立所述SVM分类决策函数,包括:计算所述训练数据集,获取每一个训练数据集的分类决策函数,所有分类决策函数构成所述SVM分类决策函数。
可选的,所述样本集合为通过数据库中标签属性筛选得到的样本集合,或者采用随机算法筛选得到的样本集合。
可选的,所述维修案例分类结果为通过所述SVM分类决策函数的最大的分类决策函数结果值,确定所述维修案例分类结果为该函数结果值对应的训练数据集的类别。
第二方面,本申请实施例提供了一种维修案例分类设备,包括:特征获取单元,用于获取样本集合的特征词集;信息提取单元,用于根据所述特征词集,获取维修案例的文本向量;分类单元,用于向SVM分类决策函数输入所述维修案例的文本向量,得到维修案例分类结果。
可选的,所述特征获取单元具体用于,通过文本分词算法,将所述样本集合的文本进行分词,对分词结果进行词频统计,选取满足词频次数的词语作为特征词集。
可选的,所述信息提取单元具体用于,通过文本分词算法,将所述维修案例的文本进行分词,根据所述特征词集对分词结果进行处理,得到所述维修案例的文本向量。
可选的,所述装置还包括:特征处理单元,用于获取样本集合的特征向量;训练单元,用于根据所述特征向量,得到训练数据集;建立单元,用于计算所述训练数据集,建立所述SVM分类决策函数。
可选的,所述特征处理单元具体用于,根据所述特征词集和所述样本集合的分词结果,得到初始特征向量;计算所述特征词集的词权重对应的加权值;将所述初始特征向量的维度分别乘以对应的加权值,得到所述特征向量。
可选的,所述训练单元具体用于,通过所述特征向量的类别,得到和所述特征向量的类别数相同的训练数据集。
可选的,所述建立单元具体用于,计算所述训练数据集,获取每一个训练数据集的分类决策函数,所有分类决策函数构成所述SVM分类决策函数。
第三方面,本申请实施例提供了一种维修案例分类装置,包括:处理器、存储器;所述处理器被配置为支持所述装置执行上述第一方面及其任一种可能的实现方式的方法中相应的功能。存储器用于与处理器耦合,其保存所述装置必要的程序(指令)和数据。可选的,所述装置还可以包括输入/输出接口,用于支持所述装置与其他装置之间的通信。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面以及任一种可选方式的方法。
第五方面,本申请实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
本申请实施例具有以下有益效果:
实施本申请实施例,获取样本集合的特征词集;根据所述特征词集,获取维修案例的文本向量;向SVM分类决策函数输入所述维修案例的文本向量,得到所述维修案例分类结果。可以看出若确定了所述维修案例的文本向量,则易于得到所述维修案例的分类结果,从而有效确定了维修案例的特征,并且也提供了更准确的维修案例分类结果。
附图说明
图1是本申请实施例提供的一种维修案例分类方法的流程示意图;
图2是本申请实施例提供的另一种维修案例分类方法的流程示意图;
图3是本申请实施例提供的一种维修案例分类装置的结构示意图;
图4是本申请实施例提供的另一种维修案例分类装置的结构示意图;
图5是本申请实施例提供的一种维修案例分类装置的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本申请实施例提供的一种维修案例的分类方法的流程示意图。其中:
S101、获取样本集合的特征词集。
具体地,抽取出数据库中一定数量的具有多种类别的维修案例,将具有相同类别标识的维修案例归为一类,所有抽取到的维修案例共同组成样本集合。可以采用正向最大匹配算法、逆向最大匹配算法或CRF算法等文本分词算法,将上述样本集合的文本进行分词。对文本分词结果进行停用词和单字词的过滤,将过滤结果进行词频统计,将满足词频次数的词语作为特征词集。
S102、根据所述特征词集,获取维修案例的文本向量。
具体地,可以采用正向最大匹配算法、逆向最大匹配算法或CRF算法等文本分词算法,将维修案例的文本进行分词。利用上述步骤得到的特征词集,处理维修案例的分词结果,将符合要求的词语作为维修案例的文本向量。将特征词集中某个特征词是否出现作为上述维修案例的文本向量的维度,判断结果用独热编码形式表示。出现某个特征词,该维度表示为1,否则,该维度表示为0。按照这样的表示规则,得到上述维修案例的文本向量。
S103、向SVM分类决策函数输入所述维修案例的文本向量,得到维修案例分类结果。
具体地,将上述步骤中的文本向量输入每一个分类决策函数进行计算,比较维修案例的所有SVM分类决策函数值。得到这几个值中最大的SVM分类决策函数值,根据最大SVM分类决策函数值,确定维修案例的类别。
根据本申请实施例提供的一种维修案例分类方法,获取样本集合的特征词集,并基于上述特征词集,得到维修案例的文本向量,最后利用SVM分类决策函数,得到维修案例分类结果。通过特征词集,维修案例的特征得到了有效确定,分类效率得到提高。
请参阅图2,图2是本申请实施例提供的另一种维修案例的分类方法的流程示意图。其中:
S201、获取样本集合的特征词集。
抽取出数据库中一定数量的具有多种类别的维修案例,将具有相同类别标识的维修案例归为一类,所有抽取到的维修案例共同组成样本集合。可以采用正向最大匹配算法、逆向最大匹配算法或CRF算法等文本分词算法,将上述样本集合的文本进行分词。对文本分词结果进行停用词和单字词的过滤,将过滤结果进行词频统计,将满足词频次数的词语作为特征词集。
具体地,S201又包括以下步骤:
A1、抽取样本集合。
具体地,可以将数据库中具有类别标识的维修案例按照一定比例抽取,例如抽取10个A类维修案例,抽取20个B类维修案例。同样的,可以在每一类维修案例中,从1开始按顺序编号,利用随机函数生成随机数,抽取每一类中随机数代表的维修案例,每一类抽取的维修案例数量可以相同,再将所有抽取的维修案例共同组成样本集合。可以将数据库中的具有类别标识的维修案例从1开始按顺序编号,利用随机函数生成随机数,抽取出这些随机数对应的一定数量的具有多种类别的维修案例,将具有相同类别标识的维修案例归为一类,所有抽取到的维修案例共同组成样本集合。
A2、通过文本分词算法,将所述样本集合的文本进行分词。
具体地,可以采用正向最大匹配算法、逆向最大匹配算法或CRF算法等文本分词算法,将上述样本集合的文本进行分词。
A3、对分词结果进行词频统计,选取满足词频次数的词语作为特征词集。
对文本分词结果进行停用词和单字词的过滤,将过滤结果进行词频统计,将满足词频次数的词语作为特征词集。
S202、获取样本集合的特征向量。
具体地,S202又包括以下步骤:
B1、根据所述特征词集和所述样本集合的分词结果,得到初始特征向量。具体地,利用上述特征词集,以特征词集中的词语作为初始特征向量的分量,将样本集合中特征词出现的次数作为初始特征向量的维度。
B2、计算所述特征词集的词权重对应的加权值。
B3、将所述初始特征向量的维度分别乘以对应的加权值,得到所述特征向量。
根据上述初始特征向量,得到特征向量。具体地,利用TF-IDF(词频-逆文本频率)公式,计算特征词集中每一个特征词的TF-IDF值。其中,TF作为样本集合中的词频,IDF作为样本集合中的逆文本频率,根据TF-IDF公式,则有:
TF-IDF=TF×IDF
其中,mi表示在某一类样本集合中词i出现的次数,N1为该类所有词语的数量,N2为样本集合中维修案例的数量,Ni为包含特征词i的该类的文档数。
计算上述特征词集的词权重对应的加权值Wik,利用每一个特征词的TF-IDF值,得到对应的加权值Wik,公式若下:
其中,k表示该类中的第k个维修案例,i表示该维修案例中的第i个词,n表示这个维修案例中一共有n个词。
将上述初始特征向量的维度分别乘以对应的加权值,得到上述特征向量。
S203、根据所述特征向量,得到训练数据集。
具体地,训练数据集由上述特征向量x和分类结果值y共同组成,上述分类结果值y在该类作为正类时取值为1,在该类作为负类时取值为0。可以通过所述特征向量的类别,得到和所述特征向量的类别数相同的训练数据集。即若上述样本集合有4个分类,对应有4类特征向量,分别为A、B、C、D,则有4个训练数据集。
训练数据集1:A所对应的向量作为正集,B、C、D对应的向量作为负集,只有A类对应的向量的分类结果值y为1,其他类对应向量的分类结果值y为0;
训练数据集2:B所对应的向量作为正集,A、C、D对应的向量作为负集,只有B类对应的向量的分类结果值y为1,其他类对应向量的分类结果值y为0;
训练数据集3:C所对应的向量作为正集,A、B、D对应的向量作为负集,只有C类对应的向量的分类结果值y为1,其他类对应向量的分类结果值y为0;
训练数据集4:D所对应的向量作为正集,A、B、C对应的向量作为负集,只有D类对应的向量的分类结果值y为1,其他类对应向量的分类结果值y为0。
S204、计算所述训练数据集,建立SVM分类决策函数。
具体地,又包括以下步骤:
C1、计算所述训练数据集,获取每一个训练数据集的分类决策函数。构造并求解约数最优化问题。具体地,输入每一个训练数据集,<xi,yi>为上述训练数据集中第i组的输入,(w*xi+b)是当前模型根据xi做出的预测值,yi是xi对应的真实值。约束条件为:
yi=(wi*xi+b)-1≥0,i=1,2,……,N
求得最优解:w*,b*。
C2、所有分类决策函数构成所述SVM分类决策函数。具体地,w**x+b*=0,得到SVM分类决策函数f(x)=w**x+b*。若有4个训练数据集,则相应有4个分类决策函数。
其中,S202~S204是构建SVM分类决策函数的步骤。
S205、根据所述特征词集,获取维修案例的文本向量。
具体地,S205又包括以下步骤:
D1、通过文本分词算法,将所述维修案例的文本进行分词。具体地,可以采用正向最大匹配算法、逆向最大匹配算法或CRF算法等文本分词算法,将上述维修案例的文本进行分词,得到维修案例的分词结果。
D2、根据所述特征词集对分词结果进行处理,得到所述维修案例的文本向量。具体地,利用特征词集,处理上述维修案例的分词结果,符合要求的词语作为上述维修案例的文本向量。将上述特征词集中某个特征词是否出现作为上述维修案例的文本向量的维度,判断结果用独热编码形式表示。出现某个特征词,该维度表示为1,否则,该维度表示为0。得到维修案例的文本向量。
S206、向SVM分类决策函数输入上述维修案例的文本向量,得到上述维修案例分类结果。
将上述步骤中的文本向量输入每一个分类决策函数进行计算,比较维修案例的所有SVM分类决策函数值。得到这几个值中最大的SVM分类决策函数值,根据最大SVM分类决策函数值,确定维修案例的类别。
具体地,又包括以下步骤:
E1、根据分类决策函数,计算维修案例的SVM分类决策函数值。具体地,将上述文本向量输入每一个分类决策函数进行计算。若有4个SVM分类决策函数,则得到4个SVM分类决策函数值f1(x)、f2(x)、f3(x)、f4(x)。
E2、根据维修案例的最大的分类决策函数值,确定该维修案例的分类。具体地,若有4个SVM分类决策函数值f1(x)、f2(x)、f3(x)、f4(x),得到这几个值中最大的SVM分类决策函数值。若在4个SVM分类决策函数值中,f3(x)为最大值,则该维修案例的类别为第3个训练数据集所属的类别。
根据本申请实施例提供的一种维修案例分类方法,获取样本集合的特征词集,并基于上述特征词集,得到初始特征向量,进一步的得到训练数据集,以建立SVM分类决策函数,将维修案例处理为文本向量,最后向SVM分类决策函数输入上述维修案例的文本向量,得到维修案例分类结果。不仅有效确定了维修案例的特征,还提供了更准确的维修案例分类结果。
为便于更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的装置。
请参阅图3,图3是本申请实施例提供的一种维修案例分类装置的示意图。该维修案例分类装置包括:
特征获取单元301,用于获取样本集合的特征词集。
具体地,可以将数据库中具有类别标识的维修案例按照一定比例抽取,例如抽取10个A类维修案例,抽取20个B类维修案例。同样的,可以在每一类维修案例中,从1开始按顺序编号,利用随机函数生成随机数,抽取每一类中随机数代表的维修案例,每一类抽取的维修案例数量可以相同,再将所有抽取的维修案例共同组成样本集合。可以将数据库中的具有类别标识的维修案例从1开始按顺序编号,利用随机函数生成随机数,抽取出这些随机数对应的一定数量的具有多种类别的维修案例,将具有相同类别标识的维修案例归为一类,所有抽取到的维修案例共同组成样本集合。可以采用正向最大匹配算法、逆向最大匹配算法或CRF算法等文本分词算法,将上述样本集合的文本进行分词。对文本分词结果进行停用词和单字词的过滤,将过滤结果进行词频统计,将满足词频次数的词语作为特征词集。
信息提取单元302,用于根据所述特征词集,获取维修案例的文本向量。
具体地,可以采用正向最大匹配算法、逆向最大匹配算法或CRF算法等文本分词算法,将维修案例的文本进行分词。利用上述特征词集,处理上述维修案例的分词结果,符合要求的词语作为上述维修案例的文本向量。将上述特征词集中某个特征词是否出现作为上述维修案例的文本向量的维度,判断结果用独热编码形式表示。出现某个特征词,该维度表示为1,否则,该维度表示为0。得到上述维修案例的文本向量。
分类单元303,用于向SVM分类决策函数输入上述维修案例的文本向量,得到维修案例分类结果。
具体地,将上述文本向量输入每一个分类决策函数进行计算,比较维修案例的所有SVM分类决策函数值。得到这几个值中最大的SVM分类决策函数值,根据最大SVM分类决策函数值,确定维修案例的类别。
根据本申请实施例提供的一种维修案例分类装置,对不同的维修案例,能够有效区分维修案例的特征,提升维修案例的分类效率。
请参阅图4,图4是本申请实施例提供的一种维修案例分类装置的示意图。该装置包括特征获取单元401、特征处理单元402、训练单元403、建立单元404、信息提取单元405和分类单元406。其中:
特征获取单元401,用于获取样本集合的特征词集。具体地,可以将数据库中具有类别标识的维修案例按照一定比例抽取,例如抽取10个A类维修案例,抽取20个B类维修案例。同样的,可以在每一类维修案例中,从1开始按顺序编号,利用随机函数生成随机数,抽取每一类中随机数代表的维修案例,每一类抽取的维修案例数量可以相同,再将所有抽取的维修案例共同组成样本集合。可以将数据库中的具有类别标识的维修案例从1开始按顺序编号,利用随机函数生成随机数,抽取出这些随机数对应的一定数量的具有多种类别的维修案例,将具有相同类别标识的维修案例归为一类,所有抽取到的维修案例共同组成样本集合。可以采用正向最大匹配算法、逆向最大匹配算法或CRF算法等文本分词算法,将上述样本集合的文本进行分词。对文本分词结果进行停用词和单字词的过滤,将过滤结果进行词频统计,将满足词频次数的词语作为特征词集。
特征处理单元402,用于获取样本集合的特征向量。具体地,利用上述特征词集,以特征词集中的词语作为初始特征向量的分量,将样本集合中特征词出现的次数作为初始特征向量的维度。计算特征词集中每一个特征词的TF-IDF值。其中,TF作为样本集合中的词频,IDF作为样本集合中的逆文本频率,根据TF-IDF公式,则有:
TF-IDF=TF×IDF
其中,mi表示在某一类样本集合中词i出现的次数,N1为该类所有词语的数量,N2为样本集合中维修案例的数量,Ni为包含特征词i的该类的文档数。
计算上述特征词集的词权重对应的加权值Wik,将上述初始特征向量的维度分别乘以对应的加权值,得到特征向量。
训练单元403,用于根据所述特征向量,得到训练数据集。具体地,训练数据集由上述特征向量x和分类结果值y共同组成,上述分类结果值y在该类作为正类时取值为1,在该类作为负类时取值为0。若上述样本集合有4个分类,对应有4类特征向量,分别为A、B、C、D,则有4个训练数据集。
训练数据集1:A所对应的向量作为正集,B、C、D对应的向量作为负集,只有A类对应的向量的分类结果值y为1,其他类对应向量的分类结果值y为0;
训练数据集2:B所对应的向量作为正集,A、C、D对应的向量作为负集,只有B类对应的向量的分类结果值y为1,其他类对应向量的分类结果值y为0;
训练数据集3:C所对应的向量作为正集,A、B、D对应的向量作为负集,只有C类对应的向量的分类结果值y为1,其他类对应向量的分类结果值y为0;
训练数据集4:D所对应的向量作为正集,A、B、C对应的向量作为负集,只有D类对应的向量的分类结果值y为1,其他类对应向量的分类结果值y为0。
建立单元404,用于计算所述训练数据集,建立SVM分类决策函数。具体地,构造并求解约数最优化问题。输入每一个训练数据集,<xi,yi>为上述训练数据集中第i组的输入,(w*xi+b)是当前模型根据xi做出的预测值,yi是xi对应的真实值。约束条件为:
yi=(wi*xi+b)-1≥0,i=1,2,……,N
求得最优解:w*,b*。
得到SVM分类决策函数。其中w**x+b*=0,得到SVM分类决策函数f(x)=w**x+b*。若有4个训练数据集,则相应有4个分类决策函数。集合上述训练数据集的所有分类决策函数,得到SVM分类决策函数。
其中,402~404是构建SVM分类决策函数的单元。
信息提取单元405,用于根据所述特征词集,获取维修案例的文本向量。具体地,可以采用正向最大匹配算法、逆向最大匹配算法或CRF算法等文本分词算法,将上述维修案例的文本进行分词。利用上述特征词集,处理维修案例的分词结果,符合要求的词语作为上述维修案例的文本向量。将上述特征词集中某个特征词是否出现作为维修案例的文本向量的维度,判断结果用独热编码形式表示。出现某个特征词,该维度表示为1,否则,该维度表示为0。得到维修案例的文本向量。
分类单元406,用于向SVM分类决策函数输入上述维修案例的文本向量,得到维修案例分类结果。具体地,将上述文本向量输入每一个分类决策函数进行计算,比较维修案例的所有SVM分类决策函数值。得到这几个值中最大的SVM分类决策函数值,根据最大SVM分类决策函数值,确定维修案例的类别。
根据本申请实施例提供的一种维修案例分类装置,用于获取样本集合的特征向量,并基于上述特征向量,得到训练数据集,以建立SVM分类决策函数,将维修案例处理为文本向量,最后向SVM分类决策函数输入上述维修案例的文本向量,得到上述维修案例分类结果。不仅有效确定了维修案例的维修案例分类结果,还提高了分类效率。
请参阅图5,图5是本申请实施例提供的一种维修案例分类装置的硬件结构示意图,如图4所示的维修案例分类装置,包括处理器501,还可包括输入装置502、输出装置503和存储器504。该输入装置502、输出装置503、存储器504和处理器501之间通过总线相互连接。
存储器包括但不限于是随机存储记忆体(random access memory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasable programmable readonly memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM),该存储器用于相关指令及数据。
输入装置用于输入数据和/或信号,以及输出装置用于输出数据和/或信号。输出装置和输入装置可以是独立的器件,也可以是一个整体的器件。
处理器可以包括是一个或多个处理器,例如包括一个或多个中央处理器(centralprocessing unit,CPU),在处理器是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。
存储器用于存储网络设备的程序代码和数据。
处理器用于调用该存储器中的程序代码和数据,执行如下步骤:
获取样本集合的特征词集;根据所述特征词集,获取维修案例的文本向量;以及向SVM分类决策函数输入所述维修案例的文本向量,得到上述维修案例分类结果。
在一个实现方式中,上述处理器执行所述获取样本集合的特征词集的步骤,包括:通过文本分词算法,将上述样本集合的文本进行分词,对分词结果进行词频统计,选取满足词频次数的词语作为特征词集。
在又一个实现方式中,所述处理器执行所述根据所述特征词集,获取维修案例的文本向量的步骤,包括:通过文本分词算法,将所述维修案例的文本进行分词,根据所述特征词集对分词结果进行处理,得到所述维修案例的文本向量。
在又一个实现方式中,所述处理器还用于执行如下步骤:获取样本集合的特征向量;根据所述特征向量,得到训练数据集;计算所述训练数据集,建立所述SVM分类决策函数。
在又一个实现方式中,所述处理器执行所述获取样本集合的特征向量的步骤,包括:根据所述特征词集和所述样本集合的分词结果,得到初始特征向量;算所述特征词集的词权重对应的加权值;将所述初始特征向量的维度分别乘以对应的加权值,得到所述特征向量。
在又一个实现方式中,所述处理器执行所述根据所述特征向量,得到训练数据集的步骤,包括:通过所述特征向量的类别,得到和所述特征向量的类别数相同的训练数据集。
在又一个实现方式中,所述处理器执行所述计算所述训练数据集,建立所述SVM分类决策函数的步骤,包括:计算所述训练数据集,获取每一个训练数据集的分类决策函数,所有分类决策函数构成所述SVM分类决策函数。
所述计算机可读存储介质可以是前述任一实施例所述的终端设备的内部存储单元,例如终端设备的硬盘或内存。所述计算机可读存储介质也可以是所述终端设备的外部存储设备,例如所述终端设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述终端设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种维修案例分类方法,其特征在于,包括:
获取样本集合的特征词集;
根据所述特征词集,获取维修案例的文本向量;
向SVM分类决策函数输入所述维修案例的文本向量,得到所述维修案例分类结果。
2.根据权利要求1所述的方法,其特征在于,所述获取样本集合的特征词集,包括:通过文本分词算法,将所述样本集合的文本进行分词,对分词结果进行词频统计,选取满足词频次数的词语作为特征词集。
3.根据权利要求1所述的方法,其特征在于,所述根据所述特征词集,获取维修案例的文本向量,包括:通过文本分词算法,将所述维修案例的文本进行分词,根据所述特征词集对分词结果进行处理,得到所述维修案例的文本向量。
4.根据权利要求1所述的方法,其特征在于,还包括:
获取样本集合的特征向量;
根据所述特征向量,得到训练数据集;
计算所述训练数据集,建立所述SVM分类决策函数。
5.根据权利要求4所述的方法,其特征在于,所述获取样本集合的特征向量,包括:
根据所述特征词集和所述样本集合的分词结果,得到初始特征向量;
计算所述特征词集的词权重对应的加权值;
将所述初始特征向量的维度分别乘以对应的加权值,得到所述特征向量。
6.根据权利要求4所述的方法,其特征在于,所述根据所述特征向量,得到训练数据集,包括:通过所述特征向量的类别,得到和所述特征向量的类别数相同的训练数据集。
7.根据权利要求4所述的方法,其特征在于,所述计算所述训练数据集,建立所述SVM分类决策函数,包括:计算所述训练数据集,获取每一个训练数据集的分类决策函数,所有分类决策函数构成所述SVM分类决策函数。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述样本集合为通过数据库中标签属性筛选得到的样本集合,或者采用随机算法筛选得到的样本集合。
9.根据权利要求1至7任一项所述的方法,其特征在于,所述维修案例分类结果为通过所述SVM分类决策函数的最大的分类决策函数结果值,确定的所属训练数据集的类别。
10.一种维修案例分类装置,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811149677.6A CN109409537A (zh) | 2018-09-29 | 2018-09-29 | 一种维修案例分类方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811149677.6A CN109409537A (zh) | 2018-09-29 | 2018-09-29 | 一种维修案例分类方法以及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109409537A true CN109409537A (zh) | 2019-03-01 |
Family
ID=65465623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811149677.6A Pending CN109409537A (zh) | 2018-09-29 | 2018-09-29 | 一种维修案例分类方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109409537A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059762A (zh) * | 2019-04-26 | 2019-07-26 | 迪爱斯信息技术股份有限公司 | 消防车辆调派方案的筛选方法及系统、终端设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573740A (zh) * | 2014-12-22 | 2015-04-29 | 山东鲁能软件技术有限公司 | 一种基于svm分类模型的设备故障诊断方法 |
CN105787511A (zh) * | 2016-02-26 | 2016-07-20 | 清华大学 | 基于支持向量机的道岔故障诊断方法及系统 |
CN106844596A (zh) * | 2017-01-13 | 2017-06-13 | 厦门天锐科技股份有限公司 | 一种基于改进的svm中文文本分类方法 |
CN107315797A (zh) * | 2017-06-19 | 2017-11-03 | 江西洪都航空工业集团有限责任公司 | 一种网络新闻获取及文本情感预测系统 |
-
2018
- 2018-09-29 CN CN201811149677.6A patent/CN109409537A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573740A (zh) * | 2014-12-22 | 2015-04-29 | 山东鲁能软件技术有限公司 | 一种基于svm分类模型的设备故障诊断方法 |
CN105787511A (zh) * | 2016-02-26 | 2016-07-20 | 清华大学 | 基于支持向量机的道岔故障诊断方法及系统 |
CN106844596A (zh) * | 2017-01-13 | 2017-06-13 | 厦门天锐科技股份有限公司 | 一种基于改进的svm中文文本分类方法 |
CN107315797A (zh) * | 2017-06-19 | 2017-11-03 | 江西洪都航空工业集团有限责任公司 | 一种网络新闻获取及文本情感预测系统 |
Non-Patent Citations (2)
Title |
---|
于德介等: "《设备e-维护模式的理论与技术》", 31 December 2005, 湖南大学出版社 * |
李学柔: "《社会审计》", 30 June 1997, 中山大学出版社 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059762A (zh) * | 2019-04-26 | 2019-07-26 | 迪爱斯信息技术股份有限公司 | 消防车辆调派方案的筛选方法及系统、终端设备 |
CN110059762B (zh) * | 2019-04-26 | 2022-07-19 | 迪爱斯信息技术股份有限公司 | 消防车辆调派方案的筛选方法及系统、终端设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103778205B (zh) | 一种基于互信息的商品分类方法和系统 | |
CN111680145B (zh) | 知识表示学习方法、装置、设备以及存储介质 | |
CN107315954A (zh) | 一种文件类型识别方法及服务器 | |
CN107180191A (zh) | 一种基于半监督学习的恶意代码分析方法和系统 | |
CN103294817A (zh) | 一种基于类别分布概率的文本特征抽取方法 | |
CN109241297B (zh) | 一种内容分类聚合方法、电子设备、存储介质及引擎 | |
CN108491388A (zh) | 数据集获取方法、分类方法、装置、设备及存储介质 | |
CN101604363A (zh) | 基于文件指令频度的计算机恶意程序分类系统及分类方法 | |
CN105574544A (zh) | 一种数据处理方法和装置 | |
CN109872162A (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
CN107145516A (zh) | 一种文本聚类方法及系统 | |
CN104317891B (zh) | 一种对页面标注标签的方法及装置 | |
CN108897798A (zh) | 用电客服工单分类方法、装置以及电子设备 | |
CN106203539A (zh) | 识别集装箱箱号的方法和装置 | |
CN106445963A (zh) | App平台的广告索引关键词自动生成方法和装置 | |
CN110399606A (zh) | 一种无监督电力文档主题生成方法及系统 | |
CN105117740A (zh) | 字体识别方法及装置 | |
CN106503153B (zh) | 一种计算机文本分类体系 | |
CN106570170A (zh) | 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统 | |
CN110458296A (zh) | 目标事件的标记方法和装置、存储介质及电子装置 | |
CN110069546A (zh) | 一种数据分类方法、数据分类装置及终端设备 | |
CN105159927B (zh) | 目标文本主题词的选取方法、装置及终端 | |
CN113886708A (zh) | 基于用户信息的产品推荐方法、装置、设备及存储介质 | |
CN109409537A (zh) | 一种维修案例分类方法以及装置 | |
CN107368610A (zh) | 基于全文的大文本 crf 和规则分类方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190301 |