CN112819018A - 生成样本的方法、装置、电子设备和存储介质 - Google Patents
生成样本的方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN112819018A CN112819018A CN201911052574.2A CN201911052574A CN112819018A CN 112819018 A CN112819018 A CN 112819018A CN 201911052574 A CN201911052574 A CN 201911052574A CN 112819018 A CN112819018 A CN 112819018A
- Authority
- CN
- China
- Prior art keywords
- sample
- service
- samples
- service order
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 41
- 238000012216 screening Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 abstract description 35
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
- G06Q30/015—Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
- G06Q30/016—After-sales
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了生成样本的方法、装置、电子设备和存储介质,涉及计算机技术领域。该方法的一具体实施方式包括:根据样本集中每个服务单样本的特征参数,生成服务单样本的特征向量;根据每个特征向量确定与每个服务单样本对应的相似样本集合;其中,相似样本集合包括多个服务单样本;根据每个服务单样本及其对应的相似样本集合,生成新的服务单样本。该实施方式能够避免训练样本中训练样本分布本不平衡,模型训练结果较差,进而导致模型的识别准确性较低的问题。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种生成样本的方法、装置、电子设备和存储介质。
背景技术
目前,网上购物已经成为用户的一种生活方式,但是在用户网购后,经常会由于各种原因会申请售后、投诉等服务。由于用户网购越来越多,申请服务的服务单也越来越多,为了加快处理速度,对用户申请的服务单通常是通过自动审核的方式进行处理。自动审核通常利用训练的模型来实现,通过训练的模型识别服务单后,对其进行相应处置。为了保证模型识别的准确性,需要通过大量的样本对模型进行训练。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
由于申请的服务单中,一些类型的服务单出现的数量较少,如恶意售后服务单、恶意投诉服务单等,所以这些服务单能够用来作为模型训练样本的数量很少,这就会导致模型训练的训练样本中这些类型的训练样本较少,训练样本分布本不平衡,模型训练结果较差,进而导致模型的识别准确性较低。
发明内容
有鉴于此,本发明实施例提供一种生成样本的方法、装置、系统和存储介质,能够避免训练样本中训练样本分布本不平衡,模型训练结果较差,进而导致模型的识别准确性较低的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种生成样本的方法。
本发明实施例的一种生成样本的方法包括:根据样本集中每个服务单样本的特征参数,生成所述服务单样本的特征向量;根据每个所述特征向量确定与每个所述服务单样本对应的相似样本集合;其中,所述相似样本集合包括多个服务单样本;根据每个所述服务单样本及其对应的相似样本集合,生成新的服务单样本。
在一个实施例中,所述根据每个所述特征向量确定与每个所述服务单样本对应的相似样本集合,包括:根据每个所述特征向量对所述样本集中的服务单样本聚类,得到多个样本簇;对于每个所述样本簇,根据所述样本簇中的中心样本与其他样本簇之间的第一距离,确定所述样本簇的相似样本簇,并将所述相似样本簇中的服务单样本,确定为所述样本簇中服务单样本的相似样本集合。
在又一个实施例中,所述根据所述样本簇中的中心样本与其他样本簇之间的第一距离,确定所述样本簇的相似样本簇,包括:根据所述样本簇中的中心样本与其他样本簇中服务单样本之间的第二距离,计算所述样本簇中的中心样本与所述其他样本簇之间的第一距离;从所述其他样本簇中筛选出所述第一距离最小的预设数量个样本簇作为所述样本簇的相似样本簇。
在又一个实施例中,所述根据每个所述服务单样本及其对应的相似样本集合,生成新的服务单样本,包括:确定所述每个服务单样本与相似样本之间的样本差,所述相似样本为所述每个所述服务单样本对应相似样本集合中的服务单样本;根据所述服务单样本、所述样本差和随机数生成所述新的服务单样本。
在又一个实施例中,所述服务单样本表示负样本;在所述根据每个所述服务单样本及其对应的相似样本集合,生成新的服务单样本之后,还包括:将所述服务单样本、所述新的服务单样本和预获取的正样本确定为新的总样本集;对所述新的总样本集分类,得出负样本集;确定所述负样本集中包括样本的数量和所述负样本集中分类正确的样本的数量;根据所述负样本集中包括样本的数量和所述负样本集中分类正确的样本的数量,判断所述新的服务单样本生成是否成功。
在又一个实施例中,所述根据样本集中每个服务单样本的特征参数,生成所述服务单样本的特征向量,包括:将每个所述服务单样本的特征参数标准化;根据标准化的特征参数,生成所述服务单样本的特征向量。
在又一个实施例中,所述根据样本集中每个服务单样本的特征参数,生成所述服务单样本的特征向量之前,还包括:根据样本标签从初始的总样本集中筛选出所述样本集,所述样本标签用于表示初始的总样本集中服务单样本是否为负样本。
为实现上述目的,根据本发明的另一方面,提供了一种生成样本的装置。
本发明的一种生成样本的装置包括:生成单元,用于根据样本集中每个服务单样本的特征参数,生成所述服务单样本的特征向量;确定单元,用于根据每个所述特征向量确定与每个所述服务单样本对应的相似样本集合;其中,所述相似样本集合包括多个服务单样本;所述生成单元,还用于根据每个所述服务单样本及其对应的相似样本集合,生成新的服务单样本。
在一个实施例中,所述确定单元,具体用于:根据每个所述特征向量对所述样本集中的服务单样本聚类,得到多个样本簇;对于每个所述样本簇,根据所述样本簇中的中心样本与其他样本簇之间的第一距离,确定所述样本簇的相似样本簇,并将所述相似样本簇中的服务单样本,确定为所述样本簇中服务单样本的相似样本集合。
在又一个实施例中,所述确定单元,具体用于:根据所述样本簇中的中心样本与其他样本簇中服务单样本之间的第二距离,计算所述样本簇中的中心样本与所述其他样本簇之间的第一距离;从所述其他样本簇中筛选出所述第一距离最小的预设数量个样本簇作为所述样本簇的相似样本簇。
在又一个实施例中,所述生成单元,具体用于:确定所述每个服务单样本与相似样本之间的样本差,所述相似样本为所述每个所述服务单样本对应相似样本集合中的服务单样本;根据所述服务单样本、所述样本差和随机数生成所述新的服务单样本。
在又一个实施例中,所述服务单样本表示负样本;所述确定单元,还用于将所述服务单样本、所述新的服务单样本和预获取的正样本确定为新的总样本集;
所述装置还包括:
分类单元,用于对所述新的总样本集分类,得出负样本集;判断单元,用于确定所述负样本集中包括样本的数量和所述负样本集中分类正确的样本的数量,并根据所述负样本集中包括样本的数量和所述负样本集中分类正确的样本的数量,判断所述新的服务单样本生成是否成功。
在又一个实施例中,所述生成单元,具体用于:将每个所述服务单样本的特征参数标准化;根据标准化的特征参数,生成所述服务单样本的特征向量。
在又一个实施例中,所述生成单元,具体用于:根据样本标签从初始的总样本集中筛选出所述样本集,所述样本标签用于表示初始的总样本集中服务单样本是否为负样本。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种电子设备。
本发明实施例的一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例提供的生成样本的方法。
为实现上述目的,根据本发明实施例的又一个方面,提供了一种计算机可读介质。
本发明实施例的一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例提供的生成样本的方法。
上述发明中的一个实施例具有如下优点或有益效果:本发明实施例中,根据服务单样本的特征向量,可以计算出每个服务单样本的相似样本集合,进而对于每个服务单样本可以基于其对应的相似样本集合生成新的服务单样本。如此,通过本发明实施例中可以针对训练样本中少数量的服务单样本,生成新的服务单样本,新的服务单样本为每个服务单样本基于其对应的相似样本集合生成,保证新的服务单样本与每个服务单样本的相似性,同时生成了新的服务单样本,增加少数量服务单样本的数量,避免了训练样本中训练样本分布本不平衡,模型训练结果较差,提高了模型的识别准确性。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的生成样本的方法的一种主要流程的示意图;
图2是根据本发明实施例的生成样本的方法的又一种主要流程的示意图;
图3是根据本发明实施例的生成样本的装置的主要单元的示意图;
图4是本发明实施例可以应用于其中的一种示例性系统架构图;
图5是适于用来实现本发明实施例的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要指出的是,在不冲突的情况下,本发明中的实施例以及实施例中的特征可以互相组合。
本发明实施例提供了的生成样本的方法,适用于服务单样本生成的场景。一般情况下,审核服务单可以进行人工审核,但是由于人工审核服务单的方式,会耗费大量的人力和时间成本,且具有很高的主观性和随机性,所以服务单可以通过设置一些规则进行自动审核。自动审核时,由于一些类型的服务单数量较少,如果规则设置不全面,通常导致不能有效识别出这些类型的服务单,例如恶意售后服务单、恶意投诉服务单等。自动审核时还可以通过模型来识别服务单,但是一些类型服务单能够用来作为模型训练样本的数量很少,导致模型训练的训练样本中这些类型的训练样本较少,训练样本分布本不平衡,模型训练结果较差,模型的识别准确性较低。目前解决样本数据不均衡问题采用的方法,很多没有考虑到所有样本中少数量样本稀疏(如恶意售后服务单样本稀疏),对生成新的样本过程产生影响,从而生成新的样本后,更加重了样本的不平衡程度。本发明实施例中,对于少数量服务单样本,通过本发明实施例的方法可以生成新的服务单样本,保证新的服务单样本与原服务单样本的相似性的同时,增加服务单样本的数量,从而可以降低训练样本的不平衡程度。
本发明实施例提供了一种生成样本的方法,该方法可计算设备执行,如图1所示,该方法包括以下步骤。
S101:根据样本集中每个服务单样本的特征参数,生成服务单样本的特征向量。
其中,服务单样本包括服务单的特征参数,即服务单样本包括的特征参数。
本发明实施例中,本步骤可以具体执行为:将每个服务单样本的特征参数标准化;根据标准化的特征参数,生成服务单样本的特征向量。
对于各服务单样本,首先将其特征参数标准化处理,然后在根据标准化后的特征参数来生成该服务单样本的特征向量,以保证特征向量的正确性。
需要说明的是,对用于识别服务单的模型进行训练的训练样本可以从所有服务单中获取初始的总样本集,由于服务单中包括作为正样本的服务单数量较多,而包括的作为负样本的服务单数量较少,所以初始的总样本集包括正样本和负样本,且正样本数量较多,负样本数量较少。无论是正样本还是负样本均可以包括上述的特征参数。由于负样本的数量较少,为避免样本分布不均衡,需要增加负样本的数量,所以本发明实施例可以用于生成负样本,即本发明实施例中的样本集可以表示负样本的样本集,样本集中的服务单样本可以表示负样本,本发明实施例的方法可以用于生成新的负样本。上述负样本的具体内容可以根据局需求设置。例如负样本可以为恶意售后服务单样本,则此时正样本为正常售后服务单样本,负样本可以为恶意投诉服务单样本,则正样本为正常投诉服务单样本。
本发明实施例的一种实施方式中,本发明实施例中的样本集可以表示负样本的样本集,样本集中的服务单样本可以表示负样本。在获取初始的总样本集后,可以对每个服务单样本标注样本标签,样本标签用于表示总样本集中服务单样本是否为负样本,由于本发明实施例中为针对少数量的负样本,所以在执行步骤S101之前,可以包括:根据样本标签从初始的总样本集中筛选出样本集。
初始的总样本集中服务单样本均标注了样本标签,所以根据标签可以筛选出负样本,进而筛选出本步骤中的样本集,即筛选出恶意售后服务单样本的样本集。
S102:根据每个特征向量确定与每个服务单样本对应的相似样本集合。
其中,相似样本集合包括多个服务单样本。本发明实施例中为保证生成的新样本为所需要的样本,所以先确定出每个服务单样本对应的相似样本集合,如此通过服务单样本对应的相似样本集合来生成新样本,以保证生成新样本的准确性。例如,服务单样本为恶意售后服务单样本时,为保证生成的新样本为恶意售后服务单样本,所以先确定出每个恶意售后服务单样本对应的相似样本集合,如此通过恶意售后服务单样本对应的相似样本集合来生成新样本,以保证生成新样本的准确性。
本发明实施例的一种实现方式中,本步骤可以具体执行为:根据每个特征向量对样本集中的服务单样本聚类,得到多个样本簇;对于每个样本簇,根据样本簇中的中心样本与其他样本簇之间的第一距离,确定样本簇的相似样本簇,并将相似样本簇中的服务单样本,确定为样本簇中服务单样本的相似样本集合。
本发明实施例中对样本集中的服务单样本,可以进行聚类处理,将具有相似性的服务单样本聚为一类,得到多个样本簇,每个样本簇中均包括一个中心样本。对于多个样本簇中的每一个样本簇,可以通过样本簇的中心样本与其他样本簇之间的第一距离,确定出该样本簇的相似样本簇,进而这些相似样本簇中的服务单样本即可作为该样本簇的相似样本集。由此可以确定出每个样本簇的相似样本集。
通常两个样本簇之间的距离越小说明相似性越高。所以本发明实施例中对每个样本簇,确定其相似样本簇的方式可以为:根据样本簇中的中心样本与其他样本簇中服务单样本之间的第二距离,计算样本簇中的中心样本与其他样本簇之间的第一距离;从其他样本簇中筛选出第一距离最小的预设数量个样本簇作为样本簇的相似样本簇。
样本簇的中心样本与其他样本簇之间的距离可以通过该样本簇中的中心样本与其他样本簇中服务单样本之间的第二距离得出。并根据第二距离,计算样本簇中的中心样本与其他样本簇之间的第一距离。在得出该样本簇的中心样本与其他样本簇之间的第一距离后,可以按照第一距离的大小,对其他样本簇排列顺序,以及在得到其他样本簇排列顺序后,即可从其他样本簇中筛选出第一距离最小的预设数量个样本簇作为样本簇的相似样本簇。
S103:根据每个服务单样本及其对应的相似样本集合,生成新的服务单样本。
其中,对于每个服务单样本,均可以基于其对应的相似样本集合所包括的服务单样本,来生成新的服务单样本。如此,基于每个服务单样本均可以生成多个新的服务单样本,进而基于所有服务单样本可以生成较多新的服务单样本,从而增加服务单样本的数量。
本发明实施例中,如果执行S103后,得到新的服务单样本的数量不能够满足需求,则还可以对新的服务单样本再执行本发明实施例中步骤S101至步骤S103的流程,从而得出更多的服务单样本。本发明实施例中服务单样本为负样本时,通常情况下,为了保证样本的平衡性,服务单样本的数量需要与初始的总样本集中正样本的数量相当,所以生成新的服务单样本的数量,可以根据初始的总样本集中正样本的数量来确定。
本发明实施例的又一种实现方式中,本步骤中生成新的服务单样本的具体方式可以为:确定每个服务单样本与相似样本之间的样本差,相似样本为每个服务单样本对应相似样本集合中的服务单样本;根据服务单样本、样本差和随机数生成新的服务单样本。
在确定出每个服务单样本和与其对应的相似样本集后,对于每个服务单样本,与其对应的相似样本集中的服务单样本即为其相似样本,每个服务单可以根据每个其相似样本来生成新的服务单样本。具体为,确定每个服务单样本与一个相似样本之间的样本差,也就是每个服务单样本与该相似样本相减,得出两者的差值。然后根据服务单样本、样本差和随机数生成新的服务单样本。随机数可以为随机生成的0到1之间的数字,然后计算出样本差与随机数的乘积,再与服务单样本相加,即可得出新的服务单样本。
需要说明的是,上述计算过程均可以通过服务单样本的特征向量完成。
对于本发明实施中服务单样本表示负样本时,在执行步骤S103后,可以对生成新的服务样本单是否成功进行判断。本发明实施例的又一实现方式中,在执行步骤S103后,还包括:将服务单样本、新的服务单样本和预获取的正样本确定为新的总样本集;对新的总样本集分类,得出负样本集;确定所述负样本集中包括样本的数量和所述负样本集中分类正确的样本的数量,并根据所述负样本集中包括样本的数量和所述负样本集中分类正确的样本的数量,判断所述新的服务单样本生成是否成功。
初始的总样本集中包括获取到的正样本和负样本,在步骤S103后,可以将新的服务单样本添加到初始的总样本集,得到新的总样本集,即将服务单样本、新的服务单样本和预获取的正样本确定为新的总样本集。然后通过分类器等对新的总样本集进行分类,得出负样本集和正样本集,此处的负样本集和正样本集均为通过分类器分类得出的。然后可以对负样本集中的负样本进行识别,得出分类正确的负样本数量,以及负样本集中的负样本数量,所以根据负样本集中负样本的数量和负样本集中分类正确的样本的数量,可以判断新的服务单样本生成是否成功。
本发明实施例中,根据服务单样本的特征向量,可以计算出每个服务单样本的相似样本集合,进而对于每个服务单样本可以基于其对应的相似样本集合生成新的服务单样本。如此,通过本发明实施例中可以针对训练样本中少数量的服务单样本,生成新的服务单样本,新的服务单样本为每个服务单样本基于其对应的相似样本集合生成,保证新的服务单样本与每个服务单样本的相似性,同时生成了新的服务单样本,增加少数量服务单样本的数量,避免了训练样本中训练样本分布本不平衡,模型训练结果较差,提高了模型的识别准确性。
下面结合图1所示的实施例,以图1所示实施例中服务单样本为恶意售后服务单样本为例,对本发明实施例中生成样本的方法进行具体说明。如图2所示,该方法包括以下步骤。
S201:从售后申请单中获取初始的总样本集。
其中,售后申请单中包括大量的正常售后服务单和少量的恶意售后服务单,从售后申请单中获取初始的总样本集中包括正常售后服务单样本和少量的恶意售后服务单样本,即正样本和负样本。
S202:根据样本标签从初始的总样本集中筛选恶意售后服务单样本集。
其中,在获取到初始的总样本集后,可以对初始的总样本集中每个样本标注样本标签。样本标签表示样本是否为恶意售后服务单样本,例如,样本标签为1表示样本为恶意售后服务单样本,样本标签为0表示样本为正常售后服务单样本。所以本步骤中基于样本标签可以从初始的总样本集中筛选恶意售后服务单样本集。
S203:将恶意售后服务单样本集中每个恶意售后服务单样本的特征参数,生成每个恶意售后服务单样本的特征向量。
其中,特征参数表示售后申请服务单的相关信息,例如,售后服务单涉及的订单类型、商家标识、售后物品品类、售后物品标识、下单账户信息、下单账户历史的售后服务单行为、收货地址信息、收货手机信息、购买行为、风险行为信息、账户风险标签信息等等。
恶意售后服务单样本的特征参数可以先进性标准化处理,然后生成相应的特征向量。
S204:根据特征向量,对恶意售后服务单样本集中恶意售后服务单样本聚类,得到多个样本簇。
本步骤中聚类的具体过程可以为:a、随机选择一个点作为中心点m;b、找出与该中心点m之间距离在R之内的所有点,记做集合G,并默认这些点属于簇M,其中R可以预先设置;c、计算从中心点m开始到集合G中每个点的向量并相加,得到向量shift;d、中心点沿着shift的方向移动,移动距离为||shift||;e、重复b、c和d,直到收敛,这个迭代过程中遇到的点都归为簇M;f、计算两个簇的中心点之间的距离,如果两个簇的中心点的距离小于阈值,将两个簇进行合并;g、重复上述步骤,直至所有点都被访问;h、对每个点,将对该点的访问次数最高的簇作为该点的所属簇。
上述聚类过程中的一个点表示一个恶意售后服务单样本。通过上述的聚类过程,可以得出恶意售后服务单样本的多个样本簇。本发明实施例中聚类通常采用非参数聚类的方法完成。
S205:对每个样本簇,根据样本簇中的中心样本与其他样本簇之间距离,确定每个样本簇的相似样本簇。
样本簇中的中心样本与其他样本簇之间距离即为第一距离。本发明实施例中通过Ci表示每个簇,以Centeri表示簇Ci的中心点,即中心样本,其中i为大于0小于T的整数,T表示步骤S204中得到样本簇的数量。通过公式1的计算方式可以得出每个簇的中心点待其他簇之间的距离。
在公式1中,d(Centeri,Pj)表示簇Ci的中心点与簇Cj之间距离,i为大于0小于T、且不等于i的整数,Pjk表示簇Cj中的第k个点,k为大于0小于L的整数,T表示簇Cj中包括点的数量。有公式1可知,簇Ci的中心点与簇Cj之间距离可以根据簇Ci的中心点与簇Cj中包括点之间的距离得出。
在计算出每个样本簇的中心样本与其他样本簇之间距离后,对于每个样本簇,可以按照该样本簇的中心样本与其他样本簇之间距离的值的大小进行排序,将序列中距离最小的预设数目个样本簇确定为该样本簇的相似样本簇。
需要说明的是,上述计算过程可以通过KNN算法来实现。
S206:每个样本簇的相似样本簇中的恶意售后服务单样本,作为每个样本簇中恶意售后服务单样本的相似样本集合。
其中,对每个样本簇,在确定出该样本簇的相似样本簇后,可以将相似样本簇中的恶意售后服务单样本,作为该样本簇中恶意售后服务单样本的相似样本集合。
S207:根据每个恶意售后服务单样本及其对应的相似样本集合,生成新的恶意售后服务单样本。
在步骤S206中确定出了每个恶意售后服务单样本的相似样本集合,则每个恶意售后服务单样本可以结合其对应的相似样本集合,生成新的恶意售后服务单样本。具体可以通过公式2来生成新的恶意售后服务单样本。
New=x+rand(0,1)*(Nh-x) (2)
在公式2中,New表示新的恶意售后服务单样本,x表示任一个恶意售后服务单样本,Nh表示x对应的相似样本集合中第h个恶意售后服务单样本,k为大于0小于Y的整数,Y表示x对应的相似样本集合中包括恶意售后服务单样本的数量,rand(0,1)表示0到1之间的随机数。
需要说明的是,本步骤中可以重复通过公式2来生成新的恶意售后服务单样本。
S208:根据初始总样本集和新的恶意售后服务单样本,判断新的恶意售后服务单样本生成是否成功。
其中,执行步骤S207后,可以将生成新的恶意售后服务单样本添加到初始的总样本集中,得到新的总样本集。对于初始总样本集,其中包括恶意售后服务单样本的数量和正常售后服务单样本的数量为已知的,新的总样本集也可以确定出来。
本步骤中可以重新对新的总样本集样本分类,然后根据分类结果判断新的恶意售后服务单样本生成是否成功。对新的总样本集中样本分类后,可以得出新的恶意售后服务单样本集合新的正常售后服务单样本集,并能够确定出新的恶意售后服务单样本集合新的正常售后服务单样本集中分别包括样本的数量,进一步的可以得出分类后正确识别出恶意售后服务单样本的数量,如此可以通过计算精确率和召回率来判断新的恶意售后服务单样本生成是否成功。
其中,精确率为正确识别出恶意售后服务单样本的数量除以新的恶意售后服务单样本集合中恶意售后服务单样本的数量,召回率为正确识别出恶意售后服务单样本的数量除以新的总样本集中恶意售后服务单样本的数量。在计算出精确率和召回率后,可以根据预设值比较,以判断新的恶意售后服务单样本生成是否成功。
本步骤中对新的总样本集分类的方式可以通过SVM分类算法实现。
本发明实施例中,通过本发明实施例的方法可以生成新的恶意售后服务单样本,新的恶意售后服务单样本为每个恶意售后服务单样本基于其对应的相似样本集合生成,保证新的恶意售后服务单样本与每个恶意售后服务单样本的相似性,同时生成了新的恶意售后服务单样本,增加恶意售后服务单样本的数量,避免恶意售后服务单样本数量过少,训练样分布本不平衡,导致训练结果较差,降低识别售后服务单的准确率的问题。
为了解决现有技术存在的问题,本发明实施例提供了一种生成样本的装置300,如图3所示,该装置300包括:
生成单元301,用于根据样本集中每个服务单样本的特征参数,生成所述服务单样本的特征向量;
确定单元302,用于根据每个所述特征向量确定与每个所述服务单样本对应的相似样本集合;其中,所述相似样本集合包括多个服务单样本;
所述生成单元301,还用于根据每个所述服务单样本及其对应的相似样本集合,生成新的服务单样本。
应理解的是,实施本发明实施例的方式与实施图1所示实施例的方式相同,在此不再赘述。
本发明实施例的一种实现方式中,所述确定单元302,具体用于:
根据每个所述特征向量对所述样本集中的服务单样本聚类,得到多个样本簇;
对于每个所述样本簇,根据所述样本簇中的中心样本与其他样本簇之间的第一距离,确定所述样本簇的相似样本簇,并将所述相似样本簇中的服务单样本,确定为所述样本簇中服务单样本的相似样本集合。
本发明实施例的又一种实现方式中,所述确定单元302,具体用于:
根据所述样本簇中的中心样本与其他样本簇中服务单样本之间的第二距离,计算所述样本簇中的中心样本与所述其他样本簇之间的第一距离;
从所述其他样本簇中筛选出所述第一距离最小的预设数量个样本簇作为所述样本簇的相似样本簇。
本发明实施例的又一种实现方式中,所述生成单元301,具体用于:确定所述每个服务单样本与相似样本之间的样本差,所述相似样本为所述每个所述服务单样本对应相似样本集合中的服务单样本;
根据所述服务单样本、所述样本差和随机数生成所述新的服务单样本
本发明实施例的又一种实现方式中,所述服务单样本表示负样本;所述确定单元302,还用于将所述服务单样本、所述新的服务单样本和预获取的正样本确定为新的总样本集;
所述装置300还包括:
分类单元303,用于对所述新的总样本集分类,得出负样本集;
判断单元304,用于确定所述负样本集中包括样本的数量和所述负样本集中分类正确的样本的数量,并根据所述负样本集中包括样本的数量和所述负样本集中分类正确的样本的数量,判断所述新的服务单样本生成是否成功。
本发明实施例的又一种实现方式中,所述生成单元302,具体用于:将每个所述服务单样本的特征参数标准化;
根据标准化的特征参数,生成所述服务单样本的特征向量。
本发明实施例的又一种实现方式中,所述生成单元301,具体用于:根据样本标签从初始的总样本集中筛选出所述样本集,所述样本标签用于表示初始的总样本集中服务单样本是否为负样本。
应理解的是,实施本发明实施例的方式与实施图1或图2所示实施例的方式相同,在此不再赘述。
本发明实施例中,根据服务单样本的特征向量,可以计算出每个服务单样本的相似样本集合,进而对于每个服务单样本可以基于其对应的相似样本集合生成新的服务单样本。如此,通过本发明实施例中可以针对训练样本中少数量的服务单样本,生成新的服务单样本,新的服务单样本为每个服务单样本基于其对应的相似样本集合生成,保证新的服务单样本与每个服务单样本的相似性,同时生成了新的服务单样本,增加少数量服务单样本的数量,避免了训练样本中训练样本分布本不平衡,模型训练结果较差,提高了模型的识别准确性。
根据本发明的实施例,本发明还提供了一种电子设备和一种可读存储介质。
本发明的电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明实施例所提供的生成样本的方法。
图4示出了可以应用本发明实施例的生成样本的方法或生成样本的装置的示例性系统架构400。
如图4所示,系统架构400可以包括终端设备401、402、403,网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器405可以是提供各种服务的服务器,例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的生成样本的方法一般由服务器405执行,相应地,生成样本的装置一般设置于服务器405中。本发明实施例所提供的生成样本的方法一般由终端设备401、402、403执行,相应地,生成样本的装置一般设置于终端设备401、402、403中。
应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图5,其示出了适于用来实现本发明实施例的计算机系统500的结构示意图。图5示出的计算机系统仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个单元、程序段、或代码的一部分,上述单元、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括生成单元和确定单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,生成单元还可以被描述为“生成单元的功能的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行本发明所提供的生成样本的方法。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种生成样本的方法,其特征在于,包括:
根据样本集中每个服务单样本的特征参数,生成所述服务单样本的特征向量;
根据每个所述特征向量确定与每个所述服务单样本对应的相似样本集合;其中,所述相似样本集合包括多个服务单样本;
根据每个所述服务单样本及其对应的相似样本集合,生成新的服务单样本。
2.根据权利要求1所述的方法,其特征在于,所述根据每个所述特征向量确定与每个所述服务单样本对应的相似样本集合,包括:
根据每个所述特征向量对所述样本集中的服务单样本聚类,得到多个样本簇;
对于每个所述样本簇,根据所述样本簇中的中心样本与其他样本簇之间的第一距离,确定所述样本簇的相似样本簇,并将所述相似样本簇中的服务单样本,确定为所述样本簇中服务单样本的相似样本集合。
3.根据权利要求2所述的方法,其特征在于,所述根据所述样本簇中的中心样本与其他样本簇之间的第一距离,确定所述样本簇的相似样本簇,包括:
根据所述样本簇中的中心样本与其他样本簇中服务单样本之间的第二距离,计算所述样本簇中的中心样本与所述其他样本簇之间的第一距离;
从所述其他样本簇中筛选出所述第一距离最小的预设数量个样本簇作为所述样本簇的相似样本簇。
4.根据权利要求1所述的方法,其特征在于,所述根据每个所述服务单样本及其对应的相似样本集合,生成新的服务单样本,包括:
确定所述每个服务单样本与相似样本之间的样本差,所述相似样本为所述每个所述服务单样本对应相似样本集合中的服务单样本;
根据所述服务单样本、所述样本差和随机数生成所述新的服务单样本。
5.根据权利要求1所述的方法,其特征在于,所述服务单样本表示负样本;在所述根据每个所述服务单样本及其对应的相似样本集合,生成新的服务单样本之后,还包括:
将所述服务单样本、所述新的服务单样本和预获取的正样本确定为新的总样本集;
对所述新的总样本集分类,得出负样本集;
确定所述负样本集中包括样本的数量和所述负样本集中分类正确的样本的数量,并根据所述负样本集中包括样本的数量和所述负样本集中分类正确的样本的数量,判断所述新的服务单样本生成是否成功。
6.根据权利要求1所述的方法,其特征在于,所述根据样本集中每个服务单样本的特征参数,生成所述服务单样本的特征向量,包括:
将每个所述服务单样本的特征参数标准化;
根据标准化的特征参数,生成所述服务单样本的特征向量。
7.根据权利要求1所述的方法,其特征在于,所述根据样本集中每个服务单样本的特征参数,生成所述服务单样本的特征向量之前,还包括:
根据样本标签从初始的总样本集中筛选出所述样本集,所述样本标签用于表示初始的总样本集中服务单样本是否为负样本。
8.一种生成样本的装置,其特征在于,包括:
生成单元,用于根据样本集中每个服务单样本的特征参数,生成所述服务单样本的特征向量;
确定单元,用于根据每个所述特征向量确定与每个所述服务单样本对应的相似样本集合;其中,所述相似样本集合包括多个服务单样本;
所述生成单元,还用于根据每个所述服务单样本及其对应的相似样本集合,生成新的服务单样本。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911052574.2A CN112819018A (zh) | 2019-10-31 | 2019-10-31 | 生成样本的方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911052574.2A CN112819018A (zh) | 2019-10-31 | 2019-10-31 | 生成样本的方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112819018A true CN112819018A (zh) | 2021-05-18 |
Family
ID=75851516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911052574.2A Pending CN112819018A (zh) | 2019-10-31 | 2019-10-31 | 生成样本的方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112819018A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279746A (zh) * | 2013-05-30 | 2013-09-04 | 苏州大学 | 一种基于支持向量机的人脸识别方法及系统 |
US20150074021A1 (en) * | 2013-09-12 | 2015-03-12 | International Business Machines Corporation | Generating a training model based on feedback |
CN108241745A (zh) * | 2018-01-08 | 2018-07-03 | 阿里巴巴集团控股有限公司 | 样本集的处理方法及装置、样本的查询方法及装置 |
CN109145116A (zh) * | 2018-09-03 | 2019-01-04 | 武汉斗鱼网络科技有限公司 | 一种文本分类方法、装置、电子设备及存储介质 |
CN109508747A (zh) * | 2018-11-19 | 2019-03-22 | 济南浪潮高新科技投资发展有限公司 | 一种基于聚类和特征匹配的改进kNN算法 |
CN110309875A (zh) * | 2019-06-28 | 2019-10-08 | 哈尔滨工程大学 | 一种基于伪样本特征合成的零样本目标分类方法 |
-
2019
- 2019-10-31 CN CN201911052574.2A patent/CN112819018A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279746A (zh) * | 2013-05-30 | 2013-09-04 | 苏州大学 | 一种基于支持向量机的人脸识别方法及系统 |
US20150074021A1 (en) * | 2013-09-12 | 2015-03-12 | International Business Machines Corporation | Generating a training model based on feedback |
CN108241745A (zh) * | 2018-01-08 | 2018-07-03 | 阿里巴巴集团控股有限公司 | 样本集的处理方法及装置、样本的查询方法及装置 |
CN109145116A (zh) * | 2018-09-03 | 2019-01-04 | 武汉斗鱼网络科技有限公司 | 一种文本分类方法、装置、电子设备及存储介质 |
CN109508747A (zh) * | 2018-11-19 | 2019-03-22 | 济南浪潮高新科技投资发展有限公司 | 一种基于聚类和特征匹配的改进kNN算法 |
CN110309875A (zh) * | 2019-06-28 | 2019-10-08 | 哈尔滨工程大学 | 一种基于伪样本特征合成的零样本目标分类方法 |
Non-Patent Citations (1)
Title |
---|
魏梦娟;罗文龙;: "KNN-SVM网页分类器介绍", 现代计算机(专业版), no. 07 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344154B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN110543946B (zh) | 用于训练模型的方法和装置 | |
US20180248879A1 (en) | Method and apparatus for setting access privilege, server and storage medium | |
CN112527649A (zh) | 一种测试用例的生成方法和装置 | |
CN107908666A (zh) | 一种识别设备标识的方法和装置 | |
CN109714301B (zh) | 注册风险识别方法、装置、电子设备及存储介质 | |
WO2019056496A1 (zh) | 图片复审概率区间生成方法及图片复审判定方法 | |
CN110309142B (zh) | 规则管理的方法和装置 | |
CN110335061B (zh) | 交易模式画像建立方法、装置、介质及电子设备 | |
CN111339743B (zh) | 一种账号生成的方法和装置 | |
CN113313279A (zh) | 一种单据审核方法和装置 | |
CN110619253B (zh) | 身份识别的方法和装置 | |
CN114358147A (zh) | 异常账户识别模型的训练方法、识别方法、装置及设备 | |
CN113779346A (zh) | 用于识别一人多账号的方法及装置 | |
CN111275071B (zh) | 预测模型训练、预测方法、装置及电子设备 | |
CN110070383B (zh) | 基于大数据分析的异常用户识别方法及装置 | |
CN111210109A (zh) | 基于关联用户预测用户风险的方法、装置和电子设备 | |
WO2016069621A1 (en) | System and method to recommend a bundle of items based on item/user tagging and co-install graph | |
CN113239687B (zh) | 一种数据处理方法和装置 | |
CN115423030A (zh) | 一种设备识别的方法和装置 | |
CN109902698A (zh) | 信息生成方法和装置 | |
CN112819018A (zh) | 生成样本的方法、装置、电子设备和存储介质 | |
CN114817347A (zh) | 业务审批方法、装置、电子设备和存储介质 | |
CN113657552A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN113452648A (zh) | 检测网络攻击的方法、装置、设备和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |