CN112613550A - 一种数据分类方法、装置及相关设备 - Google Patents

一种数据分类方法、装置及相关设备 Download PDF

Info

Publication number
CN112613550A
CN112613550A CN202011503667.5A CN202011503667A CN112613550A CN 112613550 A CN112613550 A CN 112613550A CN 202011503667 A CN202011503667 A CN 202011503667A CN 112613550 A CN112613550 A CN 112613550A
Authority
CN
China
Prior art keywords
vector
target
function value
vector set
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011503667.5A
Other languages
English (en)
Inventor
张楠
王健宗
瞿晓阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011503667.5A priority Critical patent/CN112613550A/zh
Publication of CN112613550A publication Critical patent/CN112613550A/zh
Priority to PCT/CN2021/096647 priority patent/WO2022127037A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Abstract

本申请公开了一种数据分类方法,该方法包括:获取训练数据,训练数据包括k个类别,k为大于1的正整数;通过WOA确定n个个体对应的向量,得到第一向量集;然后用目标优化函数计算第一向量集中每个向量对应的函数值,得到最佳向量;再通过WOA对每个个体执行预设次数的更新操作,将最后一次得到的最佳向量作为一个聚类中心;最后通过k个类别的聚类中心完成待分类语音数据的分类。本申请实施例能够获取各类别语音数据的聚类中心,然后根据聚类中心将待分类语音数据归类,之后再派发给相应的人员,让同一批标注人员尽量只处理一个类别下的数据,提高数据标注的效率,进而减少整个AI项目的时间。

Description

一种数据分类方法、装置及相关设备
技术领域
本申请涉及数据处理领域,尤其涉及到一种数据分类方法、装置及相关设备。
背景技术
数据标注平台是外呼机器人项目组当中非常重要的一个环节,每天通过机器人实际外呼的语音数据都会流转到该平台进行核验及相应的数据标注,然后再次回传给模型进行训练。
数据标注作为上述人工智能(Artificial Intelligence,AI)项目的一个基础,通常是由人工完成的,高质量的数据标注更是费时费力,对海量数据相关的处理几乎消耗了整个AI项目的大部分时间。而且在海量的数据中,会存在大批量各个场景及各个类型的数据,因此在派发给相应的人员进行人工标注前,需要进行一定的预处理。
发明内容
本申请实施例提供一种数据分类方法、装置及相关设备,能够获取各个类别语音数据的聚类中心,然后通过聚类中心将待分类的语音数据归到相应的类别中,之后再派发给相应的人员进行语音数据标注,大大提升人工标注的效率。
第一方面,本申请提供了一种数据分类方法,该方法包括以下步骤:
获取训练数据,其中,所述训练数据包括k个类别,k为大于1的正整数;
通过鲸鱼优化算法WOA从目标训练数据中确定n个个体对应的向量,得到第一向量集,其中,所述目标训练数据是所述k个类别中的任意一个类别,n为大于1的正整数;
使用目标优化函数分别计算所述第一向量集中每个向量对应的函数值,得到n个第一函数值,将所述n个第一函数值中最小第一函数值对应的向量作为最佳向量;
执行更新操作:
通过WOA分别更新所述n个个体对应的向量,得到第二向量集;
分别计算所述第二向量集中每个向量与所述最佳向量之间的距离,由所述距离与第一预设条件,更新所述每个个体对应的向量,得到第三向量集;
使用所述目标优化函数,计算所述第二向量集以及所述第三向量集中每个向量对应的函数值,由第二预设条件确定所述n个个体对应的目标向量,得到目标向量集;
使用所述目标优化函数计算所述目标向量集中每个目标向量对应的函数值,得到n个目标函数值;
将所述n个目标函数值中最小目标函数值与所述最佳向量对应的函数值进行比较,在所述最小目标函数值小于所述最佳向量对应的函数值时,确定所述最小目标函数值对应的目标向量作为新的最佳向量;
执行预设次数的所述更新操作,将最后一次所述更新操作得到的所述新的最佳向量作为所述目标训练数据的聚类中心;
获取待分类语音数据,分别计算所述待分类语音数据与所述k个类别的聚类中心的距离,将所述待分类语音数据归到与所述待分类语音数据距离最小的所述聚类中心对应的类别中。
第二方面,本申请提供了一种数据分类装置,该装置包括:
获取模块,用于获取训练数据,其中,所述训练数据包括k个类别,k为大于1的正整数;
处理模块,用于通过鲸鱼优化算法WOA从目标训练数据中确定n个个体对应的向量,得到第一向量集,其中,所述目标训练数据是所述k个类别中的任意一个类别,n为大于1的正整数;
所述处理模块还用于:
使用目标优化函数分别计算所述第一向量集中每个向量对应的函数值,得到n个第一函数值,将所述n个第一函数值中最小第一函数值对应的向量作为最佳向量;
执行更新操作:
通过WOA分别更新所述n个个体对应的向量,得到第二向量集;
分别计算所述第二向量集中每个向量与所述最佳向量之间的距离,由所述距离与第一预设条件,更新所述每个个体对应的向量,得到第三向量集;
使用所述目标优化函数,计算所述第二向量集中每个向量对应的函数值以及所述第三向量集中每个向量对应的函数值,由第二预设条件确定所述n个个体对应的目标向量,得到目标向量集;
使用所述目标优化函数计算所述目标向量集中每个目标向量对应的函数值,得到n个目标函数值;
将所述n个目标函数值中最小目标函数值与所述最佳向量对应的函数值进行比较,在所述最小目标函数值小于所述最佳向量对应的函数值时,确定所述最小目标函数值对应的目标向量作为新的最佳向量;
执行预设次数的所述更新操作,将最后一次所述更新操作得到的所述新的最佳向量作为所述目标训练数据的聚类中心;
获取待分类语音数据,分别计算所述待分类语音数据与所述k个类别的聚类中心的距离,将所述待分类语音数据归到与所述待分类语音数据距离最小的所述聚类中心对应的类别中。
第三方面,本申请提供了一种计算设备,包括处理器和存储器,所述处理器和存储器可通过总线相互连接,也可以集成在一起。该处理器执行存储器中存储的代码实现如第一方面所描述的方法。
第四方面,本申请提供了一种计算机可读存储介质,包括程序或指令,当上述程序或指令在计算机设备上运行时,可使上述计算机设备执行如第一方面所描述的方法。
可以看到,本申请基于传统鲸鱼优化算法,能够获取各个类别语音数据的聚类中心,然后通过各类别的聚类中心,将待分类的语音数据归到相应的类别中,之后再派发给相应的人员进行语音数据标注,使得同一批标注人员尽量只处理一个类别下的数据,更加地有针对性,可以大大提升人工标注的效率,进而缩短整个AI项目的时间。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种传统鲸鱼优化算法的流程示意图;
图2是本申请实施例提供的一种数据分类方法的流程示意图;
图3是本申请实施例提供的又一种数据分类方法的流程示意图;
图4是本申请实施例提供的一种数据分类装置的结构示意图;
图5是本申请实施例提供的一种计算设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
为了便于理解本申请实施例,下面介绍一些相关的算法。
鲸鱼优化算法(Whale Optimization Algorithm,WOA)是由Mirjalili和Lewis在2016年提出的一种元启发式(meta-heuristic)群智能算法,该算法的灵感来自于座头鲸的狩猎行为。座头鲸是群居动物,在捕猎时会相互合作对猎物进行驱赶和围捕,它们有一种特殊的捕猎方式,被叫做气泡网觅食法(bubble-net feeding method),是通过在圆形或者类似于数字“9”形状的路径上不断释放独特的气泡来完成的。鲸鱼优化算法就是对座头鲸的狩猎行为进行了数学建模,并用于解决各种优化问题。在鲸鱼优化算法中,一个鲸鱼种群由多个鲸鱼个体组成,鲸鱼个体也可以称为搜索代理(search agent),每一个个体都代表了所要解决的某个问题的一个可能解,并且该解在计算机中被编码为一个向量表示。这样一组可能解的集合就叫做种群,整个群体具有很强的解的多样性。在鲸鱼算法中,每一个鲸鱼个体的位置由三部分控制:包围猎物、气泡网攻击和随机搜索猎物。
1、包围猎物。座头鲸本身可以识别猎物位置并将其包围,但由于要解决的问题的最优解(即目标猎物)在搜索空间中的位置不是先验已知的,WOA算法假设当前的最佳鲸鱼个体(最佳可能解)就是目标猎物或接近最优解。在定义了最佳鲸鱼个体之后,其他鲸鱼个体将尝试向着当前最佳鲸鱼个体(参考鲸鱼)更新它们的位置,每个鲸鱼个体的新位置可以定义为鲸鱼个体的原始位置与当前最佳鲸鱼个体之间的任意位置,这种行为由方程式(1)(2)表示:
D=|CX*(t)-X(t)| (1)
X(t+1)=X*(t)-A·D (2)
其中,t为当前迭代次数,A和C为系数向量,X*是当前最佳鲸鱼个体(当前最优解)的位置向量,X是当前鲸鱼个体的位置向量,||表示绝对值操作,·表示元素相乘。每次迭代过程中有更优解出现时就需要更新X*,A和C的计算由方程式(3)(4)表示:
A=2a·r-a (3)
C=2·r (4)
其中a在迭代过程中从2线性地下降至0,r为[0,1]之间的随机向量,A的波动范围也通过a降低,换句话说,A是一个区间[-a,a]内的随机值。等式(2)允许任何鲸鱼个体在当前最优解的领域内更新其位置,从而模拟了鲸鱼的包围猎物行为。
2、气泡网攻击。座头鲸为了使用气泡网来驱赶猎物,也会不断更新自身的位置。该方法首先计算鲸鱼个体位置和猎物(即当前最佳鲸鱼个体)位置之间的距离,然后在鲸鱼个体与猎物之间创建一个螺旋等式来模仿座头鲸的螺旋状移动。其螺旋形的位置更新公式由式(5)表示:
X(t+1)=D·ebl·cos(2πl)+X*(t) (5)
其中D=|X*(t)-(t)|,表示当前鲸鱼个体与猎物之间的距离,b为常数(一般默认取1),b定义了对数螺旋线的形状,l是[-1,1]之间的随机数。
值得注意的是,鲸鱼在捕猎过程中,上述收缩包围猎物与螺旋形路径的气泡网攻击行为是同时进行的。因此,为了对这种同时发生的行为进行建模,假设鲸鱼个体选择收缩包围机制和气泡网攻击来更新位置的概率p相同,均为0.5,其数学模型可由式(6)表示:
Figure BDA0002844244490000041
其中,p为[0,1]之间的随机数。若产生的随机数p<0.5,则鲸鱼个体选择包围猎物机制来更新位置;若产生的随机数p≥0.5,则选用气泡网攻击方式来更新位置。
3、随机搜索猎物。除了上述两种方式,座头鲸还会随机寻找猎物,同样基于可变的A向量。事实上,座头鲸是根据彼此的位置进行随机搜索的,因此使用随机值大于或小于-1的A来迫使当前鲸鱼个体远离参考鲸鱼。与前述阶段不同,这里用种群中随机选择的一个鲸鱼个体作为参考鲸鱼来更新当前鲸鱼个体的位置,而不是用当前最佳鲸鱼个体作为参考鲸鱼来更新位置。随机搜索猎物机制中|A|>1,强调了在搜索空间中的探索,并允许WOA算法执行全局搜索,数学模型由式(7)(8)表示:
D=|C·Xrand-X| (7)
X(t+1)=Xrand-A·D (8)
其中Xrand为从当前鲸鱼种群中选择的一个随机位置向量(表示一个随机鲸鱼个体)
综上所述,在WOA算法的每一次迭代过程中,鲸鱼种群中的每一个鲸鱼个体都在包围猎物、气泡网攻击和随机搜索猎物三种方式中选择一个来更新位置。传统鲸鱼优化算法的流程图可以示例性地参见图1,整个执行过程可以简单概括为以下步骤:
S101:定义边界,确定算法参数。
S102:初始化鲸鱼种群Xi(i=1,2,…,n),其中,n为鲸鱼种群中鲸鱼个体的个数。
S103:计算每一个鲸鱼个体的适应度,适应度通常用选定的目标优化函数来衡量,将当前最佳个体标记为X*
S104:WOA算法迭代计算,该步骤的伪代码如下:
Figure BDA0002844244490000051
应理解,上述关于传统鲸鱼优化算法的介绍仅是为了便于理解该算法的基本思想,并非限制本申请。传统鲸鱼优化算法虽然在简单的、较小规模的问题求解中具有不俗的性能,但是在复杂、较大规模的寻优问题中还是存在着搜索精度低、收敛速度慢且容易陷入局部最优解的问题,需要对其进行改进。
遗传算法(Genetic Algorithm,GA)是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型。遗传算法以一个种群中的所有个体为对象,选择(selection)、交叉(crossover)和变异(mutation)则构成了遗传算法的遗传操作。遗传操作有多种数学实现方式,一般可根据具体问题选择合适的数学实现方法。
选择操作通常是随机选择用于交叉的父代和母代个体。例如,选择操作中较为常用的赌轮选择法,是一种基于适应度比例的选择策略,适应度可以根据具体问题选择合适的适应度函数(或者说目标优化函数)来衡量。个体的适应度越好,该个体被选择的概率越大,但同时,概率小的个体也有机会被选中,从而保持种群的多样性。由于赌轮选择法中用于交叉的父代个体和母代个体是随机选择的,可以说这是一种不那么完美的选择方式。还有其他选择方式,这里不做过多介绍。
交叉操作指的是用数学方法来模拟自然进化中的染色体交叉、交换部分遗传物质的过程,交叉操作在向量中实现,就是由父代、母代个体的向量元素通过替换重组而生成新的子代个体,式(9)给出其中一种交叉方式:
Figure BDA0002844244490000061
其中,r∈[1,2,…,n]且r≠i,n为种群规模,Cr为交叉概率,xi,m为当前个体Xi的第m维元素,randi,m是对应于元素xi,m的一个随机数。对当前个体Xi执行式(9)的交叉操作,先选择一个父代个体Xr,若产生的随机数randi,m小于交叉概率Cr,则用父代个体Xr的第m维元素xr,m替换当前个体Xi(即母代个体)的第m维元素xi,m;若产生的随机数randi,m大于或等于交叉概率Cr,则当前个体Xi的第m维元素xi,m保持不变。当前个体完成上述交叉操作后最终得到一个新个体。需要注意的是,上述例子只是对向量其中一维的元素进行了交叉替换,交叉操作也可以对向量多个维度的元素进行交叉替换,还可以有其他的交叉方式,比如说均匀算数交叉等,本申请对交叉操作的具体实现方法不做限定。
变异操作也是利用数学方法来模拟自然界中的变异、染色体中部分基因在一定概率下发生改变的过程,变异操作在向量中实现就是对父代个体的向量元素做变动调整。式(10)给出变异操作的其中一种数学实现方式:
Figure BDA0002844244490000062
其中,r∈[1,2,…,n]且r≠i,n为种群规模,Mu为变异概率,xi,m为当前个体Xi的第m维元素,randi,m是对应于元素xi,m的一个随机数。若产生的随机数randi,m小于突变概率Mu,则将Xi的第m维元素变化为不同于xi,m的xc,xc可以是搜索空间中的任意值;若产生的随机数randi,m大于或等于突变概率Mu,则当前个体Xi的第m维元素xi,m保持不变。应理解,除了上述方法,变异操作还可以有其他数学实现方式,本申请也不作具体限定。
下面对本申请涉及的应用场景进行说明。
现如今,随处可以获得海量的原始数据,但是要想用这些原始数据来训练机器学习和深度学习模型,就需要预先对这些原始数据进行一定的处理,也就是进行数据标注,原始数据只有在经过数据标注后才能更好地释放其价值。例如,数据标注平台是外呼机器人项目组当中非常重要的一个环节,每天通过机器人实际外呼的语音数据都会流转到该平台进行核验及相应的数据标注,然后再次回传给模型进行训练。
提供的训练数据的质量和数量,往往会对机器学习模型产生重大影响,数据质量越好,模型性能越稳定。然而,作为人工智能项目基础的数据标注通常是由人工进行操作的,可谓是人工智能背后的“人工”,高质量的数据标注更是费时费力,数据标注几乎占了整个AI项目的大部分时间。而且,在海量的原始语音数据中会存在大批量各个场景和各个类型的数据,一个标注人员可能会拿到多种类型的数据,影响标注的效率。因此,将原始语音数据派发给相应的人员进行语音数据标注之前,如果能进行一定的预处理,让原始语音数据尽量分到相同的类别,再将各类别的语音数据派发给对应的标注人员,就能让同一批标注人员尽量只处理一个类别下的数据,更加有针对性,也有助于提高语音数据标注的效率。
针对上述问题,本申请实施例公开了一种数据分类方法,能够获取各个类别语音数据的聚类中心,然后通过聚类中心将待分类的语音数据归到相应的类别中,之后再派发给相应的人员进行语音数据标注,使得同一批标注人员尽量只处理一个类别下的数据,更加地有针对性,可以提升人工标注的效率,从而缩短整个AI项目的时间。
图2是本申请实施例提供的一种数据分类方法的流程图,该方法包括如下步骤:
S201:计算设备获取训练数据。
其中,训练数据包括k个类别,k为大于1的正整数。该训练数据的来源不限,可以是计算设备500向数据服务器发出请求而获得的,也可以是从数据标注平台取出的,还可以是人工直接输入数据等方式,本申请不作限定。
在一种可能的实施例中,在获取训练数据之前,计算设备提取训练数据的语音特征向量。
S202:通过WOA从目标训练数据中确定n个个体对应的向量,得到第一向量集。
其中,目标训练数据是上述k个类别中的任意一个类别的训练数据,n个个体中每个个体对应目标训练数据中的一个向量,n为大于1的正整数。应理解,WOA算法鲸鱼种群中的每个个体都是目标训练数据所在类别的聚类中心的一个可能解,鲸鱼优化算法的步骤过程可以参见图1及前述相关内容,为了说明书的简洁,这里不再赘述。
举例来说,假设在第1个类别的目标训练数据中有1000个目标训练数据,对应的向量分别为d1、d2…d1000。首先为WOA算法定义边界,即确定第1个类别的聚类中心c1的搜索空间,具体可以设定c1向量每一维元素的搜索范围,再确定算法参数,包括鲸鱼种群规模n、算法的最大迭代次数T等。搜索空间、算法参数都可以是人工根据经验确定的,这里设置鲸鱼种群规模n为5,算法的最大迭代次数T为50。然后初始化一个鲸鱼种群
Figure BDA0002844244490000071
其中,n为鲸鱼种群中鲸鱼个体的个数,“0”代表的是初始值、第0次迭代,上标“1”表示的是第1个类别,下标“i”表示的是种群中第i个个体,每一个个体都是聚类中心c1的一个可能解。种群中的5个个体分别为
Figure BDA0002844244490000072
从上述1000个目标训练数据对应的向量中随机选择5个向量(假设选择d3、d1、d5、d12、d30)作为这5个个体初始对应的向量,即
Figure BDA0002844244490000073
完成鲸鱼种群的初始化,得到第一向量集d3、d1、d5、d12、d30。应理解,这里只是以一个类别为例,其他类别也是执行同样的操作。
S203:使用目标优化函数计算第一向量集中每个向量对应的函数值,得到最佳向量。
具体的,使用目标优化函数分别计算第一向量集中每个向量对应的函数值,得到n个第一函数值,将这n个第一函数值中最小的第一函数值所对应的向量作为最佳向量。
在一种可能的实施例中,上述目标优化函数用于计算候选向量与目标训练数据中每个数据之间的距离之和,其中,候选向量为n个个体中任意一个个体对应的向量。应理解,通过目标优化函数计算得到的函数值越小,说明个体的适应度越好,该个体对应的向量越接近聚类中心的最优解。
在一种可能的实施例中,上述距离为汉明距离、闵式距离或夹角余弦距离中的任意一种。应理解,向量间距离的计算方式有很多种,本申请实施例还可以采用除上述计算方式以外的其他方式来计算向量间的距离。
S204:通过WOA分别更新n个个体对应的向量,得到第二向量集。
具体的,通过WOA算法的一次迭代过程分别更新n个个体中每一个个体对应的向量,将更新后n个个体所对应的向量设为第二向量集。关于鲸鱼优化算法的迭代过程,可参见图1传统鲸鱼优化算法流程图及相关的描述内容,为了说明书的简洁,这里不再赘述。
举例来说,第1个个体
Figure BDA0002844244490000074
在第一向量集中对应的向量为d3,对个体
Figure BDA0002844244490000075
执行WOA算法的一次迭代过程:首先随机得到p、A的值,发现此时的p<0.5且|A|<1,则通过式(2)执行包围猎物操作,个体
Figure BDA0002844244490000081
更新,假设个体
Figure BDA0002844244490000082
对应的向量由原来的d3变为了另一个向量d8,向量d8即为第1个个体
Figure BDA0002844244490000083
在第二向量集中对应的向量。上述内容只是以一个个体为例,对每一个类别中的每个个体都执行同样的操作,n个个体都更新了对应的向量,将n个个体更新后对应的向量设为第二向量集。
S205:分别计算第二向量集中每个向量与最佳向量之间的距离,由第一预设条件更新每个个体对应的向量,得到第三向量集。
具体的,分别计算第二向量集中每个向量与最佳向量之间的距离,由上述距离和第一预设条件更新每个个体对应的向量,得到第三向量集,其中,第三向量集包括n个个体中每个个体对应的第三向量。
在一种可能的实施例中,如图3所示,首先计算目标个体在第二向量集中对应的向量与最佳向量之间的距离。在上述距离大于第一阈值时,对目标个体在第二向量集中对应的向量与最佳向量执行交叉操作,得到目标个体在第三向量集中对应的第三向量,其中,上述目标个体是n个个体中的任意一个。
在一种可能的实施例中,如图3所示,计算目标个体在第二向量集中对应的向量与最佳向量之间的距离。在上述距离小于或等于第一阈值时,对目标个体在第二向量集中对应的向量执行突变操作,得到目标个体在第三向量集中对应的第三向量,其中,上述目标个体是n个个体中的任意一个。
举例来说,假设当前的最佳向量为d5,目标个体为n个个体中的第一个个体
Figure BDA0002844244490000084
此时
Figure BDA0002844244490000085
在第二向量集中对应的向量为d8,首先计算d8与最佳向量d5之间的汉明距离。在上述汉明距离大于第一阈值时,对目标个体
Figure BDA0002844244490000086
在第二向量集中对应的向量d8与最佳向量d5执行交叉操作,得到一个新的向量(假设交叉得到d43),将向量d43作为目标个体
Figure BDA0002844244490000087
在第三向量集中对应的第三向量;在上述汉明距离小于或等于第一阈值时,对目标个体
Figure BDA0002844244490000088
此时在第二向量集中对应的向量d8执行变异操作,得到一个新的向量(假设变异得到d44),然后将向量d44作为目标个体
Figure BDA0002844244490000089
在第三向量集中对应的第三向量。应理解,上述内容只是以一个个体进行举例,对每一个个体都执行同样的操作,可以分别得到每个个体对应的第三向量,组成第三向量集。需要注意的是,本发明不对交叉操作和变异操作的数学实现方式做具体限定,关于交叉和变异操作的介绍请参照前述内容,这里不再赘述。
S206:使用目标优化函数计算第二向量集和第三向量集中每个向量对应的函数值,由第二预设条件确定n个个体对应的目标向量,得到目标向量集。
其中,目标向量集包括n个个体中每个个体对应的目标向量。
在一种可能的实施例中,如图3所示,使用目标优化函数,计算目标个体在第二向量集中对应的向量的函数值与在第三向量集中对应的向量的函数值,在第二向量集中对应的向量的函数值大于第三向量集中对应的向量的函数值时,将第三向量集中对应的向量作为该目标个体对应的目标向量;
在一种可能的实施例中,如图3所示,使用目标优化函数,计算目标个体在第二向量集中对应的向量的函数值与在第三向量集中对应的向量的函数值,在第二向量集中对应的向量的函数值小于或等于第三向量集中对应的向量的函数值时,对目标个体在第二向量集中对应的向量使用传统磷虾群算法(KHA)得到该目标个体对应的目标向量,其中,目标个体是所述n个个体中的任意一个。
举例来说,假设目标个体为n个个体中的第一个个体
Figure BDA00028442444900000810
此时目标个体
Figure BDA00028442444900000811
在第二向量集中对应的向量为d8
Figure BDA0002844244490000091
在第三向量集中对应的向量为d43。通过目标优化函数分别计算d8和d43对应的函数值,判断二者的大小关系。在d8对应的函数值大于d43对应的函数值时,将向量d43作为目标个体
Figure BDA0002844244490000092
对应的目标向量;在d8对应的函数值小于或等于d43对应的函数值时,对目标个体
Figure BDA0002844244490000093
在第二向量集中对应的向量d8使用传统磷虾群算法(KHA),得到该目标个体
Figure BDA0002844244490000094
对应的目标向量。上述内容只是以一个个体为例,对其他个体
Figure BDA0002844244490000095
Figure BDA0002844244490000096
Figure BDA0002844244490000097
也分别执行上述操作,最终n个个体都确定了一个对应的目标向量,将这n个目标向量设为目标向量集。其他类别的操作同理。
S207:用目标优化函数计算目标向量集中每个向量对应的函数值,得到n个目标函数值。
S208:将n个目标函数值中最小目标函数值与最佳向量对应的函数值比较,确定新的最佳向量。
具体的,将n个目标函数值中最小的目标函数值与所述最佳向量对应的函数值进行比较,在上述最小的目标函数值小于最佳向量对应的函数值时,将最小的目标函数值对应的目标向量作为新的最佳向量。
S209:将最后更新得到的新的最佳向量作为目标训练数据的聚类中心。
具体的,执行预设次数(即最大迭代次数T)的步骤S204~S208的更新操作,其中,在第t次计算时,将第t-1次计算得到的新的最佳向量,作为第t次执行上述S204至S208时的最佳向量,将最后一次更新操作得到的新的最佳向量作为目标训练数据的聚类中心。
S210:获取待分类语音数据,通过聚类中心完成待分类语音数据的分类。
具体的,获取待分类语音数据,分别计算所述待分类语音数据与所述k个类别的聚类中心的距离,得到与待分类语音数据距离最小的一个聚类中心,将所述待分类语音数据归到与所述待分类语音数据距离最小的聚类中心对应的类别中。应理解,待分类语音数据与聚类中心之间的距离值可以作为数据间相似性的衡量标准,距离越近,说明待分类语音数据和距离中心对应类别中的数据相似度越高。因此,可以将待分类语音数据归到与其距离最近的聚类中心所在的类别中,完成待分类原始数据的分类。
举例来说,有一个待分类语音数据,提取其语音特征向量得到dnew,分别计算dnew与得到的10个聚类中心c1~c10之间的距离,发现dnew与c5的距离最小,于是将dnew归到聚类中心c5所在的第五个类别中,完成该语音数据的分类,其他待分类语音数据也通过同样的方式进行分类。
可以看到,本申请实施例基于传统鲸鱼优化算法WOA,能够获取各个类别语音数据的聚类中心,然后通过上述聚类中心将待分类的语音数据归类到相应的类别中,之后再派发给相应的人员进行数据标注,使得同一批标注人员尽量只处理一个类别下的语音数据,更加地有针对性,可以大大提升人工标注的效率,从而缩短整个AI项目的时间。
应理解,上述步骤S201~S210除了用于语音数据分类,还可以用于其他类型数据的分类,包括文本数据、视频数据、图像数据等类型数据的分类。具体可根据数据的类型来进行相应的特征提取,比如对于视频数据进行人脸特征提取,对于文本数据进行语义特征提取等等,本申请不作具体限定。
图4是本申请实施例提供的一种数据分类装置400的结构示意图,该数据分类装置包括:
获取模块401,用于获取训练数据,其中,所述训练数据包括k个类别,k为大于1的正整数;
处理模块402,用于通过鲸鱼优化算法WOA从目标训练数据中确定n个个体对应的向量,得到第一向量集,其中,所述目标训练数据是所述k个类别中的任意一个类别,n为大于1的正整数;
所述处理模块402还用于:
使用目标优化函数分别计算所述第一向量集中每个向量对应的函数值,得到n个第一函数值,将所述n个第一函数值中最小第一函数值对应的向量作为最佳向量;
执行更新操作:
通过WOA分别更新所述n个个体对应的向量,得到第二向量集;
分别计算所述第二向量集中每个向量与所述最佳向量之间的距离,由所述距离与第一预设条件,更新所述每个个体对应的向量,得到第三向量集;
使用所述目标优化函数,计算所述第二向量集中每个向量对应的函数值以及所述第三向量集中每个向量对应的函数值,由第二预设条件确定所述n个个体对应的目标向量,得到目标向量集;
使用所述目标优化函数计算所述目标向量集中每个目标向量对应的函数值,得到n个目标函数值;
将所述n个目标函数值中最小目标函数值与所述最佳向量对应的函数值进行比较,在所述最小目标函数值小于所述最佳向量对应的函数值时,确定所述最小目标函数值对应的目标向量作为新的最佳向量;
执行预设次数的所述更新操作,将最后一次所述更新操作得到的所述新的最佳向量作为所述目标训练数据的聚类中心;
获取待分类语音数据,分别计算所述待分类语音数据与所述k个类别的聚类中心的距离,将所述待分类语音数据归到与所述待分类语音数据距离最小的所述聚类中心对应的类别中。
所述数据分类装置400的各个模块具体用于实现图2数据分类方法实施例中的步骤S201~S210,为了说明书的简洁,这里不再赘述。
图5是本申请实施例提供的一种计算设备500的结构示意图,该计算设备500可以是前述内容中的数据分类装置400。所述计算设备可以是笔记本电脑、平板电脑以及云端服务器等计算设备,本申请不做限制。应理解,所述计算设备还可以是至少一个服务器构成的计算机集群,本申请不做具体限定。
计算设备500包括:处理器501、通信接口502以及存储器503,所述计算设备用于实行上述各个数据分类方法实施例中的步骤。其中,处理器501、通信接口502以及存储器503可以通过内部总线504相互连接,也可通过无线传输等其他手段实现通信。本申请实施例以通过总线504连接为例,总线504可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。总线504可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
处理器501可以由至少一个通用处理器构成,例如中央处理器(CentralProcessing Unit,CPU),或者CPU和硬件芯片的组合。上述硬件芯片可以是专用集成电路(Application-Specific Integrated Circuit,ASIC)、可编程逻辑器件(ProgrammableLogic Device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(ComplexProgrammable Logic Device,CPLD)、现场可编程逻辑门阵列(Field-Programmable GateArray,FPGA)、通用阵列逻辑(Generic Array Logic,GAL)或其任意组合。处理器501执行各种类型的数字存储指令,例如存储在存储器503中的软件或者固件程序,它能使计算设备500提供多种服务。
存储器503用于存储程序代码,并由处理器501来控制执行,以执行上述各个数据分类方法实施例中的处理步骤。程序代码中可以包括一个或多个软件模块,这一个或多个软件模块可以为图4实施例中提供的软件模块,如获取模块、处理模块,各个模块具体可用于执行图2实施例中的步骤S201~S210,这里不再进行赘述。
需要说明的是,本实施例可以是通用的物理服务器实现的,例如,ARM服务器或者X86服务器,也可以是基于通用的物理服务器结合NFV技术实现的虚拟机实现的,虚拟机指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统,本申请不作具体限定。
存储器503可以包括易失性存储器(Volatile Memory),例如随机存取存储器(Random Access Memory,RAM);存储器503也可以包括非易失性存储器(Non-VolatileMemory),例如只读存储器(Read-Only Memory,ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);存储器503还可以包括上述种类的组合。存储器503可以存储有程序代码,具体可以包括用于执行图2实施例描述的步骤的程序代码,这里不再进行赘述。
通信接口502可以为有线接口(例如以太网接口),可以为内部接口(例如高速串行计算机扩展总线(Peripheral Component Interconnect express,PCIe)总线接口)、有线接口(例如以太网接口)或无线接口(例如蜂窝网络接口或使用无线局域网接口),用于与与其他设备或模块进行通信。
需要说明的,图5仅仅是本申请实施例的一种可能的实现方式,实际应用中,计算设备500还可以包括更多或更少的部件,这里不作限制。关于本申请实施例中未出示或未描述的内容,可参见前述图2实施例中的相关阐述,这里不再赘述。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在处理器上运行时,图2所示的方法流程得以实现。
本申请实施例还提供一种计算机程序产品,当计算机程序产品在处理器上运行时,图2所示的方法流程得以实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请一种较佳实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于申请所涵盖的范围。

Claims (10)

1.一种数据分类方法,其特征在于,所述方法包括:
获取训练数据,其中,所述训练数据包括k个类别,k为大于1的正整数;
通过鲸鱼优化算法WOA从目标训练数据中确定n个个体对应的向量,得到第一向量集,其中,所述目标训练数据是所述k个类别中的任意一个类别,n为大于1的正整数;
使用目标优化函数分别计算所述第一向量集中每个向量对应的函数值,得到n个第一函数值,将所述n个第一函数值中最小第一函数值对应的向量作为最佳向量;
执行更新操作:
通过WOA分别更新所述n个个体对应的向量,得到第二向量集;
分别计算所述第二向量集中每个向量与所述最佳向量之间的距离,由所述距离与第一预设条件,更新所述每个个体对应的向量,得到第三向量集;
使用所述目标优化函数,计算所述第二向量集以及所述第三向量集中每个向量对应的函数值,由第二预设条件确定所述n个个体对应的目标向量,得到目标向量集;
使用所述目标优化函数计算所述目标向量集中每个目标向量对应的函数值,得到n个目标函数值;
将所述n个目标函数值中最小目标函数值与所述最佳向量对应的函数值进行比较,在所述最小目标函数值小于所述最佳向量对应的函数值时,确定所述最小目标函数值对应的目标向量作为新的最佳向量;
执行预设次数的所述更新操作,将最后一次所述更新操作得到的所述新的最佳向量作为所述目标训练数据的聚类中心;
获取待分类语音数据,分别计算所述待分类语音数据与所述k个类别的聚类中心的距离,将所述待分类语音数据归到与所述待分类语音数据距离最小的所述聚类中心对应的类别中。
2.根据权利要求1所述的方法,其特征在于,所述第三向量集包括所述每个个体对应的第三向量;
所述由所述距离与第一预设条件,更新所述每个个体对应的向量,得到第三向量集,包括:
计算目标个体在所述第二向量集中对应的向量与所述最佳向量之间的距离,其中,所述目标个体是所述n个个体中的任意一个;
在所述距离大于第一阈值时,对所述目标个体在所述第二向量集中对应的向量与所述最佳向量执行交叉操作,得到所述目标个体在所述第三向量集中对应的第三向量。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在所述距离小于或等于所述第一阈值时,对所述目标个体在所述第二向量集中对应的向量执行变异操作,得到所述目标个体在所述第三向量集中对应的第三向量。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述由第二预设条件确定所述n个个体对应的目标向量,得到目标向量集,包括:
使用所述目标优化函数,计算所述目标个体在所述第二向量集中对应的向量的函数值与在所述第三向量集中对应的向量的函数值,其中,所述目标个体是所述n个个体中的任意一个;
在所述第二向量集中对应的向量的函数值大于所述第三向量集中对应的向量的函数值时,将所述第三向量集中对应的向量作为所述目标个体对应的目标向量。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
在所述第二向量集中对应的向量的函数值小于或等于所述第三向量集中对应的向量的函数值时,使用传统磷虾群算法KHA得到所述目标个体对应的目标向量。
6.根据权利要求5所述的方法,其特征在于,所述目标优化函数用于计算候选向量与所述目标训练数据中每个数据之间的距离之和,其中,所述候选向量为所述n个个体中任意一个个体对应的向量。
7.根据权利要求6所述的方法,其特征在于,所述距离为汉明距离、闵式距离或夹角余弦距离中的任意一种。
8.一种数据分类装置,其特征在于,所述装置包括:
获取模块,用于获取训练数据,其中,所述训练数据包括k个类别,k为大于1的正整数;
处理模块,用于通过鲸鱼优化算法WOA从目标训练数据中确定n个个体对应的向量,得到第一向量集,其中,所述目标训练数据是所述k个类别中的任意一个类别,n为大于1的正整数;
所述处理模块还用于:
使用目标优化函数分别计算所述第一向量集中每个向量对应的函数值,得到n个第一函数值,将所述n个第一函数值中最小第一函数值对应的向量作为最佳向量;
执行更新操作:
通过WOA分别更新所述n个个体对应的向量,得到第二向量集;
分别计算所述第二向量集中每个向量与所述最佳向量之间的距离,由所述距离与第一预设条件,更新所述每个个体对应的向量,得到第三向量集;
使用所述目标优化函数,计算所述第二向量集中每个向量对应的函数值以及所述第三向量集中每个向量对应的函数值,由第二预设条件确定所述n个个体对应的目标向量,得到目标向量集;
使用所述目标优化函数计算所述目标向量集中每个目标向量对应的函数值,得到n个目标函数值;
将所述n个目标函数值中最小目标函数值与所述最佳向量对应的函数值进行比较,在所述最小目标函数值小于所述最佳向量对应的函数值时,确定所述最小目标函数值对应的目标向量作为新的最佳向量;
执行预设次数的所述更新操作,将最后一次所述更新操作得到的所述新的最佳向量作为所述目标训练数据的聚类中心;
获取待分类语音数据,分别计算所述待分类语音数据与所述k个类别的聚类中心的距离,将所述待分类语音数据归到与所述待分类语音数据距离最小的所述聚类中心对应的类别中。
9.一种计算设备,其特征在于,包括存储器和处理器:
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述存储器中存储的计算机程序,以使得所述计算设备执行如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,包括程序或指令,当所述程序或指令在计算机设备上执行时,执行如权利要求1-7中任一项所述的方法。
CN202011503667.5A 2020-12-17 2020-12-17 一种数据分类方法、装置及相关设备 Pending CN112613550A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011503667.5A CN112613550A (zh) 2020-12-17 2020-12-17 一种数据分类方法、装置及相关设备
PCT/CN2021/096647 WO2022127037A1 (zh) 2020-12-17 2021-05-28 一种数据分类方法、装置及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011503667.5A CN112613550A (zh) 2020-12-17 2020-12-17 一种数据分类方法、装置及相关设备

Publications (1)

Publication Number Publication Date
CN112613550A true CN112613550A (zh) 2021-04-06

Family

ID=75241078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011503667.5A Pending CN112613550A (zh) 2020-12-17 2020-12-17 一种数据分类方法、装置及相关设备

Country Status (2)

Country Link
CN (1) CN112613550A (zh)
WO (1) WO2022127037A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022127037A1 (zh) * 2020-12-17 2022-06-23 平安科技(深圳)有限公司 一种数据分类方法、装置及相关设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115689389B (zh) * 2022-11-21 2023-07-14 黑龙江省水利科学研究院 基于鲸鱼算法和投影寻踪的寒区河湖健康评价方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263834A (zh) * 2019-06-13 2019-09-20 东华大学 一种新能源电能质量异常值的检测方法
CN110989342A (zh) * 2019-11-19 2020-04-10 华北电力大学 一种联合循环机组重型燃气轮机实时t-s模糊建模方法
CN111506729A (zh) * 2020-04-17 2020-08-07 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质
CN112070418A (zh) * 2020-09-21 2020-12-11 大连大学 一种多目标鲸鱼优化算法的武器目标分配方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108389211B (zh) * 2018-03-16 2020-08-11 西安电子科技大学 基于改进鲸鱼优化模糊聚类的图像分割方法
CN112613550A (zh) * 2020-12-17 2021-04-06 平安科技(深圳)有限公司 一种数据分类方法、装置及相关设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263834A (zh) * 2019-06-13 2019-09-20 东华大学 一种新能源电能质量异常值的检测方法
CN110989342A (zh) * 2019-11-19 2020-04-10 华北电力大学 一种联合循环机组重型燃气轮机实时t-s模糊建模方法
CN111506729A (zh) * 2020-04-17 2020-08-07 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质
CN112070418A (zh) * 2020-09-21 2020-12-11 大连大学 一种多目标鲸鱼优化算法的武器目标分配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JHILA NASIRI ET AL.: "A whale optimization algorithm (WOA) approach for clustering", 《COGENT MATHEMATICS & STATISTICS》 *
陈亚环: "混合群智能算法及其在聚类分析中的应用研究", 《中国优秀硕博士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022127037A1 (zh) * 2020-12-17 2022-06-23 平安科技(深圳)有限公司 一种数据分类方法、装置及相关设备

Also Published As

Publication number Publication date
WO2022127037A1 (zh) 2022-06-23

Similar Documents

Publication Publication Date Title
CN109241903B (zh) 样本数据清洗方法、装置、计算机设备及存储介质
Kourmpetis et al. Bayesian Markov Random Field analysis for protein function prediction based on network data
US20160358070A1 (en) Automatic tuning of artificial neural networks
CN111291139A (zh) 基于注意力机制的知识图谱长尾关系补全方法
CN108171663B (zh) 基于特征图最近邻替换的卷积神经网络的图像填充系统
Too et al. Spatial bound whale optimization algorithm: an efficient high-dimensional feature selection approach
CN111080397A (zh) 信用评估方法、装置及电子设备
CN108536784B (zh) 评论信息情感分析方法、装置、计算机存储介质和服务器
CN112613550A (zh) 一种数据分类方法、装置及相关设备
Tavakoli Modeling genome data using bidirectional LSTM
CN111627494B (zh) 基于多维特征的蛋白质性质预测方法、装置和计算设备
CN111260032A (zh) 神经网络训练方法、图像处理方法及装置
CN112951328A (zh) 基于深度学习异构信息网络的miRNA-基因关系预测方法及系统
CN112149825A (zh) 神经网络模型的训练方法及装置、电子设备、存储介质
CN113066528B (zh) 基于主动半监督图神经网络的蛋白质分类方法
CN113011532A (zh) 分类模型训练方法、装置、计算设备及存储介质
CN107743071B (zh) 一种网络节点的增强表示方法及装置
CN110070104B (zh) 一种用户推荐方法、装置及服务器
CN111666991A (zh) 基于卷积神经网络的模式识别方法、装置和计算机设备
CN109783769B (zh) 一种基于用户项目评分的矩阵分解方法和装置
CN114420221A (zh) 一种基于知识图谱辅助的多任务药物筛选方法和系统
CN113539372A (zh) 一种LncRNA和疾病关联关系的高效预测方法
CN114117787A (zh) 基于ssa优化bp神经网络的短期风功率预测方法
CN110739028B (zh) 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法
CN109801675B (zh) 一种确定蛋白质脂质功能的方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210406

RJ01 Rejection of invention patent application after publication