CN113723507A - 数据分类标识确定方法、装置、电子设备及存储介质 - Google Patents
数据分类标识确定方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113723507A CN113723507A CN202111004362.4A CN202111004362A CN113723507A CN 113723507 A CN113723507 A CN 113723507A CN 202111004362 A CN202111004362 A CN 202111004362A CN 113723507 A CN113723507 A CN 113723507A
- Authority
- CN
- China
- Prior art keywords
- data
- classified
- class
- cluster
- mark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013145 classification model Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 22
- 230000000694 effects Effects 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 13
- 238000005070 sampling Methods 0.000 description 7
- 201000010099 disease Diseases 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 206010012601 diabetes mellitus Diseases 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 206010020772 Hypertension Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 201000001421 hyperglycemia Diseases 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000004579 scanning voltage microscopy Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种数据分类标识确定方法、装置、电子设备及存储介质,该方法包括:从各待分类标记类簇中获取至少一个待分类标记数据;将各待分类标记数据输入至预先训练好的数据分类模型中,得到与各待分类标记数据相对应的类别标签;其中所述数据分类模型是基于训练数据和与所述训练数据相对应的类别标签训练得到的;根据各类别标签所对应的待分类标记数据的类簇标识,确定各待分类标记类簇的类别标识。本发明实施例的技术方案,解决了现有技术中在数据量较大的情况下,需要依次对各个数据进行分类标记,存在标记量较大、效率较低以及成本高的问题,实现了自动、便捷高效的对所有数据进行准确标记的技术效果。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种数据分类标识确定方法、装置、电子设备及存储介质。
背景技术
随着信息和通信技术的迅速发展,全球的数据量呈现爆炸式增长。面对海量、复杂的数据,有效的数据分析和数据深层次起着至关重要的作用。
在具体应用中,数据分类标记在数据挖掘中在起着至关重要的作用。例如,健康体检的数据有很多,依据健康数据可以确定体验用户是否存在高血压、高血糖等其他病症,同时,还可以标记其病症风险等级。
但是,依据专业医生对数据进行分类标识时,存在专业医生的精力和时间是有限的,导致无法有效的对所有数据进行类别标记;进一步的,现有数据量较大,基于人工对数据进行标记时,存在时间成本较高以及效率较低的技术问题。
发明内容
本发明提供一种数据分类标识确定方法、装置、电子设备及存储介质,以实现快速、便捷以及准确对需要分类标记的数据进行有效标记的技术效果。
第一方面,本发明实施例提供了一种数据分类标识确定方法,该方法包括:
从各待分类标记类簇中获取至少一个待分类标记数据;
将各待分类标记数据输入至预先训练好的数据分类模型中,得到与各待分类标记数据相对应的类别标签;其中所述数据分类模型是基于训练数据和与所述训练数据相对应的类别标签训练得到的;
根据各类别标签所对应的待分类标记数据的类簇标识,确定各待分类标记类簇的类别标识。
第二方面,本发明实施例还提供了一种数据分类标识确定装置,该装置包括:
数据确定模块,用于从各待分类标记类簇中获取至少一个待分类标记数据;
类别标签确定模块,用于将各待分类标记数据输入至预先训练好的数据分类模型中,得到与各待分类标记数据相对应的类别标签;其中所述数据分类模型是基于训练数据和与所述训练数据相对应的类别标签训练得到的;
类别标识确定模块,用于根据各类别标签所对应的待分类标记数据的类簇标识,确定各待分类标记类簇的类别标识。
第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例任一所述的数据分类标识确定方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例任一所述的数据分类标识确定方法。
本发明实施例的技术方案,通过从各待分类标记类簇中获取至少一个待分类标记数据,并将各待分类标记数据输入至预先训练好的数据分类模型中,得到与每个待分类标记数据相对应的类别标签,根据各类别标签所对应的待分类标记数据的类簇标识,确定各待分类标记类簇中各分类标记数据的类别标识,解决了现有技术中在数据量较大情况下,在对各个数据进行类别标记时,存在时间成本和人力成本较高,以及标记效率较低的问题,实现了预先对所有数据进行聚类,并对每个类簇中的部分数据进行分类处理,并依据分类处理结果确定相应类簇中数据的类别标识,提高了确定类别标识的便捷性以及高效性的技术效果。
附图说明
为了更加清楚地说明本发明示例性实施例的技术方案,下面对描述实施例中所需要用到的附图做一简单介绍。显然,所介绍的附图只是本发明所要描述的一部分实施例的附图,而不是全部的附图,对于本领域普通技术人员,在不付出创造性劳动的前提下,还可以根据这些附图得到其他的附图。
图1为本发明实施例一所提供的一种数据分类标识确定方法的流程示意图;
图2为本发明实施例二所提供的一种数据分类标识确定方法的流程示意图;
图3为本发明实施例三所提供的一种数据分类标识确定装置的结构示意图;
图4为本发明实施例四所提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一所提供的一种数据分类标识确定方法的流程示意图,本实施例可适用于对数以亿计的数据进行类别标记的情形,该方法可以由数据分类标识确定装置来执行,该装置可以通过软件和/或硬件的形式实现,硬件可以是电子设备,如,移动终端或PC端等。
在介绍本技术方案之前,可以先对应用场景进行示例性说明。在医疗场景中,每天可以产生数以亿计的数据。这些数据中有些数据类别是相同的,有些数据类别是不同的。可选的,如果是医疗数据,医疗数据中可以包括不同疾病类型对应的数据,不同疾病类型所对应的病症等级不同。示例性的,糖尿病患者的病症等级包括初级、中度糖尿病患者或者重度糖尿病患者。因此为了区分患者的不同程度,医生可以根据检查数据来确定其标签。也就是说,医生可以根据患者数据为不同患者打标,但是当数据量较大,并逐一为其打标时,存在人力成本较高以及效率较低的问题。为了实现对各个数据进行打标,可以预先对预设数量的数据进行打标签,并基于打标签的数据训练数据分类标签确定模型,以基于数据分类标签模型确定各个未标记数据的标签。在基于数据分类模型对各个数据进行处理,确定其标签时,存在效率较低的问题,为了进一步提高打标签的效率,可以基于本技术方案来实现。
如图1所述,本实施例的方法包括:
S110、从各待分类标记类簇中获取至少一个待分类标记数据。
其中,可以将数以亿计的数据按照一定的规则划分为多个组别。可以将每个组别作为一个待分类标记类簇,每个待分类标记类簇中包括多个数据。该待分类标记类簇中包括多个待分类标识数据,即需要对其进行类别标记的数据。为了确定每个待分类标记类簇中类别标识,可以从与每个待分类标记类簇所对应的数据中获取部分数据,可以将获取到的数据作为所述待分类标记数据。
也就是说,在确定每个待分类标记类簇的类别标识之前,可以先对所有未标记数据进行聚类,得到多个待分类标记类簇。每个待分类标记类簇中关联有多个数据。为了确定待分类标记类簇中各个待分类标记数据的标签,可以按照一定的规则从各待分类标记类簇中获取部分待分类标记数据,以根据部分待分类标记数据的类别标识,确定待分类标记类簇的类别标识,进而确定待分类标记类簇中各个待分类标记数据的标识。
可选的,获取待处理数据,并对各待处理数据进行聚类处理,得到至少一个待分类标记类簇,以从所述至少一个待分类标记类簇中获取待分类标记数据。
其中,可以将所有未标记的数据作为待处理数据。为了提高每次处理的数据量,可以获取尽可能多的未标记的待处理数据,可选的,从存储或计算平台Hadoop上,以获取大量待处理数据。聚类处理可以理解为将数据类型或者内容相差不大的数据划分为用一类。聚类的方法可以是但不局限于是层次聚类、基于spark的K-means的聚类方法等。
具体的,在获取到待处理数据后,可以采用聚类算法对待处理数据进行聚类处理,得到多个数据组。将每个数据组作为一个待分类标记类簇。示例性,可以根据预先设置的数据聚类规则,对所有待处理数据进行聚类处理,得到m个类簇,每个类簇中可以包括多个(Ni)待处理数据。当然,也可以是根据预先设置的类簇数量和聚类规则,将所有待处理数据聚类至各个类簇中。
在本实施例中,在将各个待处理数据聚类得到各个待分类标记类簇后,可以从每个待分类标记类簇中获取相应的待分类标记数据,进而根据待分类标记数据的类别标签,确定相应待分类标记类簇的类别标识。
可选的,所述从各待分类标记类簇中获取至少一个待分类标记数据,包括:根据预先设置的数据总量,确定与每个待分类标记类簇相对应的数据获取数量;根据各数据获取数量从相应的待分标记类簇中获取至少一个待分类标记数据。
其中,用户可以预先设置要获取的数据总量,可选的,如果待分类标记数据有一亿个,预设设置的数据总量可以是一千万个。
具体的,可以根据预先设置的数据总量,和每个待分类标记类簇中的总数据的数量,可以确定从每个待分类标记类簇中获取数据的数据数量,进而根据确定的数据数量从名待分类标记类簇中随机获取待分类标记数据。
在本实施例中,所述根据预先设置的数据总量,确定每个待分类标记类簇相对应的数据获取量,包括:根据每个待分类标记类簇中所包含的数据总量,确定从各待分类标记类簇中获取待分类标记数据的比例;根据所述比例和所述预先设置的数据总量,确定与每个待分类标记类簇相对应的数据获取量。
其中,可以根据每个待分类标记类簇中的数据量,确定每个待分类标记类簇中的数据比例,例如,待分类标记类簇有三个,每个类簇中的数据数量分别二万、三万和五万,那么比例就可以是2:3:5。可以依据此比例和预先设置的数据总量,确定每个待分类标记类簇中的数据获取量,可选的,总数据量为一万,那么可以从第一个待分类标记类簇中获取二千个数据,从第二个待分类标记类簇中获取三千个数据,从第三个待分类标记类簇中获取五千个数据。也就是说,在获取每个待分类标记类簇之间的比例后,可以依据预设数据量和比例确定从每个待分类标记类簇中获取数据的数据量,进而基于数据量从相应的待分类标记类簇中获取相应的待分类标记数据。
需要说明的是,在从每个待分类标记类簇中获取相应的待分类标记数据时,可以采用随机抽样的方式来获取。
需要说明的,为了提高从每个类簇中找到最为合适的待分类标记数据,可以按照分层抽样的方式从各类簇中抽取相应的数据。可选的,在聚类完成后,会存在聚类中心,可以按照每个样本距离聚类中心的距离进行分层。然后,从每层中抽取一定数量的待分类标记数据。
在上述技术方案的基础上,从每个待分类标记簇中获取待分类标记数据,可以是采用分层抽样的方式,可选的,以待分类标记簇中某个数据为中心点,采用分层抽样的方式从各待分类标记簇中获取部分待分类标记数据。
S120、将各待分类标记数据输入至预先训练好的数据分类模型中,得到与各待分类标记数据相对应的类别标签。
其中所述数据分类模型是基于训练数据和与所述训练数据相对应的类别标签训练得到的。
需要说明的是,可以先训练得到分类预测模型,该分类预测模型即为数据分类模型。
具体的,可以获取医生标记过的样本,该样本中可以包括训练样本和训练数据对应的标签。基于各待训练数据和相应的标签,对待训练分类预测模型进行训练,当检测到分类预测模型中的损失函数收敛时,分类预测模型训练完成。
具体的,可以将获取到各待分类标记数据输入至预先训练好的数据分类模型中,得到与每个待分类标记数据相对应的类别标签。
S130、根据各类别标签所对应的待分类标记数据的类簇标识,确定各待分类标记类簇的类别标识。
需要说明的是,在从各个待分类标记类簇中获取相应的待分类标记数据时,各待分类标记数据上可以携带有每个待分类标识的类簇标识。即,类簇标识用于表征当前是哪一个类簇。类别标识可以理解为待分类标记类簇中各个待分类标记类别。如果确定了每个待分类标记类簇的标识,那么该待分类标记类簇中的各个待分类标记数据也可以是此类别标识。
具体的,可以根据每个待分类标记数据的类别标签,以及与每个待分类标记类别数据相对应的类簇标识,可以确定同一类簇标识所对应的待分类标记数据的类别标签。针对同一类簇标识的分类标记数据的类别标签,可以确定频次最高的类别标签,可以将此类别标签作为该待分类标记类簇的类别标识。
可选的,所述根据各类别标签所对应的待分类标记数据的类簇标识,确定各待分类标记类簇的类别标识,包括:确定与每个类簇标识相关联的待分类标记数据的类别标签,并确定同一类别标签的频次,并根据所述频次确定与每个类簇标识相对应的目标类别标签。
具体的,针对每个类簇标识,可以确定与同一类簇标识相对应的待分类标记数据的类别标签,并确定每个类别标签出现的频次,可以将出现频次最高的类别标签作为该类簇标识所对应的待分类标记类簇的类别标识。
可选的,所述根据所述频次确定与每个类簇标识相对应的目标类别标识,包括:针对每个类簇标识,将当前类簇标识中频次最高的类别标签作为所述目标类别标签。
可以理解为,针对每个类簇标识,可以确定当前类簇标识所关联的待分类标记数据的类别标签,并统计相应类别标签出现的频次,可以将出现频次最高的类别标签作为目标类别标签。
在实际应用中,可能存在同一待分类标记类簇中类别标签出现的频次相同的情形,此时可以采用如下方式进行处理:针对各类簇标识,如果当前类簇标识中存在至少两个类别标签的频次相同,则调整预先设置的数据总量,以重新从各待分类标记类簇中确定待分别标记数据。
可以理解为,此如果类簇标识中出现至少两个类别标签的频次相同的情况,此时可以调整预设的数据总量,并根据调整后的数据总重复执行上述步骤,得到每个待分类标记类簇的类别标识。
需要说明的,在确定每个待分类标记类簇的类别标识后,可以将此类别标识作为该待分类标记类簇中各个待分类标记数据的类别标签,此时,提高确定每个待分类标记数据类别标签的便捷性和准确定的技术效果。
本发明实施例的技术方案,通过从各待分类标记类簇中获取至少一个待分类标记数据,并将各待分类标记数据输入至预先训练好的数据分类模型中,得到与每个待分类标记数据相对应的类别标签,根据各类别标签所对应的待分类标记数据的类簇标识,确定各待分类标记类簇中各分类标记数据的类别标识,解决了现有技术中在数据量较大情况下,在对各个数据进行类别标记时,存在时间成本和人力成本较高,以及标记效率较低的问题,实现了预先对所有数据进行聚类,并对每个类簇中的部分数据进行分类处理,并依据分类处理结果确定相应类簇中数据的类别标识,提高了确定类别标识的便捷性以及高效性的技术效果。
实施例二
作为上述实施例的一可选实施例,图2为本发明实施例二所提供的一种数据分类标识确定方法流程示意图。参见图2,获取未标记的样本数据,即获取未标记的待分类标记数据。利用现有的数据聚类方法,将待分类标记数据聚类为M个类簇。根据预先设置的数据总量,对每个待分类标记类簇进行分层抽样,得到至少一个待分类标记数据。即,对未标记的样本N进行聚类,由于是大数据,存储和计算在云计算平台Hadoop上,利用基于spark的K-means、层次聚类等聚类算法,将未标记样本划分为m个类簇,每个类簇的样本数为Ni,其中i=1,2,…,m。3.对每个类簇Ni进行分层抽样,抽取p%的样本,以每个类簇的中心为原点,以每个样本到中心的距离为依据进行层次划分,每层抽取p%的样本,其中0<p≤100。可以将每个待分类标记数据输入至预先训练好的分类预测模型中,得到每个待分类标记数据的类别标签。针对每一个待分类标记类簇,可以确定当前待分类标记类簇中被分类模型预测的待分类标记数据的类别标签和出现的频次。根据出现的频次,可以其所属的待分类标记类簇的类别标识,并将其类别标识作为该待分类标记类簇中每个待分类标记数据的类别标签。可选的,利用训练好的分类预测模型对每个待分类标记类簇进行分层周扬,假设共有q个类别标签,每个类别标签出现的频次可以是kj,其中j=1,2,…,q,k1+k2+…+kq=Ni*p%。针对每个待分类标记类簇,利用投票法,将最大的kj对应的类别标签作为类簇Ni的目标类别标识。即抽样样本出现次数最多的类别作为类簇的类别。若出现两个或两个以上相同的最大值kj,则可调整抽样样本的比例p%的大小,直到得到的最大值kj唯一,即,重复执行本技术方案确定每个待分类标记类簇的类别标识。
可以理解为,本技术方案可以利用标记样本训练分类预测模型(SVM、随机森林、神经网络、深度学习等),利用聚类方法对未标记样本划分类簇,对各个类簇的样本进行分层抽样,利用训练好的分类预测模型对分层抽样的样本进行分类,利用投票法决定每个类簇的类别,即类簇的分层抽样样本对应的数量最多的类别作为该类簇的类别,实现对大数据整体的分类,以及有效降低大数据分类的计算量和时间成本,让研究者快速掌握大数据整体概况,从而提高后续数据处理的处理效率。
本发明实施例的技术方案,通过从各待分类标记类簇中获取至少一个待分类标记数据,并将各待分类标记数据输入至预先训练好的数据分类模型中,得到与每个待分类标记数据相对应的类别标签,根据各类别标签所对应的待分类标记数据的类簇标识,确定各待分类标记类簇中各分类标记数据的类别标识,解决了现有技术中在数据量较大情况下,在对各个数据进行类别标记时,存在时间成本和人力成本较高,以及标记效率较低的问题,实现了预先对所有数据进行聚类,并对每个类簇中的部分数据进行分类处理,并依据分类处理结果确定相应类簇中数据的类别标识,提高了确定类别标识的便捷性以及高效性的技术效果。
实施例三
图3为本发明实施例三提供的一种数据分类标识确定装置的结构示意图,该装置包括:数据确定模块310、类别标签确定模块320以及类别标识确定模块330。
其中,数据确定模块310,用于从各待分类标记类簇中获取至少一个待分类标记数据;类别标签确定模块320,用于将各待分类标记数据输入至预先训练好的数据分类模型中,得到与各待分类标记数据相对应的类别标签;其中所述数据分类模型是基于训练数据和与所述训练数据相对应的类别标签训练得到的;类别标识确定模块330,用于根据各类别标签所对应的待分类标记数据的类簇标识,确定各待分类标记类簇的类别标识。
在上述技术方案的基础上,所述装置还包括:分类簇确定模块,用于获取待处理数据,并对各待处理数据进行聚类处理,得到至少一个待分类标记类簇,以从所述至少一个待分类标记类簇中获取待分类标记数据。
在上述技术方案的基础上,所述数据确定模块包括:
数据量获取单元,用于根据预先设置的数据总量,确定与每个待分类标记类簇相对应的数据获取数量;数据标记单元,用于根据各数据获取数量从相应的待分标记类簇中获取至少一个待分类标记数据。
在上述技术方案的基础上,所述数据量获取单元,包括:
比例确定子单元,用于根据每个待分类标记类簇中所包含的数据总量,确定从各待分类标记类簇中获取待分类标记数据的比例;数据量获取子单元,用于根据所述比例和所述预先设置的数据总量,确定与每个待分类标记类簇相对应的数据获取量。
在上述各技术方案的基础上,所述类别标识确定模块,还用于确定与每个类簇标识相关联的待分类标记数据的类别标签,并确定同一类别标签的频次,并根据所述频次确定与每个类簇标识相对应的目标类别标签。
在上述各技术方案的基础上,所述类别标识确定模块,还用于针对每个类簇标识,将当前类簇标识中频次最高的类别标签作为所述目标类别标签。
在上述各技术方案的基础上,所述类别标识确定模块,还用于针对各类簇标识,如果当前类簇标识中存在至少两个类别标签的频次相同,则调整预先设置的数据总量,以重新从各待分类标记类簇中确定待分别标记数据。
本发明实施例的技术方案,通过从各待分类标记类簇中获取至少一个待分类标记数据,并将各待分类标记数据输入至预先训练好的数据分类模型中,得到与每个待分类标记数据相对应的类别标签,根据各类别标签所对应的待分类标记数据的类簇标识,确定各待分类标记类簇中各分类标记数据的类别标识,解决了现有技术中在数据量较大情况下,在对各个数据进行类别标记时,存在时间成本和人力成本较高,以及标记效率较低的问题,实现了预先对所有数据进行聚类,并对每个类簇中的部分数据进行分类处理,并依据分类处理结果确定相应类簇中数据的类别标识,提高了确定类别标识的便捷性以及高效性的技术效果。
本发明实施例所提供的确数据分类标识确定装置可执行本发明任意实施例所提供的数据分类标识确定方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明实施例的保护范围。
实施例四
图4为本发明实施例四提供的一种电子设备结构示意图。图4示出了适于用来实现本发明实施例实施方式的示例性电子设备40的框图。图4显示的电子设备40仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,电子设备40以通用计算设备的形式表现。电子设备40的组件可以包括但不限于:一个或者多个处理器或者处理单元401,系统存储器402,连接不同系统组件(包括系统存储器402和处理单元401)的总线403。
总线403表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备40典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备40访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器402可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)404和/或高速缓存存储器405。电子设备40可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统406可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线403相连。存储器402可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块407的程序/实用工具408,可以存储在例如存储器402中,这样的程序模块407包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块407通常执行本发明所描述的实施例中的功能和/或方法。
电子设备40也可以与一个或多个外部设备409(例如键盘、指向设备、显示器410等)通信,还可与一个或者多个使得用户能与该电子设备40交互的设备通信,和/或与使得该电子设备40能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口411进行。并且,电子设备40还可以通过网络适配器412与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器412通过总线403与电子设备40的其它模块通信。应当明白,尽管图4中未示出,可以结合电子设备40使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元401通过运行存储在系统存储器402中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的数据分类标识确定方法。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行数据分类标识确定方法。
该方法包括:
从各待分类标记类簇中获取至少一个待分类标记数据;
将各待分类标记数据输入至预先训练好的数据分类模型中,得到与各待分类标记数据相对应的类别标签;其中所述数据分类模型是基于训练数据和与所述训练数据相对应的类别标签训练得到的;
根据各类别标签所对应的待分类标记数据的类簇标识,确定各待分类标记类簇的类别标识。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种数据分类标识确定方法,其特征在于,包括:
从各待分类标记类簇中获取至少一个待分类标记数据;
将各待分类标记数据输入至预先训练好的数据分类模型中,得到与各待分类标记数据相对应的类别标签;其中,所述数据分类模型是基于训练数据和与所述训练数据相对应的类别标签训练得到的;
根据各类别标签所对应的待分类标记数据的类簇标识,确定各待分类标记类簇的类别标识。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取待处理数据,并对各待处理数据进行聚类处理,得到至少一个待分类标记类簇,以从所述至少一个待分类标记类簇中获取待分类标记数据。
3.根据权利要求1所述的方法,其特征在于,所述从各待分类标记类簇中获取至少一个待分类标记数据,包括:
根据预先设置的数据总量,确定与每个待分类标记类簇相对应的数据获取数量;
根据各数据获取数量从相应的待分标记类簇中获取至少一个待分类标记数据。
4.根据权利要求3所述的方法,其特征在于,所述根据预先设置的数据总量,确定每个待分类标记类簇相对应的数据获取量,包括:
根据每个待分类标记类簇中所包含的数据总量,确定从各待分类标记类簇中获取待分类标记数据的比例;
根据所述比例和所述预先设置的数据总量,确定与每个待分类标记类簇相对应的数据获取量。
5.根据权利要求1所述的方法,其特征在于,所述根据各类别标签所对应的待分类标记数据的类簇标识,确定各待分类标记类簇的类别标识,包括:
确定与每个类簇标识相关联的待分类标记数据的类别标签,并确定同一类别标签的频次,并根据所述频次确定与每个类簇标识相对应的目标类别标识。
6.根据权利要求5所述的方法,其特征在于,所述根据所述频次确定与每个类簇标识相对应的目标类别标识,包括:
针对每个类簇标识,将当前类簇标识中频次最高的类别标签作为所述目标类别标签。
7.根据权利要求5所述的方法,其特征在于,所述根据所述频次确定与每个类簇标识相对应的目标类别标签,包括:
针对各类簇标识,如果当前类簇标识中存在至少两个类别标签的频次相同,则调整预先设置的数据总量,以重新从各待分类标记类簇中确定待分别标记数据。
8.一种数据分类标识确定装置,其特征在于,包括:
数据确定模块,用于从各待分类标记类簇中获取至少一个待分类标记数据;
类别标签确定模块,用于将各待分类标记数据输入至预先训练好的数据分类模型中,得到与各待分类标记数据相对应的类别标签;其中所述数据分类模型是基于训练数据和与所述训练数据相对应的类别标签训练得到的;
类别标识确定模块,用于根据各类别标签所对应的待分类标记数据的类簇标识,确定各待分类标记类簇的类别标识。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的数据分类标识确定方法。
10.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的数据分类标识确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111004362.4A CN113723507A (zh) | 2021-08-30 | 2021-08-30 | 数据分类标识确定方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111004362.4A CN113723507A (zh) | 2021-08-30 | 2021-08-30 | 数据分类标识确定方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113723507A true CN113723507A (zh) | 2021-11-30 |
Family
ID=78679075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111004362.4A Pending CN113723507A (zh) | 2021-08-30 | 2021-08-30 | 数据分类标识确定方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723507A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268526A (zh) * | 2016-12-30 | 2018-07-10 | 中国移动通信集团北京有限公司 | 一种数据分类方法和装置 |
CN110442722A (zh) * | 2019-08-13 | 2019-11-12 | 北京金山数字娱乐科技有限公司 | 分类模型训练的方法及装置、数据分类的方法及装置 |
CN111522942A (zh) * | 2020-03-18 | 2020-08-11 | 大箴(杭州)科技有限公司 | 文本分类模型的训练方法、装置、存储介质及计算机设备 |
CN112115957A (zh) * | 2019-06-21 | 2020-12-22 | 华为技术有限公司 | 数据流识别方法及装置、计算机存储介质 |
CN112465020A (zh) * | 2020-11-25 | 2021-03-09 | 创新奇智(合肥)科技有限公司 | 训练数据集的生成方法及装置、电子设备、存储介质 |
CN112885481A (zh) * | 2021-03-09 | 2021-06-01 | 联仁健康医疗大数据科技股份有限公司 | 病例分组方法、装置、电子设备及存储介质 |
-
2021
- 2021-08-30 CN CN202111004362.4A patent/CN113723507A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268526A (zh) * | 2016-12-30 | 2018-07-10 | 中国移动通信集团北京有限公司 | 一种数据分类方法和装置 |
CN112115957A (zh) * | 2019-06-21 | 2020-12-22 | 华为技术有限公司 | 数据流识别方法及装置、计算机存储介质 |
CN110442722A (zh) * | 2019-08-13 | 2019-11-12 | 北京金山数字娱乐科技有限公司 | 分类模型训练的方法及装置、数据分类的方法及装置 |
CN111522942A (zh) * | 2020-03-18 | 2020-08-11 | 大箴(杭州)科技有限公司 | 文本分类模型的训练方法、装置、存储介质及计算机设备 |
CN112465020A (zh) * | 2020-11-25 | 2021-03-09 | 创新奇智(合肥)科技有限公司 | 训练数据集的生成方法及装置、电子设备、存储介质 |
CN112885481A (zh) * | 2021-03-09 | 2021-06-01 | 联仁健康医疗大数据科技股份有限公司 | 病例分组方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
大卫福赛斯: "机器学习:应用视角", 31 January 2021, 机械工业出版社, pages: 30 * |
陈燕: "数据挖掘技术与应用", 31 August 2020, 大连海事大学出版社, pages: 114 - 116 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875067B (zh) | 文本数据分类方法、装置、设备及存储介质 | |
CN112015859B (zh) | 文本的知识层次抽取方法及装置、计算机设备及可读介质 | |
CN108959257B (zh) | 一种自然语言解析方法、装置、服务器及存储介质 | |
US20200065710A1 (en) | Normalizing text attributes for machine learning models | |
CN113051356B (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN111985241B (zh) | 医学信息查询方法、装置、电子设备及介质 | |
CN112667805B (zh) | 一种工单类别确定方法、装置、设备及介质 | |
CN110580942A (zh) | 一种新型体检报告生成方法、装置、介质及终端设备 | |
CN110867231A (zh) | 基于文本分类的疾病预测方法、装置、计算机设备及介质 | |
CN112634889B (zh) | 基于人工智能的电子病例录入方法、装置、终端及介质 | |
CN111143556A (zh) | 软件功能点自动计数方法、装置、介质及电子设备 | |
CN112860842A (zh) | 病历标注方法、装置及存储介质 | |
CN113111159A (zh) | 问答记录生成方法、装置、电子设备及存储介质 | |
CN110020638B (zh) | 人脸表情识别方法、装置、设备和介质 | |
CN115222443A (zh) | 客户群体划分方法、装置、设备及存储介质 | |
CN111898528B (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN112382355A (zh) | 一种智慧医疗数据管理方法、存储介质及系统 | |
WO2020211399A1 (zh) | 数据发送方法、装置、设备及存储介质 | |
CN111063446A (zh) | 用于标准化医疗文本数据的方法、装置、设备及存储介质 | |
CN111063445A (zh) | 基于医疗数据的特征提取方法及装置、设备和介质 | |
CN115759040A (zh) | 一种电子病历解析方法、装置、设备和存储介质 | |
CN113627186B (zh) | 基于人工智能的实体关系检测方法及相关设备 | |
CN113723507A (zh) | 数据分类标识确定方法、装置、电子设备及存储介质 | |
CN110059180B (zh) | 文章作者身份识别及评估模型训练方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |