CN113627509B - 数据分类方法、装置、计算机设备及计算机可读存储介质 - Google Patents
数据分类方法、装置、计算机设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113627509B CN113627509B CN202110890147.2A CN202110890147A CN113627509B CN 113627509 B CN113627509 B CN 113627509B CN 202110890147 A CN202110890147 A CN 202110890147A CN 113627509 B CN113627509 B CN 113627509B
- Authority
- CN
- China
- Prior art keywords
- category
- data
- sample
- training
- candidate data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000008569 process Effects 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims description 277
- 238000004590 computer program Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 8
- 238000009825 accumulation Methods 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims description 4
- 238000003379 elimination reaction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 2
- 238000007418 data mining Methods 0.000 abstract description 8
- 238000002372 labelling Methods 0.000 description 12
- 235000015220 hamburgers Nutrition 0.000 description 11
- 241000287828 Gallus gallus Species 0.000 description 10
- 240000008415 Lactuca sativa Species 0.000 description 6
- 235000013410 fast food Nutrition 0.000 description 6
- 235000012045 salad Nutrition 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 239000004576 sand Substances 0.000 description 5
- 235000012020 french fries Nutrition 0.000 description 4
- YOBAEOGBNPPUQV-UHFFFAOYSA-N iron;trihydrate Chemical compound O.O.O.[Fe].[Fe] YOBAEOGBNPPUQV-UHFFFAOYSA-N 0.000 description 4
- 240000007594 Oryza sativa Species 0.000 description 3
- 235000007164 Oryza sativa Nutrition 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 235000009566 rice Nutrition 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 240000005856 Lyophyllum decastes Species 0.000 description 1
- 235000013194 Lyophyllum decastes Nutrition 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000796 flavoring agent Substances 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据分类方法、装置、计算机设备及计算机可读存储介质,涉及互联网技术领域,综合候选数据类目下的概率分布,确定需要将待分类数据划分到哪个类目下,提升数据分类的准确性,保证分类后的类目下数据的质量,推动了类目数据挖掘的广度和深度的进程。所述方法包括:确定待分类数据,为待分类数据确定多个候选数据类目;统计待分类数据关联的多个实体对象,基于类目预测模型预测多个实体对象划分至多个候选数据类目的类目概率;将多个候选数据类目中每个候选数据类目下对应的多个实体对象的多个类目概率进行累加,得到每个候选数据类目的划分概率;在多个候选数据类目中提取目标数据类目,将待分类数据划分至目标数据类目下。
Description
技术领域
本申请涉及互联网技术领域,特别是涉及一种数据分类方法、装置、计算机设备及计算机可读存储介质。
背景技术
随着互联网技术的不断发展,智能终端已经成为人们生活、工作中不可或缺的一部分,而智能终端提供的线上购物功能由于其独有的便捷性和直观性而受到用户的欢迎。很多提供线上购物功能的平台为了便于用户浏览,会对线上提供的门店、商品等数据进行整理,确定这些数据所属的数据类目,按照数据类目将门店、商品等进行分类后提供给用户选择。
相关技术中,在进行数据分类时,先提取待分类数据的特征信息,比如名称、城市、商品、价格、评论等等。随后,基于特征融合的方式将提取到的特征信息输入至用于对词向量进行训练的模型中进行学习,确定各个特征信息以及特征信息之间的交互关系,进而根据交互关系确定该待分类数据应当所属的类目,完成数据的分类。
在实现本申请的过程中,申请人发现相关技术至少存在以下问题:
有些数据的特征信息的丰富度较差,能够体现该数据所属类目的信息内容很少,而且有的数据的特征信息对类目的确定存在误导性,比如店名中包括“馄饨”二字的门店中只有一种与馄饨相关的商品,大部分商品是盖浇饭,导致数据分类的准确率不高,分类后的类目下数据的质量较低,影响了推动类目数据挖掘的广度和深度的进程。
发明内容
有鉴于此,本申请提供了一种数据分类方法、装置、计算机设备及计算机可读存储介质,主要目的在于解决目前数据分类的准确率不高,分类后的类目下数据的质量较低,影响了推动类目数据挖掘的广度和深度的进程的问题。
依据本申请第一方面,提供了一种数据分类方法,该方法包括:
确定待分类数据,为所述待分类数据确定多个候选数据类目;
统计所述待分类数据关联的多个实体对象,基于类目预测模型预测所述多个实体对象划分至所述多个候选数据类目的类目概率,所述类目预测模型是基于标注有样本类目标签的多个训练样本训练的用于预测特征所属类目的模型;
将所述多个候选数据类目中每个候选数据类目下对应的所述多个实体对象的多个类目概率进行累加,得到所述每个候选数据类目的划分概率;
在所述多个候选数据类目中提取目标数据类目,将所述待分类数据划分至所述目标数据类目下,所述目标数据类目对应的划分概率大于所述多个候选数据类目中除所述目标数据类目外的其他候选数据类目。
可选地,所述确定待分类数据,为所述待分类数据确定多个候选数据类目之前,所述方法还包括:
获取多个训练样本,所述多个训练样本中每个训练样本标注有类目样本标签;
在所述多个训练样本中确定目标训练样本,所述目标训练样本在所述多个训练样本中存在至少两个内容一致的重复训练样本;
查询所述目标训练样本和至少两个重复训练样本的多个类目样本标签,在所述目标训练样本和至少两个重复训练样本中确定保留的训练样本,所述保留的训练样本标记的类目样本标签在所述多个类目样本标签中的出现次数最大;
将所述目标训练样本和至少两个重复训练样本中除所述保留的训练样本外的其他训练样本过滤;
采用过滤后的所述多个训练样本进行训练,得到所述类目预测模型。
可选地,所述采用过滤后的所述多个训练样本进行训练,得到所述类目预测模型之前,所述方法还包括:
对于所述过滤后的多个训练样本中每个训练样本,查询所述训练样本是否包括次级样本数据;
若所述训练样本包括次级样本数据,则将所述次级样本数据与预设类目样本进行比对;
当所述次级样本数据与所述预设类目样本一致时,将所述次级样本数据保留,并继续查询其他的训练样本是否包括次级样本数据,直至遍历过滤后的所述多个训练样本;
当所述次级样本数据与所述预设类目样本不一致时,在所述训练样本中将所述次级样本数据删除,并继续查询其他的训练样本是否包括次级样本数据,直至遍历过滤后的所述多个训练样本。
可选地,所述为所述待分类数据确定多个候选数据类目,包括:
对所述待分类数据进行识别,确定所述待分类数据的数据名称以及所述待分类数据包括的至少一个类目词;
查询所述待分类数据对应的城市特征,采用所述类目预测模型对所述数据名称、所述城市特征以及所述至少一个类目词进行训练,得到所述多个候选数据类目。
可选地,所述确定所述待分类数据的数据名称以及所述待分类数据包括的至少一个类目词,包括:
对所述待分类数据进行拆分,得到多个单字符;
将所述多个单字符与预设类目样本进行比对,按照比对结果,为所述多个单字符添加字符标记,所述字符标记指示了相应的单字符是否属于组成所述预设类目样本的类目字符;
在所述多个单字符中确定至少一个第一单字符,将所述至少一个第一单字符作为所述数据名称,所述至少一个第一单字符对应的字符标记指示所述至少一个第一单字符不属于组成所述预设类目样本的类目字符;
在所述多个单字符中确定至少一个第二单字符,对所述至少一个第二单字符进行组合,得到所述至少一个类目词,所述至少一个第二单字符对应的字符标记指示所述至少一个第二单字符属于组成所述预设类目样本的类目字符。
可选地,所述对所述至少一个第二单字符进行组合,得到所述至少一个类目词,包括:
读取所述至少一个第二单字符中首位第二单字符的下一第二单字符标记的字符标记;
当所述下一第二单字符标记的字符标记指示所述下一第二单字符处于非起始位置时,读取所述下一第二单字符的下一第二单字符,直至确定字符标记指示处于起始位置的目标第二单字符;
确定所述目标第二单字符在所述至少一个第二单字符中的上一第二单字符,提取所述首位第二单字符、所述上一第二单字符以及所述首位第二单字符与所述上一第二单字符之间的第二单字符作为类目词;
继续识别所述目标第二单字符的下一单字符,直至遍历所述至少一个第二单字符,得到所述至少一个类目词。
可选地,所述采用所述类目预测模型对所述数据名称、所述城市特征以及所述至少一个类目词进行训练,得到所述多个候选数据类目,包括:
将所述数据名称和所述城市特征输入至所述类目预测模型进行训练,得到所述多个候选数据类目;和/或,
将所述至少一个类目词输入至所述类目预测模型进行训练,得到所述多个候选数据类目。
可选地,所述基于类目预测模型预测所述多个实体对象划分至所述多个候选数据类目的类目概率,包括:
对于所述多个实体对象中每个实体对象,在所述多个候选数据类目中确定指定候选数据类目,所述指定候选数据类目为所述多个候选数据类目中任一数据类目;
采用所述指定候选数据类目对所述实体对象进行标注,将标注后的所述实体对象输入至所述类目预测模型中;
获取所述类目预测模型输出的概率作为所述实体对象划分至所述指定候选数据类目下的类目概率;
重复执行上述过程,分别采用所述多个候选数据类目中每个候选数据类目对所述实体对象进行标注以及输入至所述类目预测模型进行训练,得到所述实体对象划分至所述多个候选数据类目的类目概率。
可选地,所述将所述多个候选数据类目中每个候选数据类目下对应的所述多个实体对象的多个类目概率进行累加,得到所述每个候选数据类目的划分概率,包括:
对于所述多个候选数据类目中每个候选数据类目,查询所述多个实体对象划分至所述候选数据类目的多个类目概率;
计算所述多个类目概率的总和,将所述总和作为所述候选数据类目的划分概率;
重复执行上述过程,分别为所述每个候选数据类目计算划分概率,得到所述每个候选数据类目的划分概率。
依据本申请第二方面,提供了一种数据分类装置,该装置包括:
第一确定模块,用于确定待分类数据,为所述待分类数据确定多个候选数据类目;
预测模块,用于统计所述待分类数据关联的多个实体对象,基于类目预测模型预测所述多个实体对象划分至所述多个候选数据类目的类目概率,所述类目预测模型是基于标注有样本类目标签的多个训练样本训练的用于预测特征所属类目的模型;
累加模块,用于将所述多个候选数据类目中每个候选数据类目下对应的所述多个实体对象的多个类目概率进行累加,得到所述每个候选数据类目的划分概率;
划分模块,用于在所述多个候选数据类目中提取目标数据类目,将所述待分类数据划分至所述目标数据类目下,所述目标数据类目对应的划分概率大于所述多个候选数据类目中除所述目标数据类目外的其他候选数据类目。
可选地,所述装置还包括:
获取模块,用于获取多个训练样本,所述多个训练样本中每个训练样本标注有类目样本标签;
第二确定模块,用于在所述多个训练样本中确定目标训练样本,所述目标训练样本在所述多个训练样本中存在至少两个内容一致的重复训练样本;
第一查询模块,用于查询所述目标训练样本和至少两个重复训练样本的多个类目样本标签,在所述目标训练样本和至少两个重复训练样本中确定保留的训练样本,所述保留的训练样本标记的类目样本标签在所述多个类目样本标签中的出现次数最大;
过滤模块,用于将所述目标训练样本和至少两个重复训练样本中除所述保留的训练样本外的其他训练样本过滤;
训练模块,用于采用过滤后的所述多个训练样本进行训练,得到所述类目预测模型。
可选地,所述装置还包括:
第二查询模块,用于对于所述过滤后的多个训练样本中每个训练样本,查询所述训练样本是否包括次级样本数据;
比对模块,用于若所述训练样本包括次级样本数据,则将所述次级样本数据与预设类目样本进行比对;
所述第二查询模块,还用于当所述次级样本数据与所述预设类目样本一致时,将所述次级样本数据保留,并继续查询其他的训练样本是否包括次级样本数据,直至遍历过滤后的所述多个训练样本;
删除模块,用于当所述次级样本数据与所述预设类目样本不一致时,在所述训练样本中将所述次级样本数据删除,并继续查询其他的训练样本是否包括次级样本数据,直至遍历过滤后的所述多个训练样本。
可选地,所述第一确定模块,用于对所述待分类数据进行识别,确定所述待分类数据的数据名称以及所述待分类数据包括的至少一个类目词;查询所述待分类数据对应的城市特征,采用所述类目预测模型对所述数据名称、所述城市特征以及所述至少一个类目词进行训练,得到所述多个候选数据类目。
可选地,所述第一确定模块,用于对所述待分类数据进行拆分,得到多个单字符;将所述多个单字符与预设类目样本进行比对,按照比对结果,为所述多个单字符添加字符标记,所述字符标记指示了相应的单字符是否属于组成所述预设类目样本的类目字符;在所述多个单字符中确定至少一个第一单字符,将所述至少一个第一单字符作为所述数据名称,所述至少一个第一单字符对应的字符标记指示所述至少一个第一单字符不属于组成所述预设类目样本的类目字符;在所述多个单字符中确定至少一个第二单字符,对所述至少一个第二单字符进行组合,得到所述至少一个类目词,所述至少一个第二单字符对应的字符标记指示所述至少一个第二单字符属于组成所述预设类目样本的类目字符。
可选地,所述第一确定模块,用于读取所述至少一个第二单字符中首位第二单字符的下一第二单字符标记的字符标记;当所述下一第二单字符标记的字符标记指示所述下一第二单字符处于非起始位置时,读取所述下一第二单字符的下一第二单字符,直至确定字符标记指示处于起始位置的目标第二单字符;确定所述目标第二单字符在所述至少一个第二单字符中的上一第二单字符,提取所述首位第二单字符、所述上一第二单字符以及所述首位第二单字符与所述上一第二单字符之间的第二单字符作为类目词;继续识别所述目标第二单字符的下一单字符,直至遍历所述至少一个第二单字符,得到所述至少一个类目词。
可选地,所述第一确定模块,用于将所述数据名称和所述城市特征输入至所述类目预测模型进行训练,得到所述多个候选数据类目;和/或,将所述至少一个类目词输入至所述类目预测模型进行训练,得到所述多个候选数据类目。
可选地,所述预测模块,用于对于所述多个实体对象中每个实体对象,在所述多个候选数据类目中确定指定候选数据类目,所述指定候选数据类目为所述多个候选数据类目中任一数据类目;采用所述指定候选数据类目对所述实体对象进行标注,将标注后的所述实体对象输入至所述类目预测模型中;获取所述类目预测模型输出的概率作为所述实体对象划分至所述指定候选数据类目下的类目概率;重复执行上述过程,分别采用所述多个候选数据类目中每个候选数据类目对所述实体对象进行标注以及输入至所述类目预测模型进行训练,得到所述实体对象划分至所述多个候选数据类目的类目概率。
可选地,所述累加模块,用于对于所述多个候选数据类目中每个候选数据类目,查询所述多个实体对象划分至所述候选数据类目的多个类目概率;计算所述多个类目概率的总和,将所述总和作为所述候选数据类目的划分概率;重复执行上述过程,分别为所述每个候选数据类目计算划分概率,得到所述每个候选数据类目的划分概率。
依据本申请第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述方法的步骤。
依据本申请第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。
借由上述技术方案,本申请提供的一种数据分类方法、装置、计算机设备及计算机可读存储介质,本申请确定待分类数据,为待分类数据确定多个候选数据类目,并统计待分类数据关联的多个实体对象,基于类目预测模型预测多个实体对象划分至多个候选数据类目的类目概率,将多个候选数据类目中每个候选数据类目下对应的多个实体对象的多个类目概率进行累加,得到每个候选数据类目的划分概率,进而在多个候选数据类目中提取划分概率最大的目标数据类目,将待分类数据划分至目标数据类目下,使得综合待分类数据关联的多个实体对象在候选数据类目下的概率分布,确定需要将待分类数据划分到哪个类目下,结合待分类数据的实际关联的实体对象进行数据分类,提升数据分类的准确性,一定程度上保证分类后的类目下数据的质量,推动了类目数据挖掘的广度和深度的进程。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请实施例提供的一种数据分类方法流程示意图;
图2示出了本申请实施例提供的一种数据分类方法流程示意图;
图3A示出了本申请实施例提供的一种数据分类装置的结构示意图;
图3B示出了本申请实施例提供的一种数据分类装置的结构示意图;
图3C示出了本申请实施例提供的一种数据分类装置的结构示意图;
图4示出了本申请实施例提供的一种计算机设备的装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
本申请实施例提供了一种数据分类方法,如图1所示,该方法包括:
101、确定待分类数据,为待分类数据确定多个候选数据类目。
102、统计待分类数据关联的多个实体对象,基于类目预测模型预测多个实体对象划分至多个候选数据类目的类目概率,类目预测模型是基于标注有样本类目标签的多个训练样本训练的用于预测特征所属类目的模型。
103、将多个候选数据类目中每个候选数据类目下对应的多个实体对象的多个类目概率进行累加,得到每个候选数据类目的划分概率。
104、在多个候选数据类目中提取目标数据类目,将待分类数据划分至目标数据类目下,目标数据类目对应的划分概率大于多个候选数据类目中除目标数据类目外的其他候选数据类目。
本申请实施例提供的方法,确定待分类数据,为待分类数据确定多个候选数据类目,并统计待分类数据关联的多个实体对象,基于类目预测模型预测多个实体对象划分至多个候选数据类目的类目概率,将多个候选数据类目中每个候选数据类目下对应的多个实体对象的多个类目概率进行累加,得到每个候选数据类目的划分概率,进而在多个候选数据类目中提取划分概率最大的目标数据类目,将待分类数据划分至目标数据类目下,使得综合待分类数据关联的多个实体对象在候选数据类目下的概率分布,确定需要将待分类数据划分到哪个类目下,结合待分类数据的实际关联的实体对象进行数据分类,提升数据分类的准确性,一定程度上保证分类后的类目下数据的质量,推动了类目数据挖掘的广度和深度的进程。
本申请实施例提供了一种数据分类方法,如图2所示,该方法包括:
201、构建类目预测模型。
对于线上的服务平台来说,进行数据分类,为数据确定相关的数据类目是服务平台提供搜索、个性化推荐等服务的基础。目前,很多服务平台会基于特征融合的方式,将待分类数据的多个特征放入一个模型中进行学习,使模型全面的学习各个特征及其特征间的交互关系,进而为待分类数据确定相关的数据类目。但是,申请人认识到,有些数据的特征信息的丰富度较差,能够体现该数据所属类目的信息内容很少,而且有的数据的特征信息对类目的确定存在误导性,比如店名中包括“馄饨”二字的门店中只有一种与馄饨相关的商品,大部分商品是盖浇饭,导致数据分类的准确率不高,分类后的类目下数据的质量较低,影响了推进类目数据挖掘的广度和深度的进程。再有基于特征融合的模型进行训练,对训练集的准确率和泛化能力要求比较高,如果想获取相当数量的训练集,需要大量的人工标注工作,时间和人力成本过高。
因此,本申请提出了一种数据分类方法,确定待分类数据,为待分类数据确定多个候选数据类目,并统计待分类数据关联的多个实体对象,基于类目预测模型预测多个实体对象划分至多个候选数据类目的类目概率,将多个候选数据类目中每个候选数据类目下对应的多个实体对象的多个类目概率进行累加,得到每个候选数据类目的划分概率,进而在多个候选数据类目中提取划分概率最大的目标数据类目,将待分类数据划分至目标数据类目下,使得综合待分类数据关联的多个实体对象在候选数据类目下的概率分布,确定需要将待分类数据划分到哪个类目下,结合待分类数据的实际关联的实体对象进行数据分类,提升数据分类的准确性,一定程度上保证分类后的类目下数据的质量,推动了类目数据挖掘的广度和深度的进程。
为了实现本申请中的数据分类过程,首先需要构建类目预测模型。类目预测模型是基于标注有样本类目标签的多个训练样本训练的用于预测特征所属类目的模型,训练类目预测模型的过程如下:
首先,获取多个训练样本,多个训练样本中每个训练样本标注有类目样本标签。比如,训练样本可以为“王姐快餐”,该训练样本对应的类目样本标签可为“快餐”。
随后,考虑到训练样本的数量过多,而且是存在重复出现的训练样本的。为了避免重复对某一个训练样本进行训练且重复的训练样本会影响类目预测模型的精度,需要对多个训练样本进行去重处理,使相同的训练样本只出现一次。具体地,需要在多个训练样本中确定目标训练样本,该目标训练样本在多个训练样本中存在至少两个内容一致的重复训练样,并查询目标训练样本和至少两个重复训练样本的多个类目样本标签,在目标训练样本和至少两个重复训练样本中确定保留的训练样本,保留的训练样本标记的类目样本标签在多个类目样本标签中的出现次数最大。接下来,将目标训练样本和至少两个重复训练样本中除保留的训练样本外的其他训练样本过滤即可。也就是说,在去重时,将类目样本标签出现频率最多的训练样本以及其对应的类目样本标签保留下来,将其他重复的训练样本以及其对应的类目样本标签多滤掉。另外,需要说明的是,训练样本的重复分为两种情况,一种是训练样本的内容完全一致,比如“王姐快餐”,全国有几百家相同名字的门店;另一种情况是训练样本的前部分内容一致,后部分的次级样本数据不一致,比如“肯德基(西直门店)”、“肯德基(中山路店)”,括号中的内容是次级样本数据,二者不一致。这两种情况均需要进行去重处理。
上面提到,有些训练样本包括次级样本数据,比如训练样本“百里餐厅(家常小炒)”,括号中的内容“家常小炒”即为次级样本数据。这些次级样本数据中,有些次级样本数据是有意义的,比如上面的举例“家常小炒”,而有些次级样本数据是没有意义的地址信息,比如上面举例的“西直门店”。因此,在进行类目预测模型的训练之前,还可以查询过滤后的多个训练样本中每个训练样本是否包括次级样本数据,若训练样本包括次级样本数据,则需要将次级样本数据与预设类目样本进行比对,对次级样本数据进行评估,判断次级样本数据是否需要保留。其中,预设类目样本是预先设置的用于指示门店、商品等所属类目的样本类目词,具体可以直接采用实体的名称作为预设类目样本,比如“快餐”、“饺子”、“盖浇饭”等均可以作为预设类目样本。具体地,当次级样本数据与预设类目样本一致时,表示次级样本数据实际上是能够指示类目的,需要保留,因此,将次级样本数据保留,并继续查询其他的训练样本是否包括次级样本数据,直至遍历过滤后的多个训练样本。例如,假设训练样本为“百里餐厅(家常小炒)”,则次级样本数据“家常小炒”是能够指示类目的,需要保留。而当次级样本数据与预设类目样本不一致时,表示次级样本数据实际上是不具有分析意义的信息,将次级样本数据忽略即可,因此,在训练样本中将次级样本数据删除,并继续查询其他的训练样本是否包括次级样本数据,直至遍历过滤后的多个训练样本。例如假设训练样本为“王姐快餐(西直门店)”,则次级样本数据“西直门店”只是地理位置信息,不能指示类目,需要删除。另外,若训练样本不包括次级样本数据,则无需执行上述比对的过程,直接保留训练样本即可。
再有,有些类目样本标签对应的训练样本较少,采用较少的训练样本进行训练很可能会影响该类目样本标签的准确性,因此,需要维持训练样本的类目平衡,尽量增加该类目样本标签下的训练样本,以提升类目预测模型的准确性。另外,如果某个类目样本标签在训练类目预测模型的过程中的预测结果较差,则需要进行训练样本增强。其中,训练样本增强分为两个方面,一方面要对该类目样本标签的训练样本进行清洗,提高该训练样本的准确率,另一方面,可以额外增加该类目样本标签的训练样本,增强该类目样本标签的学习能力。
这样,通过上述过程便完成了对训练样本的去重以及无效信息剔除的过程,接着便采用过滤后的多个训练样本进行训练,得到类目预测模型。其中,在进行过滤后的多个训练样本的训练时,可以采用诸如Fast Text(快速文本分类算法)模型、Bert(BidirectionalEncoder Representations from Transformers,双向编码的词向量训练算法)模型等文本分类模型进行训练,进而得到类目预测模型。具体地,由于Bert模型具备基于字粒度进行训练、不需要切词处理、引入了注意力机制、通过位置编码获取上下文的位置信息等优点,因此,优选采用Bert模型,这样得到的类目预测模型也属于一种Bert模型。
需要说明的是,由于在运营的过程中会逐渐积累新的相关训练样本,因此,可以不断采用新的训练样本对该类目预测模型进行更新,从而保证类目预测模型预测的准确性。
202、对待分类数据进行识别,确定待分类数据的数据名称以及待分类数据包括的至少一个类目词。
在本申请实施例中,以待分类数据为“门店”为例进行说明,而在实际应用的过程中,待分类数据还可以是商圈、公交站、购物商场、地理区域等POI(Point Of Interest,兴趣点)数据,本申请对待分类数据的具体内容不进行限定。考虑到有些待分类数据中有明显的类目词,该类目词能够的指示待分类数据所属的类目,比如“重庆面馆”中“面馆”属于明显的类目词,而且有些待分类数据的数据名称会指向一些特定的品牌,品牌的类目是明确的,因此,需要对待分类数据进行识别,确定待分类数据的数据名称以及待分类数据包括的至少一个类目词,进而在后续综合参考数据名称、至少一个类目词为待分类数据确定较为准确的数据类目。下面对确定待分类数据的数据名称以及待分类数据包括的至少一个类目词的过程进行描述:
首先,对所述待分类数据进行拆分,得到多个单字符。多个单字符实际上也即是构成待分类数据的字符。比如,假设待分类数据为“百里餐厅”,则获取到的单字符即为“百”、“里”、“餐”、“厅”。
获取到多个单字符之后,为了确定这些单字符中哪些单字符能够组成类目词,哪些单字符只是商家为门店起的名称,需要将多个单字符与预设类目样本进行比对,按照比对结果,为多个单字符添加字符标记,添加的字符标记也即指示了相应的单字符是否属于组成预设类目样本的类目字符,以便在后续按照字符标记对单字符进行组合,得到类目词。具体地,在为多个单字符添加字符标记时,可以采用字符标记“O”指示相应的单字符不属于组成预设类目样本的类目字符。比如,多个单字符为“王”、“姐”、“快”、“餐”,单字符“王”、“姐”均不属于组成预设类目样本的类目字符,因此,为二者添加字符标记“O”。进一步地,考虑到属于组成预设类目样本的类目字符的单字符实际上需要与另外的一个或者多个单字符进行组合才能形成预设类目样本,为了在后续确定类目词时能够确定待形成的类目词从哪个单字符开始,哪个单字符结束,在为属于组成预设类目样本的类目字符的单字符添加字符标记时,针对起始位置以及其他位置的单字符可以采用不同的字符标记。具体地,可以采用字符标记“B”表示起始位置,采用字符标记“I”表示非起始位置(也即其他位置)。比如,多个单字符为“汉”、“堡”、“炸”、“鸡”、“沙”、“拉”,则单字符“汉”和“堡”能够组成类目词“汉堡”,这样,为单字符“汉”添加的字符标记为“B”,为单字符“堡”添加的字符标记为“I”;单字符“炸”和“鸡”能够组成类目词“炸鸡”,这样,为单字符“炸”添加的字符标记为“B”,为单字符“鸡”添加的字符标记为“I”;单字符“沙”和“拉”能够组成类目词“沙拉”,这样,为单字符“沙”添加的字符标记为“B”,为单字符“拉”添加的字符标记为“I”。
完成了向单字符添加字符标记的过程后,可以开始根据添加的字符标记确定哪些单字符不属于组成预设类目样本的类目字符,哪些单字符属于组成预设类目样本的类目字符,以及如何对属于组成预设类目样本的类目字符的单字符进行组合才能形成类目词。具体地,一方面,可以先在多个单字符中确定至少一个第一单字符,将至少一个第一单字符作为数据名称。其中,至少一个第一单字符对应的字符标记指示至少一个第一单字符不属于组成预设类目样本的类目字符。继续以上述单字符为“王”、“姐”、“快”、“餐”为例,因为单字符“王”、“姐”添加的字符标记为“O”,所以单字符“王”、“姐”即为第一单字符,组成的数据名称为“王姐”。另一方面,在多个单字符中确定至少一个第二单字符,对至少一个第二单字符进行组合,得到至少一个类目词。其中,至少一个第二单字符对应的字符标记指示至少一个第二单字符属于组成预设类目样本的类目字符。继续以上述单字符为“汉”、“堡”、“炸”、“鸡”、“沙”、“拉”为例,因为单字符“汉”、“堡”、“炸”、“鸡”、“沙”、“拉”添加的字符标记为“B”或“I”,“B”和“I”均指示属于组成预设类目样本的类目字符,区别仅在于“B”表示起始位置,“I”表示非起始位置。所以,单字符“汉”、“堡”、“炸”、“鸡”、“沙”、“拉”即为第二单字符,对这些第二单字符进行组合便可以得到至少一个类目词。
其中,在对至少一个第二单字符进行组合,得到至少一个类目词时,由于不同的字符标记指示了类目词的起始位置或者非起始位置,因此,可以按照字符标记确定哪些单字符属于同一个类目词,进而得到至少一个类目词,具体得到至少一个类目词的过程如下:
首先,读取至少一个第二单字符中首位第二单字符的下一第二单字符标记的字符标记。当下一第二单字符标记的字符标记指示下一第二单字符处于非起始位置时,读取下一第二单字符的下一第二单字符,直至确定字符标记指示处于起始位置的目标第二单字符。继续以单字符为“汉”、“堡”、“炸”、“鸡”、“沙”、“拉”为例,首位第二单字符为“汉”,首位第二单字符的下一第二单字符为“堡”,则读取“堡”的字符标记为“I”。而上面描述字符标记“I”指示非起始位置,所以,继续读取“堡”的下一第二单字符“炸”。由于“炸”对应的字符标记为“B”,“B”表示起始位置,因此,确定的目标第二单字符为“炸”。
随后,确定目标第二单字符在至少一个第二单字符中的上一第二单字符,提取首位第二单字符、上一第二单字符以及首位第二单字符与上一第二单字符之间的第二单字符作为类目词。继续以上述例子为例,确定了目标第二单字符为“炸”后,“炸”的上一第二单字符即为“堡”,这样,将“汉”和“堡”进行组合,便得到类目词“汉堡”。
接下来,继续识别目标第二单字符的下一单字符,直至遍历至少一个第二单字符,得到至少一个类目词。例如,继续按照上面的方式进行识别,对于第二单字符“汉”、“堡”、“炸”、“鸡”、“沙”、“拉”,可以识别确定的类目词分别为“汉堡”、“炸鸡”、“沙拉”。
需要说明的是,上面确定至少一个类目词的过程可以基于以Bert为基础的序列标注模型实现。序列标注是NLP(Neuro-Linguistic Programming,神经语言程序学)中一项重要的任务,它主要应用于分词、词性标注、命名实体识别等任务,因此,在本申请实施例中,可以使用序列标注的方法,得到多个类目词。具体地,序列标注过程可以基于CRF(Conditional Random Fields,条件随机场)模型实现,将多个单字符输入至CRF模型中,CRF模型采用字符标记“B”、“I”和“O”分别对每个单字符进行标注,并输出标注结果。以多个单字符为“麦”、“香”、“汉”、“堡”、“炸”、“鸡”、“沙”、“拉”为例,则将这些单字符输入至CRF模型后,得到的输出结果即为“O-O-B-I-B-I-B-I”。实际应用的过程中,为了便于确定类目词,并确定类目词的个数及内容,可以对CRF模型输出的结果进行转化,比如将“O-O-B-I-B-I-B-I”转化成文字,得到的结果即为“汉堡#薯条#沙拉”。
203、查询待分类数据对应的城市特征,采用类目预测模型对数据名称、城市特征以及至少一个类目词进行训练,得到多个候选数据类目。
在本申请实施例中,确定了至少一个类目词后,可以开始查询待分类数据对应的城市特征,采用类目预测模型对数据名称、城市特征以及至少一个类目词进行训练,得到多个候选数据类目。其中,类目预测模型是基于多个数据类目的多个训练样本训练的用于输出特征所属类目的模型。
实际应用的过程中,发明人认识到,数据名称通常属于超短文本且更多的是以字粒度为基本单元,将数据名称与待分类数据对应的城市特征结合起来训练,相比于单纯对数据名称进行训练能够取得更好的效果。因此,在本申请实施例中,在进行特征训练时,可将数据名称和城市特征输入至类目预测模型进行训练,得到多个候选数据类目。具体地,可将数据名称作为类目预测模型的Sentence(句子)1输入,将城市名称作为类目预测模型的Sentenct2输入。
进一步地,在对至少一个类目词进行训练时,由于已经在步骤201中完成了类目词的标注,因此,可直接将至少一个类目词输入至类目预测模型进行训练,得到多个候选数据类目。
这样,通过上述步骤201至步骤202中的过程,便确定了待分类数据,并为待分类数据确定多个候选数据类目。其中,上述步骤201至步骤202中的过程实际上是将文本分类模型和序列标注模型进行了融合,将数据名称中存在关联词的情况以及数据名称中虽然没有明显的指示类目的关联词但是文本表达有类目倾向的情况均考虑进来,将这两种情况下的门店充分挖掘,达到了保证准确率、提高召回率的效果。结合数据的表现情况,最终圈选出文本分类置信度高于0.8和数据名称中含有类目词的待分类数据进行文本分类模型以及序列标注模型的训练后,能够得出该待分类数据的候选数据类目。
204、统计待分类数据关联的多个实体对象,基于类目预测模型预测多个实体对象中每个实体对象划分至多个候选数据类目的类目概率。
在本申请实施例中,确定了待分类数据的多个候选数据类目后,由于待分类数据实际上关联有多个不同的实体对象,比如待分类数据“王姐快餐”这一门店会提供盖浇饭、汉堡、薯条等实体对象,且每个实体对象都对应有具体的类目。为了在确定目标数据类目时,将这些实体对象的类目分布也考虑进来,因此,需要统计待分类数据关联的多个实体对象,基于类目预测模型预测多个实体对象中每个实体对象划分至多个候选数据类目的类目概率,进而按照类目概率确定目标数据类目。利用类目预测模型与概率结合的方式,一方面在准确率上表现较好,另一方面该方式能够得到每个候选数据类目的概率分布,解释性更好。需要说明的是,在本申请实施例中以待分类数据为门店为例进行说明,因此,与待分类数据关联的实体对象也即是门店提供的商品。而在实际应用的过程中,待分类数据也可以是品牌、商圈等等,这样,关联的实体对象也可以是品牌的门店、商圈的门店等等,本申请对此不进行具体限定。
具体地,在基于类目预测模型预测多个实体对象中每个实体对象划分至多个候选数据类目的类目概率时,对于多个实体对象中每个实体对象,首先,在多个候选数据类目中确定指定候选数据类目,该指定候选数据类目为多个候选数据类目中任一数据类目。随后,采用指定候选数据类目对实体对象进行标注,将标注后的实体对象输入至类目预测模型中,获取类目预测模型输出的概率作为实体对象划分至指定候选数据类目下的类目概率。重复执行上述过程,分别采用多个候选数据类目中每个候选数据类目对实体对象进行标注以及输入至类目预测模型进行训练,得到实体对象划分至多个候选数据类目的类目概率。
需要说明的是,由于有些实体对象划分至相应候选数据类目的类目概率过低,容易对该候选数据类目后续的统计造成影响,因此,可以设置概率阈值,将低于概率阈值的类目概率舍弃,以保证后续统计的准确性。
205、将多个候选数据类目中每个候选数据类目下对应的多个实体对象的多个类目概率进行累加,得到每个候选数据类目的划分概率。
在本申请实施例中,确定了每个实体对象划分至多个候选数据类目的类目概率,开始对每个候选数据类目进行概率统计,以便选取概率最大的候选数据类目作为待分类数据最后划分的目标数据类目。其中,对于多个候选数据类目中每个候选数据类目,查询多个实体对象划分至候选数据类目的多个类目概率,计算多个类目概率的总和,将总和作为候选数据类目的划分概率。例如,假设候选数据类目A,实体对象甲、乙、丙划分至A的类目概率分别为50%、60%、80%,则计算得到的A的划分概率为50%+60%+80%=190%。另外,需要说明的是,为了避免划分概率较大带来的额外工作量,也可以查询多个实体对象划分至候选数据类目的多个类目概率,计算多个类目概率的平均值作为候选数据类目的划分概率。
重复执行上述过程,便可以分别为每个候选数据类目计算划分概率,得到每个候选数据类目的划分概率。
206、在多个候选数据类目中提取目标数据类目,将待分类数据划分至目标数据类目下。
在本申请实施例中,确定了每个候选数据类目对应的划分概率后,在多个候选数据类目中提取目标数据类目,将待分类数据划分至目标数据类目下即可。其中,目标数据类目对应的划分概率大于多个候选数据类目中除目标数据类目外的其他候选数据类目,也即目标数据类目是多个候选数据类目中划分概率最大的候选数据类目。
需要说明的是,通过上述过程为某些待分类数据确定的目标数据类目可能仍旧是粗粒度的,还可以继续细分。比如,“干锅/香锅”需要细分为“干锅”和“香锅”,因此,可以通过上述过程分别确定“干锅”和“香锅”对应的划分概率,将划分概率较大的一个作为目标数据类目。另外,需要说明的是,有些门店是对应品牌的,这些品牌门店的数据名称中可能没有明显的类目词或者个性化的数据名称,因此,可以采用品牌对这些门店进行标注,并在后续进行特征训练时,将品牌也作为一种特征输入至类目预测模型中进行训练,确定相应的候选数据类目进行评估。这样,通过品牌类目标注、粗类目再细分和商品类目概率分布统计等方法,推进了POI类目挖掘的广度和深度。
在本申请实施例中,利用字符标注的方法可以搜索出待分类数据包括的全部类目词,并实现类目词的切分,比如“麦香汉堡薯条沙拉”可以得到“汉堡”、“薯条”和“沙拉”三个类目词,且每个类目词都指向一个类目。而且后续本申请实施例按照类目词训练得到的候选数据类目的划分概率进行排序以及提取,在实现准确预测类目的同时,还实现了待分类数据的多类目预测,达到了保证准确率并提高召回率的目的。
本申请实施例提供的方法,确定待分类数据,为待分类数据确定多个候选数据类目,并统计待分类数据关联的多个实体对象,基于类目预测模型预测多个实体对象划分至多个候选数据类目的类目概率,将多个候选数据类目中每个候选数据类目下对应的多个实体对象的多个类目概率进行累加,得到每个候选数据类目的划分概率,进而在多个候选数据类目中提取划分概率最大的目标数据类目,将待分类数据划分至目标数据类目下,使得综合待分类数据关联的多个实体对象在候选数据类目下的概率分布,确定需要将待分类数据划分到哪个类目下,结合待分类数据的实际关联的实体对象进行数据分类,提升数据分类的准确性,一定程度上保证分类后的类目下数据的质量,推动了类目数据挖掘的广度和深度的进程。
进一步地,作为图1所述方法的具体实现,本申请实施例提供了一种数据分类装置,如图3A所示,所述装置包括:第一确定模块301,预测模块302,累加模块303和划分模块304。
该第一确定模块301,用于确定待分类数据,为所述待分类数据确定多个候选数据类目;
该预测模块302,用于统计所述待分类数据关联的多个实体对象,基于类目预测模型预测所述多个实体对象划分至所述多个候选数据类目的类目概率,所述类目预测模型是基于标注有样本类目标签的多个训练样本训练的用于预测特征所属类目的模型;
该累加模块303,用于将所述多个候选数据类目中每个候选数据类目下对应的所述多个实体对象的多个类目概率进行累加,得到所述每个候选数据类目的划分概率;
该划分模块304,用于在所述多个候选数据类目中提取目标数据类目,将所述待分类数据划分至所述目标数据类目下,所述目标数据类目对应的划分概率大于所述多个候选数据类目中除所述目标数据类目外的其他候选数据类目。
在具体的应用场景中,如图3B所示,该装置还包括:获取模块305,第二确定模块306,第一查询模块307,过滤模块308和训练模块309。
该获取模块305,用于获取多个训练样本,所述多个训练样本中每个训练样本标注有类目样本标签;
该第二确定模块306,用于在所述多个训练样本中确定目标训练样本,所述目标训练样本在所述多个训练样本中存在至少两个内容一致的重复训练样本;
该第一查询模块307,用于查询所述目标训练样本和至少两个重复训练样本的多个类目样本标签,在所述目标训练样本和至少两个重复训练样本中确定保留的训练样本,所述保留的训练样本标记的类目样本标签在所述多个类目样本标签中的出现次数最大;
该过滤模块308,用于将所述目标训练样本和至少两个重复训练样本中除所述保留的训练样本外的其他训练样本过滤;
该训练模块309,用于采用过滤后的所述多个训练样本进行训练,得到所述类目预测模型。
在具体的应用场景中,如图3C所示,该装置还包括:第二查询模块310,比对模块311和删除模块312。
该第二查询模块310,用于对于所述过滤后的多个训练样本中每个训练样本,查询所述训练样本是否包括次级样本数据;
该比对模块311,用于若所述训练样本包括次级样本数据,则将所述次级样本数据与预设类目样本进行比对;
该第二查询模块310,还用于当所述次级样本数据与所述预设类目样本一致时,将所述次级样本数据保留,并继续查询其他的训练样本是否包括次级样本数据,直至遍历过滤后的所述多个训练样本;
该删除模块312,用于当所述次级样本数据与所述预设类目样本不一致时,在所述训练样本中将所述次级样本数据删除,并继续查询其他的训练样本是否包括次级样本数据,直至遍历过滤后的所述多个训练样本。
在具体的应用场景中,该第一确定模块301,用于对所述待分类数据进行识别,确定所述待分类数据的数据名称以及所述待分类数据包括的至少一个类目词;查询所述待分类数据对应的城市特征,采用所述类目预测模型对所述数据名称、所述城市特征以及所述至少一个类目词进行训练,得到所述多个候选数据类目。
在具体的应用场景中,该第一确定模块301,用于对所述待分类数据进行拆分,得到多个单字符;将所述多个单字符与预设类目样本进行比对,按照比对结果,为所述多个单字符添加字符标记,所述字符标记指示了相应的单字符是否属于组成所述预设类目样本的类目字符;在所述多个单字符中确定至少一个第一单字符,将所述至少一个第一单字符作为所述数据名称,所述至少一个第一单字符对应的字符标记指示所述至少一个第一单字符不属于组成所述预设类目样本的类目字符;在所述多个单字符中确定至少一个第二单字符,对所述至少一个第二单字符进行组合,得到所述至少一个类目词,所述至少一个第二单字符对应的字符标记指示所述至少一个第二单字符属于组成所述预设类目样本的类目字符。
在具体的应用场景中,该第一确定模块301,用于读取所述至少一个第二单字符中首位第二单字符的下一第二单字符标记的字符标记;当所述下一第二单字符标记的字符标记指示所述下一第二单字符处于非起始位置时,读取所述下一第二单字符的下一第二单字符,直至确定字符标记指示处于起始位置的目标第二单字符;确定所述目标第二单字符在所述至少一个第二单字符中的上一第二单字符,提取所述首位第二单字符、所述上一第二单字符以及所述首位第二单字符与所述上一第二单字符之间的第二单字符作为类目词;继续识别所述目标第二单字符的下一单字符,直至遍历所述至少一个第二单字符,得到所述至少一个类目词。
在具体的应用场景中,该第一确定模块301,用于将所述数据名称和所述城市特征输入至所述类目预测模型进行训练,得到所述多个候选数据类目;和/或,将所述至少一个类目词输入至所述类目预测模型进行训练,得到所述多个候选数据类目。
在具体的应用场景中,该预测模块302,用于对于所述多个实体对象中每个实体对象,在所述多个候选数据类目中确定指定候选数据类目,所述指定候选数据类目为所述多个候选数据类目中任一数据类目;采用所述指定候选数据类目对所述实体对象进行标注,将标注后的所述实体对象输入至所述类目预测模型中;获取所述类目预测模型输出的概率作为所述实体对象划分至所述指定候选数据类目下的类目概率;重复执行上述过程,分别采用所述多个候选数据类目中每个候选数据类目对所述实体对象进行标注以及输入至所述类目预测模型进行训练,得到所述实体对象划分至所述多个候选数据类目的类目概率。
在具体的应用场景中,该累加模块303,用于对于所述多个候选数据类目中每个候选数据类目,查询所述多个实体对象划分至所述候选数据类目的多个类目概率;计算所述多个类目概率的总和,将所述总和作为所述候选数据类目的划分概率;重复执行上述过程,分别为所述每个候选数据类目计算划分概率,得到所述每个候选数据类目的划分概率。
本申请实施例提供的装置,确定待分类数据,为待分类数据确定多个候选数据类目,并统计待分类数据关联的多个实体对象,基于类目预测模型预测多个实体对象划分至多个候选数据类目的类目概率,将多个候选数据类目中每个候选数据类目下对应的多个实体对象的多个类目概率进行累加,得到每个候选数据类目的划分概率,进而在多个候选数据类目中提取划分概率最大的目标数据类目,将待分类数据划分至目标数据类目下,使得综合待分类数据关联的多个实体对象在候选数据类目下的概率分布,确定需要将待分类数据划分到哪个类目下,结合待分类数据的实际关联的实体对象进行数据分类,提升数据分类的准确性,一定程度上保证分类后的类目下数据的质量,推动了类目数据挖掘的广度和深度的进程。
需要说明的是,本申请实施例提供的一种数据分类装置所涉及各功能单元的其他相应描述,可以参考图1和图2中的对应描述,在此不再赘述。
在示例性实施例中,参见图4,还提供了一种设备,该设备包括总线、处理器、存储器和通信接口,还可以包括输入输出接口和显示设备,其中,各个功能单元之间可以通过总线完成相互间的通信。该存储器存储有计算机程序,处理器,用于执行存储器上所存放的程序,执行上述实施例中的数据分类方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的数据分类方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (20)
1.一种数据分类方法,其特征在于,包括:
确定待分类数据,为所述待分类数据确定多个候选数据类目,所述多个候选数据类目是采用类目预测模型对所述待分类数据的数据名称、城市特征以及所述待分类数据包括的至少一个类目词进行训练后得到的,所述待分类数据是文本类型的兴趣点数据,所述待分类数据包括门店、商圈、公交站、购物商场、地理区域,所述多个候选数据类目用于对数据进行分类;
统计所述待分类数据关联的多个实体对象,基于类目预测模型预测所述多个实体对象划分至所述多个候选数据类目的类目概率,所述类目预测模型是基于标注有样本类目标签的多个训练样本训练的用于预测特征所属类目的模型,其中,获取标注有类目样本标签的训练样本,对所述训练样本进行去重和无效信息剔除处理,以及利用处理后的所述训练样本训练得到所述类目预测模型,所述多个实体对象是所述待分类数据提供的商品类或门店类的实体对象;
将所述多个候选数据类目中每个候选数据类目下对应的所述多个实体对象的多个类目概率进行累加,得到所述每个候选数据类目的划分概率;
在所述多个候选数据类目中提取目标数据类目,将所述待分类数据划分至所述目标数据类目下,所述目标数据类目对应的划分概率大于所述多个候选数据类目中除所述目标数据类目外的其他候选数据类目。
2.根据权利要求1所述的方法,其特征在于,所述确定待分类数据,为所述待分类数据确定多个候选数据类目之前,所述方法还包括:
获取多个训练样本,所述多个训练样本中每个训练样本标注有类目样本标签;
在所述多个训练样本中确定目标训练样本,所述目标训练样本在所述多个训练样本中存在至少两个内容一致的重复训练样本;
查询所述目标训练样本和至少两个重复训练样本的多个类目样本标签,在所述目标训练样本和至少两个重复训练样本中确定保留的训练样本,所述保留的训练样本标记的类目样本标签在所述多个类目样本标签中的出现次数最大;
将所述目标训练样本和至少两个重复训练样本中除所述保留的训练样本外的其他训练样本过滤;
采用过滤后的所述多个训练样本进行训练,得到所述类目预测模型。
3.根据权利要求2所述的方法,其特征在于,所述采用过滤后的所述多个训练样本进行训练,得到所述类目预测模型之前,所述方法还包括:
对于所述过滤后的多个训练样本中每个训练样本,查询所述训练样本是否包括次级样本数据;
若所述训练样本包括次级样本数据,则将所述次级样本数据与预设类目样本进行比对;
当所述次级样本数据与所述预设类目样本一致时,将所述次级样本数据保留,并继续查询其他的训练样本是否包括次级样本数据,直至遍历过滤后的所述多个训练样本;
当所述次级样本数据与所述预设类目样本不一致时,在所述训练样本中将所述次级样本数据删除,并继续查询其他的训练样本是否包括次级样本数据,直至遍历过滤后的所述多个训练样本。
4.根据权利要求1所述的方法,其特征在于,所述为所述待分类数据确定多个候选数据类目,包括:
对所述待分类数据进行识别,确定所述待分类数据的数据名称以及所述待分类数据包括的至少一个类目词;
查询所述待分类数据对应的城市特征,采用所述类目预测模型对所述数据名称、所述城市特征以及所述至少一个类目词进行训练,得到所述多个候选数据类目。
5.根据权利要求4所述的方法,其特征在于,所述确定所述待分类数据的数据名称以及所述待分类数据包括的至少一个类目词,包括:
对所述待分类数据进行拆分,得到多个单字符;
将所述多个单字符与预设类目样本进行比对,按照比对结果,为所述多个单字符添加字符标记,所述字符标记指示了相应的单字符是否属于组成所述预设类目样本的类目字符;
在所述多个单字符中确定至少一个第一单字符,将所述至少一个第一单字符作为所述数据名称,所述至少一个第一单字符对应的字符标记指示所述至少一个第一单字符不属于组成所述预设类目样本的类目字符;
在所述多个单字符中确定至少一个第二单字符,对所述至少一个第二单字符进行组合,得到所述至少一个类目词,所述至少一个第二单字符对应的字符标记指示所述至少一个第二单字符属于组成所述预设类目样本的类目字符。
6.根据权利要求5所述的方法,其特征在于,所述对所述至少一个第二单字符进行组合,得到所述至少一个类目词,包括:
读取所述至少一个第二单字符中首位第二单字符的下一第二单字符标记的字符标记;
当所述下一第二单字符标记的字符标记指示所述下一第二单字符处于非起始位置时,读取所述下一第二单字符的下一第二单字符,直至确定字符标记指示处于起始位置的目标第二单字符;
确定所述目标第二单字符在所述至少一个第二单字符中的上一第二单字符,提取所述首位第二单字符、所述上一第二单字符以及所述首位第二单字符与所述上一第二单字符之间的第二单字符作为类目词;
继续识别所述目标第二单字符的下一单字符,直至遍历所述至少一个第二单字符,得到所述至少一个类目词。
7.根据权利要求4所述的方法,其特征在于,所述采用所述类目预测模型对所述数据名称、所述城市特征以及所述至少一个类目词进行训练,得到所述多个候选数据类目,包括:
将所述数据名称和所述城市特征输入至所述类目预测模型进行训练,得到所述多个候选数据类目;和/或,
将所述至少一个类目词输入至所述类目预测模型进行训练,得到所述多个候选数据类目。
8.根据权利要求1所述的方法,其特征在于,所述基于类目预测模型预测所述多个实体对象划分至所述多个候选数据类目的类目概率,包括:
对于所述多个实体对象中每个实体对象,在所述多个候选数据类目中确定指定候选数据类目,所述指定候选数据类目为所述多个候选数据类目中任一数据类目;
采用所述指定候选数据类目对所述实体对象进行标注,将标注后的所述实体对象输入至所述类目预测模型中;
获取所述类目预测模型输出的概率作为所述实体对象划分至所述指定候选数据类目下的类目概率;
重复执行上述过程,分别采用所述多个候选数据类目中每个候选数据类目对所述实体对象进行标注以及输入至所述类目预测模型进行训练,得到所述实体对象划分至所述多个候选数据类目的类目概率。
9.根据权利要求1所述的方法,其特征在于,所述将所述多个候选数据类目中每个候选数据类目下对应的所述多个实体对象的多个类目概率进行累加,得到所述每个候选数据类目的划分概率,包括:
对于所述多个候选数据类目中每个候选数据类目,查询所述多个实体对象划分至所述候选数据类目的多个类目概率;
计算所述多个类目概率的总和,将所述总和作为所述候选数据类目的划分概率;
重复执行上述过程,分别为所述每个候选数据类目计算划分概率,得到所述每个候选数据类目的划分概率。
10.一种数据分类装置,其特征在于,包括:
第一确定模块,用于确定待分类数据,为所述待分类数据确定多个候选数据类目,所述多个候选数据类目是采用类目预测模型对所述待分类数据的数据名称、城市特征以及所述待分类数据包括的至少一个类目词进行训练后得到的,所述待分类数据是文本类型的兴趣点数据,所述待分类数据包括门店、商圈、公交站、购物商场、地理区域,所述多个候选数据类目用于对数据进行分类;
预测模块,用于统计所述待分类数据关联的多个实体对象,基于类目预测模型预测所述多个实体对象划分至所述多个候选数据类目的类目概率,所述类目预测模型是基于标注有样本类目标签的多个训练样本训练的用于预测特征所属类目的模型,其中,获取标注有类目样本标签的训练样本,对所述训练样本进行去重和无效信息剔除处理,以及利用处理后的所述训练样本训练得到所述类目预测模型,所述多个实体对象是所述待分类数据提供的商品类或门店类的实体对象;
累加模块,用于将所述多个候选数据类目中每个候选数据类目下对应的所述多个实体对象的多个类目概率进行累加,得到所述每个候选数据类目的划分概率;
划分模块,用于在所述多个候选数据类目中提取目标数据类目,将所述待分类数据划分至所述目标数据类目下,所述目标数据类目对应的划分概率大于所述多个候选数据类目中除所述目标数据类目外的其他候选数据类目。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
获取模块,用于获取多个训练样本,所述多个训练样本中每个训练样本标注有类目样本标签;
第二确定模块,用于在所述多个训练样本中确定目标训练样本,所述目标训练样本在所述多个训练样本中存在至少两个内容一致的重复训练样本;
第一查询模块,用于查询所述目标训练样本和至少两个重复训练样本的多个类目样本标签,在所述目标训练样本和至少两个重复训练样本中确定保留的训练样本,所述保留的训练样本标记的类目样本标签在所述多个类目样本标签中的出现次数最大;
过滤模块,用于将所述目标训练样本和至少两个重复训练样本中除所述保留的训练样本外的其他训练样本过滤;
训练模块,用于采用过滤后的所述多个训练样本进行训练,得到所述类目预测模型。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第二查询模块,用于对于所述过滤后的多个训练样本中每个训练样本,查询所述训练样本是否包括次级样本数据;
比对模块,用于若所述训练样本包括次级样本数据,则将所述次级样本数据与预设类目样本进行比对;
所述第二查询模块,还用于当所述次级样本数据与所述预设类目样本一致时,将所述次级样本数据保留,并继续查询其他的训练样本是否包括次级样本数据,直至遍历过滤后的所述多个训练样本;
删除模块,用于当所述次级样本数据与所述预设类目样本不一致时,在所述训练样本中将所述次级样本数据删除,并继续查询其他的训练样本是否包括次级样本数据,直至遍历过滤后的所述多个训练样本。
13.根据权利要求10所述的装置,其特征在于,所述第一确定模块,用于对所述待分类数据进行识别,确定所述待分类数据的数据名称以及所述待分类数据包括的至少一个类目词;查询所述待分类数据对应的城市特征,采用所述类目预测模型对所述数据名称、所述城市特征以及所述至少一个类目词进行训练,得到所述多个候选数据类目。
14.根据权利要求13所述的装置,其特征在于,所述第一确定模块,用于对所述待分类数据进行拆分,得到多个单字符;将所述多个单字符与预设类目样本进行比对,按照比对结果,为所述多个单字符添加字符标记,所述字符标记指示了相应的单字符是否属于组成所述预设类目样本的类目字符;在所述多个单字符中确定至少一个第一单字符,将所述至少一个第一单字符作为所述数据名称,所述至少一个第一单字符对应的字符标记指示所述至少一个第一单字符不属于组成所述预设类目样本的类目字符;在所述多个单字符中确定至少一个第二单字符,对所述至少一个第二单字符进行组合,得到所述至少一个类目词,所述至少一个第二单字符对应的字符标记指示所述至少一个第二单字符属于组成所述预设类目样本的类目字符。
15.根据权利要求14所述的装置,其特征在于,所述第一确定模块,用于读取所述至少一个第二单字符中首位第二单字符的下一第二单字符标记的字符标记;当所述下一第二单字符标记的字符标记指示所述下一第二单字符处于非起始位置时,读取所述下一第二单字符的下一第二单字符,直至确定字符标记指示处于起始位置的目标第二单字符;确定所述目标第二单字符在所述至少一个第二单字符中的上一第二单字符,提取所述首位第二单字符、所述上一第二单字符以及所述首位第二单字符与所述上一第二单字符之间的第二单字符作为类目词;继续识别所述目标第二单字符的下一单字符,直至遍历所述至少一个第二单字符,得到所述至少一个类目词。
16.根据权利要求13所述的装置,其特征在于,所述第一确定模块,用于将所述数据名称和所述城市特征输入至所述类目预测模型进行训练,得到所述多个候选数据类目;和/或,将所述至少一个类目词输入至所述类目预测模型进行训练,得到所述多个候选数据类目。
17.根据权利要求10所述的装置,其特征在于,所述预测模块,用于对于所述多个实体对象中每个实体对象,在所述多个候选数据类目中确定指定候选数据类目,所述指定候选数据类目为所述多个候选数据类目中任一数据类目;采用所述指定候选数据类目对所述实体对象进行标注,将标注后的所述实体对象输入至所述类目预测模型中;获取所述类目预测模型输出的概率作为所述实体对象划分至所述指定候选数据类目下的类目概率;重复执行上述过程,分别采用所述多个候选数据类目中每个候选数据类目对所述实体对象进行标注以及输入至所述类目预测模型进行训练,得到所述实体对象划分至所述多个候选数据类目的类目概率。
18.根据权利要求10所述的装置,其特征在于,所述累加模块,用于对于所述多个候选数据类目中每个候选数据类目,查询所述多个实体对象划分至所述候选数据类目的多个类目概率;计算所述多个类目概率的总和,将所述总和作为所述候选数据类目的划分概率;重复执行上述过程,分别为所述每个候选数据类目计算划分概率,得到所述每个候选数据类目的划分概率。
19.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述方法的步骤。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110890147.2A CN113627509B (zh) | 2021-08-04 | 2021-08-04 | 数据分类方法、装置、计算机设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110890147.2A CN113627509B (zh) | 2021-08-04 | 2021-08-04 | 数据分类方法、装置、计算机设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113627509A CN113627509A (zh) | 2021-11-09 |
CN113627509B true CN113627509B (zh) | 2024-05-10 |
Family
ID=78382541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110890147.2A Active CN113627509B (zh) | 2021-08-04 | 2021-08-04 | 数据分类方法、装置、计算机设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113627509B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114943769B (zh) * | 2022-07-26 | 2023-01-13 | 广州镭晨智能装备科技有限公司 | 一种定位方法、装置、电子设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017157198A1 (zh) * | 2016-03-17 | 2017-09-21 | 阿里巴巴集团控股有限公司 | 属性获取方法和装置 |
CN110580489A (zh) * | 2018-06-11 | 2019-12-17 | 阿里巴巴集团控股有限公司 | 一种数据对象的分类系统、方法以及设备 |
CN110610193A (zh) * | 2019-08-12 | 2019-12-24 | 大箴(杭州)科技有限公司 | 标注数据的处理方法及装置 |
CN111444344A (zh) * | 2020-03-27 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 实体分类方法、装置、计算机设备和存储介质 |
CN112801720A (zh) * | 2021-04-12 | 2021-05-14 | 连连(杭州)信息技术有限公司 | 一种店铺类目识别模型生成、店铺类目识别的方法及装置 |
CN113011533A (zh) * | 2021-04-30 | 2021-06-22 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN113139628A (zh) * | 2021-06-22 | 2021-07-20 | 腾讯科技(深圳)有限公司 | 样本图像的识别方法、装置、设备及可读存储介质 |
-
2021
- 2021-08-04 CN CN202110890147.2A patent/CN113627509B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017157198A1 (zh) * | 2016-03-17 | 2017-09-21 | 阿里巴巴集团控股有限公司 | 属性获取方法和装置 |
CN110580489A (zh) * | 2018-06-11 | 2019-12-17 | 阿里巴巴集团控股有限公司 | 一种数据对象的分类系统、方法以及设备 |
CN110610193A (zh) * | 2019-08-12 | 2019-12-24 | 大箴(杭州)科技有限公司 | 标注数据的处理方法及装置 |
CN111444344A (zh) * | 2020-03-27 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 实体分类方法、装置、计算机设备和存储介质 |
CN112801720A (zh) * | 2021-04-12 | 2021-05-14 | 连连(杭州)信息技术有限公司 | 一种店铺类目识别模型生成、店铺类目识别的方法及装置 |
CN113011533A (zh) * | 2021-04-30 | 2021-06-22 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN113139628A (zh) * | 2021-06-22 | 2021-07-20 | 腾讯科技(深圳)有限公司 | 样本图像的识别方法、装置、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113627509A (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107844565B (zh) | 商品搜索方法和装置 | |
CN110059271B (zh) | 运用标签知识网络的搜索方法及装置 | |
CA3059929C (en) | Text searching method, apparatus, and non-transitory computer-readable storage medium | |
CN111144723A (zh) | 人岗匹配推荐方法及系统、存储介质 | |
CN106970991B (zh) | 相似应用的识别方法、装置和应用搜索推荐方法、服务器 | |
CN111400507B (zh) | 实体匹配方法及其装置 | |
CN109241451B (zh) | 一种内容组合推荐方法、装置及可读存储介质 | |
CN107092609B (zh) | 一种信息推送方法及装置 | |
CN111310011A (zh) | 一种信息推送方法、装置、电子设备及存储介质 | |
CN111782686A (zh) | 用户数据的查询方法、装置、电子设备及存储介质 | |
CN114443847A (zh) | 文本分类、文本处理方法、装置、计算机设备及存储介质 | |
CN111191127B (zh) | 一种基于关联分析算法的旅行推荐方法和系统 | |
CN113627509B (zh) | 数据分类方法、装置、计算机设备及计算机可读存储介质 | |
CN105786936A (zh) | 用于对搜索数据进行处理的方法及设备 | |
CN115423555A (zh) | 一种商品推荐方法、装置、电子设备及存储介质 | |
CN111931077A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN114841760B (zh) | 一种基于受众行为特征分析的广告推荐管理方法及系统 | |
CN106933797B (zh) | 目标信息的生成方法及装置 | |
CN111723273A (zh) | 一种智慧云检索系统及方法 | |
CN114282119A (zh) | 一种基于异构信息网络的科技信息资源检索方法及系统 | |
CN113297456B (zh) | 搜索方法、装置、电子设备及存储介质 | |
CN115080824A (zh) | 目标词的挖掘方法、装置、电子设备及存储介质 | |
CN115292478A (zh) | 一种推荐搜索内容的方法、装置、设备和存储介质 | |
CN111723296B (zh) | 搜索处理方法、装置及计算机设备 | |
CN114358879A (zh) | 一种基于大数据的物价实时监测方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |