CN114139031B - 数据分类方法、装置、电子设备及存储介质 - Google Patents
数据分类方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114139031B CN114139031B CN202111262910.3A CN202111262910A CN114139031B CN 114139031 B CN114139031 B CN 114139031B CN 202111262910 A CN202111262910 A CN 202111262910A CN 114139031 B CN114139031 B CN 114139031B
- Authority
- CN
- China
- Prior art keywords
- data
- probability
- classified
- classification
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000012545 processing Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012795 verification Methods 0.000 abstract description 18
- 230000000295 complement effect Effects 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 17
- 238000012549 training Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 230000002829 reductive effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000013515 script Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 230000008094 contradictory effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据分类方法、装置、电子设备及存储介质,涉及互联网技术领域。所述方法包括:首先可以获取待分类数据的第一参考概率,第一参考概率为使用第一模型预先确定的待分类数据属于目标类型的概率,还可以获取待分类数据的分类标签,分类标签为使用第二模型预先确定的待分类数据的类型。接着,若第一参考概率以及分类标签满足预设分类条件,将确定待分类数据属于目标类型。本申请使用概率预测及类型预测这两种分类方式分别对待分类数据进行分类,再综合两种分类方式的分类结果最终确定待分类数据的类型,可实现对待分类数据分类结果的相互校验,使第一模型与第二模型形成优势互补,由此可以得到更加准确的数据分类结果。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种数据分类方法、装置、电子设备及存储介质。
背景技术
随着互联网产业的高速发展,近年来人工智能技术在视频图像、语音识别、自然语音处理等相关领域得到了广泛应用,尤其在数据分类任务中的应用越加广泛。为了提高识别准确率,目前亟需一种准确的识别技术,以识别数据的类型。
发明内容
鉴于上述问题,本申请提出了一种数据分类方法、装置、电子设备及存储介质,能解决上述问题。
第一方面,本申请实施例提供了一种数据分类方法,所述方法包括:获取待分类数据的第一参考概率,所述第一参考概率为使用第一模型预先确定的所述待分类数据属于目标类型的概率;获取所述待分类数据的分类标签,所述分类标签为使用第二模型预先确定的所述待分类数据的类型;若所述第一参考概率以及所述分类标签满足预设分类条件,确定所述待分类数据属于所述目标类型。
第二方面,本申请实施例提供了一种数据分类装置,所述装置包括:概率获取单元、标签获取单元以及数据分类单元。其中,概率获取单元,用于获取待分类数据的第一参考概率,所述第一参考概率为使用第一模型预先确定的所述待分类数据属于目标类型的概率;标签获取单元,用于获取所述待分类数据的分类标签,所述分类标签为使用第二模型预先确定的所述待分类数据的类型;数据分类单元,用于若所述第一参考概率以及所述分类标签满足预设分类条件,确定所述待分类数据属于所述目标类型。
第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个应用程序,其中,所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行上述方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述方法。
第五方面,本申请实施例提供了一种包含指令的计算机程序产品,其特征在于,所述计算机程序产品中存储有指令,当其在计算机上运行时,使得计算机实现上述方法。
可以看出,在本申请实施例中,使用概率预测及类型预测这两种分类方式分别对待分类数据进行分类,再综合两种分类方式的分类结果最终确定待分类数据的类型,可以实现对待分类数据分类结果的相互校验,使第一模型与第二模型形成优势互补,由此可以得到更加准确的数据分类结果。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一实施例提供的数据分类方法的一种应用环境示意图;
图2示出了本申请一实施例提供的数据分类方法的流程示意图;
图3示出了本申请又一实施例提供的使用概率进行数据分类的流程示意图;
图4示出了本申请另一实施例提供的使用分类标签进行数据分类的流程示意图;
图5示出了本申请一实施例提供的数据分类方法用于划分多种类型的流程框图;
图6示出了本申请又一实施例提供的数据分类方法的流程示意图;
图7示出了本申请另一实施例提供的数据分类方法的流程示意图;
图8示出了本申请一实施例提供的数据分类方法的流程框图;
图9示出了本申请又一实施例提供的数据分类方法的流程框图;
图10示出了本申请一实施例提供的新闻页面的示意图;
图11示出了本申请一实施例提供的数据分类装置的模块框图;
图12示出了本申请一实施例提供的电子设备的结构框图;
图13示出了本申请一实施例提供的计算机可读存储介质的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
随着互联网产业的高速发展,近年来以机器学习与深度学习为标志性技术的人工智能技术在视频图像、语音识别、自然语音处理等相关领域得到了广泛应用,尤其在数据分类任务中的应用越加广泛。在数据分类任务中,通常采用一个训练好的分类模型对业务场景中的目标进行识别,通过分类结果确定得到该目标的类型。其中,这个训练好的分类模型可以是机器学习模型或者深度学习模型,可以通过对大量数据进行学习而训练得到。然而,实际业务场景中的目标识别往往会存在各种的不确定因素,无论是何种模型,在实际业务场景中识别数据类型时往往准确率不高。
为解决上述问题,本申请发明人经过仔细研究后发现,可以使用概率预测及类型预测这两种分类方式分别对待分类数据进行分类,然后综合两种分类方式的分类结果得到待分类数据的类型,可以实现对待分类数据分类结果的相互校验,使第一模型与第二模型形成优势互补,由此可以得到更加准确的数据分类结果。
为了更好理解本申请实施例提供的一种数据分类方法、装置、电子设备及存储介质,下面先对适用于本申请实施例的应用环境进行描述。
请参阅图1,图1示出了本申请一实施例提供的数据分类方法的一种应用环境示意图。示例性地,本申请实施例提供的数据分类方法、装置、电子设备及存储介质可以应用电子设备,其中,电子设备可以是如图1中所示的服务器110,服务器110可以通过网络与终端设备120相连。其中,网络用以在服务器110和终端设备120之间提供通信链路的介质。网络可以包括各种连接类型,例如有线通信链路、无线通信链路等等,本申请实施例对此不作限制。可选地,在另一些实施例中,电子设备也可以是智能手机、笔记本电脑等等。
应该理解,图1中的服务器110、网络和终端设备120仅仅是示意性的。根据实现需要,可以具有任意数目的服务器、网络和终端设备。示例性地,服务器110可以是物理服务器,也可以是由多个服务器组成的服务器集群等,终端设备120可以是手机、平板、台式电脑、笔记本电脑等等设备。可以理解的是,本申请的实施例还可以允许多台终端设备120同时接入服务器110。
在一些实施例中,终端设备120可以通过网络向服务器110发送数据,在电子设备接收到这些数据后,可以通过本申请实施例所述的数据分类方法对这些数据进行分类。示例性地,这些数据可以包含图像、视频、音频或文字等等类型的数据。例如,在用户通过终端设备120浏览新闻网站时,可以将浏览的新闻页面发送给服务器110,然后服务器110可以通过识别该新闻页面内的文字、图像等内容,识别出该新闻页面所显示的新闻的类型,例如可以识别为军事新闻、财经新闻、体育新闻、金融科技新闻等等。进一步地,还可以通过分析用户经常浏览的新闻类型,对用户进行精准地新闻推荐等等。除此之外,本方法还可以用于检测图像或音频,例如可以识别图像中特定对象的类型或者对音频内容进行分类等等。
上述应用环境仅为方便理解所作的示例,可以理解的是,本申请实施例不仅局限于上述应用环境。
下面将通过具体实施例对本申请实施例提供的数据分类方法、装置、电子设备及存储介质进行详细说明。
请参阅图2,其示出了本申请一实施例提供的数据分类方法的流程示意图。下面将针对图2所示的流程进行详细的阐述,所述数据分类方法具体可以包括如下步骤:
步骤S210:获取待分类数据的第一参考概率,所述第一参考概率为使用第一模型预先确定的所述待分类数据属于目标类型的概率。
其中,待分类数据可以包含图像、视频、音频或文字等等类型的数据。其中,待分类数据可从终端设备中获取。示例性地,待分类数据可以用户通过终端设备浏览的新闻页面或通过终端设备采集得到的用户的人脸图像等等。
其中,第一模型可以是预先使用大量的训练数据训练好的机器学习模型,可以对输入第一模型的数据进行分类,得到该数据属于某种特征类型的概率。在本实施例中,可以将待分类数据输入第一模型,然后通过第一模型确定待分类数据属于这种特定类型的概率,可以将这种特定类型称为目标类型,将第一模型所确定的待分类数据属于目标类型的概率称为第一参考概率。
在一些实施方式中,目标类型可以预先设置。可选地,目标类型可以根据实际业务场景来设置。例如,在个性化新闻推送的场景下,可以将目标类型设置为用户经常浏览的新闻类型,例如财经新闻、军事新闻等等,当获取到今日新闻后,可以将每一条今日新闻都作为待分类数据,从而为所有的今日新闻进行分类,从中找出属于目标类型的今日新闻后可以将这些新闻推送给用户。类似地,在图像识别的场景下,可以将人脸作为目标类型,用于从视频或大量图像中识别出包含人脸的画面。
步骤S220:获取所述待分类数据的分类标签,所述分类标签为使用第二模型预先确定的所述待分类数据的类型。
在本申请的实施例中,第二模型可以是分类模型,通过对大量训练数据进行训练,将训练数据更加准确地映射到特定的类型中,由此可以实现对输入数据预测其分类标签的目的。示例性地,在第二模型中,可以通过预先设置规则的方式来匹配数据中是否存在符合规则的数据,然后根据待分类数据匹配中的具体规则得到待分类数据的类型,其中,预先设置的规则可以是对大量训练数据进行训练、分析而得到的。
在一些具体的实施方式中,可以基于第二模型确定待分类数据中是否包含预设关键字,若包含预设关键字,那么可以将待分类数据的分类标签设置为指定标签。可选地,所述指定标签为目标类型对应的标签。通过预设关键字的方式可以得到第二模型对待分类数据的初步分类结果,可以根据该初步分类结果初步得出待分类数据是否属于目标类型,为后续处理过程中综合第一模型基于概率的分类结果确定待分类数据的类型作铺垫。
例如,在个性化新闻推送的场景下,以识别目标类型为“财经新闻”的新闻为例,此时与该目标类型对应的指定标签可以是“财经新闻”,“财经新闻”对应的预设关键词设置为“银行”及“经济”,那么如果第二模型在输入的新闻中识别出了这些预设关键词,即识别出了“银行”及“经济”这个两个词,则可以将该条新闻的类型确定目标类型,该条新闻的分类标签为指定标签。其中,“银行”及“经济”这两个预设关键词可以是在第二模型的训练过程中,通过预先对大量新闻进行分析得到的财经新闻中出现频次最高的词语。
可以理解的是,通过第二模型可以对待分类数据进行初步分类,但由于实际业务场景中的待分类数据往往会存在各种的不确定因素,例如待分类数据存在第二模型的训练中从未遇见过的特征而无法找到相匹配的规则,由此导致实际业务场景中使用第二模型进行数据分类时往往准确率不高。
在一些实施方式中,可以直接使用待分类数据的类型名称作为分类标签,例如在待分类数据为新闻数据的情况下,分类标签可以由“军事新闻”、“财经新闻”、“体育新闻”、“金融科技新闻”等新闻类型来表示,在待分类数据为图像数据的情况下,分类标签可以由“人脸”、“猫”、“狗”、“建筑”等图像显示内容作为图像类型来表示,这种表示方式较为直接,更有普遍性。
但是,在一些业务场景下,待分类数据的分类标签用于表征该待分类数据属于该目标类型和不属于该目标类型这两种结果,因此,也可以约定使用第一标签和第二标签来表示待分类数据的分类标签。具体地,可以是第一标签表示该待分类数据属于该目标类型,第二标签表示该待分类数据不属于该目标类型。示例性地,对于二分类的情况下,第一标签可以是“1”,第二标签可以是“0”,即可以使用“1”和“0”来区别两种分类结果。例如,在确定待分类数据是否属于目标类型时,可以将目标类型作为正例,分类标签为“1”,可以将非目标类型作为负例,分类标签为“0”。
步骤S230:若所述第一参考概率以及所述分类标签满足预设分类条件,确定所述待分类数据属于所述目标类型。
在一些实施方式中,仅仅采用第一参考概率或仅仅基于分类标签来确定待分类数据的类型,分类结果都是不太准确的。
示例性地,在仅采用第一参考概率来确定待分类数据的类型的情况下,如图3所示,首先可以将待分类数据输入到第一模型中,然后在第一模型中对待分类数据进行分类,输出待分类数据属于目标类型的第一参考概率。接着比较第一参考概率与预设的概率阈值,若第一参考概率大于概率阈值,可以确定待分类数据为正例,即待分类数据属于目标类型;若第一参考概率小于或等于概率阈值,可以确定待分类数据为负例,即待分类数据不属于目标类型。在该情况下,由于仅仅使用概率阈值为界限来区分正例与负例,当业务场景中的待分类数据较复杂时,例如,当不同类型的待分类数据间的差别较小时,无法对待分类数据的类型进行准确地区分。
示例性地,在仅采用分类标签来确定待分类数据的类型的情况下,如图4所示,首先可以将待分类数据输入到第二模型中,然后在第二模型中对待分类数据进行分类,输出待分类数据的分类标签。接着确定该分类标签是否是目标类型对应的标签,若是,可以确定待分类数据为正例,即待分类数据属于目标类型;若否,可以确定待分类数据为负例,即待分类数据不属于目标类型。在这种情况下,通过第二模型仅仅可以对待分类数据进行初步分类,当实际业务场景中存在多种干扰项等不确定因素时,例如,当待分类数据同时存在两种及以上类型的部分特征时,使用第二模型进行数据分类时也往往存在较大的误差。
基于此,在本申请的实施例中,可以综合考虑第一模型以及第二模型的分类结果,即在确定第一参考概率及分类标签两个参数同时满足预设分类条件时,才可以将待分类数据的类型确定为目标类型。示例性地,可以对第一参考概率的阈值大小进行限制,同时还可以判断分类标签是否属于目标类型所表示的分类标签。
可以理解的是,在综合两种模型的分类结果时,可以实现对待分类数据分类结果的相互校验,使两种模型形成优势互补。
在一些实施方式中,需要将数据划分为多种类型,也就是说,目标类型为多个,第一模型能够确定待分类数据属于每个目标类型的第一参考概率,即能够得到多个第一参考概率,每个第一参考概率对应一个目标类型,待分类数据的每个第一参考概率用于表征待分类数据属于该第一参考概率对应的目标类型的概率。设定分类标签包括前述的第一标签和第二标签,第二模型能够分别确定待分类数据属于每个目标类型的分类标签,即能够确定每个目标类型对应的第一标签或第二标签。
由此,将待分类数据输入第一模型及第二模型,得到每个目标类型对应的第一参考概率和分类标签,由所有目标类型中,查找第一参考概率和分类标签满足预设分类条件的目标类型作为指定类型,则确定分类结果为待分类数据属于指定类型。
例如,新闻数据的类型可以划分为“军事新闻”、“财经新闻”、“体育新闻”、“金融科技新闻”的新闻类型等等,此时,若要确定新闻A的类型,如图5所示,可以分别将每种新闻类型都作为目标类型,将新闻A作为待分类数据输入第一模型及第二模型,可以针对每种目标类型都确定一个第一参考概率及分类标签,如目标类型为“军事新闻”时第一模型输出第一参考概率为0.8,分类标签为第二标签,目标类型为“财经新闻”时第一模型输出第一参考概率为0.9,分类标签为第一标签等等。最后,通过对每个目标类型对应的第一参考概率和分类标签进行判断,可以确定新闻A的类型。示例性地,可以将第一参考概率最大且分类标签为第一标签的目标类型确定为新闻A的类型。例如,若在“军事新闻”、“财经新闻”、“体育新闻”、“金融科技新闻”的五个目标类型对应的五个第一参考概率中,“财经新闻”对应的第一参考概率为0.9,大于另外4个目标类型对应的第一参考概率,且“财经新闻”对应的分类标签为第一标签,则可以确定新闻A属于“财经新闻”。
在一些实施例中,也可以通过上述步骤来训练第一模型和第二模型,以提高第一模型和第二模型的分类准确率。示例性地,可以将经过标注的训练数据作为待分类数据输入第一模型和第二模型,若第一模型输出的第一参考概率以及第二模型输出的分类标签满足预设分类条件,确定所述待分类数据属于所述目标类型,接着可以确定目标类型是否与训练数据的标注过程中确定的类型一致,若不一致,表明第一模型和第二模型的识别结果不准确,可以对第一模型和第二模型的模型参数进行调整,待模型参数调整完成后继续采用上述方式对经过标注的训练数据进行分类,直到确定目标类型与训练数据的标注过程中确定的类型一致为止。
在一些实施方式中,还可以对不同的业务场景提供不同的数据分类方式。可选地,在确定业务场景属于预设类型时,通过提取该业务场景下的待分类数据,可以将待分类数据输入第一模型及第二模型,得到第一模型输出的第一参考概率和第二模型输出的分类标签,在第一参考概率和分类标签满足预设分类条件时确定待分类数据属于目标概率。进一步地,还可以在该业务场景不属于预设类型时,通过比较第一模型与第二模型的分类准确率,可以将待分类数据输入准确率较高的模型中进行数据分类。其中,第一模型与第二模型的分类准确率可以通过统计用户对历史分类结果的反馈信息来确定,例如在每次客服问答的服务完成后,都提供一个反馈页面来搜集用户对历史问答结果是否满意的反馈信息,若反馈信息为满意,则表示该次问答结果是准确的,由此,通过计算反馈信息为满意的数量与所有反馈信息的数量的比值就可以得到分类准确率。
将待分类数据输入第一模型,得到对应的第一参考概率,确定第一参考概率满足概率分类条件时将确定待分类数据属于目标类型,或者,将待分类数据输入第二模型,得到对应的分类概率,确定分类概率属于目标类型对应的指定标签时确定待分类数据属于目标类型。
其中,预设类型的场景可以是实时性要求和准确性要求满足预设条件的场景。实时性要求和准确性要求满足预设条件的场景例如可以是实时性要求较低或准确性要求较高的场景。若数据的准确性要求比较高,比如,通过短信提取行程并生成闹钟的场景下,需要为用户反馈或提供比较准确的内容,则可以将短信内容作为待分类数据,然后将短信内容输入第一模型和第二模型分别输出第一参考概率和分类标签,通过同时判断第一参考概率和分类标签满足预设分类条件才将短信内容的类型确定为目标类型,可以使分类的准确性更高。
预设类型以外的场景可以是实时性要求较高或准确性要求较低的场景,例如需要及时对用户输入的数据给出反馈的场景。示例性地,若数据实时性要求比较高,比如客服问答或者在线搜索的场景下,则该待分类数据是交互界面内输入的数据,并且需要根据该数据的分类作出回答,则可以将该数据输入到第一模型或第二模型中进行分类,例如通过判断第一模型输出的第一参考概率判断该数据属于目标类型的概率大于预设概率阈值时则可以判断该数据属于目标类型。这样仅通过一种模型对场景下的数据进行分类可以减少计算量,提升计算速度,由此可以更快地得到分类结果。
可选地,可以通过识别设备中实时运行的程序或显示的界面来判断当前场景的类型,例如若当前显示的界面与客服对话的聊天界面,表示当前正在进行客服问答,可以确定当前场景属于预设类型。可选地,也可以基于客户的使用需求预设先设置哪些场景对准确性要求较高,则可以进一步地将这些准确性要求较高的场景设置为预设场景。
综上所述,本实施例提供的数据分类方法,首先可以获取待分类数据的第一参考概率,所述第一参考概率为使用第一模型预先确定的所述待分类数据属于目标类型的概率,还可以获取待分类数据的分类标签,所述分类标签为使用第二模型预先确定的所述待分类数据的类型。接着,若所述第一参考概率以及所述分类标签满足预设分类条件,将确定所述待分类数据属于所述目标类型。本申请可以使用概率预测及类型预测这两种分类方式分别对待分类数据进行分类,再综合两种分类方式的分类结果最终确定待分类数据的类型,可以实现对待分类数据分类结果的相互校验,使第一模型与第二模型形成优势互补,由此可以得到更加准确的数据分类结果。
在一些实施方式中,可选地,本实施例在上述实施例的基础上,可以比较第一参考概率与第一概率阈值的概率大小,并且对分类标签进行判断,若第一参考概率大于第一概率阈值且该分类标签为目标类型对应的指定标签时,确定待分类数据属于目标类型。
具体地,由于第一参考概率为待分类数据属于目标类型的概率,在对第一参考概率的概率大小进行限制时,可以将设置一个概率下限,用第一概率阈值限制第一参考概率的最小值。当比较得出第一参考概率大于第一概率阈值时,可以表示通过第一模型确定该待分类数据属于目标类型。
可以理解的是,使用第一概率阈值可以判断第一模型基于概率的分类结果是否准确。可选地,第一概率阈值可以预先设置。需要说明的是,可以基于实际业务场景或者用户需求来设置第一概率阈值。示例性地,在用户对分类结果的准确率要求较高的场景下,此时可以将分类误差控制在较小的范围内,因此准确率要求较高的场景对第一概率阈值的设置可以大于对分类结果的准确率要求较低的场景。例如,在对新闻数据进行分类时,假设对“财经新闻”的识别准确率要求大于对“军事新闻”的识别准确率要求,可以分别将“财经新闻”以及“军事新闻”作为目标类型进行分类,此时可以设置识别“财经新闻”时的第一概率阈值大于识别“军事新闻”时的第一概率阈值。
进一步地,在比较第一参考概率与第一概率阈值的概率大小的同时,还将对分类标签进行判断。若第一参考概率大于第一概率阈值,同时还满足该分类标签为目标类型对应的指定标签,表示通过第一模型与第二模型对同样的待分类数据进行分类得到的结果一致,均表示该待分类数据属于目标类型,因此,可以更加可靠地将该待分类数据的类型确定为目标类型。
在另一些实施方式中,可选地,本实施例在上述实施例的基础上,提供一种数据分类方法,通过第二概率阈值对第一模型输出的概率进行二次校验,可以进一步确定第一模型的分类准确性,通过比较第一模型和第二模型的分类结果是否一致,进而可以确定第二模型的分类结果是否可靠,最终根据两个模型的分类结果来确定待分类数据是否属于目标类型,由此可以明显地增加分类的准确性。请参阅图6,其示出了本申请又一实施例提供的数据分类方法的流程示意图。所述若所述第一参考概率以及所述分类标签满足预设分类条件,确定所述待分类数据属于所述目标类型,具体可以包括如下步骤:
步骤S610:若所述第一参考概率大于所述第一概率阈值且所述分类标签不为指定标签,将所述第一参考概率降低为第二参考概率,所述指定标签为所述目标类型对应的标签。
可以理解的是,当确定得到第一参考概率大于第一概率阈值且所述分类标签不为指定标签时,表示使用第一模型预测得到待分类数据属于目标类型,但是,由于待分类数据的分类标签不为指定标签,即第二模型识别得出待分类数据的类型与目标类型不同。两个模型的分类结果出现矛盾,此时,为了得到更加准确的分类结果,在本申请的实施例中,可以适当降低第一参考概率的概率大小,例如可以将第一参考概率降低为第二参考概率,然后再使用第二参考概率对第一模型的分类结果进行二次校验。
可选地,在本申请的实施例中,第二参考概率可以基于实际业务场景或者第一参考概率的实际大小而确定。
在一些实施例中,可以将第一参考概率与第二参考概率的差值设置为固定大小,称为概率衰减值Sup。此时,若第一参考概率为P,那么可以得到第二参考概率为PS=P-Sup。可选地,概率衰减值Sup的大小可以预先设置。需要说明的是,概率衰减值Sup的设置可以基于实际业务场景或者第一参考概率实际可以达到的概率范围而确定。
可选地,在本申请的实施例中,在用户对分类结果的准确率要求较高的场景下,此时需要将分类误差控制较小的范围内,因此准确率要求较高的场景对概率衰减值的设置可以大于对分类结果的准确率要求较低的场景。此外,针对不同的数据,第一模型分类的结果是不同的,即第一参考概率实际可以达到的概率范围不同,对一些数据进行分类时第一参考概率最高值较高,例如为0.98,这时概率衰减值可以设置为0.2,但是对另一些数据进行分类时,第一参考概率最高值很低,例如为0.22,这时若同样将概率衰减值设置为0.2则极有可能出现较大的分类误差,因此,在第一参考概率最高值较低时可以降低概率衰减值,比如概率衰减值可以设置为0.08。
在另一些实施例中,也可以将第二参考概率与第一参考概率的比值设置为固定大小,例如将第一参考概率减少20%,使得第二参考概率为第一参考概率的80%等等。
步骤S620:若所述第二参考概率大于第二概率阈值,确定所述待分类数据属于所述目标类型。
在本申请的实施例中,在降低了第一参考概率的概率大小之后,还可以将第二参考概率与第二概率阈值进行比较。具体地,在确定第二参考概率大于第二概率阈值时,表示即使将第一模型输出的概率降低,降低后得到的第二参考概率仍然大于预设的第二概率阈值,通过对概率进行二次校验可以确定第一模型将待分类数据的类型确定为目标类型的分类结果是可靠的,而在前述判断过程中第二模型输出的分类标签不为指定标签,表示第二模型识别得出待分类数据的类型与目标类型不同,因此可以确定第二模型产生了误判,进一步可以确定待分类数据属于目标类型。
在一些实施方式中,使用第二概率阈值可以对第一模型输出的概率进行二次校验,进一步确定第一模型的分类结果是否可靠。可选地,第二概率阈值可以预先设置。需要说明的是,与第一概率阈值的确定方式类似,第二概率阈值也可以基于实际业务场景或者用户需求来设置。例如,准确率要求较高的场景对第二概率阈值的设置可以大于对分类结果的准确率要求较低的场景。
在一些典型的实施方式中,可选地,可以设置第一概率阈值小于第二概率阈值。此时,虽然第一模型和第二模型的分类结果出现了矛盾,但是,即便是将第一模型输出的将待分类数据划分为目标类型的概率从第一参考概率降低为第二参考概率,第二参考概率大于第二概率阈值,并且,第二概率阈值还大于第一概率阈值,即在降低了概率的情况下,第二参考概率仍然大于第二概率阈值,因此根据第一模型输出的概率可以判断待分类数据属于目标类型的初始分类结果是可靠的,而第二模型产生了误判。
在一些实施例中,第一概率阈值也可以等于或大于第二概率阈值,在本申请的实施例中对此不作限制,只要通过第二概率阈值可以校验第一模型的分类结果是否可靠即可。例如,若对准确率要求不高,以要求召回率较高的场景为例,在该场景下,可以设置第一概率阈值等于或大于第二概率阈值,同样可以达到二次校验的目的。
在一些实施例中,第一参考概率与第二参考概率的差值,即概率衰减值Sup,还可以基于第一概率阈值与第二概率阈值的大小进行动态调整,这样可以使模型的分类结果更加具有灵活性和可控性。
可选地,若判断得出第二参考概率小于第二概率阈值,可以确定待分类数据不属于目标类型。此时,在使用第二概率阈值对第一模型输出的概率进行二次校验时,发现第二参考概率小于第二概率阈值,表示第一模型的初始分类结果是不可靠的,即第一模型判断待分类数据属于目标类型的结果是不准确的,此时,由于第二模型待分类数据的分类标签不为指定标签,即第二模型判断待分类数据不属于目标类型。所以,综合第一模型和第二模型的分类结果可以确定,当第二参考概率小于第二概率阈值时,待分类数据不属于目标类型。
在本实施例中,尽管第一模型与第二模型对同一待分类数据产生了相反的分类结果,但通过第二概率阈值对第一模型输出的概率进行二次校验,可以进一步确定第一模型的分类准确性,进而确定第二模型的分类结果是否可靠,最终根据两个模型的分类结果来确定待分类数据是否属于目标类型,由此可以明显地提升分类的准确性。
请参阅图7,其示出了本申请另一实施例提供的数据分类方法的流程示意图。在一些实施方式中,除了在前述实施例中所述的条件下可以确定待分类数据属于目标类型外,通过如下步骤中同样可以对待分类数据进行分类。所述若所述第一参考概率以及所述分类标签满足预设分类条件,确定所述待分类数据属于所述目标类型,具体可以包括如下步骤:
步骤S710:若所述第一参考概率小于所述第一概率阈值且所述分类标签为指定标签,将所述第一参考概率增大为第三参考概率。
可以理解的是,当确定得到第一参考概率小于第一概率阈值且所述分类标签为指定标签时,可以表示第一模型预测得到待分类数据不属于目标类型,但是,由于待分类数据的分类标签为指定标签,可以表示第二模型识别得出待分类数据的类型为目标类型。两个模型的分类结果出现矛盾,此时,为了得到更加准确的分类结果,在本申请的实施例中,可以适当将第一参考概率的概率大小增大,例如可以将第一参考概率增大为第三参考概率,然后再使用第三参考概率对第一模型的分类结果进行二次校验。
可选地,在本申请的实施例中,第三参考概率可以基于实际业务场景或者第一参考概率的实际大小而确定。
在一些实施例中,可以将第三参考概率与第一参考概率的差值设置为固定大小,称为概率增益值Gain。此时,若第一参考概率为P,那么可以得到第三参考概率为PG=P+Gain。可选地,概率增益值Gain的大小可以预先设置值。需要说明的是,概率增益值Gain的设置可以基于实际业务场景或者第一参考概率实际可以达到的概率范围而确定。
可选地,在用户对分类结果的准确率要求较高的场景下,此时可以将分类误差控制较小的范围内,因此准确率要求较高的场景对概率增益值的设置可以大于对分类结果的准确率要求较低的场景。此外,针对不同的数据,第一模型的分类结果是不同的,即第一参考概率实际可以达到的概率范围不同,对一些数据进行分类时第一参考概率最高值较高,例如为0.65,这时概率增益值可以设置为0.3,但是对另一些数据进行分类时,第一参考概率最高值很低,例如为0.22,这时同样将概率增益值设置为0.2则极有可能加大分类误差,因此,在第一参考概率最高值较低时可以降低概率增益值,比如可以使用0.08。
在另一些实施例中,也可以将第三参考概率与第一参考概率的比值设置为固定大小,例如将第一参考概率增加20%,使得第三参考概率为第一参考概率的120%等等。
步骤S720:若所述第三参考概率大于所述第二概率阈值,确定所述待分类数据属于所述目标类型。
在本申请的实施例中,在增加了第一参考概率的概率大小之后,还可以将第三参考概率与第二概率阈值进行比较。具体地,在确定第二参考概率大于第二概率阈值时,表示将第一模型输出的概率增加后,增加后得到的第三参考概率却大于了预设的第二概率阈值,可以确定第一模型产生了误判,进一步可以确定待分类数据属于目标类型。
在一些实施方式中,使用第二概率阈值可以对第一模型输出的概率进行二次校验,进一步确定第一模型的分类结果是否可靠。可选地,第二概率阈值可以预先设置。需要说明的是,与第一概率阈值的确定方式类似,第二概率阈值也可以基于实际业务场景或者用户需求来设置。例如,准确率要求较高的场景对第二概率阈值的设置可以大于对分类结果的准确率要求较低的场景。需要说明的是,在一些典型的实施例中,在对相同场景下的数据进行分类时,本实施例中使用的第二概率阈值的大小可以与步骤S620中的第二概率阈值的大小一致。
在一些典型的实施方式中,可选地,可以设置第一概率阈值小于第二概率阈值。此时,虽然第一模型和第二模型的分类结果出现了矛盾,但是,将第一模型输出的将待分类数据划分为目标类型的概率从第一参考概率增加为第三参考概率后,第三参考概率却大于了第二概率阈值,即在适当将概率增大的情况下,第一模型的分类结果从“待分类数据不属于目标类型”变为了“待分类数据属于目标类型”,因此两次概率判断结果可以确定第一模型的初始分类结果是不可靠的,而第二模型的分类结果则是可靠的。因此综合针对第一模型的两次概率判断结果以及第二模型的分类结果,可以确定待分类数据属于所述目标类型。
在一些实施例中,第一概率阈值也可以等于或大于第二概率阈值,在本申请的实施例中对此不作限制,只要通过第二概率阈值可以校验第一模型的分类结果是否可靠即可。例如,若对准确率要求不高,以要求召回率较高的场景为例,在该场景下,可以设置第一概率阈值等于或大于第二概率阈值,同样可以达到二次校验的目的。
在一些实施例中,第三参考概率与第一参考概率的差值,即概率增益值Gain,也可以基于第一概率阈值与第二概率阈值的大小进行动态调整,这样可以使模型的分类结果更加具有灵活性和可控性。
可选地,若判断得出第三参考概率小于第二概率阈值,可以确定待分类数据不属于目标类型。此时,在使用第二概率阈值对第一模型输出的概率进行二次校验时,发现第三参考概率小于第二概率阈值,通过二次校验表示第一模型的初始分类结果是可靠的,即第二模型判断待分类数据不属于目标类型的分类结果是准确的,而第二模型产生了误判,即第二模型判断待分类数据的类型为目标类型的分类结果是错误的。所以,综合第一模型和第二模型的分类结果可以确定,当第三参考概率小于第二概率阈值时,待分类数据不属于目标类型。
在本实施例中,尽管第一模型与第二模型对同一待分类数据产生了相反的分类结果,但通过第二概率阈值对第一模型输出的概率进行二次校验,可以进一步确定第一模型的分类准确性,进而确定第二模型的分类结果是否可靠,最终根据两个模型的分类结果来确定待分类数据是否属于目标类型,同样可以明显地增加分类的准确性。
在本申请的另一些实施例中,若判断得出第一参考概率小于第一概率阈值且分类标签不为指定标签,可以确定第一模型及第二模型均判断得出所述待分类数据不属于目标类型,因此在该情况下,可以确定待分类数据确实不属于目标类型。
请参阅图8,其示出了本申请一实施例提供的数据分类方法的流程框图。具体地,在获取到待分类数据后,首先可以将待分类数据输入本申请实施例中的第一模型中进行模型预测,接着由第一模型输出概率P,作为第一参考概率,用于表示第一模型确定的待分类数据属于目标类型的概率。
然后,比较第一参考概率P是否大于第一概率阈值TH1。若是,即P大于TH1,则将待分类数据输入第二模型,由第二模型对待分类数据进行脚本预测(在脚本预测中,例如可以通过预设的关键词确定待分类数据的分类标签),输出标签B,作为待分类数据的分类标签,用于表示第二模型中确定的待分类数据的类型。紧接着判断分类标签B是否为“1”,即确定分类标签是否为目标类型对应的指定标签。若是,表示分类标签为指定标签,同时由于前述概率判断过程中确定了P大于TH1,因此综合第一模型与第二模型的分类结果,可以将待分类数据判断为正例,可以确定待分类数据属于目标类型;若否,表示分类标签不为指定标签,由此第一模型与第二模型的分类结果产生了矛盾,可以进一步将第一参考概率P的概率值减小,得到第二参考概率PS,PS=P-Sup,其中,Sup为概率衰减值,可以预先设置得到。
随后,可以通过第二概率阈值TH2对第一模型的分类结果进行二次校验,通过比较第二参考概率PS是否大于第二概率阈值TH2来判断第一模型的分类结果是否可靠。若是,表示PS大于TH2,可以确定第一模型的初始分类结果是可靠的,而第二模型产生了误判,因此综合对第一模型分类结果的二次校验结果以及第二模型的分类结果,可以将待分类数据判断为正例,可以确定待分类数据属于目标类型;若否,表示PS小于或等于TH2,可以确定第一模型的分类结果是不可靠的,而第二模型的分类结果是准确的,因此综合对第一模型分类结果的二次校验结果以及第二模型的分类结果,可以将待分类数据判断为负例,可以确定待分类数据不属于目标类型。
在比较第一参考概率P是否大于第一概率阈值TH1时,若得出P小于或等于TH1,同样可以将待分类数据输入第二模型,由第二模型对待分类数据进行脚本预测,输出标签B,作为待分类数据的分类标签,并且接着判断分类标签B是否为“1”,即确定分类标签是否为目标类型对应的指定标签。此时,与前述处理方式不同的是,若判断得出分类标签为指定标签,此时第一模型与第二模型的分类结果也产生了矛盾,可以进一步将第一参考概率P的概率值增加,得到第三参考概率PG,PG=P+Gain,其中,Gain为概率增益值,可以预先设置得到。
接着,同样可以通过第二概率阈值TH2对第一模型的分类结果进行二次校验,通过比较第三参考概率PG是否大于第二概率阈值TH2来判断第一模型的分类结果是否可靠。若是,表示PG大于TH2,可以确定第一模型的初始分类结果是不可靠的,第一模型产生了误判,而第二模型判断待分类数据属于目标标签,因此综合对第一模型分类结果的二次校验结果以及第二模型的分类结果,可以将待分类数据判断为正例,可以确定待分类数据属于目标类型;若否,表示PG小于或等于TH2,可以确定第一模型的分类结果是可靠的,即待分类数据不属于目标类型,第二模型产生了误判。
除此之外,在得出P小于或等于TH1时,若同时还判断得出分类标签不为指定标签,因此综合第一模型与第二模型的分类结果,可以将待分类数据判断为负例,可以确定待分类数据不属于目标类型。
下面将以金融科技新闻推荐为例,对上述数据分类方式进行示例性说明。
在金融科技新闻推荐的场景下,可以将符合金融科技这一类型的新闻进行预测输出,那么就需要对新闻作为待分类数据进行分类,同时设置目标类型为“金融科技类”,判断该新闻是否属于金融科技类。如图9所示,处理过程可以参见如下步骤:
首先,输入一条新闻作为待分类数据,例如该条新闻可以为“根据B市银保监局一级巡视员李某介绍,B市银行业积极践行“人民城市”理念,服务百姓民生,助力实体经济高质量发展。”。在一些实施方式中,如图10所示,输入的数据可以为新闻页面1010,因此在对该条新闻进行分类前,可以率先从该新闻页面1010中提取出文字内容1020,然后将该文字内容1020作为该条新闻的内容。
假设通过第一模型,得出属于该条新闻属于金融科技类的概率P为0.88,作为第一参考概率。此时,预先设置的第一概率阈值TH1可以设置为0.7,因此可以得出第一参考概率P大于TH1,表示该条新闻属于金融科技类新闻。接着,再将该条新闻输入第二模型,假设预设的关键词需要同时存在“科技”“技术”“创新”等科技类的关键词以及“经济”“银行”“货币”等金融类的关键词,第二模型通过脚本预测发现没有金融科技方面的关键词,所以给出“0”标签,作为分类标签,表示该条新闻不属于金融科技类新闻。
此时,由于第一模型和第二模型的分类结果互相矛盾,因此可以对第二模型输出的概率进行约束,将第一参考概率P减小到第二参考概率PS,PS=P-Sup。假设此处概率衰减值Sup设置为0.3,所以该条新闻属于金融科技类的概率PS为0.53。最终判断概率PS小于第二概率阈值TH2(假设此处TH2设置为0.8),输出该条新闻不属于金融科技类。
在一些实施方式中,通过首先判断第一模型输出的概率是否满足阈值条件,再判断第二模型输出的分类标签是否满足标签条件。在另一些实施方式中,也可以首先判断第二模型输出的分类标签是否满足标签条件,再判断第一模型输出的概率是否满足阈值条件,这个时候可以适当改变第一模型的阈值条件,即适当改变第一概率阈值及第二概率阈值的大小,让第二模型发挥更大的作用。
综上所述,本实施例提供的数据分类方法,首先可以获取待分类数据的第一参考概率,所述第一参考概率为使用第一模型预先确定的所述待分类数据属于目标类型的概率,还可以获取待分类数据的分类标签,所述分类标签为使用第二模型预先确定的所述待分类数据的类型。接着,将判断第一参考概率是否大于第一概率阈值,然后判断分类标签是否为目标类型对应的指定标签,由此,可以综合第一模型和第二模型的分类结果得到更加准确的数据分类结果。此外,当第一模型与第二模型的分类结果不一致时,还将对第一模型输出的概率进行二次校验,以确定第一模型的分类结果是否准确,进而综合二次校验的结果以及第二模型的分类结果来最终确定待分类数据是否属于目标类型,可以实现对待分类数据分类结果的相互校验,使第一模型与第二模型形成优势互补,由此可以是分类结果更加准确而可靠。此外,通过第一模型中模型预测方式还可以弥补第二模型中脚本预测的单一性以及泛化能力差的缺点。
请参阅图11,示出了本申请一实施例提供的数据分类装置的模块框图。具体地,该装置可以包括:概率获取单元1110、标签获取单元1120以及数据分类单元1130。
其中,概率获取单元1110,用于获取待分类数据的第一参考概率,所述第一参考概率为使用第一模型预先确定的所述待分类数据属于目标类型的概率;标签获取单元1120,用于获取所述待分类数据的分类标签,所述分类标签为使用第二模型预先确定的所述待分类数据的类型;数据分类单元1130,用于若所述第一参考概率以及所述分类标签满足预设分类条件,确定所述待分类数据属于所述目标类型。
在一些实施方式中,上述数据分类单元1130可以包括:第一分类单元,用于若所述第一参考概率大于第一概率阈值且所述分类标签为指定标签,确定所述待分类数据属于所述目标类型,所述指定标签为所述目标类型对应的标签。
在另一些实施方式中,上述数据分类单元1130可以包括:第一概率处理单元,用于若所述第一参考概率大于所述第一概率阈值且所述分类标签不为指定标签,将所述第一参考概率降低为第二参考概率,所述指定标签为所述目标类型对应的标签;第二分类单元,用于若所述第二参考概率大于第二概率阈值,确定所述待分类数据属于所述目标类型。
可选地,在上述第一概率处理单元中,所述第一概率阈值小于所述第二概率阈值。
在又一些实施方式中,上述数据分类单元1130可以包括:第二概率处理单元,用于若所述第一参考概率小于所述第一概率阈值且所述分类标签为指定标签,将所述第一参考概率增大为第三参考概率;第三分类单元,用于若所述第三参考概率大于所述第二概率阈值,确定所述待分类数据属于所述目标类型。
可选地,在上述第二概率处理单元中,所述第一概率阈值小于所述第二概率阈值。
在一些实施例中,上述数据分类装置还可以包括:第一确定子单元,用于基于所述第二模型确定所述待分类数据中是否包含预设关键词;第二确定子单元,用于若是,设置所述待分类数据的分类标签为指定标签。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置中模块/单元/子单元/组件的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
请参阅图12,其示出了本申请一实施例提供的电子设备的结构框图。本实施例中的所述电子设备可以包括一个或多个如下部件:处理器1210、存储器1220以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器1220中并被配置为由一个或多个处理器1210执行,一个或多个应用程序配置用于执行如前述方法实施例所描述的方法。
其中,电子设备可以为移动、便携式并执行无线通信的各种类型的计算机系统设备中的任何一种。具体的,电子设备可以为移动电话或智能电话(例如,基于iPhone TM,基于Android TM的电话)、便携式游戏设备(例如Nintendo DS TM,PlayStation PortableTM,Gameboy Advance TM,iPhone TM)、膝上型电脑、PDA、便携式互联网设备、音乐播放器以及数据存储设备,其他手持设备以及诸如智能手表、智能手环、耳机、吊坠等,电子设备还可以为其他的可穿戴设备(例如,诸如电子眼镜、电子衣服、电子手镯、电子项链、电子纹身、电子设备或头戴式设备(HMD))。
电子设备还可以是多个电子设备中的任何一个,多个电子设备包括但不限于蜂窝电话、智能电话、智能手表、智能手环、其他无线通信设备、个人数字助理、音频播放器、其他媒体播放器、音乐记录器、录像机、照相机、其他媒体记录器、收音机、医疗设备、车辆运输仪器、计算器、可编程遥控器、寻呼机、膝上型计算机、台式计算机、打印机、上网本电脑、个人数字助理(PDA)、便携式多媒体播放器(PMP)、运动图像专家组(MPEG-1或MPEG-2)音频层3(MP3)播放器,便携式医疗设备以及数码相机及其组合。
在一些情况下,电子设备可以执行多种功能(例如,播放音乐,显示视频,存储图片以及接收和发送电话呼叫)。如果需要,电子设备可以是诸如蜂窝电话、媒体播放器、其他手持设备、腕表设备、吊坠设备、听筒设备或其他紧凑型便携式设备。
可选地,电子设备也可以是服务器,例如可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,还可以是提供人脸识别、自动驾驶、工业互联网服务、数据通信(如4G、5G等)等专门或平台服务器。
处理器1210可以包括一个或者多个处理核。处理器1210利用各种接口和线路连接整个电子设备内的各个部分,通过运行或执行存储在存储器1220内的指令、应用程序、代码集或指令集,以及调用存储在存储器1220内的数据,执行电子设备的各种功能和处理数据。可选地,处理器1210可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器1210可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1210中,单独通过一块通信芯片进行实现。
存储器1220可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器1220可用于存储指令、应用程序、代码、代码集或指令集。存储器1220可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以电子设备在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子设备的处理器1210、存储器1220的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
请参考图13,其示出了本申请一实施例提供的计算机可读存储介质的结构框图。该计算机可读存储介质1300中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质1300可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质1300包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质1300具有执行上述方法中的任何方法步骤的程序代码1310的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1310可以例如以适当形式进行压缩。其中,计算机可读存储介质1300可以是如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、SSD、带电可擦可编程只读存储器(Electrically ErasableProgrammable read only memory,简称EEPROM)或快闪存储器(Flash Memory,简称Flash)等。
在一些实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、SSD、Flash)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例的方法。
本申请提供的数据分类方法、装置、电子设备及存储介质,首先可以获取待分类数据的第一参考概率,所述第一参考概率为使用第一模型预先确定的所述待分类数据属于目标类型的概率,还可以获取待分类数据的分类标签,所述分类标签为使用第二模型预先确定的所述待分类数据的类型。接着,若所述第一参考概率以及所述分类标签满足预设分类条件,将确定所述待分类数据属于所述目标类型。本申请可以使用概率预测及类型预测这两种分类方式分别对待分类数据进行分类,再综合两种分类方式的分类结果最终确定待分类数据的类型,可以实现对待分类数据分类结果的相互校验,使第一模型与第二模型形成优势互补,由此可以得到更加准确的数据分类结果。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (7)
1.一种数据分类方法,其特征在于,所述方法包括:
获取待分类数据的第一参考概率,所述第一参考概率为使用第一模型预先确定的所述待分类数据属于目标类型的概率,所述待分类数据从终端设备中获取,所述待分类数据包括以下其中一种类型的数据:图像、视频、音频、文字;
获取所述待分类数据的分类标签,所述分类标签为使用第二模型预先确定的所述待分类数据的类型;
若所述第一参考概率以及所述分类标签满足预设分类条件,确定所述待分类数据属于所述目标类型;
所述若所述第一参考概率以及所述分类标签满足预设分类条件,确定所述待分类数据属于所述目标类型,包括:若所述第一参考概率大于第一概率阈值且所述分类标签不为指定标签,将所述第一参考概率降低为第二参考概率,所述指定标签为所述目标类型对应的标签;若所述第二参考概率大于第二概率阈值,确定所述待分类数据属于所述目标类型,所述第二参考概率是基于所述第一参考概率确定的;
若所述第一参考概率小于所述第一概率阈值且所述分类标签为指定标签,将所述第一参考概率增大为第三参考概率;若所述第三参考概率大于所述第二概率阈值,确定所述待分类数据属于所述目标类型,所述第三参考概率是基于所述第一参考概率确定的。
2.根据权利要求1所述的方法,其特征在于,所述若所述第一参考概率以及所述分类标签满足预设分类条件,确定所述待分类数据属于所述目标类型,包括:
若所述第一参考概率大于第一概率阈值且所述分类标签为指定标签,确定所述待分类数据属于所述目标类型,所述指定标签为所述目标类型对应的标签。
3.根据权利要求1所述的方法,其特征在于,所述第一概率阈值小于所述第二概率阈值。
4.根据权利要求1所述的方法,其特征在于,所述获取所述待分类数据的分类标签之前,所述方法还包括:
基于所述第二模型确定所述待分类数据中是否包含预设关键词;
若是,设置所述待分类数据的分类标签为指定标签。
5.一种数据分类装置,其特征在于,所述装置包括:
概率获取单元,用于获取待分类数据的第一参考概率,所述第一参考概率为使用第一模型预先确定的所述待分类数据属于目标类型的概率,所述待分类数据从终端设备中获取,所述待分类数据包括以下其中一种类型的数据:图像、视频、音频、文字;
标签获取单元,用于获取所述待分类数据的分类标签,所述分类标签为使用第二模型预先确定的所述待分类数据的类型;
数据分类单元,用于若所述第一参考概率以及所述分类标签满足预设分类条件,确定所述待分类数据属于所述目标类型;
所述数据分类单元包括:第一概率处理单元,用于若所述第一参考概率大于第一概率阈值且所述分类标签不为指定标签,将所述第一参考概率降低为第二参考概率,所述指定标签为所述目标类型对应的标签;第二分类单元,用于若所述第二参考概率大于第二概率阈值,确定所述待分类数据属于所述目标类型,所述第二参考概率是基于所述第一参考概率确定的;
第二概率处理单元,用于若所述第一参考概率小于所述第一概率阈值且所述分类标签为指定标签,将所述第一参考概率增大为第三参考概率;第三分类单元,用于若所述第三参考概率大于所述第二概率阈值,确定所述待分类数据属于所述目标类型,所述第三参考概率是基于所述第一参考概率确定的。
6.一种电子设备,其特征在于,包括处理器、存储器,所述存储器存储有计算机程序,所述处理器通过调用所述计算机程序,用于执行如权利要求1至4任一项所述的数据分类方法。
7.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111262910.3A CN114139031B (zh) | 2021-10-28 | 2021-10-28 | 数据分类方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111262910.3A CN114139031B (zh) | 2021-10-28 | 2021-10-28 | 数据分类方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114139031A CN114139031A (zh) | 2022-03-04 |
CN114139031B true CN114139031B (zh) | 2024-03-19 |
Family
ID=80395620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111262910.3A Active CN114139031B (zh) | 2021-10-28 | 2021-10-28 | 数据分类方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114139031B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536800A (zh) * | 2018-04-03 | 2018-09-14 | 有米科技股份有限公司 | 文本分类方法、系统、计算机设备和存储介质 |
CN109447125A (zh) * | 2018-09-28 | 2019-03-08 | 北京达佳互联信息技术有限公司 | 分类模型的处理方法、装置、电子设备及存储介质 |
CN110222649A (zh) * | 2019-06-10 | 2019-09-10 | 北京达佳互联信息技术有限公司 | 视频分类方法、装置、电子设备及存储介质 |
JP2020008992A (ja) * | 2018-07-04 | 2020-01-16 | 株式会社日立製作所 | データ分類システム、データ分類方法、および、データ分類装置 |
CN111382248A (zh) * | 2018-12-29 | 2020-07-07 | 深圳市优必选科技有限公司 | 一种问题回复方法、装置、存储介质及终端设备 |
CN111753091A (zh) * | 2020-06-30 | 2020-10-09 | 北京小米松果电子有限公司 | 分类方法、分类模型的训练方法、装置、设备及存储介质 |
WO2020259666A1 (zh) * | 2019-06-28 | 2020-12-30 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置、设备、存储介质和医疗电子设备 |
CN113127667A (zh) * | 2019-12-30 | 2021-07-16 | 阿里巴巴集团控股有限公司 | 图像处理方法及装置、图像分类方法及装置 |
CN113220839A (zh) * | 2021-05-13 | 2021-08-06 | 湖北亿咖通科技有限公司 | 一种意图识别方法、电子设备及计算机可读存储介质 |
CN113240130A (zh) * | 2020-06-22 | 2021-08-10 | 北京芯盾时代科技有限公司 | 数据分类方法及装置、计算机可读存储介质和电子设备 |
CN113326885A (zh) * | 2021-06-16 | 2021-08-31 | 北京百度网讯科技有限公司 | 训练分类模型和数据分类的方法及装置 |
CN113392236A (zh) * | 2021-01-04 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种数据分类方法、计算机设备及可读存储介质 |
CN113392317A (zh) * | 2021-01-07 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种标签配置方法、装置、设备及存储介质 |
WO2021179712A1 (zh) * | 2020-10-22 | 2021-09-16 | 平安科技(深圳)有限公司 | 心电信号分类模型的训练方法、心电信号分类方法及装置 |
-
2021
- 2021-10-28 CN CN202111262910.3A patent/CN114139031B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536800A (zh) * | 2018-04-03 | 2018-09-14 | 有米科技股份有限公司 | 文本分类方法、系统、计算机设备和存储介质 |
JP2020008992A (ja) * | 2018-07-04 | 2020-01-16 | 株式会社日立製作所 | データ分類システム、データ分類方法、および、データ分類装置 |
CN109447125A (zh) * | 2018-09-28 | 2019-03-08 | 北京达佳互联信息技术有限公司 | 分类模型的处理方法、装置、电子设备及存储介质 |
CN111382248A (zh) * | 2018-12-29 | 2020-07-07 | 深圳市优必选科技有限公司 | 一种问题回复方法、装置、存储介质及终端设备 |
CN110222649A (zh) * | 2019-06-10 | 2019-09-10 | 北京达佳互联信息技术有限公司 | 视频分类方法、装置、电子设备及存储介质 |
WO2020259666A1 (zh) * | 2019-06-28 | 2020-12-30 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置、设备、存储介质和医疗电子设备 |
CN113127667A (zh) * | 2019-12-30 | 2021-07-16 | 阿里巴巴集团控股有限公司 | 图像处理方法及装置、图像分类方法及装置 |
CN113240130A (zh) * | 2020-06-22 | 2021-08-10 | 北京芯盾时代科技有限公司 | 数据分类方法及装置、计算机可读存储介质和电子设备 |
CN111753091A (zh) * | 2020-06-30 | 2020-10-09 | 北京小米松果电子有限公司 | 分类方法、分类模型的训练方法、装置、设备及存储介质 |
WO2021179712A1 (zh) * | 2020-10-22 | 2021-09-16 | 平安科技(深圳)有限公司 | 心电信号分类模型的训练方法、心电信号分类方法及装置 |
CN113392236A (zh) * | 2021-01-04 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种数据分类方法、计算机设备及可读存储介质 |
CN113392317A (zh) * | 2021-01-07 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种标签配置方法、装置、设备及存储介质 |
CN113220839A (zh) * | 2021-05-13 | 2021-08-06 | 湖北亿咖通科技有限公司 | 一种意图识别方法、电子设备及计算机可读存储介质 |
CN113326885A (zh) * | 2021-06-16 | 2021-08-31 | 北京百度网讯科技有限公司 | 训练分类模型和数据分类的方法及装置 |
Non-Patent Citations (2)
Title |
---|
基于DPI数据挖掘实现URL分类挂载的相关技术研究;边凌燕;贺仁龙;姚晓辉;;电信科学;20131120(11);11-16+21 * |
改进的朴素贝叶斯增量算法研究;曾谁飞;张笑燕;杜晓峰;陆天波;;通信学报;20161025(10);85-95 * |
Also Published As
Publication number | Publication date |
---|---|
CN114139031A (zh) | 2022-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107251060B (zh) | 针对序列标签器的预训练和/或迁移学习 | |
CN114357973B (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN112164391A (zh) | 语句处理方法、装置、电子设备及存储介质 | |
CN112559800B (zh) | 用于处理视频的方法、装置、电子设备、介质和产品 | |
CN110765294B (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
CN112052333B (zh) | 文本分类方法及装置、存储介质和电子设备 | |
CN113515942A (zh) | 文本处理方法、装置、计算机设备及存储介质 | |
WO2023045605A1 (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN112766284B (zh) | 图像识别方法和装置、存储介质和电子设备 | |
CN114706945A (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN112149699A (zh) | 用于生成模型的方法、装置和用于识别图像的方法、装置 | |
CN111897950A (zh) | 用于生成信息的方法和装置 | |
CN116304007A (zh) | 一种信息推荐方法、装置、存储介质及电子设备 | |
CN114139031B (zh) | 数据分类方法、装置、电子设备及存储介质 | |
CN116204624A (zh) | 应答方法、装置、电子设备及存储介质 | |
CN113505293B (zh) | 信息推送方法、装置、电子设备及存储介质 | |
CN114492306A (zh) | 语料标注方法、装置、电子设备及存储介质 | |
CN114817478A (zh) | 基于文本的问答方法、装置、计算机设备及存储介质 | |
CN111339770B (zh) | 用于输出信息的方法和装置 | |
CN114579740B (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN113343069A (zh) | 用户信息的处理方法、装置、介质及电子设备 | |
CN111897951A (zh) | 用于生成信息的方法和装置 | |
CN116911304B (zh) | 一种文本推荐方法及装置 | |
CN114490996B (zh) | 意图识别方法、装置、计算机设备和存储介质 | |
WO2023168997A1 (zh) | 一种跨模态搜索方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |