CN108304868A - 模型训练方法、数据类型识别方法和计算机设备 - Google Patents

模型训练方法、数据类型识别方法和计算机设备 Download PDF

Info

Publication number
CN108304868A
CN108304868A CN201810071644.8A CN201810071644A CN108304868A CN 108304868 A CN108304868 A CN 108304868A CN 201810071644 A CN201810071644 A CN 201810071644A CN 108304868 A CN108304868 A CN 108304868A
Authority
CN
China
Prior art keywords
data
doubtful
type
accidentally
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810071644.8A
Other languages
English (en)
Inventor
祝慧佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810071644.8A priority Critical patent/CN108304868A/zh
Publication of CN108304868A publication Critical patent/CN108304868A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例提供一种模型训练方法、数据类型识别方法和计算机设备。所述模型训练方法包括:使用经样本数据集合训练后的分类模型,识别测试数据集合中测试数据的类型,得到识别结果;其中,所述样本数据集合包括第一类型样本数据和第二类型样本数据;所述第一类型样本数据的类型与标的业务数据的类型相同;基于所述识别结果,从所述测试数据集合中获取疑似误识数据集合;从所述疑似误识数据集合中获取疑似误识数据作为第二类型样本数据;基于添加了获取的第二类型样本数据的样本数据集合,对所述分类模型再次进行训练。

Description

模型训练方法、数据类型识别方法和计算机设备
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种模型训练方法、数据类型识别方法和计算机设备。
背景技术
在实际业务中,经常需要从大量的业务数据中识别出标的业务数据。例如,从大量的商品评论数据中识别出涉及黄赌毒等违法内容的商品评论数据。为此,可以训练分类模型,进而可以使用训练的分类模型从大量的业务数据中识别出标的业务数据。为了便于描述,以下将所述标的业务数据作为第一类型数据,将除去所述标的业务数据以外的其它业务数据作为第二类型数据。
在多数场景中,第一类型数据的数量和第二类型数据的数量是不平衡的,第一类型数据的数量是远小于第二类型数据的数量的。例如,第一类型数据和第二类型数据之间数量的比值可能是万分之一甚至更低。在相关技术中,通常可以基于已有的第一类型数据和已有的第二类型数据构建样本数据集合,进而可以使用所述样本数据集合来训练分类模型。在构建所述样本数据集合时,考虑上述不平衡情况,可以对已有的第二类型数据进行采样,以提高所述样本数据集合中第一类型样本数据所占的比例,降低第二类型样本数据所占的比例,从而提高训练的分类模型对第一类型数据识别的准确率。
但是,基于上述相关技术训练的分类模型,通常无法学习到足够的第二类型数据的特征,导致训练的分类模型对第一类型数据和第二类型数据的区分能力较低,使得训练的分类模型容易将第二类型数据误识为第一类型数据。
发明内容
本说明书实施例的目的是提供一种模型训练方法、数据类型识别方法和计算机设备,以提高训练的分类模型对第一类型数据和第二类型数据的区分能力,降低误识率。
为实现上述目的,本说明书实施例提供一种模型训练方法,包括:使用经样本数据集合训练后的分类模型,识别测试数据集合中测试数据的类型,得到识别结果;其中,所述样本数据集合包括第一类型样本数据和第二类型样本数据;所述第一类型样本数据的类型与标的业务数据的类型相同;基于所述识别结果,从所述测试数据集合中获取疑似误识数据集合;从所述疑似误识数据集合中获取疑似误识数据作为第二类型样本数据;基于添加了获取的第二类型样本数据的样本数据集合,对所述分类模型再次进行训练。
为实现上述目的,本说明书实施例提供一种计算机设备,包括:识别单元,用于使用经样本数据集合训练后的分类模型,识别测试数据集合中测试数据的类型,得到识别结果;其中,所述样本数据集合包括第一类型样本数据和第二类型样本数据;所述第一类型样本数据的类型与标的业务数据的类型相同;第一获取单元,用于基于所述识别结果,从所述测试数据集合中获取疑似误识数据集合;第二获取单元,用于从所述疑似误识数据集合中获取疑似误识数据作为第二类型样本数据;训练单元,用于基于添加了获取的第二类型样本数据的样本数据集合,对所述分类模型再次进行训练。
为实现上述目的,本说明书实施例提供一种计算机设备,包括存储器和处理器;所述存储器,用于存储计算机指令;所述处理器,用于执行所述计算机指令实现以下步骤:使用经样本数据集合训练后的分类模型,识别测试数据集合中测试数据的类型,得到识别结果;其中,所述样本数据集合包括第一类型样本数据和第二类型样本数据;所述第一类型样本数据的类型与标的业务数据的类型相同;基于所述识别结果,从所述测试数据集合中获取疑似误识数据集合;从所述疑似误识数据集合中获取疑似误识数据作为第二类型样本数据;基于添加了获取的第二类型样本数据的样本数据集合,对所述分类模型再次进行训练。
为实现上述目的,本说明书实施例提供一种数据类型识别方法,包括:使用分类模型识别业务数据的类型,得到识别结果。其中,所述分类模型基于本说明书实施例中的模型训练方法训练得到。
为实现上述目的,本说明书实施例提供一种计算机设备,包括:识别单元,用于使用分类模型识别业务数据的类型,得到识别结果。其中,所述分类模型基于本说明书实施例中的模型训练方法训练得到。
为实现上述目的,本说明书实施例提供一种计算机设备,包括存储器和处理器;所述存储器,用于存储计算机指令;所述处理器,用于执行所述计算机指令实现以下步骤:使用分类模型识别业务数据的类型,得到识别结果。其中,所述分类模型基于本说明书实施例中的模型训练方法训练得到。
由以上本说明书实施例提供的技术方案可见,本说明书实施例中,所述计算机设备可以使用经样本数据集合训练后的分类模型,识别测试数据集合中测试数据的类型,得到识别结果;可以基于所述识别结果,从所述测试数据集合中获取疑似误识数据集合;可以从所述疑似误识数据集合中获取疑似误识数据作为第二类型样本数据;可以基于添加了获取的第二类型数据的样本数据集合,对所述分类模型再次进行训练。获取的第二类型样本数据,通常具有前述训练过程中分类模型所没有学习到的特征。这样,基于添加了获取的第二类型数据的样本数据集合,对所述分类模型再次进行训练,可以提高分类模型对第一类型数据和第二类型数据的区分能力,降低将第二类型数据误识为第一类型数据的概率。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例一种模型训练方法的示意图;
图2为本说明书实施例一种模型训练方法的流程图;
图3为本说明书实施例一种数据类型识别方法的流程图;
图4为本说明书实施例一种计算机设备的功能结构示意图;
图5为本说明书实施例一种计算机设备的功能结构示意图;
图6为本说明书实施例一种计算机设备的功能结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
请参阅图1和图2。本说明书实施例提供一种模型训练方法。所述模型训练方法的执行主体可以为计算机设备。所述计算机设备包括但不限于服务器、工控机(工业控制计算机)、个人计算机(PC机)、一体机等。所述模型训练方法可以包括以下步骤。
步骤S10:使用经样本数据集合训练后的分类模型,识别测试数据集合中测试数据的类型,得到识别结果。
在本实施例中,所述样本数据集合可以包括多个样本数据。所述样本数据可以为文本数据、音频数据、视频数据、或图片数据等。所述样本数据可以为有标签数据,所述有标签数据可以为被标注有类型标签的数据。所述类型标签可以包括第一类型和第二类型等。所述第一类型可以为标的业务数据所具有的类型,所述第二类型可以包括除去所述第一类型以外的其它类型。例如,所述标的业务数据可以为风险数据,所述风险数据具体可以为涉及黄赌毒等违法内容的文本数据、音频数据、视频数据、或图片数据等。那么,所述第一类型可以为风险类型,所述第二类型可以为正常类型。另举一例,所述标的业务数据可以为情感性质为负面的文本数据,所述文本数据具体可以为商品评论数据、或基金行情分析评论数据等。那么,所述第一类型可以为情感性质为负的类型,所述第二类型可以包括情感性质为正和中立的类型。
所述样本数据集合可以包括多个第一类型样本数据和多个第二类型样本数据。所述第一类型样本数据的数量可以小于所述第二类型样本数据的数量。例如,所述样本数据集合可以包括1000个第一类型样本数据和8000个第二类型样本数据。其中,所述第一类型样本数据具体可以为涉及黄赌毒等违法内容的商品评论数据,所述第二类型样本数据具体可以为正常的商品评论数据。
在本实施例中,实际业务中第一类型数据的数量和第二类型数据的数量是不平衡的,第一类型数据的数量是远小于第二类型数据的数量的。考虑这种不平衡,在构建所述样本数据集合时,可以对已有的第二类型数据进行采样;可以将采样得到的第二类型数据,作为所述样本数据集合中的第二类型样本数据。在构建所述样本数据集合时,可以对已有的第一类型数据进行采样;可以将采样得到的第一类型数据,作为所述样本数据集合中的第一类型样本数据;当然,也可以将已有的第一类型数据,直接作为所述样本数据集合中的第一类型样本数据。这样,可以提高所述样本数据集合中第一类型样本数据所占的比例,降低第二类型样本数据所占的比例,从而提高训练的分类模型对实际业务中第一类型数据识别的准确率。需要说明的是,所述样本数据集合可以是本实施例计算机设备构建的。当然,所述样本数据集合也可以是除去本实施例计算机设备以外的其它设备构建并由所述其它设备发来的。例如,所述计算机设备可以获取某一时间段内的业务数据;可以将其中的第一类型数据,直接作为所述样本数据集合中的第一类型样本数据;可以对其中的第二类型数据进行采样;可以将采样得到的第二类型数据,作为所述样本数据集合中的第二类型样本数据。所述时间段的大小可以根据需要灵活设定,例如可以为10天、20天、或50天等。
在本实施例中,所述分类模型通常为一种数学模型,用于将未分类的业务数据划分至已知的类型。所述分类模型可以为贝叶斯分类模型、支持向量机分类模型(SupportVector Machine,SVM)、或卷积神经网络分类模型(Convolutional Neural Networks,CNN)等。所述分类模型可以为风险分类模型、情感分类模型、或主题分类模型等。其中,所述风险分类模型可以用于基于风险程度对业务数据进行分类,所述情感分类模型可以用于基于情感性质对业务数据进行分类,所述主题分类模型可以用于基于表达的主题对业务数据进行分类。
在本实施例中,所述测试数据集合可以包括多个测试数据,所述测试数据可以为文本数据、音频数据、视频数据、或图片数据等。所述测试数据集合可以包括有标签数据和/或无标签数据,所述无标签数据可以为没有被标注类型标签的数据。需要说明的是,在所述测试数据集合包括有标签数据的情况下,所述测试数据集合可以包括正确的有标签数据和/或错误的有标签数据。所述正确的有标签数据可以为类型标签与真实类型一致的数据,所述错误的有标签数据可以为类型标签与真实类型不一致的数据。
在本实施例中,所述测试数据集合可以包括多个真实的第一类型数据和多个真实的第二类型数据。所述测试数据集合中真实的第一类型数据的数量远小于真实的第二类型数据的数量。所述测试数据集合中真实的第一类型数据和真实的第二类型数据之间数量的比值,与实际业务中第一类型数据和第二类型数据之间数量的比值,相匹配。此处的相匹配并不意味着完全一致,而是指差别可以在一定的程度范围内。需要说明的是,所述测试数据集合可以是本实施例计算机设备构建的。当然,所述测试数据集合也可以是除去本实施例计算机设备以外的其它设备构建并由所述其它设备发来的。例如,所述计算机设备可以获取某一时间段内的业务数据;可以将获取的业务数据作为测试数据集合中的测试数据。所述时间段的大小可以根据需要灵活设定,例如可以为100天、200天、或500天等。
在本实施例中,所述计算机设备可以使用所述样本数据集合,对分类模型进行训练;可以使用训练后的分类模型,识别所述测试数据集合中测试数据的类型,得到识别结果。
所述识别结果可以包括所述测试数据集合中测试数据的特征值。所述特征值可以用于表示测试数据被划分为标的数据的概率。所述特征值例如可以为0至1以内的实数。特征值的大小可以与测试数据被划分为标的数据的概率正相关。所述计算机设备具体可以将所述测试数据集合中的每个测试数据,输入至训练后的分类模型,进而得到该测试数据的特征值。
步骤S12:基于所述识别结果,从所述测试数据集合中获取疑似误识数据集合。
在本实施例中,所述疑似误识数据集合可以包括至少一个疑似误识数据。所述计算机设备具体可以提供有特征阈值;可以基于所述特征阈值和测试数据集合中测试数据的特征值,从所述测试数据集合中获取疑似误识数据集合。所述特征阈值例如可以为0至1以内的实数,具体例如可以为0.3、0.35、或0.5等。所述计算机设备具体可以从所述测试数据集合中获取特征值大于或等于所述特征阈值的测试数据,作为所述疑似误识数据集合中的疑似误识数据。需要说明的是,此处所述计算机设备获取的测试数据可以包括所述测试数据集合中的有标签数据和/或无标签数据,所述有标签数据可以包括正确的有标签数据和/或错误的有标签数据。
所述特征阈值可以为经验值,或者,还可以基于训练后分类模型的一个或多个评价指标得到。所述评价指标可以包括正确率(Accuracy Ratio)、查准率(PrecisionRatio)、召回率(Recall Ratio)、真阳性率(True Positive Ratio)、和假阳性率(FalsePositive Ratio)等。例如,可以在训练后的分类模型的准确率达到某一指定准确率的条件下,确定训练后的分类模型的特征阈值。另举一例,可以在训练后的分类模型的查准率达到某一指定查准率、且召回率达到某一指定召回率的条件下,确定训练后的分类模型的特征阈值。
步骤S14:从所述疑似误识数据集合中获取疑似误识数据作为第二类型样本数据。
在本实施例中,鉴于测试数据集合中真实的第一类型数据的数量远小于真实的第二类型数据的数量,所述疑似误识数据集合中的疑似误识数据有较大概率为被误识为第一类型数据的第二类型数据。如此,所述计算机设备可以从所述疑似误识数据集合中获取疑似误识数据作为第二类型样本数据。
在本实施例的一个实施方式中,所述计算机设备可以从所述疑似误识数据集合中任意获取一个或多个疑似误识数据,作为第二类型样本数据。
在本实施例的另一个实施方式中,所述计算机设备可以计算所述疑似误识数据集合中疑似误识数据的重要性指标;可以基于所述重要性指标,从所述疑似误识数据集合中获取一个或多个疑似误识数据,作为第二类型样本数据。
在本实施方式中,依据测试数据集合中测试数据的种类的不同,计算疑似误识数据的重要性指标的方法也可以不同。以下以测试数据集合中的测试数据为文本数据为例,介绍计算疑似误识数据的重要性指标的方法,同时不排除其它计算疑似误识数据的重要性指标的方法应用于本实施方式的技术方案。具体地,所述计算机设备可以对所述疑似误识数据集合中的疑似误识数据进行分词处理,得到多个分词词汇;可以从所述多个分词词汇中筛选出至少一个高频词汇;可以计算每个高频词汇的重要性指标;可以基于高频词汇的重要性指标,计算所述疑似误识数据集合中疑似误识数据的重要性指标。
所述计算机设备可以采用任意适当的方法从所述多个分词词汇中筛选出至少一个高频词汇。例如,所述计算机设备可以从所述多个分词词汇中获取频次大于或等于某一阈值的分词词汇,作为高频词汇。另举一例,所述计算机设备可以从所述多个分词词汇中获取某一比例范围内的频次较多的分词词汇,作为高频词汇。
所述计算机设备可以采用任意适当的方法计算高频词汇的重要性指标。例如,所述计算机设备可以基于高频词汇的频次、以及所述多个分词词汇的频次之和,计算该高频词汇的第一参数;可以基于所述疑似误识数据集合中疑似误识数据的数量、以及所述疑似误识数据集合中包含有该高频词汇的疑似误识数据的数量,计算该高频词汇的第二参数;可以基于所述第一参数和所述第二参数,计算该高频词汇的重要性指标。具体地,例如,所述计算机设备可以通过公式计算该高频词汇的重要性指标。其中,I可以表示该高频词汇的重要性指标;k1可以表示该高频词汇的第一参数;k2可以表示该高频词汇的第二参数;t1可以表示该高频词汇的频次;t0可以表示所述多个分词词汇的频次之和;d0可以表示所述疑似误识数据集合中疑似误识数据的数量;d1可以表示所述疑似误识数据集合中包含有该高频词汇的疑似误识数据的数量。需要说明的是,以上计算高频词汇重要性指标的公式或方法仅为示例,在实际上还可以有其它的公式或方法计算高频词汇的重要性指标。
所述计算机设备可以采用任意适当的方法计算疑似误识数据的重要性指标。例如,所述计算机设备可以获取疑似误识数据中的高频词汇;可以将该疑似误识数据中的高频词汇的重要性指标之和,作为该疑似误识数据的重要性指标。另举一例,所述计算机设备可以获取疑似误识数据中的高频词汇;可以将该疑似误识数据中的高频词汇的重要性指标的平均值或中位数,作为该疑似误识数据的重要性指标。
在本实施方式中,所述计算机设备可以提供有重要性阈值;可以从所述疑似误识数据集合中获取重要性指标大于或等于所述重要性阈值的疑似误识数据,作为第二类型样本数据。所述重要性阈值可以为经验值。当然,所述重要性阈值也可以基于其它方法得到,本实施方式对此并不做具体限定。
步骤S16:基于添加了获取的第二类型数据的样本数据集合,对所述分类模型再次进行训练。
在本实施例中,所述计算机设备可以将获取的第二类型样本数据,添加至所述样本数据集合;可以基于添加了获取的第二类型数据的样本数据集合,对所述分类模型再次进行训练。获取的第二类型样本数据的特征,通常具有前述训练过程中分类模型所没有学习到的特征。这样,基于添加了获取的第二类型数据的样本数据集合,对所述分类模型再次进行训练,可以提高分类模型对第一类型数据和第二类型数据的区分能力,降低将第二类型数据误识为第一类型数据的概率。
在本实施例的一个实施方式中,所述计算机设备还可以检测再次训练后的分类模型是否满足训练终止条件;若否,可以重复执行步骤S10至步骤S16,直至满足所述训练终止条件。所述训练终止条件例如可以为训练次数达到某一数值、或分类模型的评价指标达到某一数值等。这样,可以进一步提高分类模型对第一类型数据和第二类型数据的区分能力,进一步降低将第二类型数据误识为第一类型数据的概率。
在本实施例中,所述计算机设备可以使用经样本数据集合训练后的分类模型,识别测试数据集合中测试数据的类型,得到识别结果;可以基于所述识别结果,从所述测试数据集合中获取疑似误识数据集合;可以从所述疑似误识数据集合中获取疑似误识数据作为第二类型样本数据;可以基于添加了获取的第二类型数据的样本数据集合,对所述分类模型再次进行训练。获取的第二类型样本数据,通常具有前述训练过程中分类模型所没有学习到的特征。这样,基于添加了获取的第二类型数据的样本数据集合,对所述分类模型再次进行训练,可以提高分类模型对第一类型数据和第二类型数据的区分能力,降低将第二类型数据误识为第一类型数据的概率。
请参阅图3。本说明书实施例还提供一种数据类型识别方法。所述数据类型识别方法的执行主体可以为计算机设备。所述计算机设备包括但不限于服务器、工控机(工业控制计算机)、个人计算机(PC机)、一体机等。所述数据类型识别方法可以包括以下步骤。
步骤S20:使用分类模型识别业务数据的类型,得到识别结果。
在本实施例中,所述分类模型可以基于本说明书实施例中的模型训练方法训练得到。
在本实施例中,所述业务数据可以为文本数据、音频数据、视频数据、或图片数据等。
在本实施例中,所述识别结果可以包括所述业务数据的特征值。所述特征值可以用于表示业务数据被划分为标的数据的概率。或者,所述识别结果还可以包括所述业务数据是否为标的数据。
在本实施例中,所述计算机设备可以使用基于本说明书实施例中的模型训练方法训练得到的分类模型,识别业务数据的类型,得到识别结果。本实施例可以降低业务数据的误识率。
请参阅图4。本说明书实施例提供一种计算机设备。所述计算机设备可以包括以下单元。
识别单元30,用于使用经样本数据集合训练后的分类模型,识别测试数据集合中测试数据的类型,得到识别结果;其中,所述样本数据集合包括第一类型样本数据和第二类型样本数据;所述第一类型样本数据的类型与标的业务数据的类型相同;
第一获取单元32,用于基于所述识别结果,从所述测试数据集合中获取疑似误识数据集合;
第二获取单元34,用于从所述疑似误识数据集合中获取疑似误识数据作为第二类型样本数据;
训练单元36,用于基于添加了获取的第二类型样本数据的样本数据集合,对所述分类模型再次进行训练。
请参阅图5。本说明书实施例提供另一种计算机设备。所述计算机设备可以包括存储器和处理器。
在本实施例中,所述存储器可以按任何适当的方式实现。例如,所述存储器可以为只读存储器、机械硬盘、固态硬盘、或U盘等。所述存储器可以用于存储计算机指令。
在本实施例中,所述处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以执行所述计算机指令实现以下步骤:使用经样本数据集合训练后的分类模型,识别测试数据集合中测试数据的类型,得到识别结果;其中,所述样本数据集合包括第一类型样本数据和第二类型样本数据;所述第一类型样本数据的类型与标的业务数据的类型相同;基于所述识别结果,从所述测试数据集合中获取疑似误识数据集合;从所述疑似误识数据集合中获取疑似误识数据作为第二类型样本数据;基于添加了获取的第二类型样本数据的样本数据集合,对所述分类模型再次进行训练。
请参阅图6。本说明书实施例提供另一种计算机设备。所述计算机设备可以包括以下单元。
识别单元40,用于使用分类模型识别业务数据的类型,得到识别结果。其中,所述分类模型可以基于本说明书实施例中的模型训练方法训练得到。
请参阅图5。本说明书实施例提供另一种计算机设备。所述计算机设备可以包括存储器和处理器。
在本实施例中,所述存储器可以按任何适当的方式实现。例如,所述存储器可以为只读存储器、机械硬盘、固态硬盘、或U盘等。所述存储器可以用于存储计算机指令。
在本实施例中,所述处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以执行所述计算机指令实现以下步骤:使用分类模型识别业务数据的类型,得到识别结果。其中,所述分类模型可以基于本说明书实施例中的模型训练方法训练得到。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于计算机设备实施例而言,由于其基本相似于模型训练方法实施例,所以描述的比较简单,相关之处参见模型训练方法实施例的部分说明即可。
另外,可以理解的是,本领域技术人员在阅读本说明书文件之后,可以无需创造性劳动想到将本说明书列举的部分或全部实施例进行任意组合,这些组合也在本说明书公开和保护的范围内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片2。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims (12)

1.一种模型训练方法,包括:
使用经样本数据集合训练后的分类模型,识别测试数据集合中测试数据的类型,得到识别结果;其中,所述样本数据集合包括第一类型样本数据和第二类型样本数据;所述第一类型样本数据的类型与标的业务数据的类型相同;
基于所述识别结果,从所述测试数据集合中获取疑似误识数据集合;
从所述疑似误识数据集合中获取疑似误识数据作为第二类型样本数据;
基于添加了获取的第二类型样本数据的样本数据集合,对所述分类模型再次进行训练。
2.如权利要求1所述的方法,所述标的业务数据包括风险业务数据。
3.如权利要求1所述的方法,所述识别结果包括所述测试数据集合中测试数据的特征值;相应地,所述从所述测试数据集合中获取疑似误识数据集合,包括:
基于所述特征值,从所述测试数据集合中获取疑似误识数据集合。
4.如权利要求1所述的方法,所述从所述疑似误识数据集合中获取疑似误识数据作为第二类型样本数据,包括:
计算所述疑似误识数据集合中疑似误识数据的重要性指标;
基于所述重要性指标,从所述疑似误识数据集合中获取疑似误识数据作为第二类型样本数据。
5.如权利要求4所述的方法,所述测试数据集合中的测试数据为文本数据;相应地,所述计算所述疑似误识数据集合中疑似误识数据的重要性指标,包括:
对所述疑似误识数据集合中的疑似误识数据进行分词处理,得到多个分词词汇;
从所述多个分词词汇中筛选出至少一个高频词汇;
基于高频词汇的重要性指标,计算所述疑似误识数据集合中疑似误识数据的重要性指标。
6.如权利要求5所述的方法,在计算所述疑似误识数据集合中疑似误识数据的重要性指标之前,所述方法还包括:
基于每个高频词汇的频次、以及所述多个分词词汇的频次之和,计算该高频词汇的第一参数;基于所述疑似误识数据集合中疑似误识数据的数量、以及所述疑似误识数据集合中包含有该高频词汇的疑似误识数据的数量,计算该高频词汇的第二参数;基于所述第一参数和所述第二参数,计算该高频词汇的重要性指标。
7.如权利要求1所述的方法,所述方法还包括:
检测再次训练后的分类模型是否满足训练终止条件;
若否,重复执行识别测试数据集合中测试数据的类型、从所述测试数据集合中获取疑似误识数据集合、从所述疑似误识数据集合中获取疑似误识数据作为第二类型样本数据、以及对所述分类模型再次进行训练的步骤,直至满足所述训练终止条件。
8.一种计算机设备,包括:
识别单元,用于使用经样本数据集合训练后的分类模型,识别测试数据集合中测试数据的类型,得到识别结果;其中,所述样本数据集合包括第一类型样本数据和第二类型样本数据;所述第一类型样本数据的类型与标的业务数据的类型相同;
第一获取单元,用于基于所述识别结果,从所述测试数据集合中获取疑似误识数据集合;
第二获取单元,用于从所述疑似误识数据集合中获取疑似误识数据作为第二类型样本数据;
训练单元,用于基于添加了获取的第二类型样本数据的样本数据集合,对所述分类模型再次进行训练。
9.一种计算机设备,包括存储器和处理器;
所述存储器,用于存储计算机指令;
所述处理器,用于执行所述计算机指令实现以下步骤:使用经样本数据集合训练后的分类模型,识别测试数据集合中测试数据的类型,得到识别结果;其中,所述样本数据集合包括第一类型样本数据和第二类型样本数据;所述第一类型样本数据的类型与标的业务数据的类型相同;基于所述识别结果,从所述测试数据集合中获取疑似误识数据集合;从所述疑似误识数据集合中获取疑似误识数据作为第二类型样本数据;基于添加了获取的第二类型样本数据的样本数据集合,对所述分类模型再次进行训练。
10.一种数据类型识别方法,包括:
使用分类模型识别业务数据的类型,得到识别结果;其中,所述分类模型基于如权利要求1至7中任一项所述方法训练得到。
11.一种计算机设备,包括:
识别单元,用于使用分类模型识别业务数据的类型,得到识别结果;其中,所述分类模型基于如权利要求1至7中任一项所述方法训练得到。
12.一种计算机设备,包括存储器和处理器;
所述存储器,用于存储计算机指令;
所述处理器,用于执行所述计算机指令实现以下步骤:使用分类模型识别业务数据的类型,得到识别结果;其中,所述分类模型基于如权利要求1至7中任一项所述方法训练得到。
CN201810071644.8A 2018-01-25 2018-01-25 模型训练方法、数据类型识别方法和计算机设备 Pending CN108304868A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810071644.8A CN108304868A (zh) 2018-01-25 2018-01-25 模型训练方法、数据类型识别方法和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810071644.8A CN108304868A (zh) 2018-01-25 2018-01-25 模型训练方法、数据类型识别方法和计算机设备

Publications (1)

Publication Number Publication Date
CN108304868A true CN108304868A (zh) 2018-07-20

Family

ID=62866624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810071644.8A Pending CN108304868A (zh) 2018-01-25 2018-01-25 模型训练方法、数据类型识别方法和计算机设备

Country Status (1)

Country Link
CN (1) CN108304868A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598281A (zh) * 2018-10-11 2019-04-09 阿里巴巴集团控股有限公司 一种业务风险防控方法、装置及设备
CN111401062A (zh) * 2020-03-25 2020-07-10 支付宝(杭州)信息技术有限公司 文本的风险识别方法、装置及设备
CN111539021A (zh) * 2020-04-26 2020-08-14 支付宝(杭州)信息技术有限公司 一种数据隐私类型识别方法、装置及设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722567A (zh) * 2012-05-30 2012-10-10 杭州遥指科技有限公司 一种站内信息的筛选方法和装置
CN103425991A (zh) * 2012-05-15 2013-12-04 富士通株式会社 对视频中的目标进行分类的方法和装置
CN104572899A (zh) * 2014-12-25 2015-04-29 北京锐安科技有限公司 处理文章的方法和装置
CN105095396A (zh) * 2015-07-03 2015-11-25 北京京东尚科信息技术有限公司 模型创建方法、质量评估方法及装置
CN105320957A (zh) * 2014-07-10 2016-02-10 腾讯科技(深圳)有限公司 分类器训练方法和装置
CN105893225A (zh) * 2015-08-25 2016-08-24 乐视网信息技术(北京)股份有限公司 一种错误自动处理方法及装置
CN106503617A (zh) * 2016-09-21 2017-03-15 北京小米移动软件有限公司 模型训练方法及装置
US20170192975A1 (en) * 2015-12-31 2017-07-06 Ebay Inc. System and method for identifying miscategorization
CN107229627A (zh) * 2016-03-24 2017-10-03 华为技术有限公司 一种文本处理方法、装置及计算设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425991A (zh) * 2012-05-15 2013-12-04 富士通株式会社 对视频中的目标进行分类的方法和装置
CN102722567A (zh) * 2012-05-30 2012-10-10 杭州遥指科技有限公司 一种站内信息的筛选方法和装置
CN105320957A (zh) * 2014-07-10 2016-02-10 腾讯科技(深圳)有限公司 分类器训练方法和装置
CN104572899A (zh) * 2014-12-25 2015-04-29 北京锐安科技有限公司 处理文章的方法和装置
CN105095396A (zh) * 2015-07-03 2015-11-25 北京京东尚科信息技术有限公司 模型创建方法、质量评估方法及装置
CN105893225A (zh) * 2015-08-25 2016-08-24 乐视网信息技术(北京)股份有限公司 一种错误自动处理方法及装置
US20170192975A1 (en) * 2015-12-31 2017-07-06 Ebay Inc. System and method for identifying miscategorization
CN107229627A (zh) * 2016-03-24 2017-10-03 华为技术有限公司 一种文本处理方法、装置及计算设备
CN106503617A (zh) * 2016-09-21 2017-03-15 北京小米移动软件有限公司 模型训练方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李杰龙: "基于主动学习的多示例多标签学习算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑(月刊)》 *
金宇 等: "基于直推式学习的中文情感词极性判别", 《计算机工程与应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598281A (zh) * 2018-10-11 2019-04-09 阿里巴巴集团控股有限公司 一种业务风险防控方法、装置及设备
CN111401062A (zh) * 2020-03-25 2020-07-10 支付宝(杭州)信息技术有限公司 文本的风险识别方法、装置及设备
CN111401062B (zh) * 2020-03-25 2023-04-18 支付宝(杭州)信息技术有限公司 文本的风险识别方法、装置及设备
CN111539021A (zh) * 2020-04-26 2020-08-14 支付宝(杭州)信息技术有限公司 一种数据隐私类型识别方法、装置及设备

Similar Documents

Publication Publication Date Title
CN107944020B (zh) 人脸图像查找方法及装置、计算机装置和存储介质
CN109582791B (zh) 文本的风险识别方法及装置
US20200175062A1 (en) Image retrieval method and apparatus, and electronic device
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
WO2021115345A1 (zh) 图像处理方法、装置、计算机设备及存储介质
CN109447156B (zh) 用于生成模型的方法和装置
CN105144239A (zh) 图像处理装置、程序及图像处理方法
Handani et al. Sentiment analysis for go-jek on google play store
CN110472802B (zh) 一种数据特征评估方法、装置及设备
US11416717B2 (en) Classification model building apparatus and classification model building method thereof
CN108304868A (zh) 模型训练方法、数据类型识别方法和计算机设备
CN108764915A (zh) 模型训练方法、数据类型识别方法和计算机设备
CN110287311A (zh) 文本分类方法及装置、存储介质、计算机设备
CN113360711B (zh) 视频理解任务的模型训练和执行方法、装置、设备及介质
CN109993187A (zh) 一种用于识别物体类别的建模方法、机器人及存储装置
CN109284700B (zh) 图像中多个人脸检测的方法、存储介质、设备及系统
CN112990318A (zh) 持续学习方法、装置、终端及存储介质
US20220019775A1 (en) Image processing method and device, classifier training method, and readable storage medium
CN110363190A (zh) 一种文字识别方法、装置及设备
CN107704869B (zh) 一种语料数据抽样方法及模型训练方法
CN112052724A (zh) 基于深度卷积神经网络的手指指尖定位方法及装置
CN115222061A (zh) 基于持续学习的联邦学习方法以及相关设备
CN110717407A (zh) 基于唇语密码的人脸识别方法、装置及存储介质
CN112560463B (zh) 文本多标注方法、装置、设备及存储介质
CN112329810B (zh) 一种基于显著性检测的图像识别模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201021

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201021

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: Greater Cayman, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180720