CN113743435A - 业务数据分类模型的训练、业务数据的分类方法和装置 - Google Patents
业务数据分类模型的训练、业务数据的分类方法和装置 Download PDFInfo
- Publication number
- CN113743435A CN113743435A CN202010575959.3A CN202010575959A CN113743435A CN 113743435 A CN113743435 A CN 113743435A CN 202010575959 A CN202010575959 A CN 202010575959A CN 113743435 A CN113743435 A CN 113743435A
- Authority
- CN
- China
- Prior art keywords
- sample
- data
- classification model
- training
- business data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 193
- 238000012549 training Methods 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 94
- 238000012545 processing Methods 0.000 claims abstract description 197
- 238000012360 testing method Methods 0.000 claims abstract description 76
- 230000008569 process Effects 0.000 claims description 28
- 230000000670 limiting effect Effects 0.000 claims description 18
- 238000010276 construction Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012986 modification Methods 0.000 claims description 8
- 230000004048 modification Effects 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000012423 maintenance Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 7
- 238000003066 decision tree Methods 0.000 description 7
- 230000002829 reductive effect Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 239000002184 metal Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了业务数据分类模型的训练、业务数据的分类方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:利用多个业务数据样本构建样本集,其中,样本集中的一个样本包括一个业务数据样本的样本特征以及对应的处理类别;基于样本集划分出训练样本集和测试样本集;利用训练样本集中的样本特征和对应的处理类别,训练分类模型,得到数据分类模型;利用测试样本集中的样本特征和对应的处理类别,测试数据分类模型,并根据测试的结果,为数据分类模型修正分类阈值。该实施方式能够比较准确的为业务数据进行分类,从而更准确、高效地完成业务数据处理。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种业务数据分类模型的训练、业务数据的分类方法和装置。
背景技术
随着线上服务越来越普遍,线上服务所产生的业务数据如商品询问相关的业务数据如询问商品性能、价格、配送范围等所产生的数据、售后服务相关的业务数据如用户投诉产生的数据、退换商品产生的数据等也呈指数性的增加。为了能够尽快地处理好这些业务数据,为这些业务数据引入了自动化处理方式。如询问商品性能、价格、配送范围等所产生的数据、退换商品产生的数据等可进行自动化处理,而有一些业务数据比如用户投诉产生的部分数据如投诉产品质量问题等,则需要人工介入才能解决。而对业务数据进行分类,是确定业务数据处理方式的基础。
目前,主要通过为人工处理和自动化处理设置对应的数据特征,当待处理数据所具有的数据特征属于人工处理的数据特征,则对该待处理数据进行人工处理,当待处理数据所具有的数据特征自动化处理的数据特征,则对该待处理数据进行自动化处理。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
由于为人工处理和自动化处理设置对应的数据特征很难完整的体现出业务数据的特征,导致现有的分类方式的准确性较低。
发明内容
有鉴于此,本发明实施例提供一种业务数据分类模型的训练、业务数据分类方法和装置,能够比较准确的为业务数据进行分类,从而更准确、高效地完成业务数据处理。
为实现上述目的,根据本发明实施例的一个方面,提供了一种业务数据分类模型的训练方法,包括:
利用多个业务数据样本构建样本集,其中,所述样本集中的一个样本包括一个所述业务数据样本的样本特征以及对应的处理类别;
基于所述样本集划分出训练样本集和测试样本集;
利用所述训练样本集中的样本特征和对应的处理类别,训练模型,得到数据分类模型;
利用所述测试样本集中的样本特征和对应的处理类别,测试所述数据分类模型,并根据测试的结果,为所述数据分类模型修正分类阈值。
优选地,利用多个业务数据样本构建样本集的步骤,包括:
基于预设的信息维度,从所述业务数据样本中采集多个样本特征;
利用所述业务数据样本对应的多个样本特征和处理类别构建样本;
利用多个所述样本组成样本集。
优选地,在利用所述多种样本特征和所述业务数据样本标注的处理类别构建样本的步骤之前,进一步包括:
对所述样本特征进行标准化处理;
利用所述业务数据样本对应的多种样本特征和处理类别构建样本的步骤,包括:
利用所述业务数据样本对应的标准化处理后的多种样本特征和处理类别构建样本。
优选地,对所述样本特征进行标准化处理的步骤,包括:
针对特征值为非空的样本特征,执行:
当所述样本特征属于连续类时,判断所述样本特征是否超出所述连续类对应的边界,如果是,则修正所述样本特征;
当所述样本特征属于离散类时,将所述样本特征转换为对应的特征编码;
当所述样本特征属于文本类时,根据预设的分词赋值表,将所述样本特征量化为对应的数值。
优选地,对所述样本特征进行标准化处理的步骤,包括:
针对特征值为空的样本特征,执行:
根据预设的赋值策略,为所述样本特征赋值。
优选地,业务数据分类模型的训练方法,进一步包括:
针对每一个所述业务数据样本,执行:
判断所述业务数据样本包括的分类信息是否满足预设的样本标准,如果是,则执行从所述业务数据样本中采集多个样本特征的步骤;否则,舍弃所述业务数据样本。
优选地,业务数据分类模型的训练方法,进一步包括:
针对每一个离散类的样本特征,执行:
确定所述离散类的样本特征对应的多个离散信息,以及为每一个所述离散信息赋值的字符和所述字符的编码位置;
将所述样本特征转换为对应的特征编码的步骤,包括:
利用所述样本特征对应的多个离散信息、所述离散信息对应的字符和所述字符的编码位置,为所述样本特征生成对应的特征编码。
优选地,
所述预设的信息维度,包括:用户信息维度、物品信息维度、订单信息维度以及服务信息维度中的任意一个或多个维度。
优选地,业务数据分类模型的训练方法,进一步包括:基于所述样本集划分出校验样本集;
在得到所述分类模型之后,进一步包括:利用所述校验样本集中的样本特征和对应的处理类别,修正所述分类模型;
测试所述分类模型的步骤,包括:测试修正后的分类模型。
优选地,
所述测试的结果包括:设定阈值与准确率之间的第一关联关系;
为所述分类模型确定分类阈值包括:
确定目标准确率;
根据所述第一关联关系,确定所述目标准确率对应的阈值为所述分类阈值。
优选地,业务数据分类模型的训练方法,进一步包括:设置有召回率限定范围和准确率限定范围;
所述测试的结果进一步包括:召回率和所述准确率之间的第二关联关系;
确定目标准确率的步骤,包括:
根据所述第二关联关系,查找所述召回率限定范围和所述准确率限定范围之间的相交区域;
选定所述相交区域中的最小准确率为目标准确率。
第二方面,本发明实施例提供一种业务数据的分类方法,基于上述任一实施例训练出的数据分类模型实现,包括:
当接收到待处理业务数据时,根据所述待处理业务数据和所述数据分类模型,得到处理类别分数;
对比所述处理类别分数和所述分类阈值,根据对比的结果,确定所述待处理业务数据的处理策略。
优选地,根据所述待处理业务数据和所述分类模型,得到处理类别分数的步骤,包括:
基于预设的信息维度,从所述待处理业务数据中抽取出多个数据特征;
对所述数据特征进行标准化处理;
将标准化处理后的数据特征输入所述分类模型,得出分类分值。
优选地,业务数据分类的方法,进一步包括:
针对设定数量的待处理业务数据,同时进行人工分类和所述分类模型分类;
判断所述人工分类的结果与所述分类模型分类的结果之间的匹配度是否低于设定的报警阈值,如果是,则进行分类错误报警,以提示维护人员对所述分类模型进行修正。
优选地,确定所述待处理业务数据的处理策略的步骤,包括:
当所述对比的结果指示所述处理类别分数低于所述分类阈值时,将所述待处理业务数据推送给业务处理人员,以对所述待处理业务数据进行人工处理;否则,对所述待处理业务数据进行自动化处理。
第三方面,本发明实施例提供一种业务数据分类模型的训练装置,包括:样本集构建单元、训练单元以及修正单元,其中,
所述样本集构建单元,用于利用多个业务数据样本构建样本集,其中,所述样本集中的一个样本包括一个所述业务数据样本的样本特征以及对应的处理类别,将所述样本集划分为训练样本集和测试样本集;
所述训练单元,用于利用所述样本集构建单元划分出的所述训练样本集中的样本特征和对应的处理类别,训练分类模型,得到数据分类模型;
所述修正单元,用于利用所述样本集构建单元划分出的测试样本集中的样本特征和对应的处理类别,测试所述训练单元训练出的所述数据分类模型,并根据测试的结果,为所述数据分类模型修正分类阈值。
优选地,
所述样本集构建单元,用于基于预设的信息维度,从所述业务数据样本中采集多个样本特征;利用所述多个样本特征和对应的处理类别构建样本;利用多个所述样本组成样本集。
第四方面,本发明实施例提供一种业务数据的分类装置,基于上述任一实施例提供的所述的业务数据分类模型的训练方法训练出的数据分类模型实现,包括:分数确认单元以及分类判定单元,其中,
所述分数确认单元,用于当接收到待处理业务数据时,根据所述待处理业务数据和所述数据分类模型,得到处理类别分数;
所述分类判定单元,用于对比所述处理类别分数和所述分类阈值,根据对比的结果,确定所述待处理业务数据的处理策略。
上述发明中的一个实施例具有如下优点或有益效果:因为利用训练样本集中的样本特征和对应的处理类别,训练分类模型,得到数据分类模型,与人为设定的数据特征相比,数据分类模型其能比较真实的体现出业务数据的各种特征与处理类别之间的关系。进一步通过测试样本集中的样本特征和对应的处理类别,为数据分类模型确定分类阈值,相当于在数据分类模型的基础上,基于测试样本集进一步修正了分类模型的分类阈值,因此,通过本发明实施例训练出的数据分类模型能够比较准确的确定出业务数据的处理类别,从而更准确、高效地完成业务数据处理。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的业务数据分类模型的训练方法的主要流程的示意图;
图2是根据本发明实施例的对样本特征进行标准化处理的主要流程的示意图;
图3是根据本发明另一实施例的业务数据分类模型的训练方法的主要流程的示意图;
图4是根据本发明实施例的召回率与准确率之间关系的示意图;
图5是根据本发明实施例的业务数据的分类方法的主要流程的示意图;
图6是根据本发明实施例的业务数据分类模型的训练装置的主要单元的示意图;
图7是根据本发明实施例的业务数据的分类装置的主要单元的示意图;
图8是本发明实施例可以应用于其中的示例性系统架构图;
图9是适于用来实现本发明实施例的服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的一种业务数据分类模型的训练方法,如图1所示,该业务数据分类模型的训练方法可包括如下步骤:
S101:利用多个业务数据样本构建样本集,其中,样本集中的一个样本包括一个业务数据样本的样本特征以及对应的处理类别;
S102:基于样本集划分出训练样本集和测试样本集;
S103:利用训练样本集中的样本特征和对应的处理类别,训练分类模型,得到数据分类模型;
S104:利用测试样本集中的样本特征和对应的处理类别,测试数据分类模型,并根据测试的结果,为数据分类模型修正分类阈值。
业务数据样本是指已经通过其他分类方式得到的、具有相应处理类别如人工处理、自动化处理等的业务数据。其中,该业务数据可为服务单中的数据,其中,服务单是指用户购物过程中,下单,出库,运输,收货以及使用等过程中,用户联系客服申请退换修等所产生的表单。比如,售后服务对应的服务单中的数据、售前服务对应的服务单中的数据,比如顾客询问商品相关的问题等,又比如,售后服务系统为顾客投诉所产生的投诉服务单中的数据等。该业务数据样本可来源于数据库。
处理类别可包括:自动化处理和人工处理。其中,自动化处理所对应的标签可为0,相应地,人工处理可对应的标签为1。基于此,分类模型可为一个执行二分类任务的模型。
其中,基于样本集划分出训练样本集和测试样本集可以为,将样本集中的样本按照设定比例(如8:1),拆分为两份,其中,样本数多的一份作为训练样本集,样本数少的一份作为测试样本集。值得说明的是,训练样本集中的样本和测试样本集中的样本之间可以存在交集,也可不存在交集。一个优选地实施例中,训练样本集中的样本和测试样本集中的样本之间不存在交集。
其中,模型可以为二分类模型(如lightgbm算法模型)。在二分类模型中,会存在一个阈值,在阈值以下的划分为一种处理类别,在阈值及以上的划分为另一种处理类别,若直接采用数据分类模型为待处理业务数据分配处理类别,可能导致分类结果准确性较低。因此,本发明实施例利用测试样本集中的样本特征和对应的处理类别,测试数据分类模型,并根据测试的结果,为数据分类模型确定分类阈值。即采用测试样本集重新确定出分类阈值,以保证分类阈值比较客观真实。在后续为待处理业务数据确定处理类别时,利用数据分类模型计算出一个分数,根据该分数以及分类阈值,为处理类别赋值为1或0。
其中,训练分类模型的具体过程:
循环执行下述过程A至E:
A:为决策树的当前层确定至少一个节点(其中,一个节点对应一个未被选择过的训练样本集所包括的一个样本特征);
B:当当前层不是最高层时,为该当前层中的每一个节点确定对应的父节点和子节点(其中,一个父节点和子节点分别对应一个样本特征);
C:确定当前层中各个节点发生或未发生(节点对应的样本特征出现或未出现)的不同组合对应的处理类别的概率;
比如,当前层包括节点1以及节点2,其中,当前层包括的各种组合:节点1、节点2均发生,节点1发生、节点2未发生,节点1、节点2均未发生、节点1未发生、节点2发生;
其中,节点1、节点2均发生对应的处理类别的概率:样本集合中一个处理类别对应的样本中,同时具有节点对应的样本特征和节点2对应的样本特征的样本个数除以该处理类别对应的样本总个数的结果,再乘以样本集合中该处理类别的比例;
其中,节点1发生、节点2未发生对应的处理类别的概率:样本集合中一个处理类别对应的样本中,具有节点1对应的样本特征,而不具有节点2对应的样本特征的样本个数除以该处理类别对应的样本总个数的结果,再乘以样本集合中该处理类别的比例;
其中,节点1未发生、节点2发生对应的处理类别的概率:样本集合中一个处理类别对应的样本中,不具有节点1对应的样本特征,而具有节点2对应的样本特征的样本个数除以该处理类别对应的样本总个数的结果,再乘以样本集合中该处理类别的比例;
其中,节点1发生、节点2均未发生对应的处理类别的概率:样本集合中一个处理类别对应的样本中,不具有节点1对应的样本特征以及节点2对应的样本特征的样本个数除以该处理类别对应的样本总个数的结果,再乘以样本集合中该处理类别的比例;
比如,样本集样本总个数为3000,具有处理类别a的样本总数为1000,具有处理类别b的样本总数为2000;样本集中具有处理类别a的样本中,同时具有节点1对应的样本特征以及节点2对应的样本特征的样本个数为500,具有节点1对应的样本特征而不具有节点2对应的样本特征的样本个数为250,不具有节点1对应的样本特征而具有节点2对应的样本特征的样本个数为200,同时不具有节点1对应的样本特征和节点2对应的样本特征为50;则节点1和节点2同时发生这种组合对应的处理类别a的概率为节点1发生和节点2未发生这种组合对应的处理类别a的概率为 节点1未发生和节点2发生这种组合对应的处理类别a的概率为节点1未发生和节点2未发生这种组合对应的处理类别a的概率为
D:当决策树的深度达到目标深度后,将当前层的节点指向两个处理类别,并为该两个处理类别确定初步的分类阈值,并结束当前流程;
该确定初步的分类阈值具体可为,用户自身经验,设定一个初步的分类阈值。
该确定初步的分类阈值具体还可为,分类模型直接输出一个分类阈值。
E:当决策树的深度未达到目标深度后,为决策树新增加一层,并将新增加的一层作为当前层,执行A。
通过上述训练得到的决策树,可根据业务数据的数据特征(该数据特征与样本特征相同)将业务数据最终划分为两种处理类别中的一种。
其中,根据测试的结果,为数据分类模型修正分类阈值,具体可为:当测试的结果指示的正确率不高于正确率阈值时,按照预设的调整参数调整该分类阈值。其中,正确率:数据分类模型对测试样本集中的测试样本进行分类后,分类结果与测试样本原有的处理类别一致的概率,比如,测试样本集包括1000个样本,其中有300个样本经过数据分类模型得到的处理类别与自身对应的处理类别一致,则正确率为300除以1000,即0.3。正确率阈值为用户设定。预设的调整参数:为分类阈值增加或者减少一个固定值的整数倍。当测试的结果指示的正确率不高于正确率阈值时,可先将分类阈值减小一个固定值,然后继续用测试集合进行测试,如果准确率降低,则将分类阈值增加一个固定值,如果准确率升高,则可为分类阈值增加两个固定值,如果准确率继续升高,则可为分类阈值增加三个固定值,在为分类阈值增加三个固定值后,准确率降低,则确定修正后的分类阈值为分类阈值加上两个固定值。
在图1所示的实施例中,因为利用训练样本集中的样本特征和对应的处理类别,训练分类模型,得到数据分类模型,与人为设定的数据特征相比,数据分类模型其能比较真实的体现出业务数据的各种特征与处理类别之间的关系。进一步通过测试样本集中的样本特征和对应的处理类别,为数据分类模型确定分类阈值,相当于在数据分类模型的基础上,基于测试样本集进一步修正了分类模型的分类阈值,因此,通过本发明实施例训练出的数据分类模型能够比较准确的确定出业务数据的处理类别,从而更准确、高效地完成业务数据处理。
一般来说,业务数据样本没有直接可用的处理类别对应的标签数据(自动化处理对应标签为1,人工处理对应标签为0)。需要根据业务数据样本对应的业务已知信息,模拟标签。其中,包括如下任意一种人工处理信息或特征的业务数据样本为人工处理类别。除人工处理类别的业务数据样本之外,其他业务数据样本(即不包括如下任意一种人工处理的信息或特征的业务数据样本)为自动化处理类别。
人工处理类别的信息或特征:
客服人员与用户的通话记录;客服修改了用户的某项申请,如取件方式,处理方式等;
业务数据处理未通过等;
用户留言中存在表述出不满情绪的词语等。
按照如上规则设定样本的人工处理类别对应的标签。
在本发明一个实施例中,利用多个业务数据样本构建样本集的步骤可包括:基于预设的信息维度,从业务数据样本中采集多个样本特征;利用多个样本特征和对应的处理类别构建样本;利用多个样本组成样本集。
其中,预设的信息维度,包括:用户信息维度、物品信息维度、订单信息维度以及服务信息维度中的任意一个或多个维度。一个优选地实施例,预设的信息维度包括:用户信息维度、物品信息维度、订单信息维度以及服务信息维度。上述信息维度,通过多个信息维度采集样本特征,能够保证采集到的样本特征比较真实地反映业务数据样本,从而有效地提高训练出的数据分类模型的准确性。
比如,针对服务单来说,用户信息维度对应的样本特征可包括:用户级别、用户特权、用户购物信息等;
物品信息维度对应的样本特征可包括:物品种类、物品价格、物品服务特征如7天无理由退换等;
订单信息维度对应的样本特征可包括:配送地址、配送时间、配送费、订单服务等;
服务信息维度对应的样本特征可包括:用户留言信息、用户评价信息、对用户留言信息处理的结果、用户满意度等。
在本发明一个实施例中,在利用所述业务数据样本对应的多个样本特征和对应的处理类别构建样本的步骤之前可进一步包括:对样本特征进行标准化处理;相应地,利用所述业务数据样本对应的多种样本特征和处理类别构建样本的步骤可包括:利用业务数据样本对应的标准化处理后的多种样本特征和处理类别构建样本。
其中,标准化处理是指将样本特征的格式和表达方式统一化,并对超出限定的样本特征进行修正或更改。
在本发明一个实施例中,如图2所示,对样本特征进行标准化处理的步骤可包括如下步骤:
S200:针对特征值为非空的样本特征,当样本特征属于连续类时,执行步骤S201;当样本特征属于离散类时,执行步骤204;当样本特征属于文本类时,执行步骤S205;
S201:判断样本特征是否超出连续类对应的边界,如果是,则执行步骤S202;
S202:修正样本特征,并将修正后的样本特征作为业务数据样本的样本特征,并结束当前流程;
S203:将该样本特征作为业务数据样本的样本特征,并结束当前流程;
S204:将样本特征转换为对应的特征编码,并结束当前流程;
S205:根据预设的分词赋值表,将样本特征量化为对应的数值。
该连续类是指特征值为数值型,连续类特征值为一个取值范围内的任意值,比如,物品信息维度对应的价格特征、用户信息维度对应的用户级别特征等。一般来说,连续类的样本特征具有一定的取值范围,比如物品的价格一般会在一个范围内,一旦超过该范围,则对该物品的价格进行修正,比如,当物品价格高于该范围对应的最大值时,则将该物品价格修改为范围对应的最大值或者将该物品价格修改为同类物品价格对应的众数或者同类物品价格对应的均值(该同类物品价格对应的众数是指数据库中包括的同一类型或者同一种物品的大部分历史数据订单对应的价格;该同类物品价格对应的均值是指数据库中包括的同一类型或者同一种物品的大部分历史数据订单对应的价格的均值)。当物品价格低于该范围对应的最大值时,则将该物品价格修改为范围对应的最小值或者将该物品价格修改为同类物品价格对应的众数或者同类物品价格对应的均值。
离散类是指样本特征对应的特征值为设定的几个特征值中的任意一个,其可为数值型或文本型。比如,用户特权对应的特征值即为离散类。其中,将样本特征转换为对应的特征编码可采用one-hot编码方式实现。
文本类的样本特征一般是指来源于用户留言的文本信息等。
其中,分词赋值表是指列举了各种常用的语气词等词语的对应的分数。比如,文本类的样本特征为用户留言信息,则可通过将用户留言信息进行分词,通过分词赋值表为分词后得到的各个词语赋对应的分数(当分词赋值表中不包括一个词语时,则为该词语赋值为0),通过将各个分数累加得到样本特征量化为对应的数值。
通过上述过程实现了为样本特征进行标准化处理,使训练模型规范化,以进一步提高数据分类模型的准确性。
在本发明一个实施例中,业务数据分类模型的训练方法可进一步包括:针对每一个离散类的样本特征,执行:确定离散类的样本特征对应的多个离散信息,以及为每一个离散信息赋值的字符和字符的编码位置;相应地,将样本特征转换为对应的特征编码的步骤可包括:利用样本特征对应的多个离散信息、离散信息对应的字符和字符的编码位置,为样本特征生成对应的特征编码。比如,针对用户特权这一样本特征来说,其对应的特征值为特权1、特权2以及特权3,特权1存在对应的字符为1,特权1不存在对应的字符为0;特权2存在对应的字符为1,特权2不存在对应的字符为0;特权3存在对应的字符为1,特权3不存在对应的字符为0;特权1的编码位置为特征编码的第1位,特权2的编码位置为特征编码的第2位,特权3的编码位置为特征编码的第3位。那么,针对用户1其具有特权2和特权3,并不具有特权1,则样本特征-用户特权对应的特征编码为011。因此,用户特权对应的部分样本特征可如下表1所示。
表1
用户特权 | 特征编码 | |
用户1 | 特权2和特权3 | 011 |
用户2 | 特权1和特权2 | 110 |
用户3 | 特权1和特权3 | 101 |
用户4 | 特权1、特权2和特权3 | 111 |
在本发明一个实施例中,对样本特征进行标准化处理的步骤可包括:针对特征值为空的样本特征,执行:根据预设的赋值策略,为样本特征赋值。
特征值为空是指在样本特征采集后,某一样本特征对应的特征值未被采集到,则该未被采集到的特征值即是特征值为空。
预设的赋值策略是指,为每一个样本特征设置有对应的设定特征值,当确定出某一样本特征对应的特征值为空时,为该样本特征对应的特征值赋值为设定特征值。比如,为用户级别样本特征设置有对应的设定特征值为0,当一个业务数据样本中的用户级别对应的特征值为空,则为该用户级别对应的特征值赋值为0。通过上述过程保证了样本特征的完整性,以保证数据分类模型和分类阈值的准确性。
在本发明一个实施例中,如图3所示,业务数据分类模型的训练方法可进一步包括如下步骤:针对每一个业务数据样本,执行:
S301:判断业务数据样本包括的分类信息是否满足预设的样本标准,如果是,则执行步骤S302;否则,执行步骤S303;
S302:执行从业务数据样本中采集多个样本特征的步骤,并结束当前流程;
S303:舍弃业务数据样本。
其中,样本标准是指业务数据样本的客服人员的入职时长不小于预设的入职时长阈值,和/或,业务数据样本中问题描述对应的申请原因与相同的问题描述所对应的大多数的申请原因一致。
分析业务数据样本时候发现对于入职时间短的客服人员来说,其分类的准确率要比入职时间长的客服人员低,因此,选择分类质量较高的业务数据样本来做样本时,可采用客服人员的入职时长作为分类标准;比如,业务数据样本中的客服人员的入职时长小于预设的入职时长阈值,则确定该业务数据样本为脏数据,舍弃该业务数据样本。
另外,由于部分客户对服务单上的问题以及其对应的申请原因等不够了解,导致申请原因与问题描述不匹配等,比如有些客户会因为运费的问题主观的选择不符合的选项,因此在对问题描述一致的情况下,对于申请原因不一致的情况进行了投票处理,认为分布较少的申请原因所在的业务数据样本是脏数据,分布较多的申请原因所在的业务数据样本为正常的业务数据样本。
通过上述过程去除了属于脏数据的业务数据样本(提供错误信息的业务数据样本),以保证用来训练分类模型的训练样本集和测试样本集中的样本的准确性,以进一步保证数据分类模型和分类阈值的准确度。
在本发明一个实施例中,业务数据分类模型的训练方法,可进一步包括:基于样本集划分出校验样本集;在得到数据分类模型之后可进一步包括:利用校验样本集中的样本特征和对应的处理类别,修正数据分类模型;相应地,测试数据分类模型的步骤,包括:测试修正后的数据分类模型。
其中,校验样本集:测试样本集:训练样本集可以为1:1:8,校验样本集中的样本可以与测试样本集和训练样本集中的样本存在部分重合,也可以完全不重合。
通过上述校验样本集修正数据分类模型,可以进一步修正数据分类模型的参数,避免参数过拟合的情况出现,以进一步增强数据分类模型的准确度。
在本发明一个实施例中,测试的结果包括:设定阈值与准确率之间的第一关联关系;相应地,为数据分类模型确定分类阈值可包括:确定目标准确率;根据第一关联关系,确定目标准确率对应的阈值为分类阈值。
其中,准确率是指在测试样本集中,样本对应的样本特征和对应的处理类别输入数据分类模型,得到的处理类别与该样本的实际处理类别(样本的实际处理类别即样本所具有的处理类别标签)相一致的概率,比如,测试样本集中有1000个样本,其中,500个样本的对应的样本特征和对应的处理类别输入数据分类模型,得到的处理类别与该样本的实际处理类别相一致,则准确率为50%。
一般来说,在设定不同的阈值时,准确率是不相同的。设定阈值与准确率之间的第一关联关系是指,设定多个阈值时,确定每一个阈值对应的准确率,并根据该多个阈值和对应的准确率,拟合出阈值与准确率之间的关系式或关系图,该阈值与准确率之间的关系式或关系图即为第一关联关系。通过目标准确率来确定分类阈值,一定程度上能够保证分类结果的准确程度。在本发明实施例中,确定准确率90%对应的阈值为分类阈值。
在本发明一个实施例中,业务数据分类模型的训练方法,进一步包括:设置有召回率限定范围和准确率限定范围;测试的结果进一步包括:召回率和所述准确率之间的第二关联关系;相应地,确定目标准确率的步骤可包括:根据第二关联关系,查找召回率限定范围和准确率限定范围之间的相交区域;选定相交区域中的最小准确率为目标准确率。
召回率和准确率之间的第二关联关系是指,在设定多个阈值后,确定每一个阈值对应的准确率和召回率,并根据该多个准确率和召回率,拟合出召回率与准确率之间的关系式或关系图,该召回率与准确率之间的关系式或关系图即为第二关联关系。如图4所示,示出了召回率与准确率之间的关系图。比如,给定的召回率限定范围不小于25%,给定的准确率限定范围为不小于90%,根据图4可得出两者之间的相交区域为召回率为25%~38%或准确率为90%~95%(其中,召回率为25%对应准确率95%,召回率38%对应准确率90%)所对应的曲线区域。
又比如,给定的召回率限定范围是不小于38%,给定的准确率限定范围为不小于90%,两者之间的相交区域为一个相交点,该相交点的坐标为(38%,90%),则目标准确率为90%。
其中,上述各个实施例给出的业务数据分类模型的训练方法可采用离线方式训练完成。
如图5所示,本发明实施例提供一种业务数据的分类的方法,该业务数据的分类的方法基于上述任一项实施例提供的业务数据分类模型的训练方法所构建出的数据分类模型实现,该业务数据的分类的方法可包括如下步骤:
S501:当接收到待处理业务数据时,根据待处理业务数据和数据分类模型,得到处理类别分数;
S502:对比处理类别分数和分类阈值,根据对比的结果,确定待处理业务数据的处理策略。
其中,待处理业务数据可以为待处理服务单中的数据,相应地,处理策略可以为人工处理(人工审核)服务单,也可为自动化处理(自动审核)服务单。
其中,根据待处理业务数据和数据分类模型,得到处理类别分数,是指将待处理业务数据输入到数据分类模型,数据分类模型输出处理类别为自动化处理所对应的处理类别分数或者数据分类模型输出处理类别为人工处理所对应的处理类别分数,该处理类别分数具体是哪一种处理类别分数,可根据用户需求进行设定。
通过上述过程实现了对业务数据如服务单的处理类别进行自动化处理,大大降低了人工分类的压力,减少人工分类成本,即在提高分类效率的同时,能够有效地降低分类成本。
在本发明一个实施例中,根据待处理业务数据和数据分类模型,得到处理类别分数的步骤可包括:基于预设的信息维度,从待处理业务数据中抽取出多个数据特征;对数据特征进行标准化处理;将标准化处理后的数据特征输入数据分类模型,得出分类分值。
该得出分类分值的具体过程:
根据下述计算公式(1),计算出分类分值。
其中,Fy表征分类类别y对应的分类分值;ki表征为数据分类模型(决策树)中第i层预设的权重值;fiij表征业务数据分类模型的训练完成后确定出的数据分类模型(决策树)中第i层中各个节点发生或未发生组成的组合(该组合由待处理业务数据包括的数据特征确定)对应的分类类别y的概率。比如,一层中包括节点1、节点2、节点3,待处理业务数据提取出的数据特征包括节点1对应的样本特征、节点2对应的样本特征,则该组合即为节点1发生、节点2发生以及节点3未发生对应的组合。
其中,数据特征与前面实施例的样本特征一致。
该信息维度以及从待处理业务数据中抽取出多个待分类样本特征与前述实施例训练模型所使用的训练样本集、测试样本集等中所包括的样本特征一致,以保证得出分类分值的准确性。
在本发明一个实施例中,业务数据分类的方法可进一步包括:针对设定数量的待处理业务数据,同时进行人工分类和数据分类模型分类;判断人工分类的结果与数据分类模型分类的结果之间的匹配度是否低于设定的报警阈值,如果是,则进行分类错误报警,以提示维护人员对数据分类模型进行修正。通过上述过程,能够保证分类结果的准确性,一旦分类结果准确性存在问题,则进行错误报警,以及时纠正数据分类模型。比如,针对一段时间的待处理业务数据,其中10%待处理业务数据同时通过人工分类和数据分类模型分类,对比两者的一致性比率,一旦低于设定的报警阈值,立即触发报警,关闭数据分类模型的开关,同时联系数据分类模型维护人员核查具体情况,避免造成不良影响。
其中,上述业务数据分类方法可通过线上实现。
一个实施例中,上述业务数据分类模型的训练方法或者业务数据的分类方法中,业务数据为服务单中的数据。相应地,分类类别或处理策略可包括:人工审核服务单、自动化审核服务单。
另外,可为每一种自动化处理配置对应的答复方案,在确定出自动化处理的业务数据(如服务单中的数据)之后,可根据确定出的自动化处理的服务单中的数据对应的特征,为该自动化处理的服务单匹配对应的答复方案,以将该答复方案答复给用户。
另外,针对业务数据为服务单中的数据时,还可将分类结果为自动化处理的服务单发送给售后自动服务系统,以使售后自动服务系统答复该自动化处理的服务单。
另外,通过本发明实施例提供的方案实现了智能分类,即通过大量业务数据样本机器学习,可得到数据分类模型,该数据分类模型稳定且高效。这样可以把人工在大量重复的工作内容中解放出来,集中解决比较长尾的机器未学习到的部分,当未学习到的部分积累到一定程度的时候再迭代模型,从而不断提高可以智能分类的覆盖率。同时通过实时监控分类结果,保证了数据分类模型运转的稳定性,降低了分类过程出现重大问题概率。
值得说明的是,上述各个实施例给出的业务数据分类模型的训练方法以及业务数据的分类方法可作为售后服务系统的一部分存在。
如图6所示,本发明实施例提供一种业务数据分类模型的训练装置600,该业务数据分类模型的训练装置600包括:样本集构建单元601、训练单元602以及修正单元603,其中,
样本集构建单元601,用于利用多个业务数据样本构建样本集,其中,样本集中的一个样本包括一个业务数据样本的样本特征以及对应的处理类别,将样本集划分为训练样本集和测试样本集;
训练单元602,用于利用样本集构建单元601划分出的训练样本集中的样本特征和对应的处理类别,训练分类模型,得到数据分类模型;
修正单元603,用于利用样本集构建单元601划分出的测试样本集中的样本特征和对应的处理类别,测试训练单元602训练出的数据分类模型,并根据测试的结果,为数据分类模型修正分类阈值。
在本发明一个实施例中,样本集构建单元601,用于基于预设的信息维度,从所述业务数据样本中采集多个样本特征;利用所述业务数据样本对应的多个样本特征和对应的处理类别构建样本;利用多个所述样本组成样本集。
在本发明一个实施例中,样本集构建单元601,用于对所述样本特征进行标准化处理;利用所述业务数据样本对应的标准化处理后的多种样本特征和处理类别构建样本。
在本发明一个实施例中,样本集构建单元601,用于针对特征值为非空的样本特征,执行:当样本特征属于连续类时,判断样本特征是否超出连续类对应的边界,如果是,则修正样本特征;当样本特征属于离散类时,将样本特征转换为对应的特征编码;当样本特征属于文本类时,根据预设的分词赋值表,将样本特征量化为对应的数值。
在本发明一个实施例中,样本集构建单元601,用于针对特征值为空的样本特征,执行:根据预设的赋值策略,为样本特征赋值。
在本发明一个实施例中,样本集构建单元601,用于针对每一个所述业务数据样本,执行:判断所述业务数据样本包括的分类信息是否满足预设的样本标准,如果是,则执行从所述业务数据样本中采集多个样本特征的步骤;否则,舍弃所述业务数据样本。
在本发明一个实施例中,样本集构建单元601,进一步用于针对每一个离散类的样本特征,执行:确定离散类的样本特征对应的多个离散信息,以及为每一个离散信息赋值的字符和字符的编码位置;利用样本特征对应的多个离散信息、离散信息对应的字符和字符的编码位置,为样本特征生成对应的特征编码。
在本发明一个实施例中,预设的信息维度,包括:用户信息维度、物品信息维度、订单信息维度以及服务信息维度中的任意一个或多个维度。
在本发明一个实施例中,训练单元602,进一步用于基于样本集划分出校验样本集,利用校验样本集中的样本特征和对应的处理类别,修正数据分类模型;
修正单元603,进一步用于测试修正后的数据分类模型。
在本发明一个实施例中,测试的结果包括:设定阈值与准确率之间的第一关联关系;相应地,
修正单元603,进一步用于确定目标准确率;根据第一关联关系,确定目标准确率对应的阈值为分类阈值。
在本发明一个实施例中,测试的结果进一步包括:召回率和准确率之间的第二关联关系;
修正单元603,进一步用于设置有召回率限定范围和准确率限定范围;根据第二关联关系,查找召回率限定范围和准确率限定范围之间的相交区域;选定相交区域中的最大召回率所对应的准确率为目标准确率。
如图7所示,本发明实施例提供一种业务数据的分类装置700,该业务数据分类装置700基于上述任一项实施例提供的业务数据分类模型的训练方法所构建出的数据分类模型实现的,该业务数据分类装置700可包括:分数确认单元701以及分类判定单元702,其中,
分数确认单元701,用于当接收到待处理业务数据时,根据所述待处理业务数据和数据分类模型,得到处理类别分数;
分类判定单元702,用于对比判断分数确认单元701确定出的处理类别分数和数据分类模型的分类阈值,根据对比的结果,确定待处理业务数据的处理策略。
在本发明一个实施例中,分数确认单元701,进一步用于基于预设的信息维度,从待处理业务数据中抽取出多个数据特征;对数据特征进行标准化处理;将标准化处理后的数据特征输入数据分类模型,得出分类分值。
在本发明一个实施中,分类判定单元702,进一步用于针对设定数量的待处理业务数据,同时进行人工分类和分类模型分类;判断人工分类的结果与分类模型分类的结果之间的匹配度是否低于设定的报警阈值,如果是,则进行分类错误报警,以提示维护人员对分类模型进行修正。
在本发明一个实施中,分类判定单元702,进一步用于当对比的结果指示处理类别分数低于分类阈值时,将待处理业务数据推送给业务处理人员,以对待处理业务数据进行人工处理;否则,对待处理业务数据进行自动化处理。
值得说明的是,上述各个实施例给出的业务数据分类模型的训练装置以及业务数据的分类装置可作为售后服务系统的一部分存在。
图8示出了可以应用本发明实施例的业务数据分类模型的训练方法或业务数据的分类方法或业务数据分类模型的训练装置或业务数据的分类装置的示例性系统架构800。
如图8所示,系统架构800可以包括终端设备801、802、803,网络804、服务器805和数据库806。网络804用以在终端设备801、802、803和服务器805之间、服务器805和数据库806提供通信链路的介质。网络804可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备801、802、803通过网络804与服务器805交互,以接收或发送消息等。终端设备801、802、803上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备801、802、803可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器805可以是提供各种服务的服务器,例如对用户利用终端设备801、802、803所发送的服务单提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的服务单等数据进行分析等处理,并将处理结果(例如服务单的分类结果或者服务单的答复方案--仅为示例)反馈给终端设备。数据库806中可存储有业务数据样本。服务器805还可以根据数据库806提供的业务数据样本构建数据分类模型等。
需要说明的是,本发明实施例所提供的业务数据分类模型的训练方法或服务单分类方法一般由服务器805执行,相应地,业务数据分类模型的训练装置或业务数据的分类装置一般设置于服务器805中。
应该理解,图8中的终端设备、网络、服务器和数据库的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络、服务器和数据库。
下面参考图9,其示出了适于用来实现本发明实施例的服务器的计算机系统900的结构示意图。图9示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,计算机系统900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有系统900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括样本集构建单元、训练单元以及修正单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,样本集构建单元还可以被描述为“利用多个业务数据样本构建样本集的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:利用多个业务数据样本构建样本集,其中,样本集中的一个样本包括一个业务数据样本的样本特征以及对应的处理类别;基于样本集划分出训练样本集和测试样本集;利用训练样本集中的样本特征和对应的处理类别,训练分类模型,得到数据分类模型;利用测试样本集中的样本特征和对应的处理类别,测试数据分类模型,并根据测试的结果,为数据分类模型修正分类阈值。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:当接收到待处理业务数据时,根据待处理业务数据和数据分类模型,得到处理类别分数;对比处理类别分数和数据分类模型的分类阈值,根据对比的结果,确定待处理业务数据的处理策略。
根据本发明实施例的技术方案,因为利用训练样本集中的样本特征和对应的处理类别,训练分类模型,得到数据分类模型,与人为设定的数据特征相比,数据分类模型其能比较真实的体现出业务数据的各种特征与处理类别之间的关系。进一步通过测试样本集中的样本特征和对应的处理类别,为数据分类模型确定分类阈值,相当于在数据分类模型的基础上,基于测试样本集进一步修正了分类模型的分类阈值,因此,通过本发明实施例训练出的数据分类模型能够比较准确的确定出业务数据的处理类别,从而更准确、高效地完成业务数据处理。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (20)
1.一种业务数据分类模型的训练方法,其特征在于,包括:
利用多个业务数据样本构建样本集,其中,所述样本集中的一个样本包括一个所述业务数据样本的样本特征以及对应的处理类别;
基于所述样本集划分出训练样本集和测试样本集;
利用所述训练样本集中的样本特征和对应的处理类别,训练分类模型,得到数据分类模型;
利用所述测试样本集中的样本特征和对应的处理类别,测试所述数据分类模型,并根据测试的结果,为所述数据分类模型修正分类阈值。
2.根据权利要求1所述的业务数据分类模型的训练方法,其特征在于,利用多个业务数据样本构建样本集的步骤,包括:
基于预设的信息维度,从所述业务数据样本中采集多个样本特征;
利用所述业务数据样本对应的多个样本特征和对应的处理类别构建样本;
利用多个所述样本组成样本集。
3.根据权利要求2所述的业务数据分类模型的训练方法,其特征在于,在利用所述业务数据样本对应的多个样本特征和对应的处理类别构建样本的步骤之前,进一步包括:
对所述样本特征进行标准化处理;
利用所述业务数据样本对应的多种样本特征和处理类别构建样本的步骤,包括:
利用所述业务数据样本对应的标准化处理后的多种样本特征和处理类别构建样本。
4.根据权利要求3所述的业务数据分类模型的训练方法,其特征在于,对所述样本特征进行标准化处理的步骤,包括:
针对特征值为非空的样本特征,执行:
当所述样本特征属于连续类时,判断所述样本特征是否超出所述连续类对应的边界,如果是,则修正所述样本特征;
当所述样本特征属于离散类时,将所述样本特征转换为对应的特征编码;
当所述样本特征属于文本类时,根据预设的分词赋值表,将所述样本特征量化为对应的数值。
5.根据权利要求3所述的业务数据分类模型的训练方法,其特征在于,对所述样本特征进行标准化处理的步骤,包括:
针对特征值为空的样本特征,执行:
根据预设的赋值策略,为所述样本特征赋值。
6.根据权利要求2所述的业务数据分类模型的训练方法,其特征在于,进一步包括:
针对每一个所述业务数据样本,执行:
判断所述业务数据样本包括的分类信息是否满足预设的样本标准,如果是,则执行从所述业务数据样本中采集多个样本特征的步骤;否则,舍弃所述业务数据样本。
7.根据权利要求4所述的业务数据分类模型的训练方法,其特征在于,进一步包括:
针对每一个离散类的样本特征,执行:
确定所述离散类的样本特征对应的多个离散信息,以及为每一个所述离散信息赋值的字符和所述字符的编码位置;
将所述样本特征转换为对应的特征编码的步骤,包括:
利用所述样本特征对应的多个离散信息、所述离散信息对应的字符和所述字符的编码位置,为所述样本特征生成对应的特征编码。
8.根据权利要求2所述的业务数据分类模型的训练方法,其特征在于,
所述预设的信息维度,包括:用户信息维度、物品信息维度、订单信息维度以及服务信息维度中的任意一个或多个维度。
9.根据权利要求1所述的业务数据分类模型的训练方法,其特征在于,
进一步包括:基于所述样本集划分出校验样本集;
在得到所述数据分类模型之后,进一步包括:利用所述校验样本集中的样本特征和对应的处理类别,修正所述数据分类模型;
测试所述数据分类模型的步骤,包括:测试修正后的数据分类模型。
10.根据权利要求1至9任一所述的业务数据分类模型的训练方法,其特征在于,
所述测试的结果包括:设定阈值与准确率之间的第一关联关系;
为所述数据分类模型确定分类阈值包括:
确定目标准确率;
根据所述第一关联关系,确定所述目标准确率对应的阈值为所述分类阈值。
11.根据权利要求10所述的业务数据分类模型的训练方法,其特征在于,
进一步包括:设置有召回率限定范围和准确率限定范围;
所述测试的结果进一步包括:召回率和所述准确率之间的第二关联关系;
确定目标准确率的步骤,包括:
根据所述第二关联关系,查找所述召回率限定范围和所述准确率限定范围之间的相交区域;
选定所述相交区域中的最小准确率为目标准确率。
12.一种业务数据的分类方法,其特征在于,基于权利要求1至11任一项训练出的数据分类模型实现,包括:
当接收到待处理业务数据时,根据所述待处理业务数据和所述数据分类模型,得到处理类别分数;
对比所述处理类别分数和所述数据分类模型的分类阈值,根据对比的结果,确定所述待处理业务数据的处理策略。
13.根据权利要求12所述的业务数据的分类方法,其特征在于,根据所述待处理业务数据和所述分类模型,得到处理类别分数的步骤,包括:
基于预设的信息维度,从所述待处理业务数据中抽取出多个数据特征;
对所述数据特征进行标准化处理;
将标准化处理后的数据特征输入所述数据分类模型,得出分类分值。
14.根据权利要求12或13所述的业务数据的分类方法,其特征在于,进一步包括:
针对设定数量的待处理业务数据,同时进行人工分类和所述分类模型分类;
判断所述人工分类的结果与所述分类模型分类的结果之间的匹配度是否低于设定的报警阈值,如果是,则进行分类错误报警,以提示维护人员对所述分类模型进行修正。
15.根据权利要求12或13所述的业务数据的分类方法,其特征在于,确定所述待处理业务数据的处理策略的步骤,包括:
当所述对比的结果指示所述处理类别分数低于所述分类阈值时,将所述待处理业务数据推送给业务处理人员,以对所述待处理业务数据进行人工处理;否则,对所述待处理业务数据进行自动化处理。
16.一种业务数据分类模型的训练装置,其特征在于,包括:样本集构建单元、训练单元以及修正单元,其中,
所述样本集构建单元,用于利用多个业务数据样本构建样本集,其中,所述样本集中的一个样本包括一个所述业务数据样本的样本特征以及对应的处理类别,将所述样本集划分为训练样本集和测试样本集;
所述训练单元,用于利用所述样本集构建单元划分出的所述训练样本集中的样本特征和对应的处理类别,训练分类模型,得到数据分类模型;
所述修正单元,用于利用所述样本集构建单元划分出的测试样本集中的样本特征和对应的处理类别,测试所述训练单元训练出的所述数据分类模型,并根据测试的结果,为所述数据分类模型修正分类阈值。
17.根据权利要求16所述的业务数据分类模型的训练装置,其特征在于,
所述样本集构建单元,用于基于预设的信息维度,从所述业务数据样本中采集多个样本特征;利用所述多个样本特征和对应的处理类别构建样本;利用多个所述样本组成样本集。
18.一种业务数据的分类装置,其特征在于,基于权利要求1至11任一提供的所述的业务数据分类模型的训练方法训练出的数据分类模型实现,包括:分数确认单元以及分类判定单元,其中,
所述分数确认单元,用于当接收到待处理业务数据时,根据所述待处理业务数据和所述数据分类模型,得到处理类别分数;
所述分类判定单元,用于对比所述分数确认单元得到的处理类别分数和所述数据分类模型的分类阈值,根据对比的结果,确定所述待处理业务数据的处理策略。
19.一种业务数据分类模型的训练电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-11中任一所述的方法。
20.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-15中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010575959.3A CN113743435A (zh) | 2020-06-22 | 2020-06-22 | 业务数据分类模型的训练、业务数据的分类方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010575959.3A CN113743435A (zh) | 2020-06-22 | 2020-06-22 | 业务数据分类模型的训练、业务数据的分类方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113743435A true CN113743435A (zh) | 2021-12-03 |
Family
ID=78728072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010575959.3A Pending CN113743435A (zh) | 2020-06-22 | 2020-06-22 | 业务数据分类模型的训练、业务数据的分类方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743435A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117714193A (zh) * | 2023-12-28 | 2024-03-15 | 中国电子技术标准化研究院 | 一种诊断方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018196798A1 (zh) * | 2017-04-28 | 2018-11-01 | 腾讯科技(深圳)有限公司 | 用户客群分类方法和装置 |
CN109598281A (zh) * | 2018-10-11 | 2019-04-09 | 阿里巴巴集团控股有限公司 | 一种业务风险防控方法、装置及设备 |
WO2019072128A1 (zh) * | 2017-10-09 | 2019-04-18 | 北京京东尚科信息技术有限公司 | 对象识别方法及其系统 |
-
2020
- 2020-06-22 CN CN202010575959.3A patent/CN113743435A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018196798A1 (zh) * | 2017-04-28 | 2018-11-01 | 腾讯科技(深圳)有限公司 | 用户客群分类方法和装置 |
WO2019072128A1 (zh) * | 2017-10-09 | 2019-04-18 | 北京京东尚科信息技术有限公司 | 对象识别方法及其系统 |
CN109598281A (zh) * | 2018-10-11 | 2019-04-09 | 阿里巴巴集团控股有限公司 | 一种业务风险防控方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
HEYANG LIU: "New Words Discovery Method Based On Word Segmentation Result", IEEE, 20 September 2018 (2018-09-20) * |
黎伟强;韦灵;贾长森;: "基于逻辑斯蒂模型的文本分类研究", 中国高新区, no. 03, 30 January 2018 (2018-01-30) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117714193A (zh) * | 2023-12-28 | 2024-03-15 | 中国电子技术标准化研究院 | 一种诊断方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110995459B (zh) | 异常对象识别方法、装置、介质及电子设备 | |
CN110310114A (zh) | 对象分类方法、装置、服务器及存储介质 | |
CN110688536A (zh) | 一种标签预测方法、装置、设备和存储介质 | |
CN111797320A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN111429054A (zh) | 产品库存的提示方法、装置、设备及存储介质 | |
CN114548118A (zh) | 一种服务对话检测方法及系统 | |
CN113743435A (zh) | 业务数据分类模型的训练、业务数据的分类方法和装置 | |
CN112950359A (zh) | 一种用户识别方法和装置 | |
CN112860672A (zh) | 标签权重的确定方法和装置 | |
CN112287208B (zh) | 用户画像生成方法、装置、电子设备及存储介质 | |
CN113778979A (zh) | 一种直播点击率的确定方法和装置 | |
CN115860548B (zh) | 基于大数据的SaaS一站式平台管理方法、系统及介质 | |
CN117196630A (zh) | 交易风险预测方法、装置、终端设备以及存储介质 | |
CN115953080A (zh) | 工程师服务等级确定方法、设备和存储介质 | |
CN113570114B (zh) | 一种资源服务智能匹配方法、系统和计算机设备 | |
CN112712270B (zh) | 信息处理方法、装置、设备及存储介质 | |
CN115062687A (zh) | 企业信用监控方法、装置、设备及存储介质 | |
CN113537519B (zh) | 一种识别异常设备的方法和装置 | |
CN112734352A (zh) | 一种基于数据维度的单据审核方法和装置 | |
CN110895564A (zh) | 一种潜在客户数据处理方法和装置 | |
CN113780610A (zh) | 一种客服画像构建方法和装置 | |
CN111429257A (zh) | 一种交易监控方法和装置 | |
US20230377004A1 (en) | Systems and methods for request validation | |
CN115456500A (zh) | 一种电商订单库存erp管理方法及系统 | |
CN114219268A (zh) | 医疗服务的评估方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |