CN112988854A - 一种申诉数据挖掘方法、装置、电子设备及存储介质 - Google Patents

一种申诉数据挖掘方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112988854A
CN112988854A CN202110549316.6A CN202110549316A CN112988854A CN 112988854 A CN112988854 A CN 112988854A CN 202110549316 A CN202110549316 A CN 202110549316A CN 112988854 A CN112988854 A CN 112988854A
Authority
CN
China
Prior art keywords
complaint
data
label
training
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110549316.6A
Other languages
English (en)
Inventor
张发恩
李素莹
敖川
马岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Innovation Qizhi Chengdu Technology Co ltd
Original Assignee
Innovation Qizhi Chengdu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Innovation Qizhi Chengdu Technology Co ltd filed Critical Innovation Qizhi Chengdu Technology Co ltd
Priority to CN202110549316.6A priority Critical patent/CN112988854A/zh
Publication of CN112988854A publication Critical patent/CN112988854A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种申诉数据挖掘方法、装置、电子设备及存储介质,该方法包括:获取针对业务系统的申诉数据;使用预先训练的分类网络模型对申诉数据的有效性进行预测,获得预测概率;判断预测概率是否小于预设阈值;若是,则向第一终端设备发送申诉数据,以使第一终端设备对应的客服人员对申诉数据进行标注,并接收标注的申诉标签。在上述的实现过程中,通过使用预先训练的分类网络模型对所述申诉数据的有效性进行预测,在预测概率小于预设阈值的情况下,才将分类网络模型难以确定的申诉数据发送给专业的客服人员进行标注处理,使得客服人员的主要精力专注于模型难以确定的申诉数据,而有效地提高了标注申诉数据的效率。

Description

一种申诉数据挖掘方法、装置、电子设备及存储介质
技术领域
本申请涉及机器学习和神经网络的技术领域,具体而言,涉及一种申诉数据挖掘方法、装置、电子设备及存储介质。
背景技术
目前,针对互联网上的各种业务系统的申诉数据或者投诉数据都是通过客服人员和业务代表来进行处理的,例如:客服人员根据个人经验、观察误差以及业务操作手册来判断用户提交的申诉数据是否有效,在客服人员确定该申诉数据有效后,才将该申诉数据转交给业务代表进行业务处理。此处的申诉数据可以是商场内的商品陈列摆放不当导致行人通行不便、商品展示灯光过于刺眼等等,业务代表可以与商家协商或者要求商家整改等等。由于业务系统收集得到的申诉数据包括有效的和无效的申诉数据,且申诉数据中会有大量重复相似或者相同的申诉图片,且客服人员的个人经验和观察误差能力的差异过大等等原因,导致客服人员对申诉数据进行人工标注处理申诉数据的效率很低。
发明内容
本申请实施例的目的在于提供一种申诉数据挖掘方法、装置、电子设备及存储介质,用于改善对申诉数据进行人工标注处理申诉数据的效率很低的问题。
本申请实施例提供了一种申诉数据挖掘方法,包括:获取针对业务系统的申诉数据;使用预先训练的分类网络模型对申诉数据的有效性进行预测,获得预测概率;判断预测概率是否小于预设阈值;若是,则向第一终端设备发送申诉数据,以使第一终端设备对应的客服人员对申诉数据进行标注,并接收标注的申诉标签,申诉标签是申诉数据是否有效的标签。在上述的实现过程中,通过使用预先训练的分类网络模型对申诉数据的有效性进行预测,获得预测概率,在预测概率小于预设阈值的情况下,才将分类网络模型难以确定的申诉数据发送给专业的客服人员进行标注处理,使得客服人员的主要精力专注于模型难以确定的申诉数据,而让有效申诉数据直接被业务代表进行业务处理,有效地提高了标注申诉数据的效率。
可选地,在本申请实施例中,分类网络模型为生成对抗网络;在使用预先训练的分类网络模型对申诉数据的有效性进行预测之前,还包括:获取多个申诉样本数据和每个申诉样本数据的申诉样本标签,申诉样本标签是申诉样本数据是否为有效的标签;以多个申诉样本数据为训练数据,以多个申诉样本数据的申诉样本标签为训练标签,对生成对抗网络进行训练。在上述的实现过程中,通过采用训练后的生成对抗网络作为分类网络模型,从而可以使用生成对抗网络中的鉴别器(discriminator)来预测申诉数据的有效性,有效地提高了标注申诉数据的效率。
可选地,在本申请实施例中,在判断预测概率是否小于预设阈值之后,还包括:若预测概率大于或等于预设阈值,则向第二终端设备发送申诉数据,以使第二终端设备对应的业务代表对申诉数据进行业务处理。在上述的实现过程中,通过向第二终端设备发送申诉数据,以使第二终端设备对应的业务代表对申诉数据进行业务处理,从而减少了业务代表遇到和处理无效申诉数据的概率,有效地提高申诉处理的效率。
可选地,在本申请实施例中,在接收标注的申诉标签之后,还包括:以申诉数据为训练数据,以申诉标签为训练标签,对分类网络模型进行训练。在上述的实现过程中,通过客服人员人工标注后的申诉数据和申诉标签来训练分类网络模型,从而使用训练后的分类网络模型来筛选出最具有代表性和多样性的图像数据,来提高变分自动编码器的泛化性能,从而提高申诉处理的效率。
可选地,在本申请实施例中,分类网络模型为变分自动编码器;在使用预先训练的分类网络模型对申诉数据的有效性进行预测之前,还包括:获取多个申诉样本数据和每个申诉样本数据的申诉样本标签,申诉样本标签是申诉样本数据是否为有效的标签;以多个申诉样本数据为训练数据,以多个申诉样本数据的申诉样本标签为训练标签,对变分自动编码器进行训练,获得训练后的变分自动编码器。在上述的实现过程中,通过采用训练后的变分自动编码器作为分类网络模型,从而可以使用变分自动编码器来预测申诉数据的有效性,有效地筛选出最具有代表性和多样性的图像数据,来提高变分自动编码器的泛化性能,从而提高申诉处理的效率。
可选地,在本申请实施例中,变分自动编码器包括:编码器和解码器;对变分自动编码器进行训练,包括:使用编码器对申诉样本数据进行变分推断,获得变分概率分布;使用解码器对变分概率分布进行还原重建,获得重建样本数据;计算重建样本数据与申诉样本数据之间的损失值;根据损失值对变分自动编码器进行训练。在上述的实现过程中,通过使用训练后的变分自动编码器来预测申诉数据的有效性,有效地筛选出最具有代表性和多样性的图像数据,来提高变分自动编码器的泛化性能,从而提高申诉处理的效率。
可选地,在本申请实施例中,计算重建样本数据与申诉样本数据之间的损失值,包括:使用二元交叉熵损失函数或者分类交叉熵损失函数计算重建样本数据与申诉样本数据之间的损失值。
本申请实施例还提供了一种申诉数据挖掘装置,包括:申诉数据获取模块,用于获取针对业务系统的申诉数据;预测概率获得模块,用于使用预先训练的分类网络模型对申诉数据的有效性进行预测,获得预测概率;预测概率判断模块,用于判断预测概率是否小于预设阈值;申诉标签接收模块,用于若预测概率小于预设阈值,则向第一终端设备发送申诉数据,以使第一终端设备对应的客服人员对申诉数据进行标注,并接收标注的申诉标签,申诉标签是申诉数据是否有效的标签。
可选地,在本申请实施例中,分类网络模型为生成对抗网络;申诉数据挖掘装置,还包括:第一样本获取模块,用于获取多个申诉样本数据和每个申诉样本数据的申诉样本标签,申诉样本标签是申诉样本数据是否为有效的标签;第一网络训练模块,用于以多个申诉样本数据为训练数据,以多个申诉样本数据的申诉样本标签为训练标签,对生成对抗网络进行训练。
可选地,在本申请实施例中,申诉数据挖掘装置,还包括:数据业务处理模块,用于若预测概率大于或等于预设阈值,则向第二终端设备发送申诉数据,以使第二终端设备对应的业务代表对申诉数据进行业务处理。
可选地,在本申请实施例中,申诉数据挖掘装置,还包括:网络模型训练模块,用于以申诉数据为训练数据,以申诉标签为训练标签,对分类网络模型进行训练。
可选地,在本申请实施例中,分类网络模型为变分自动编码器;申诉数据挖掘装置,还包括:第二样本获取模块,用于获取多个申诉样本数据和每个申诉样本数据的申诉样本标签,申诉样本标签是申诉样本数据是否为有效的标签;第二网络训练模块,用于以多个申诉样本数据为训练数据,以多个申诉样本数据的申诉样本标签为训练标签,对变分自动编码器进行训练,获得训练后的变分自动编码器。
可选地,在本申请实施例中,变分自动编码器包括:编码器和解码器;第二网络训练模块,包括:概率分布获得模块,用于使用编码器对申诉样本数据进行变分推断,获得变分概率分布;数据标签获得模块,用于使用解码器对变分概率分布进行还原重建,获得重建样本数据;标签损失计算模块,用于计算重建样本数据与申诉样本数据之间的损失值;编码网络训练模块,用于根据损失值对变分自动编码器进行训练。
可选地,在本申请实施例中,标签损失计算模块,具体用于:使用二元交叉熵损失函数或者分类交叉熵损失函数计算重建样本数据与申诉样本数据之间的损失值。
本申请实施例还提供了一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上面描述的方法。
本申请实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上面描述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出的本申请实施例提供的申诉数据挖掘方法的流程示意图;
图2示出的本申请实施例提供的业务代表处理申诉数据的流程示意图;
图3示出的本申请实施例提供的申诉数据挖掘装置的结构示意图;
图4示出的本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。
在介绍本申请实施例提供的申诉数据挖掘方法之前,先介绍本申请实施例中所涉及的一些概念:
业务系统是指企业达成定位所需要的业务环节、各合作伙伴扮演的角色以及利益相关者合作与交易的方式和内容的电子数据交互系统,具体可以从行业价值链和企业内部价值链以及合作伙伴的角色两个层面来理解业务系统。
生成对抗网络(Generative Adversarial Network,GAN),又被称为生成对抗式网络,是机器学习中的一种学习范式,通过让两个神经网络相互博弈的方式进行学习;生成对抗网络由一个生成器(generator)与一个鉴别器(discriminator)组成,生成器从潜在空间(latent space)中随机取样作为输入数据,生成器的输出结果需要尽量模仿训练集中的真实样本;鉴别器的输入数据则为真实样本或生成器的输出数据(即生成器的输出结果),其目的是将生成器的输出数据从真实样本中尽可能分别出来;而生成器要尽可能地欺骗鉴别器(即尽可能让鉴别器分辨不出生成器的输出数据和真实样本),生成器和鉴别器相互对抗从而不断调整参数,最终目的是使鉴别器无法判断生成器的输出结果是否真实。
需要说明的是,本申请实施例提供的申诉数据挖掘方法可以被电子设备执行,这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器,设备终端例如:智能手机、个人电脑(personal computer,PC)、平板电脑、个人数字助理(personal digitalassistant,PDA)或者移动上网设备(mobile Internet device,MID)等;服务器例如:x86服务器以及非x86服务器,非x86服务器包括:大型机、小型机和UNIX服务器。
在介绍本申请实施例提供的申诉数据挖掘方法之前,先介绍该申诉数据挖掘方法适用的应用场景,这里的应用场景包括但不限于:使用该申诉数据挖掘方法来挖掘各种业务系统的申诉数据,从而快速提取到有价值的申诉数据等,这些有价值的申诉数据可以被用于后续分析及模型的快速迭代优化,即使用这些有价值的申诉数据来训练分类网络模型,从而提高分类网络模型对申诉数据的有效性进行分类的正确率。
请参见图1示出的本申请实施例提供的申诉数据挖掘方法的流程示意图;该申诉数据挖掘方法的主要思路是,通过使用预先训练的分类网络模型对申诉数据的有效性进行预测,获得预测概率,在预测概率小于预设阈值的情况下,才将分类网络模型难以确定的申诉数据发送给专业的客服人员进行标注处理,使得客服人员的主要精力专注于模型难以确定的申诉数据,而让有效申诉数据直接被业务代表进行业务处理,有效地提高了标注申诉数据的效率;上述申诉数据挖掘方法可以包括:
步骤S110:获取针对业务系统的申诉数据。
申诉数据是指业务客户或者产品用户通过业务系统提交反馈的申诉信息,申诉数据可以包括申诉文本和申诉图片等,具体例如投诉商场内的商品陈列摆放不当导致行人通行不便、商品展示灯光过于刺眼等等。其中,业务系统例如:客户关系管理(CustomerRelationship Management,CRM)系统、企业资源规划(Enterprise Resource Planning,ERP)系统、内容管理系统(content management system, CMS)和办公自动化(OfficeAutomation,OA)系统等等。
上述步骤S110中的申诉数据的获得方式包括:第一种获得方式,电子设备接收其它终端设备发送的业务系统的申诉数据,具体例如:接收业务系统的用户填写的申诉表单提交到业务系统的申诉数据,或者,从业务系统的数据库中获取申诉数据,或者,通过业务系统的应用程序接口(Application Programming Interface,API)获取申诉数据,然后将业务系统的申诉数据存储至文件系统、数据库或移动存储设备中。第二种获得方式,电子设备获取预先存储的业务系统的申诉数据,具体例如:从文件系统中获取业务系统的申诉数据,或者从数据库中获取业务系统的申诉数据,或者从移动存储设备中获取业务系统的申诉数据。第三种获得方式,在电子设备上使用浏览器等软件获取互联网上的业务系统的申诉数据,或者使用其它应用程序访问互联网获得业务系统的申诉数据。
在步骤S110之后,执行步骤S120:使用预先训练的分类网络模型对申诉数据的有效性进行预测,获得预测概率。
分类网络模型,又被称为分类神经网络模型,是指对神经网络进行训练后获得的用于数据分类的神经网络模型,具体例如:将申诉数据作为分类神经网络模型的输入获得概率列表的输出。
上述步骤S120的实施方式有很多种,包括但不限于:第一种实施方式,上述的分类网络模型可以采用生成对抗网络,那么在电子设备上可以使用生成对抗网络中的鉴别器(discriminator)来预测申诉数据的有效性。第二种实施方式,该分类网络模型也可以采用变分自动编码器,那么在电子设备上可以使用变分自动编码器来预测申诉数据的有效性,具体例如:使用变分自动编码中的编码器对申诉数据进行编码进行变分推断,获得变分概率分布;然后,使用变分自动编码中的解码器对变分概率分布进行还原重建,获得重建样本数据,计算重建样本数据与申诉样本数据之间的数据损失值,根据公式
Figure F_210511172951633_633692001
对该数据损失值和预设损失值进行计算,获得该申诉数据是否有效的预测概率;其中,y表示预测概率,d表示数据损失值,e表示预设损失值,此处的预设损失值可以采用训练过程中对所有样本损失值进行统计获得的平均损失值。
可以理解的是,在使用上述的分类网络模型之前,还需要先训练分类网络模型,上述分类网络模型的训练方式有很多种,包括但不限于如下几种:
第一种训练方式,分类网络模型可以采用生成对抗网络,在使用生成对抗网络之前,对生成对抗网络进行训练的实施方式可以包括:
步骤S121:电子设备获取多个申诉样本数据和每个申诉样本数据的申诉样本标签,申诉样本标签是申诉样本数据是否为有效的标签。
其中,申诉样本数据是指在网络模型训练之前采集的申诉数据,申诉样本数据的申诉样本标签是指该申诉数据是否有效的数字标签,具体例如:申诉数据是投诉商场内的商品陈列摆放不当导致行人通行不便的投诉文本和投诉图片,那么该申诉样本数据的申诉样本标签就可以是0或者1,0表示该申诉样本数据是无效投诉标签,1表示该申诉样本数据是有效投诉标签。
上述步骤S121的获取方式例如:上述的申诉样本数据和申诉样本标签可以分开获取,具体例如:人工地搜集或从业务系统的数据库中获取申诉样本数据,并人工地识别申诉样本数据的申诉样本标签;当然,也可以将申诉样本数据和申诉样本标签打包为训练数据集一起获取,这里以训练数据集一起获取为例进行说明。第一种获得方式,接收其它终端设备发送的训练数据集,将训练数据集存储至文件系统、数据库或移动存储设备中;第二种获得方式,获取预先存储的训练数据集,具体例如:从文件系统中获取训练数据集,或者从数据库中获取训练数据集,或者从移动存储设备中获取训练数据集;第三种获得方式,使用浏览器等软件获取互联网上的训练数据集,或者使用其它应用程序访问互联网获得训练数据集。
步骤S122:以多个申诉样本数据为训练数据,以多个申诉样本数据的申诉样本标签为训练标签,对生成对抗网络进行训练。
上述步骤S122的实施方式例如:生成对抗网络包括生成器和鉴别器,在具体的实施过程中,可以采用第一种训练方式,先固定鉴别器的网络参数,并对生成器进行训练,具体例如:获取随机噪声,使用生成器根据随机噪声生成申诉噪声数据,再使用鉴别器对申诉噪声数据的标签进行预测,获得预测申诉标签;分别计算申诉噪声数据和申诉样本数据之间的第一损失值,以及计算预测申诉标签与申诉样本标签之间的第二损失值,根据第一损失值和第二损失值计算综合损失值,根据综合损失值更新生成器的网络参数,直到损失值小于预设比例或者训练批次(epoch)数量大于预设阈值时,即可获得训练后的生成器。
当然,训练上述的生成对抗网络也可以采用第二种训练方式,先固定生成器的网络参数,并对鉴别器进行训练,具体例如:使用鉴别器对申诉样本数据进行预测,获得预测申诉标签,计算预测申诉标签与申诉样本数据之间的损失值,根据损失值更新鉴别器的网络参数,直到损失值小于预设比例或者训练批次(epoch)数量大于预设阈值时,即可获得训练后的鉴别器。当然也可以采用第三种训练方式,即对上面的第一种训练方式和第二种训练方式进行交替循环训练。其中,上述第一种训练方式至第三种训练方式中的预设比例可以根据具体情况设置,例如设置为5%或者10%等;上述的预设阈值也可以根据具体情况进行设置,例如设置为100或者1000等等。
第二种训练方式,分类网络模型可以采用变分自动编码器,在使用变分自动编码器之前,对变分自动编码器进行训练的实施方式可以包括:
步骤S123:电子设备获取多个申诉样本数据和每个申诉样本数据的申诉样本标签,申诉样本标签是申诉样本数据是否为有效的标签。
其中,该步骤S123的实施原理和实施方式与步骤S121的实施原理和实施方式是类似的,因此,这里不再说明其实施原理和实施方式,如有不清楚的地方,可以参考对步骤S121的描述。
步骤S124:以多个申诉样本数据为训练数据,以多个申诉样本数据的申诉样本标签为训练标签,对变分自动编码器进行训练,获得训练后的变分自动编码器。
变分自动编码器(Variational Auto-Encoder,VAE),是指一种深度生成模型(Deep Generative Model),也是一种无监督学习算法;VAE的主要作用是能够学习一个函数(模型),使得输出数据的分布尽可能地逼近原始数据分布。VAE与传统的自编码器通过数值的方式描述潜在空间不同,VAE以概率的方式描述对潜在空间的观察,在数据生成方面表现出了巨大的应用价值。其中,上述的变分自动编码器可以包括:编码器和解码器。
上述步骤S124中的对变分自动编码器进行训练的实施方式可以包括:
步骤S1241:使用编码器对申诉样本数据进行变分推断,获得变分概率分布。
上述步骤S1241的实施方式例如:使用编码器对申诉样本数据进行变分推断,从而生成隐变量(Hidden Vector)的变分概率分布,此处的变分概率分布可以是满足高速先验分布的概率分布,即是使用高斯先验函数学习底层分布的低维空间。上述的变分推断过程可以理解为,编码器将有标签的申诉数据和无标签的申诉数据均映射到具有相似概率分布的同一空间,即编码器是假装所有输入的申诉数据均为有标签的申诉数据。
步骤S1242:使用解码器对变分概率分布进行还原重建,获得重建样本数据。
上述步骤S1242的实施方式例如:使用解码器根据生成的隐变量(Hidden Vector)的变分概率分布进行还原重建,从而获得原始数据的近似概率分布,并使用该近似概率分布来重建,从而获得重建样本数据。
步骤S1243:计算重建样本数据与申诉样本数据之间的损失值。
上述步骤S1243的实施方式包括:第一种实施方式,使用二元交叉熵损失函数分别计算编码器的第一损失值和解码器的第二损失值,根据第一损失值和第二损失值计算综合损失值,将综合损失值确定为重建样本数据与申诉样本数据之间的损失值。第二种实施方式,使用二元交叉熵损失函数或者分类交叉熵损失函数计算重建样本数据与申诉样本数据之间的损失值。
步骤S1244:根据损失值对变分自动编码器进行训练,获得训练后的变分自动编码器。
上述步骤S1244的实施方式例如:根据损失值更新变分自动编码器的网络权重参数,直到损失值小于预设比例或者训练批次(epoch)数量大于预设阈值时,即可获得训练后的变分自动编码器。其中,上述的预设比例可以根据具体情况设置,例如设置为5%或者10%等;上述的预设阈值也可以根据具体情况进行设置,例如设置为100或者1000等等。
在步骤S120之后,执行步骤S130:判断预测概率是否小于预设阈值。
上述步骤S130的实施方式例如:电子设备通过执行可执行程序来判断预测概率是否小于预设阈值,该可执行程序是预先编写的编程语言编译或者解释后获得的;其中,可以使用的编程语言包括但不限于汇编语言、C、C++、Java、BASIC、JavaScript、LISP、Shell、Perl、Ruby、Python和PHP等语言;上述的预设阈值是指预先设置的限制阈值,该预设阈值可以根据具体实际情况进行设置,例如:可以设置为20%、50%或90%等。
在步骤S130之后,执行步骤S140:若预测概率小于预设阈值,则向第一终端设备发送申诉数据,以使第一终端设备对应的客服人员对申诉数据进行标注,并接收标注的申诉标签,申诉标签是申诉数据是否有效的标签。
可以理解的是,上述的第一终端设备可以是客服人员或者数据标注人员使用的终端设备,此处的客服人员可以是业务系统的客服人员。
上述步骤S140的实施方式例如:若预测概率小于预设阈值,则电子设备向第一终端设备发送申诉数据,从而使得第一终端设备对应的客服人员对申诉数据进行标注;具体的标注过程例如:客服人员在接收到用户或客户的投诉数据后,一般会通过电话与用户或客户沟通,从而核实该申诉数据是否为有效的申诉数据。如果经核实后该申诉数据是有效的,则将该申诉数据标注为有效,否则,将该申诉数据标注为无效的申诉数据。然后,电子设备接收第一终端设备发送的标注后的申诉标签;此处的预设阈值可以根据具体实际情况进行设置,例如:可以设置为20%、50%或90%等。
可选地,在接收标注的申诉标签之后,还可以使用接收到的申诉标签对分类网络模型进行训练,该实施方式可以包括:以申诉数据为训练数据,以申诉标签为训练标签,对分类网络模型进行训练。具体的训练过程例如:使用分类网络模型对申诉数据的有效性进行预测,获得预测标签,然后,计算预测标签和申诉标签之间的损失值,再根据该损失值更新分类网络模型的网络权重参数,直到损失值小于预设比例或者训练批次(epoch)数量大于预设阈值时,即可获得训练后的分类网络模型。其中,上述的预设比例可以根据具体情况设置,例如设置为5%或者10%等;上述的预设阈值也可以根据具体情况进行设置,例如设置为100或者1000等等。
在上述的实现过程中,首先获取业务系统的申诉数据,然后,使用预先训练的分类网络模型对申诉数据的有效性进行预测,获得预测概率,如果预测概率是否小于预设阈值,就向第一终端设备发送申诉数据,以使第一终端设备对应的客服人员对申诉数据进行标注,并接收第一终端设备对应客服人员标注的申诉标签。也就是说,通过使用预先训练的分类网络模型对申诉数据的有效性进行预测,获得预测概率,在预测概率小于预设阈值的情况下,才将分类网络模型难以确定的申诉数据发送给专业的客服人员进行标注处理,使得客服人员的主要精力专注于模型难以确定的申诉数据,而让有效申诉数据直接被业务代表进行业务处理,有效地提高了标注申诉数据的效率。
请参见图2示出的本申请实施例提供的业务代表处理申诉数据的流程示意图;可选地,在本申请实施例中,在判断预测概率是否小于预设阈值之后,还可以在预测概率大于或者等于阈值的情况下,直接让业务代表处理申诉数据的实施方式可以包括:
步骤S210:电子设备获取针对业务系统的申诉数据。
步骤S220:电子设备使用预先训练的分类网络模型对申诉数据的有效性进行预测,获得预测概率。
步骤S230:电子设备判断预测概率是否小于预设阈值。
步骤S240:若预测概率小于预设阈值,则电子设备向第一终端设备发送申诉数据,以使第一终端设备对应的客服人员对申诉数据进行标注,并接收标注的申诉标签。
其中,上述的步骤S210至步骤S240的实施原理和实施方式与步骤S110至步骤S140的实施原理和实施方式是类似的,因此,这里不再说明其实施原理和实施方式,如有不清楚的地方,可以参考对步骤S110至步骤S140的描述。
在步骤S230之后,还可以执行步骤S250:若预测概率大于或等于预设阈值,则电子设备向第二终端设备发送申诉数据,以使第二终端设备对应的业务代表对申诉数据进行业务处理。
可以理解的是,上述的第二终端设备可以是业务代表使用的终端设备,此处的业务代表可以是业务系统或者商家的业务代表,即对申诉数据中的实质性问题进行相应业务处理的代表人员。
上述步骤S250的实施方式例如:若预测概率大于或等于预设阈值,则电子设备向业务代表使用的第二终端设备发送申诉数据,以使第二终端设备对应的业务代表在接收并看到申诉数据后,对申诉数据进行业务处理,具体例如:申诉数据是客户投诉展示商品的灯光过于刺眼,则此处的业务代表可以是商家的业务代表人员与客户沟通整改等等,其中,此处的预设阈值也可以根据具体情况进行设置,例如设置为80%或者90%等等。
请参见图3示出的本申请实施例提供的申诉数据挖掘装置的结构示意图;本申请实施例提供了一种申诉数据挖掘装置300,包括:
申诉数据获取模块310,用于获取针对业务系统的申诉数据。
预测概率获得模块320,用于使用预先训练的分类网络模型对申诉数据的有效性进行预测,获得预测概率。
预测概率判断模块330,用于判断预测概率是否小于预设阈值。
申诉标签接收模块340,用于若预测概率小于预设阈值,则向第一终端设备发送申诉数据,以使第一终端设备对应的客服人员对申诉数据进行标注,并接收标注的申诉标签,申诉标签是申诉数据是否有效的标签。
可选地,在本申请实施例中,分类网络模型为生成对抗网络;申诉数据挖掘装置,还包括:
第一样本获取模块,用于获取多个申诉样本数据和每个申诉样本数据的申诉样本标签,申诉样本标签是申诉样本数据是否为有效的标签。
第一网络训练模块,用于以多个申诉样本数据为训练数据,以多个申诉样本数据的申诉样本标签为训练标签,对生成对抗网络进行训练。
可选地,在本申请实施例中,申诉数据挖掘装置,还可以包括:
数据业务处理模块,用于若预测概率大于或等于预设阈值,则向第二终端设备发送申诉数据,以使第二终端设备对应的业务代表对申诉数据进行业务处理。
可选地,在本申请实施例中,该申诉数据挖掘装置,还可以包括:
网络模型训练模块,用于以申诉数据为训练数据,以申诉标签为训练标签,对分类网络模型进行训练。
可选地,在本申请实施例中,分类网络模型为变分自动编码器;申诉数据挖掘装置,还包括:
第二样本获取模块,用于获取多个申诉样本数据和每个申诉样本数据的申诉样本标签,申诉样本标签是申诉样本数据是否为有效的标签。
第二网络训练模块,用于以多个申诉样本数据为训练数据,以多个申诉样本数据的申诉样本标签为训练标签,对变分自动编码器进行训练,获得训练后的变分自动编码器。
可选地,在本申请实施例中,变分自动编码器包括:编码器和解码器;第二网络训练模块,包括:
概率分布获得模块,用于使用编码器对申诉样本数据进行变分推断,获得变分概率分布。
数据标签获得模块,用于使用解码器对变分概率分布进行还原重建,获得重建样本数据。
标签损失计算模块,用于计算重建样本数据与申诉样本数据之间的损失值。
编码网络训练模块,用于根据损失值对变分自动编码器进行训练。
可选地,在本申请实施例中,标签损失计算模块,具体可以用于:使用二元交叉熵损失函数或者分类交叉熵损失函数计算重建样本数据与申诉样本数据之间的损失值。
应理解的是,该装置与上述的申诉数据挖掘方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。
请参见图4示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400,包括:处理器410和存储器420,存储器420存储有处理器410可执行的机器可读指令,机器可读指令被处理器410执行时执行如上的方法。
本申请实施例还提供了一种存储介质430,该存储介质430上存储有计算机程序,该计算机程序被处理器410运行时执行如上的方法。
其中,存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory, 简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory, 简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory, 简称EPROM),可编程只读存储器(Programmable Read-Only Memory, 简称PROM),只读存储器(Read-Only Memory, 简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请实施例提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这主要根据所涉及的功能而定。
另外,在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上的描述,仅为本申请实施例的可选实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。

Claims (10)

1.一种申诉数据挖掘方法,其特征在于,包括:
获取针对业务系统的申诉数据;
使用预先训练的分类网络模型对所述申诉数据的有效性进行预测,获得预测概率;
判断所述预测概率是否小于预设阈值;
若是,则向第一终端设备发送所述申诉数据,以使所述第一终端设备对应的客服人员对所述申诉数据进行标注,并接收标注的申诉标签,所述申诉标签是所述申诉数据是否有效的标签。
2.根据权利要求1所述的方法,其特征在于,所述分类网络模型为生成对抗网络;在所述使用预先训练的分类网络模型对所述申诉数据的有效性进行预测之前,还包括:
获取多个申诉样本数据和每个申诉样本数据的申诉样本标签,所述申诉样本标签是所述申诉样本数据是否为有效的标签;
以所述多个申诉样本数据为训练数据,以所述多个申诉样本数据的申诉样本标签为训练标签,对所述生成对抗网络进行训练。
3.根据权利要求1所述的方法,其特征在于,在所述判断所述预测概率是否小于预设阈值之后,还包括:
若所述预测概率大于或等于预设阈值,则向第二终端设备发送所述申诉数据,以使所述第二终端设备对应的业务代表对所述申诉数据进行业务处理。
4.根据权利要求1所述的方法,其特征在于,在所述接收标注的申诉标签之后,还包括:
以所述申诉数据为训练数据,以所述申诉标签为训练标签,对所述分类网络模型进行训练。
5.根据权利要求1所述的方法,其特征在于,所述分类网络模型为变分自动编码器;在所述使用预先训练的分类网络模型对所述申诉数据的有效性进行预测之前,还包括:
获取多个申诉样本数据和每个申诉样本数据的申诉样本标签,所述申诉样本标签是所述申诉样本数据是否为有效的标签;
以所述多个申诉样本数据为训练数据,以所述多个申诉样本数据的申诉样本标签为训练标签,对所述变分自动编码器进行训练,获得训练后的变分自动编码器。
6.根据权利要求5所述的方法,其特征在于,所述变分自动编码器包括:编码器和解码器;所述对所述变分自动编码器进行训练,包括:
使用所述编码器对所述申诉样本数据进行变分推断,获得变分概率分布;
使用所述解码器对所述变分概率分布进行还原重建,获得重建样本数据;
计算所述重建样本数据与所述申诉样本数据之间的损失值;
根据所述损失值对所述变分自动编码器进行训练。
7.根据权利要求6所述的方法,其特征在于,所述计算所述重建样本数据与所述申诉样本数据之间的损失值,包括:
使用二元交叉熵损失函数或者分类交叉熵损失函数计算所述重建样本数据与所述申诉样本数据之间的损失值。
8.一种申诉数据挖掘装置,其特征在于,包括:
申诉数据获取模块,用于获取针对业务系统的申诉数据;
预测概率获得模块,用于使用预先训练的分类网络模型对所述申诉数据的有效性进行预测,获得预测概率;
预测概率判断模块,用于判断所述预测概率是否小于预设阈值;
申诉标签接收模块,用于若所述预测概率小于预设阈值,则向第一终端设备发送所述申诉数据,以使所述第一终端设备对应的客服人员对所述申诉数据进行标注,并接收标注的申诉标签,所述申诉标签是所述申诉数据是否有效的标签。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。
10.一种存储介质,其特征在于,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。
CN202110549316.6A 2021-05-20 2021-05-20 一种申诉数据挖掘方法、装置、电子设备及存储介质 Pending CN112988854A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110549316.6A CN112988854A (zh) 2021-05-20 2021-05-20 一种申诉数据挖掘方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110549316.6A CN112988854A (zh) 2021-05-20 2021-05-20 一种申诉数据挖掘方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112988854A true CN112988854A (zh) 2021-06-18

Family

ID=76337083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110549316.6A Pending CN112988854A (zh) 2021-05-20 2021-05-20 一种申诉数据挖掘方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112988854A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108447534A (zh) * 2018-05-18 2018-08-24 灵玖中科软件(北京)有限公司 一种基于nlp的电子病历数据质量管理方法
CN109784806A (zh) * 2018-12-27 2019-05-21 北京航天智造科技发展有限公司 供应链控制方法、系统以及存储介质
CN109872162A (zh) * 2018-11-21 2019-06-11 阿里巴巴集团控股有限公司 一种处理用户投诉信息的风控分类识别方法及系统
CN110659657A (zh) * 2018-06-29 2020-01-07 北京京东尚科信息技术有限公司 训练模型的方法和装置
CN110706308A (zh) * 2019-09-07 2020-01-17 创新奇智(成都)科技有限公司 一种基于gan的钢卷端面边损人造样本生成方法
CN110781433A (zh) * 2019-10-11 2020-02-11 腾讯科技(深圳)有限公司 数据类型的确定方法和装置、存储介质及电子装置
CN111599431A (zh) * 2020-03-31 2020-08-28 太原金域临床检验有限公司 基于报告单的数据编码模型生成方法、系统和设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108447534A (zh) * 2018-05-18 2018-08-24 灵玖中科软件(北京)有限公司 一种基于nlp的电子病历数据质量管理方法
CN110659657A (zh) * 2018-06-29 2020-01-07 北京京东尚科信息技术有限公司 训练模型的方法和装置
CN109872162A (zh) * 2018-11-21 2019-06-11 阿里巴巴集团控股有限公司 一种处理用户投诉信息的风控分类识别方法及系统
CN109784806A (zh) * 2018-12-27 2019-05-21 北京航天智造科技发展有限公司 供应链控制方法、系统以及存储介质
CN110706308A (zh) * 2019-09-07 2020-01-17 创新奇智(成都)科技有限公司 一种基于gan的钢卷端面边损人造样本生成方法
CN110781433A (zh) * 2019-10-11 2020-02-11 腾讯科技(深圳)有限公司 数据类型的确定方法和装置、存储介质及电子装置
CN111599431A (zh) * 2020-03-31 2020-08-28 太原金域临床检验有限公司 基于报告单的数据编码模型生成方法、系统和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WEIDI XU 等: "Semisupervised Text Classification by Variational Autoencoder", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *

Similar Documents

Publication Publication Date Title
CN113822494B (zh) 风险预测方法、装置、设备及存储介质
WO2018121690A1 (zh) 对象属性检测、神经网络训练、区域检测方法和装置
CN105426356B (zh) 一种目标信息识别方法和装置
US11907675B2 (en) Generating training datasets for training neural networks
US20180365574A1 (en) Method and apparatus for recognizing a low-quality article based on artificial intelligence, device and medium
EP3767536A1 (en) Latent code for unsupervised domain adaptation
CN109976997B (zh) 测试方法和装置
CN111523640B (zh) 神经网络模型的训练方法和装置
CN111241287A (zh) 用于生成对抗文本的生成模型的训练方法及装置
CN110796542A (zh) 金融风险控制方法、金融风险控制装置和电子设备
US20200311541A1 (en) Metric value calculation for continuous learning system
CN111737546A (zh) 确定实体业务属性的方法及装置
CN110659657A (zh) 训练模型的方法和装置
CN110705255A (zh) 检测语句之间的关联关系的方法和装置
CN110968689A (zh) 罪名及法条预测模型的训练方法以及罪名及法条预测方法
CN112966701A (zh) 目标分类的方法和装置
CN112184304A (zh) 一种辅助决策的方法、系统、服务器和存储介质
CN115423040A (zh) 互动营销平台的用户画像识别方法及ai系统
US20230004486A1 (en) Software testing using machine learning
CN114202336A (zh) 一种金融场景下的风险行为监测方法及系统
US20220051126A1 (en) Classification of erroneous cell data
CN110717537B (zh) 训练用户分类模型、执行用户分类预测的方法及装置
CN112508178A (zh) 神经网络结构搜索方法、装置、电子设备及存储介质
CN110851600A (zh) 基于深度学习的文本数据处理方法及装置
CN112988854A (zh) 一种申诉数据挖掘方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210618