业务处理方法及其系统
技术领域
本申请涉及计算机技术,特别涉及基于计算机的业务处理技术。
背景技术
每时每刻都有大量的业务产品在线运行,每个业务产品都可能存在不同程度的问题,而这些问题如果不能及时发现和处理,经过发酵后最终可能演变成具有重大负面影响的事件。
目前的一般处理方式是接到客户投诉之后,客服人员再介入排查业务产品中存在的问题,整个流程非常耗时耗力。根据经验,一个客户投诉问题解决时长一般在7天到15天,客户体验非常不好。
如何尽早地发现业务产品中存在的问题并自动化地主动触发解决程序,而不是等待客户投诉后再被动地解决,是为了提高客户体验而急需解决的问题。
发明内容
本申请的目的在于提供一种业务处理方法及其系统,不但可以自动发现业务产品的问题并自动启动已知类型问题的处理程序,而且可以自动识别出没有处理预案的新类型问题。
为了解决上述问题,本申请公开了一种业务处理方法,包括:
预先使用历史异常数据训练分类器并为历史异常数据的每种类别配置对应的处理流程;
获取第一异常数据,使用该分类器对该第一异常数据分类,得到第一类别和分类置信分;
如果该分类置信分小于预设门限,则保存该第一异常数据以用于重新训练该分类器;
如果该分类置信分大于该门限,则触发该第一类别对应的处理流程。
在一个优选例中,该预先训练异常数据的分类器,进一步包括:
对历史异常数据进行聚类;
对该聚类得到的每个类别的数据设置标签;
使用经设置标签的异常数据训练该分类器。
在一个优选例中,该对历史异常数据进行聚类之前,还包括:
将该历史异常数据中非结构化的异常数据转化为结构化数据。
在一个优选例中,该对该聚类得到的每个类别的数据设置标签,进一步包括:
从该每个类别的数据中分别抽样多条数据,对每个类别的抽样数据设置标签。
在一个优选例中,该第一异常数据是在线实时产生的异常数据。
在一个优选例中,该使用该分类器对该第一异常数据分类之前,还包括:
如果该第一异常数据是非结构化的数据,则将该第一异常数据转化为结构化数据。
在一个优选例中,该保存该第一异常数据以用于重新训练该分类器之后,还包括:
为该第一异常数据设置标签;
使用包括该第一异常数据的异常数据重新训练该分类器。
在一个优选例中,该异常数据是异常日志数据。
本申请还公开了一种业务处理系统,包括:
数据获取模块,用于获取第一异常数据;
分类器,用于对该第一异常数据分类,得到第一类别和分类置信分,其中该分类器预先以历史异常数据训练;
控制模块,用于在该分类置信分小于预设门限时保存该第一异常数据以用于重新训练该分类器,在该分类置信分大于该门限时触发该第一类别对应的处理流程,其中预先为历史异常数据的每种类别设置了对应的处理流程。
在一个优选例中,还包括:
聚类模块,用于对历史异常数据进行聚类;
标签设置模块,用于对该聚类得到的每个类别的数据设置标签;
该分类器由经设置标签的异常数据训练而得到。
在一个优选例中,还包括数据结构化模块,用于将该历史异常数据中非结构化的异常数据转化为结构化数据,将结构化数据输出给该聚类模块。
在一个优选例中,还包括抽样模块,用于从该聚类模块输出的每个类别的数据中分别抽样多条数据,将每个类别的抽样数据输出到该标签设置模块。
在一个优选例中,该第一异常数据是在线实时产生的异常数据。
在一个优选例中,该数据结构化模块还用于将该数据获取模块输出的该第一异常数据转化为结构化数据后输出到该分类器。
在一个优选例中,该异常数据是异常日志数据。
本申请还公开了一种业务处理系统,包括:
存储器,用于存储计算机可执行指令;以及,
处理器,用于在执行该计算机可执行指令时实现如前文描述的方法中的步骤。
本申请还公开了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现如前文描述的方法中的步骤。
本申请实施方式能够提前发现归类业务产品的问题并自动启动解决方案(即业务的自愈),而不是等待客户投诉,可以沉淀经验,提升客户体验,解放人工排查问题的生产力。本申请实施方式不但可以实现分类效果,而且可以循环训练实现分类种类增加,新异常类别发现的功能,或者说本申请的技术方案可以构成一个闭环系统,而不只是一个单流程处理过程。
本申请的说明书中记载了大量的技术特征,分布在各个技术方案中,如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话,会使得说明书过于冗长。为了避免这个问题,本申请上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征,都可以自由地互相组合,从而构成各种新的技术方案(这些技术方案均因视为在本说明书中已经记载),除非这种技术特征的组合在技术上是不可行的。例如,在一个例子中公开了特征A+B+C,在另一个例子中公开了特征A+B+D+E,而特征C和D是起到相同作用的等同技术手段,技术上只要择一使用即可,不可能同时采用,特征E技术上可以与特征C相组合,则,A+B+C+D的方案因技术不可行而应当不被视为已经记载,而A+B+C+E的方案应当视为已经被记载。
附图说明
图1是根据本申请第一实施方式的业务处理方法流程示意图
图2是根据本申请第二实施方式的业务处理系统的在线处理部分的结构示意图
图3是根据本申请第二实施方式的业务处理系统的分类器训练部分的结构示意图
具体实施方式
在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
下面概要说明本申请实施方式的部分创新点:
异常数据可以是来自异常日志的数据。预先对历史异常数据进行结构化,聚类,为每一种类别设置相应的处理流程,并从每一种类别的数据中抽样设置标签,训练分类器。对在线获得的异常数据(例如从在线的异常日志中获取)使用训练好的分类器进行分类,输出类别和分类置信分。如果分类置信分超过预定门限则触发该类别对应的处理流程,如果分类置信分小于预定门限,则说明当前处理的异常数据有可能是一种以前没有的新类别,保存该异常数据,为该异常数据设置标签,将该异常数据和其他异常数据一起重新训练分类器。该方案不但可以自动而快速地对异常日志进行分析,确定异常的类别,在投诉出现之前就主动触发该类别对应的处理流程,而且可以自动发现新类别的问题,提交给工作人员设置标签并确定性类别问题的处理流程,从而使得新问题也在萌芽状态就得以解决。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施方式作进一步地详细描述。
本申请的第一实施方式涉及一种业务处理方法,其流程如图1所示,该方法包括以下步骤:
在步骤101中,预先使用历史异常数据训练分类器并为异常数据的每种类别配置对应的处理流程。历史异常数据就是之前累积的异常数据。在一个实施例中,异常数据是异常日志数据。业务产品在发生异常时会将异常数据记录到异常日志中。在其他实施例中,异常数据也可以来自日志之外的其他渠道。
在一个实施例中,分类器的训练方法如下:将历史异常数据中非结构化的异常数据转化为结构化数据;对历史异常数据进行聚类;对聚类得到的每个类别的数据设置标签;使用经设置标签的异常数据训练分类器。可选地,使用人工的方式对异常数据设置标签。可选地,使用脚本对异常数据设置标签。可选地,标签可以根据具体的业务来设定,例如付款方不存在,卖家状态异常,安全风险拦截,请求退款金额超限等等。
可选地,在对聚类得到的每个类别的数据设置标签时,可以从每个类别的数据中分别抽样(例如随机抽样)多条数据(例如每个类别100条数据),对每个类别的抽样数据设置标签。经过聚类后,一个类别中的数据可能很多,只对抽样的少量数据进行标签设置,可以大大减少标签设置的工作量,同时几乎不影响分类器训练的效果。
聚类的实现方式可以是多种多样的。可选地,先对文本数据进行文本分词,然后进行停用词过滤,然后统计词频,然后到PLDA(Probabilistic Linear DiscriminantAnalysis)算法做文本主题分类,给出属于每一类的概率,然后对概率进行k-means算法聚类。可选地,直接进行词向量化,然后直接用k-means算法聚类。
在步骤102中,获取第一异常数据。可选地,第一异常数据是在线实时产生的异常数据。可选地,如果第一异常数据是非结构化的数据(从日志中获得的日志数据往往是非结构化的数据),则先将第一异常数据转化为结构化数据
此后进入步骤103,使用分类器对第一异常数据分类,得到第一类别和分类置信分。
分类器的实现方式可以是多种多样的。可选地,可以使用fastText算法实现分类器。可选地,可以使用xgboost算法实现分类器。可选地,可以使用textRNN算法实现分类器。这些列举的算法都是公开的算法,本申请的创新并不涉及对这些算法本身的改进,所以这里不对这些算法详细描述了。
此后进入步骤104,比较分类置信分和预设门限。
如果分类置信分小于预设门限,则进入步骤105保存第一异常数据以用于重新训练分类器。分类置信分小于预定门限(例如小于0.8)则可以认为该第一异常数据是新类别的异常数据,需要为第一异常数据设置标签,使用包括第一异常数据在内的异常数据重新训练分类器。
如果分类置信分大于门限,则进入步骤106触发第一类别对应的处理流程。例如,如果第一类别是“转账金额超过当前银行卡限制”,则触发的处理流程可以是推送消息告诉限制额度和可用的解决方法。又如,如果第一类别是“退款失败”,则触发的处理流程可以是自动确定失败细节,向相应的客户端发送指导客户后续处置方式的建议。
如果分类置信分等于预设门限,可以根据预先的设定进入步骤105或106。
在步骤105或106之后回到步骤102,再次获取第一异常数据并进行处理。
本申请的第二实施方式涉及一种业务处理系统,该系统可以分为在线处理部分和分类器训练部分。其中在线处理部分的结构如图2所示,包括:
数据获取模块201,用于获取第一异常数据。在一个实施例中,第一异常数据是在线实时产生的异常数据。异常数据可以是异常日志数据。
数据结构化模块206,用于将数据获取模块输出的第一异常数据转化为结构化数据后输出到分类器。本模块是可选的,如果不涉及非结构化数据的话可以不需要本模块。
分类器202,用于对第一异常数据分类,得到第一类别和分类置信分,其中分类器预先以历史积累的异常数据训练。
控制模块203,用于在分类置信分小于预设门限时保存第一异常数据以用于重新训练分类器,在分类置信分大于门限时触发第一类别对应的处理流程,其中预先为历史异常数据的每种类别设置了对应的处理流程。
分类器训练部分的结构如图3所示,包括:
数据结构化模块204,用于将历史异常数据中非结构化的异常数据转化为结构化数据,将结构化数据输出给聚类模块。本模块是可选的,如果不涉及非结构化数据的话可以不需要本模块。
聚类模块205,用于对历史异常数据进行聚类。
抽样模块206,用于从聚类模块输出的每个类别的数据中分别抽样多条数据(例如每个类别100条数据),将每个类别的抽样数据输出到标签设置模块。本模块是可选的。可选地,抽样的方式是随机抽样。经过聚类后,一个类别中的数据可能很多,只对抽样的少量数据进行标签设置,可以大大减少标签设置的工作量,同时几乎不影响分类器训练的效果。可选地,每个类别抽样的数据数量是相同的。可选地,每个类别抽样的数据数量是不同的,例如对样本数很少的类别可以抽取较少的样本。
标签设置模块207,用于对聚类得到的每个类别的数据设置标签。
使用经设置标签的异常数据对分类器202进行训练。
第一实施方式是与本实施方式相对应的方法实施方式,第一实施方式中的技术细节可以应用于本实施方式,本实施方式中的技术细节也可以应用于第一实施方式。
需要说明的是,本领域技术人员应当理解,上述业务处理系统的实施方式中所示的各模块的实现功能可参照前述业务处理方法的相关描述而理解。上述业务处理系统的实施方式中所示的各模块的功能可通过运行于处理器上的程序(可执行指令)而实现,也可通过具体的逻辑电路而实现。本申请实施例上述业务处理系统如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
相应地,本申请实施方式还提供一种计算机可读存储介质,其中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本申请的各方法实施方式。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于,相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读存储介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
此外,本申请实施方式还提供一种业务处理系统,其中包括用于存储计算机可执行指令的存储器,以及,处理器;该处理器用于在执行该存储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。其中,该处理器可以是中央处理单元(CentralProcessing Unit,简称“CPU”),还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,简称“DSP”)、专用集成电路(Application Specific IntegratedCircuit,简称“ASIC”)等。前述的存储器可以是只读存储器(read-only memory,简称“ROM”)、随机存取存储器(random access memory,简称“RAM”)、快闪存储器(Flash)、硬盘或者固态硬盘等。本发明各实施方式所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
需要说明的是,在本专利的申请文件中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的申请文件中,如果提到根据某要素执行某行为,则是指至少根据该要素执行该行为的意思,其中包括了两种情况:仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。
在本申请提及的所有文献都被认为是整体性地包括在本申请的公开内容中,以便在必要时可以作为修改的依据。此外应理解,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的保护范围之内。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。