CN115329068A - 一种工单分类模型训练方法、装置、电子设备和存储介质 - Google Patents

一种工单分类模型训练方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN115329068A
CN115329068A CN202210530335.9A CN202210530335A CN115329068A CN 115329068 A CN115329068 A CN 115329068A CN 202210530335 A CN202210530335 A CN 202210530335A CN 115329068 A CN115329068 A CN 115329068A
Authority
CN
China
Prior art keywords
work order
information
dialog
sample
target information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210530335.9A
Other languages
English (en)
Inventor
郭超
杨念民
雷植程
童丽霞
吴俊江
林俊镖
吴启辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210530335.9A priority Critical patent/CN115329068A/zh
Publication of CN115329068A publication Critical patent/CN115329068A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及计算机技术领域,尤其涉及人工智能技术领域,提供一种工单分类模型训练方法、装置、电子设备和存储介质,用以提高模型的准确性。其中,方法包括:获取工单样本集,工单样本包括:相应客服工单的类别标签及对话文本信息,对话文本信息是基于相应客服工单记录的客服会话得到的;基于各个工单样本的类别标签,从工单样本集中筛选出待扩展的参考工单样本;基于预设数据增广策略,对参考工单样本中的对话文本信息进行数据增广,获得对应的扩展工单样本;基于各个工单样本和获得的扩展工单样本进行模型训练,获得已训练的工单分类模型。本申请通过对客服工单的对话文本信息进行数据增广,均衡各类工单样本的数量,可有效提高模型准确性。

Description

一种工单分类模型训练方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及人工智能技术领域,提供一种工单分类模型训练方法、装置、电子设备和存储介质。
背景技术
在客服领域中,例如:归档业务、推荐相似工单、多轮对话意图分类等场景,都需要以客服工单作为原始数据进行模型训练。
以客服系统中的工单智能归档模型为例,在相关的归档系统中,主要通过大量人工归档的历史服务工单作为原始的训练数据,该过程中,训练数据主要是客服工单这种轮数较多、语境固定、诉求明确的长对话,可使用多轮对话模型作为原始模型进行多分类任务训练。
由于该场景涵盖业务繁杂,归档目录经常变动,在应用过程中产生了数以千计的归档路径、学习难度过大,且不同的归档路径使用率差异巨大,长尾问题严重(指少量类别占据了绝大多数样本,大量的类别仅有少量的样本),导致模型效果达不到可用的预期。
因而,如何解决训练数据中长尾问题对模型训练带来的影响,进而提高模型的准确性亟待解决的。
发明内容
本申请实施例提供一种工单分类模型训练方法、装置、电子设备和存储介质,用以提高模型的准确性。
本申请实施例提供的一种工单分类模型训练方法,包括:
获取工单样本集,每个工单样本包括:相应客服工单的类别标签,以及所述相应客服工单的业务处理对象与业务服务对象之间的对话文本信息,所述对话文本信息是基于所述相应客服工单记录的客服会话得到的;
基于各个工单样本的类别标签,从所述工单样本集中筛选出至少一个待扩展的参考工单样本;
基于预设数据增广策略,分别对至少一个参考工单样本中的对话文本信息进行数据增广,获得对应的扩展工单样本,所述预设数据增广策略用于指示:对所述对话文本信息进行非关键信息替换,所述非关键信息为替换前后不改变所述对话文本信息的语义的信息;
基于各个工单样本和获得的扩展工单样本进行模型训练,获得已训练的工单分类模型,所述工单分类模型用于确定待分类客服工单所属的工单类别。
本申请实施例提供的一种工单分类模型训练装置,包括:
获取单元,用于获取工单样本集,每个工单样本包括:相应客服工单的类别标签,以及所述相应客服工单的业务处理对象与业务服务对象之间的对话文本信息,所述对话文本信息是基于所述相应客服工单记录的客服会话得到的;
筛选单元,用于基于各个工单样本的类别标签,从所述工单样本集中筛选出至少一个待扩展的参考工单样本;
增广单元,用于基于预设数据增广策略,分别对至少一个参考工单样本中的对话文本信息进行数据增广,获得对应的扩展工单样本,所述预设数据增广策略用于指示:对所述对话文本信息进行非关键信息替换,所述非关键信息为替换前后不改变所述对话文本信息的语义的信息;
训练单元,用于基于各个工单样本和获得的扩展工单样本进行模型训练,获得已训练的工单分类模型,所述工单分类模型用于确定待分类客服工单所属的工单类别。
可选的,所述预设数据增广策略包括以下至少一种:
用于对对话文本信息中的非关键信息进行同义词替换的同义词替换策略;
用于对话文本信息进行非关键信息交叉的段落交叉策略;
用于对对话文本信息中的非关键信息进行掩码重建的信息掩码重建策略。
可选的,所述预设数据增广策略包括同义词替换策略;
所述增广单元具体用于,对于所述至少一个参考工单样本中的部分或全部,分别执行以下操作:
对于一个参考工单样本,基于预设的同义词词表,对所述一个参考工单样本的对话文本信息中的至少一个业务相关词进行同义词替换,获得对应的扩展工单样本。
可选的,所述预设数据增广策略包括段落交叉策略;
所述增广单元具体用于,对于所述至少一个参考工单样本中的部分或全部,分别执行以下操作:
对于类别标签相同的两个参考工单样本,将所述两个参考工单样本的对话文本信息中,属于同一对话发表方所发表的对话文本进行对话交叉,获得对应的扩展工单样本;所述对话发表方为所述业务处理对象或所述业务服务对象。
可选的,所述对话文本信息包括:所述业务处理对象与所述业务服务对象之间的至少一轮对话文本;
所述增广单元具体用于通过以下至少一种方式进行对话交叉:
将所述两个参考工单样本中,属于同一对话发表方在同一对话轮数中所发表的对话文本进行平行交换;
将所述两个参考工单样本中,属于同一对话发表方在不同对话轮数中所发表的对话文本进行随机交换;
将所述两个参考工单样本中,其中一个参考工单样本中的对话文本,随机插入另一个参考工单样本中,同一对话发表方所发表的对话文本之间。
可选的,所述预设数据增广策略包括信息掩码重建策略;
所述增广单元具体用于,对于所述至少一个参考工单样本中的部分或全部,分别执行以下操作:
对于一个参考工单样本,通过词向量映射获得所述一个参考工单样本的对话文本信息中,各个分词的词向量;
分别基于所述各个分词的词向量,确定所述对话文本信息中各个目标信息各自的掩码概率,所述目标信息为分词或对话文本;
分别基于各个目标信息的掩码概率,对所述对话文本信息中的至少一个目标信息进行掩码重建,获得对应的扩展工单样本。
可选的,所述增广单元具体用于:
分别基于所述各个分词的词向量,确定各个目标信息各自的显著性系数,所述显著性系数用于表征所述目标信息对工单分类结果的重要度;
分别基于各个显著性系数,确定相应的掩码概率,所述掩码概率与相应的显著性系数成反比。
可选的,所述增广单元具体用于:
基于所述一个参考工单样本的分类概率,以及各个目标信息的信息向量,分别确定所述各个目标信息各自对应的显著性系数;所述分类概率是基于工单分类模型预测得到的;
其中,若所述目标信息为分词,所述信息向量为词向量;若所述目标信息为对话文本,所述信息向量为基于所述对话文本中各个分词的词向量确定的句向量。
可选的,所述增广单元还用于:
在所述分别基于所述各个分词的词向量,确定各个目标信息各自的显著性系数之后,基于所述各个目标信息的显著性系数,确定相应的显著性系数协方差矩阵;
基于所述显著性系数协方差矩阵,确定所述各个目标信息对应的更新后的显著性系数;
所述增广单元具体用于:
分别基于各个更新后的显著性系数,确定相应的掩码概率,所述掩码概率与相应的更新后的显著性系数成反比。
可选的,所述增广单元具体用于,对于每个目标信息,分别执行以下操作:
对于一个目标信息,基于所述显著性系数协方差矩阵,对所述一个目标信息的信息向量进行多次修正;
基于所述一个参考工单样本的分类概率,以及修正后的各个信息向量,分别确定所述目标信息对应的各个中间显著性系数;
将所述各个中间显著性系数的均值,作为所述一个目标信息对应的更新后的显著性系数;所述分类概率是基于工单分类模型预测得到的。
可选的,所述增广单元具体用于:
通过基于所述显著性系数协方差矩阵确定的高斯分布,获得所述一个目标信息对应的多个高斯噪声;所述高斯分布的方差为所述显著性系数协方差矩阵的对角线元素之和;
分别基于各个高斯噪声,对所述一个目标信息的信息向量进行一次修正。
可选的,所述增广单元具体用于:
若所述目标信息为对话文本,则所述显著性系数协方差矩阵为:基于所述对话文本信息中各个对话文本的显著性系数之间的协方差生成的;
若所述目标信息为分词,则所述显著性系数协方差矩阵与所述对话文本信息中的对话文本一一对应,每个显著性系数协方差矩阵为:基于相应的对话文本中各个分词的显著性系数之间的协方差生成的。
可选的,所述增广单元还用于,通过下列方式确定目标信息的信息向量:
若目标信息为对话文本,则所述信息向量为基于所述对话文本中各个分词的词向量确定的句向量;
若目标信息为分词,则所述信息向量为词向量。
可选的,所述增广单元还用于:
在所述通过词向量映射获得所述一个参考工单样本的对话文本信息中,各个分词的词向量之后,通过注意力机制,对所述各个分词的词向量进行注意力加权,获得更新后所述各个分词的词向量;
所述分别基于所述各个分词的词向量,确定所述对话文本信息中各个目标信息各自的掩码概率,包括:
分别基于更新后的所述各个分词的词向量,确定所述对话文本信息中各个目标信息各自的掩码概率。
可选的,所述筛选单元具体用于:
基于所述各个工单样本的类别标签,确定所述工单样本集中各类别的工单样本的数量;
将数量低于预设阈值的类别对应的至少一个工单样本,作为所述参考工单样本。
本申请实施例提供的一种电子设备,包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述任意一种工单分类模型训练方法的步骤。
本申请实施例提供一种计算机可读存储介质,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行上述任意一种工单分类模型训练方法的步骤。
本申请实施例提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中;当电子设备的处理器从计算机可读存储介质读取所述计算机程序时,所述处理器执行所述计算机程序,使得所述电子设备执行上述任意一种工单分类模型训练方法的步骤。
本申请有益效果如下:
本申请实施例提供了一种工单分类模型训练方法、装置、电子设备和存储介质。由于本申请提出了一种适用于客服工单的增广方法,通过各个客服工单所属的类别筛选出样本,基于该方式,可从初始样本集中筛选出类别符合一定条件的参考工单样本;进而,基于预设数据增广策略,对参考工单样本中的对话文本信息进行数据增广,且保证通过数据增广得到的扩展工单样本的对话文本信息,与相应的参考工单样本中的对话文本信息的语义相同,可在不改变工单所记录的客服对话的语义的情况下,实现一些类别的工单的样本扩充。基于该方式,通过对工单样本的扩展,可均衡各类工单样本的数量,进而,再基于各个工单样本和获得的扩展工单样本进行模型训练,则可有效解决训练数据中长尾问题对模型训练带来的影响,使得模型可以充分学习到各种类别的工单的特征,以避免过拟合,提高模型的准确性。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中的一种应用场景的一个可选的示意图;
图2为本申请实施例中的一种工单分类模型训练方法的实施流程图;
图3为本申请实施例中的一种对话文本信息的示意图;
图4为本申请实施例中的一种样本筛选示意图;
图5为本申请实施例中的一种同义词替换的示意图;
图6A为本申请实施例中的一种平行段落交换的示意图;
图6B为本申请实施例中的一种随机段落交换的示意图;
图6C为本申请实施例中的一种随机段落插入的示意图;
图7为本申请实施例中的一种平行段落交换与随机段落替换的叠加方法的示意图;
图8为本申请实施例中的一种数据增广方法的流程示意图;
图9为本申请实施例中的一种信息掩码重建的逻辑示意图;
图10为本申请实施例中的一种掩码概率的计算方法的流程示意图;
图11为本申请实施例中的一种整体模型结构图;
图12为本申请实施例中的一种工单分类方法的时序流程图;
图13为本申请实施例中的一种工单分类方法的逻辑示意图;
图14为本申请实施例中的一种工单模型训练装置的组成结构示意图;
图15为应用本申请实施例的一种电子设备的一个硬件组成结构示意图;
图16为应用本申请实施例的又一种电子设备的一个硬件组成结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
下面对本申请实施例中涉及的部分概念进行介绍。
归档:客服对每一条服务的工单都需要进行业务问题上的分类,这个操作称之为归档,即根据用户诉求、业务处理流程将客服工单分类到对应的目录下。本申请实施例中给出了一种智能归档的方法,即使用模型预测当前内容进行归档选择的方式,区别于人工查找选择。
工单:根据字面意思可以解释为工作单据,工单可以是独立的,也可以是大型项目的一部分,可以为工单定义子工单。本申请实施例中,主要是以客服工单(客服服务工作单)为例说明的,客服工单主要指客服与其服务的对象之间的对话记录。
对话文本信息:指业务处理对象与其服务的业务服务对象之间的对话文本。如在一次客服服务用户,解决用户问题的会话过程中,客服与用户之间可以进行一轮甚至是多轮的对话,这些对话信息转换为文本格式后,得到的文本信息可作为对话文本信息。
业务处理对象:工单所涉及的会话的一方,本申请实施例中指会话过程中,主要用以解决业务问题的一方,如客服。
业务服务对象:工单所涉及的会话的另一方,本申请实施例中指会话过程中,主要用以反馈业务问题的一方,如客服服务的对象。
数据增广:是深度学习中常用的技巧之一,主要用于增加训练数据集,让数据集尽可能的多样化,使得训练的模型具有更强的泛化能力。在本申请实施例中,主要是指:通过预设数据增广策略,对待扩展的参考工单样本中的对话文本信息进行数据增广,获得不改变语义的对话文本信息,以基于数据增广获得的对话文本信息生成新的扩展工单样本,实现训练数据集的扩充。
预设数据增广策略:是指本申请中预先设定的,用于进行数据增广的策略,该策略用于指示:对对话文本信息进行非关键信息替换,非关键信息为替换前后不改变对话文本信息的语义的信息。具体地,根据替换非关键信息方式的不同,可划分为:用于对对话文本信息中的非关键信息进行同义词替换的同义词替换策略;用于对话文本信息进行非关键信息交叉的段落交叉策略;用于对对话文本信息中的非关键信息进行掩码重建的信息掩码重建策略。
显著性系数:显著性是指零假设为真的情况下拒绝零假设所要承担的风险水平,又叫概率水平。在本申请实施例中,显著性系数是用于表征一个目标信息对于工单分类结果的重要性的一个系数,显著性系数越大,即表明该信息越重要,为了保证语义不变,对该信息进行掩码重建的可能性也就更小。
协方差矩阵:在统计学与概率论中,协方差矩阵是一个矩阵,其每个元素是各个向量元素之间的协方差。在本申请实施例中,可将各个目标信息所对应的显著性系数看作是各个向量元素,通过计算目标信息所对应的显著性系数之间的协方差,来构建协方差矩阵。
本申请实施例涉及人工智能(Artificial Intelligence,AI)、自然语言处理(Nature Language processing,NLP)和机器学习技术(Machine Learning,ML),基于人工智能中的计算机视觉技术和机器学习而设计。
人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。本申请实施例中的工单分类方法可应用到客服领域,将人工智能可客服领域中的客服工单分类相结合,可以实现高效准确的客服工单智能分类。
并且,在对客服工单分类过程中,需要对客服会话,客服对话文本等客户信息的进行处理,对于这些信息中的文本信息处理,即可结合自然语言处理技术来实现。
此外,本申请实施例中的工单分类模型就是采用机器学习或深度学习技术训练得到的。基于上述技术训练得到工单分类模型后,即可应用该工单分类模型实现客服工单的智能分类,以有效提高工单分类的准确性。
下面对本申请的设计思想进行简要介绍:
随着业务的不断发展,客服的服务能力也在迅速提升,单日服务的工单量就已经达到十万数量级。在相关的智能归档实现方案中,主要通过上述大量人工归档的历史服务工单作为原始的训练数据,使用多轮对话模型作为原始模型进行多类别训练任务。
但是,在实际的训练过程中存在很多问题,如:归档项过多接近几千的分类目标,学习难度过大,历史数据不完全可靠,存在一定的错误率等。在实际的训练过程中,若使用太久的历史数据反而会使得整体训练数据准确率降低,造成模型在某些错误率较高的归档上无法收敛;同时,由于归档项会根据业务规则调整变动,太久之前的数据也会因为不同的规则导致训练噪音。因而,这要求模型训练需要在有限的高质量数据集上进行。
此外,高质量数据有限,由于归档项来源于繁杂的业务体系,同一个产品下可能存在几十甚至几百个归档项,而经常使用的归档项可能只有30%左右,造成了在全业务中40%的归档项产生了80%的工单,其余60%的归档项数量都极少甚至只有个位数的单量,导致各类样本的数量不均衡,数据长尾问题极其严重,在实际的训练过程中非常容易过拟合造成测试集表现极差,因而,需要对训练数据进行数据增广。
考虑到工单往往是较长的多轮对话,难以通过传统的文本扩增方式有效提升模型效果,且业界的方法大多基于图像与语音等数据,对于客服工单这种多轮对话的长文本应用较少。因而,本申请提出了一种适用于客服工单的增广方法,通过各个客服工单所属的类别筛选出样本,基于该方式,可从初始样本集中筛选出类别符合一定条件的参考工单样本;进而,基于预设数据增广策略,对参考工单样本中的对话文本信息进行数据增广,可在不改变工单所记录的客服对话的语义的情况下,实现一些类别的工单的样本扩充。基于该方式,通过对工单样本的扩展,可均衡各类工单样本的数量,进而,再基于各个工单样本和获得的扩展工单样本进行模型训练,则可有效解决训练数据中长尾问题对模型训练带来的影响,使得模型可以充分学习到各种类别的工单的特征,以避免过拟合,提高模型的准确性。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图1所示,其为本申请实施例的应用场景示意图。该应用场景图中包括两个终端设备110和一个服务器120。
在本申请实施例中,终端设备110包括但不限于手机、平板电脑、笔记本电脑、台式电脑、电子书阅读器、智能语音交互设备、智能家电、车载终端等设备;终端设备上可以安装有工单相关的客户端,该客户端可以是软件(例如浏览器、购物软件等),也可以是网页、小程序等,服务器120则是与软件或是网页、小程序等相对应的后台服务器,或者是专门用于进行工单分类或对工单分类模型进行训练的服务器,本申请不做具体限定。服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network, CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
需要说明的是,本申请各实施例中的工单分类模型训练方法可以由电子设备执行,该电子设备可以为终端设备110或者服务器120,即,该方法可以由终端设备110或者服务器120单独执行,也可以由终端设备110和服务器120 共同执行。比如由终端设备110和服务器120共同执行时,可由终端设备110 获取工单样本集,并基于各个工单样本的类别标签,从所述工单样本集中筛选出一个或多个待扩展的参考工单样本;进而,终端设备110基于预设数据增广策略,分别对各个参考工单样本中的对话文本信息进行数据增广,获得对应的扩展工单样本;最后,由服务器120从终端设备110获取到各个工单样本和扩展工单样本后,基于由这些样本构建的训练样本集,对工单分类模型进行模型训练,获得已训练的工单分类模型。
在模型训练完毕后,可直接部署在服务器120上,也可部署于终端设备110 上,一般部署于服务器120上,后续即可通过服务器120,对待分类客服工单进行类别划分,获得待分类客服工单所属的工单类别,服务器120还可将分类结果反馈给终端设备110,由终端设备110进行展示。
在一种可选的实施方式中,终端设备110与服务器120之间可以通过通信网络进行通信。
在一种可选的实施方式中,通信网络是有线网络或无线网络。
需要说明的是,图1所示只是举例说明,实际上终端设备和服务器的数量不受限制,在本申请实施例中不做具体限定。
本申请实施例中,当服务器的数量为多个时,多个服务器可组成为一区块链,而服务器为区块链上的节点;如本申请实施例所公开的工单分类模型训练方法,其中所涉及的工单样本数据可保存于区块链上,例如,客服工单的类别标签、相应的对话文本信息,相应的分类概率等。
此外,本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等场景。
下面结合上述描述的应用场景,参考附图来描述本申请示例性实施方式提供的工单分类模型训练方法,需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。
参阅图2所示,为本申请实施例提供的一种工单分类模型训练方法的实施流程图,以服务器为执行主体为例,该方法的具体实施流程如下(S21-S24):
S21:服务器获取工单样本集。
其中,工单样本集中的每个工单样本包括:相应客服工单的类别标签,以及相应客服工单的业务处理对象与业务服务对象之间的对话文本信息,该对话文本信息是基于相应客服工单记录的客服会话得到的。
具体地,对话文本信息是指业务处理对象与其服务的业务服务对象之间的对话文本。如在一次客服服务用户,解决用户问题的会话过程中,客服与用户之间可以进行一轮甚至是多轮的对话,这些对话信息转换为文本格式后,得到的文本信息可作为对话文本信息。如若业务处理对象与业务服务对象之间的对话包含语音数据,则可通过语音识别,获得相应的文本信息。
在基于客服工单记录的客服会话生成对话文本信息时,可按照对话的轮次,生成包含至少一轮对话文本的对话文本信息。
参阅图3所示,其为本申请实施例中的一种对话文本信息的示意图。其中,客服A为业务处理对象,客服B为业务服务对象。在此次客服会话过程中,客服A与对象B之间共产生了四轮对话,分别为:对话文本1-对话文本2;对话文本3-对话文本4;对话文本5-对话文本6;对话文本7-对话文本8。
具体地,工单样本集是基于历史工单数据构建的,这些工单可以涉及游戏、社交、支付、交易等众多业务,工单样本则可以是一些人工归档的历史客服工单,而一个工单样本的类别标签表示该客服工单真实的工单类别,可以是人为归档确定的,也可以是采用其他方式确定的,本文不做具体限定。
S22:服务器基于各个工单样本的类别标签,从工单样本集中筛选出至少一个待扩展的参考工单样本。
在本申请实施例中,为了解决样本长尾问题,在基于各个工单样本的类别标签来从包含各类别工单样本的工单样本集中,筛选出至少一个工单样本作为待扩展的参考工单样本。
一种可选的筛选方式为:首先基于各个工单样本的类别标签,确定工单样本集中各类别的工单样本的数量;进而,将数量低于预设阈值的类别对应的至少一个工单样本,作为参考工单样本。
例如,工单样本集是使用连续三个月的历史工单数据进行清洗过滤后得到的,如图4所示,其为本申请实施例中的一种样本筛选示意图,按照四种不同的归档路径进行样本划分后,该工单样本集中包含的四类工单样本分别为:A 类别工单样本240个,B类别工单样本70个,C类别工单样本150个,D类别工单样本90个。假设定义预设阈值为100,如果一个归档路径下的数据小于100 单,则该类别的工单样本即为长尾样本。
在上述实施方式中,结合工单样本的类别标签可统计各类别工单的数量,基于此,可有效筛选出会导致长尾问题的长尾样本,以便后续准确均衡样本数量。
S23:服务器基于预设数据增广策略,分别对至少一个参考工单样本中的对话文本信息进行数据增广,获得对应的扩展工单样本。
其中,预设数据增广策略用于指示:对对话文本信息进行非关键信息替换,非关键信息为替换前后不改变对话文本信息的语义的信息。
可选的,根据替换非关键信息方式的不同,预设数据增广策略包括但不限于以下至少一种:
策略一、用于对对话文本信息中的非关键信息进行同义词替换的同义词替换策略。
在本申请实施例中,策略一具体是指将一个参考工单样本中,客服与用户之间的对话文本信息中的非关键信息,替换为同义词,以获得新的对话文本信息;进而,基于该新的对话文本信息构建扩展工单样本。
策略二、用于对话文本信息进行非关键信息交叉的段落交叉策略。
在本申请实施例中,策略二具体是指将两个参考工单样本中,客服与用户之间的对话文本信息中的对话文本,进行交换或插入,以获得新的对话文本信息;进而,基于该新的对话文本信息构建扩展工单样本。
策略三、用于对对话文本信息中的非关键信息进行掩码重建的信息掩码重建策略。
在本申请实施例中,策略三具体是指将一个参考工单样本中,客服与用户之间的对话文本信息中的非关键信息,进行掩码重建,以获得新的对话文本信息;进而,基于该新的对话文本信息构建扩展工单样本。
其中,掩码重建是指:将对话文本信息中的非关键信息进行掩码(MASK) 后,然后结合被MASK部分的上下文进行学习恢复。
在本申请实施例中,可采用一种预训练的语言表征模型BERT(BidirectionalEncoder Representation from Transformers)作为掩码语言模型(MASKed LanguageModeling,MLM),主要使用其遮蔽语言模型的特点进行文本重建增强,如对句子中被MASK的词进行预测重建,或者对多轮对话中被MASK的对话进行预测重建等。
需要说明的是,对文本进行掩码重建的方式有很多种,本文中主要是以 BERT为例进行举例说明,任何一种掩码重建的方式都适用于本申请实施例,本文不做具体限定。
另外,在本申请实施例中,基于数据增广前后不改变对话文本信息的语义,基于此,新增的扩展工单样本和对应的参考工单样本的对话文本信息语义相同,类别标签也相同,基于该方式,可有效扩展高质量样本数据,均衡各类高质量样本的数量。
S24:服务器基于各个工单样本和获得的扩展工单样本进行模型训练,获得已训练的工单分类模型。
具体地,结合原始的各个工单样本和获得的扩展工单样本,构建得到的训练样本集,均衡了各类工单的数量,对长尾数据进行了增强,进而,再基于这些训练样本对待训练的多轮对话分类模型进行模型训练,获得已训练的工单分类模型,则可有效解决训练数据中长尾问题对模型训练带来的影响,使得模型可以充分学习到各种类别的工单的特征,以避免过拟合,提高模型的准确性。
例如,待训练的多轮对话分类模型可以为多维层次注意力网络 (Multi-dimension Hierarchical Attention Networks,MHAN),MHAN是一种层次化的篇章文本分类模型,用于对文本的结构进行分析,并加入多维度信息强化学习,在本文中可以MHAN作为智能归档基础模型。
其中,工单分类模型用于确定待分类客服工单所属的工单类别。具体地,在利用已训练的工单分类模型,对待分类客服工单进行分类时,具体可结合待分类客服工单的对话文本信息,以及客服、用户等的基础信息、业务查询信息等,来作为该模型的输入特征,通过模型进行多分类,最终确定待分类客服工单所属的工单类别更加准确可靠。
此外,需要注意的是,在本申请的具体实施方式中,涉及到客服工单等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
另外需要说明的是,在本申请实施例中,对于一个参考工单样本的对话文本信息进行数据增广时,可采用上述所列举的预设数据增广策略的至少一种,例如:根据策略一对对话文本信息中的对话文本1进行同义词替换,根据策略二对对话文本信息中的对话文本2进行段落交叉等;另外,还可针对上述几种预设数据增广策略中的组合,可按照不同的比例,对参考样本工单进行数据增广。例如,对于20%的参考样本工单按照策略一进行数据增广,80%的参考样本工单按照策略二进行数据增广。又比如,对于1/3的参考样本工单按照策略一进行数据增广,1/3的参考样本工单按照策略二进行数据增广,1/3的参考样本工单按照策略三进行数据增广等等。具体地,基于任意一种策略进行数据增广,或采用任何一种策略组合进行数据增广的方式都适用于本申请实施例,本文不做具体限定。
下面分别对这几类预设数据增广策略的数据增广过程进行详细介绍:
策略一、同义词替换策略:
在本申请实施例中,可基于同义词替换策略,对步骤S22中筛选出的参考工单样本中的部分或全部,进行数据增广。具体地,对于一个参考工单样本进行数据增广的过程具体为:
基于预设的同义词词表,对该参考工单样本的对话文本信息中的至少一个业务相关词进行同义词替换,获得替换后的对话文本信息;基于替换后的对话文本信息和该参考工单样本的类别标签,生成该参考工单样本对应的扩展工单样本。
在某些业务的归档中,客户诉求的目标往往是很明确对某个产品或服务。本申请可以根据此业务的同类型特化词进行高效的数据增强,参阅表1所示,其为本申请实施例中所列举的一种同义词词表,表1中列举了部分业务特化词 (也称业务相关词),如下所示:
表1:部分业务特化词表
Figure RE-RE-GDA0003801866130000111
Figure RE-RE-GDA0003801866130000121
如图5所示,其为本申请实施例中的一种基于图3所示的对话文本信息,进行同义词替换的示意图。对于图5所示的参考工单样本(类别标签:支付类),其共包含8个对话文本,其中,对话文本1,对话文本2中包含“收款码”这一次,通过将该对话文本信息中的“收款码”替换为“收钱码”,即可获得一个新的对话文本信息,进而,将该新的对话文本信息作为相应的扩展工单样本的对话文本信息,将该参考工单样本的类别标签,作为相应的扩展工单样本的类别标签,基于此即可获得相应的扩展工单样本。
在上述实施方式中,与广义上的同义词不同,由于业务或产品名称会出现简写、口语化、英文名、语音转译偏差等同义表述,根据业务特化词表对这部分词进行替换操作生成的增广数据,可以最大程度上保证语义不变性,增加模型在不同场景下的鲁棒性。
策略二、段落交叉策略:
在本申请实施例中,可基于段落交叉策略,对步骤S22中筛选出的参考工单样本中的部分或全部,进行数据增广。具体地,对于参考工单样本进行数据增广的过程具体为:
对于类别标签相同的两个参考工单样本,将两个参考工单样本的对话文本信息中,属于同一对话发表方所发表的对话文本进行对话交叉,获得对话交叉后的对话文本信息;基于对话交叉后的对话文本信息和该参考工单样本的类别标签,生成该参考工单样本对应的扩展工单样本。其中,对话发表方为业务处理对象或业务服务对象,即客服或用户。
在相同归档的服务工单中,用户的诉求、坐席的话术、引导流程基本一致,通过相同归档不同工单之间的同角色对话段落质检交叉互换、插入等操作,可以得到语义不变的增广工单数据。
具体地,根据不同的交换规则可分为以下三种对话交叉方式:
方式一、将两个参考工单样本中,属于同一对话发表方在同一对话轮数中所发表的对话文本进行平行交换。
在本申请实施例中,该方式也称作平行段落交换,即将服务对话轮数一致的两个工单同角色对话互换。如图6A所示,其为本申请实施例中的一种平行段落交换的示意图。图6A所示为两个参考工单样本中的对话文本信息,各包含四轮对话,8个对话文本。
其中,这两个参考工单样本的类别标签相同,即对应都是统一类别的工单。其中,同归档工单1中的8条对话文本分别为:
第一轮:(用户对话文本1)我的账号被冻结了,怎么才能解封?-(客服对话文本2)请您提供一下账号和联系方式哦,为您查询一下。
第二轮:(用户对话文本3)账号是1234,手机是133XXXXXXXX-(客服对话文本4)查询个人信息需要您的授权,请问是否同意。
第三轮:(用户对话文本5)可以可以,你快给我查下-(客服对话文本6) 您的账号近期是否有与他人共享过呢?
第四轮:(用户对话文本7)最近被盗过一次,找回来就说我涉及违规。[截图]-(客服对话文本8)已经为您备注处理,请留意后续短信通知哦。
同归档工单2中的8条对话文本分别为:
第一轮:(用户对话文本1)我登不上账号了,提示我违规,给我查下,我着急用号。-(客服对话文本2)查询个人信息需要您的授权,请问是否同意。
第二轮:(用户对话文本3)同意。-(客服对话文本4)请问异常账号绑定是来电手机号吗。
第三轮:(用户对话文本5)是另一个号,133XXXXXXXX-(客服对话文本6)您的账号涉及违规信息,冻结72小时,建议耐心等待冻结。
第四轮:(用户对话文本7)我什么时候有违规了,有证据吗,你现在给我解了。-(客服对话文本8)非常理解您的心情,建议您通过申诉渠道提交相关资料。
对于上述所列举的同归档工单1和同归档工单2,这两个工单的类别相同,都涉及社交账号的解封,其中,角色分为用户和客服。对于图6A中的平行段落替换,指将同归档工单1与同归档工单2的第四轮对话中的用户对话文本进行交换。交换后,同归档工单1的第四轮对话为:(用户对话文本7)我什么时候有违规了,有证据吗,你现在给我解了。-(客服对话文本8)已经为您备注处理,请留意后续短信通知哦。
同归档工单2的第四轮对话为:(用户对话文本7)最近被盗过一次,找回来就说我涉及违规。[截图]-(客服对话文本8)非常理解您的心情,建议您通过申诉渠道提交相关资料。
方式二、将两个参考工单样本中,属于同一对话发表方在不同对话轮数中所发表的对话文本进行随机交换。
在本申请实施例中,该方式也称作随机段落交换,即随机选取两个工单不同轮数的同角色对话互换。如图6B所示,其为本申请实施例中的一种随机段落交换的示意图。仍以上述所列举的同归档工单1和同归档工单2为例,图6B 中的随机段落替换,指将同归档工单1第三轮对话中的用户对话文本,与同归档工单2的第二轮对话中的用户对话文本进行交换。交换后,同归档工单1的第三轮对话为:
第三轮:(用户对话文本5)同意。-(客服对话文本6)您的账号近期是否有与他人共享过呢?
同归档工单2的第二轮对话为:
第二轮:(用户对话文本3)可以可以,你快给我查下-(客服对话文本4) 请问异常账号绑定是来电手机号吗。
方式三、将两个参考工单样本中,其中一个参考工单样本中的对话文本,随机插入另一个参考工单样本中,同一对话发表方所发表的对话文本之间。
在本申请实施例中,该方式也称作随机段落插入,即随机选择其他工单中同角色的对话插入原始工单。如图6C所示,其为本申请实施例中的一种随机段落插入的示意图。仍以上述所列举的同归档工单1和同归档工单2为例,图6B中的随机段落插入,指将同归档工单2第一轮对话中的用户对话文本(即用户对话文本1),插入同归档工单1的第一轮对话与第二轮对话中的用户对话文本(即用户对话文本1与用户对话文本3)之间。
另外,考虑到一般一问一答表示一轮对话,但是实际的对话过程中,可能会存在多问一答或者是一问多答等情况,此时,可通过补齐或截取等方式,对对话轮数进行对齐。例如,对于插入一句新的对话文本后的同归档工单1,可将原有的用户对话文本1(我的账号被冻结了,怎么才能解封?)与新插入的用户对话文本3(我登不上账号了,提示我违规,给我查下,我着急用号。) 这两句话合并为一句话,形成合并后的对话文本1,这样,调整后同归档工单1 中的第一轮对话为:(用户对话文本1)我的账号被冻结了,怎么才能解封?我登不上账号了,提示我违规,给我查下,我着急用号。-(客服对话文本2) 请您提供一下账号和联系方式哦,为您查询一下。很显然,通过该方式新生成的对话文本信息的语义并非发生变化。
具体地,在基于段落交叉策略,对多个参考工单样本进行数据增广时,以上所列举的三种对话交叉方式可单独使用,也可两两叠加,或三个叠加使用。参阅图7所示,其为本申请实施例中的一种平行段落交换与随机段落替换的叠加方法的示意图,该示意图中所列举的两个工单同上述图6A和图6B相同,即仍为同归档工单1与同归档工单2,基于平行段落替换的方式,指将同归档工单1与同归档工单2的第四轮对话中的用户对话文本进行交换;并基于随机段落替换的方式,将同归档工单1第三轮对话中的用户对话文本,与同归档工单 2的第二轮对话中的用户对话文本进行交换。
交换后,同归档工单1的第三轮对话为:(用户对话文本5)同意。-(客服对话文本6)您的账号近期是否有与他人共享过呢?
第四轮对话为:(用户对话文本7)我什么时候有违规了,有证据吗,你现在给我解了。-(客服对话文本8)已经为您备注处理,请留意后续短信通知哦。
同归档工单2的第二轮对话为:(用户对话文本3)可以可以,你快给我查下-(客服对话文本4)请问异常账号绑定是来电手机号吗。
第四轮对话为:(用户对话文本7)最近被盗过一次,找回来就说我涉及违规。[截图]-(客服对话文本8)非常理解您的心情,建议您通过申诉渠道提交相关资料。
此外,在采用策略二对多个参考工单样本进行数据增广时,除了上述所列举的对于同一参考工单样本,采用不同的交换规则叠加外,也可对于多个不同的参考工单样本,按照不同的比例,对参考样本工单进行数据增广。比如:平行段落交换(30%),随机段落交换(30%),随机段落插入(40%),等等。
需要说明的是,本申请实施例中所列举的上述几种交换规则只是简单的举例说明,实际上,任何一种不改变语义的交换规则都适用于本申请实施例,本文不做具体限定。
此外需要说明的是,上述策略一和策略二中所列举的几种数据增广的方式以自然语言的形式进行交叉互换、同义替代,该过程需要人工参与或标注,效率较低。如果引入模型特征进行数据增广的方法更具普适性与一般性,不需要人工参与且易于迁移至其他模型结构,具体实施方式如下策略三:
策略三:信息掩码重建策略:
在本申请实施例中,可基于信息掩码重建策略,对步骤S22中筛选出的参考工单样本中的部分或全部,进行数据增广。具体地,对于参考工单样本进行数据增广的过程具体为:
一种可选的实施方式为,可以按照如图8所示的流程图实施S23,其为本申请实施例中的一种数据增广方法的流程示意图,包括以下步骤(S81-S84):
S81:对于一个参考工单样本,服务器通过词向量映射获得该参考工单样本的对话文本信息中,各个分词的词向量。
在本申请实施例中,可将参考工单样本的对话文本信息通过分词工具进行分词处理,进而通过词向量映射,获得各个对话文本(也可称作对话语句)所包含的各个分词的词向量。
例如,对于每条对话语句S,通过词向量映射后可以生成
Figure RE-RE-GDA0003801866130000151
的矩阵,其中Xi即表示对话语句S中分词的词向量, i表示句子中的第i个词,取值为1~n(正整数),n表示对话语句S中的分词的数量。
另外,本申请实施例还可进一步设定每个对话文本中分词的数量一致,如设定为60个词,则在分词之后,对于不满60个词的对话文本,可用一个或多个无意义的词进行填充(padding),以保证最终得到的每个句子都为60个词。
S82:服务器分别基于各个分词的词向量,确定对话文本信息中各个目标信息各自的掩码概率。
可选的,目标信息为分词或对话文本,即对于一个工单中多条对话文本,可将某一个或多个对话文本整体做掩码标记进行掩码重建,也可将某一个或多个对话文本中某些位置的分词做掩码标记进行预测重建。
考虑到随机掩码的方法会屏蔽掉一些对话中的关键词造成语义丢失,产生不可预知的噪音,因而,本申请中的方法与常用的随机生成掩码的方式不同,本申请通过一个掩码概率矩阵来表示每个目标信息被替换成掩码的概率,一个目标信息越重要则这个目标信息被替换的概率越低,即该目标信息对应的掩码概率也就越低。
可选的,本申请实施例提供了一种基于显著性图的掩码重建增强,可基于显著性图来计算各个目标信息的掩码概率,具体地,分别基于各个分词的词向量,确定各个目标信息各自的掩码概率时,可分为以下子步骤(S821-S822):
S821:服务器分别基于各个分词的词向量,确定各个目标信息各自的显著性系数。
其中,显著性系数用于表征目标信息对工单分类结果的重要度。
在本申请实施例中,考虑到目标信息可以为对话文本,也可以是分词,因而,步骤S821的计算过程具体又可分为如下两种:
若目标信息为分词,则直接基于各个分词的词向量,来计算各个分词的显著性系数。
若目标信息为对话文本,则首先需要根据每条对话文本所包含的各个分词的词向量,来确定各条对话文本的句向量。进而,基于各个对话文本的句向量,来计算各个对话文本的显著性系数。
具体地,在根据一条对话文本所包含的各个分词的词向量,来确定该条对话文本的句向量时,可采用简单的拼接组合,也可采用门控循环单元(Gated Recurrent Unit,GRU)+自注意力机制(self-attention)的方式,如使用GRU和 self-attention对输入的词向量进行编码,将每个句子的词向量送入深度神经网络生成每一句话的句向量,等等。本文对基于多个词向量生成一个句向量的方式不做具体限定。
一种可选的实施方式为,基于如下方式执行步骤S821:
基于一个参考工单样本的分类概率,以及各个目标信息的信息向量,分别确定各个目标信息各自对应的显著性系数。其中,分类概率是基于工单分类模型预测得到的。
在本申请实施例中,若目标信息为分词,则信息向量为词向量;也即,对于一个参考工单样本中的各条对话文本,可以对话文本为单位,每条对话文本中分词的显著性系数都可采用如下方式计算:在计算一条对话文本中各个分词的显著性系数时,可基于该参考工单样本的分类概率,以及该对话文本中各个分词的词向量,分别确定该对话文本中各个分词各自对应的显著性系数,具体计算公式可参见下述公式(3),详细的计算过程具体可参见下文,重复之处不再赘述。
若目标信息为对话文本,信息向量为基于对话文本中各个分词的词向量确定的句向量。也即,对于一个参考工单样本中的各条对话文本,可以工单为单位,在计算各条对话文本的显著性系数时,可基于该参考工单样本的分类概率,以及该工单中各个对话文本的句向量,分别确定该工单中各个对话文本各自对应的显著性系数,具体计算过程同上述所列举的一个对话文本中各个分词的显著性系数计算过程相似,具体计算公式也可参见下述公式(3),区别在于其中的向量Xi应表示句向量,而n表示的是一个工单中所包含的对话文本的数量。
在上述实施方式中,结合各个目标信息的信息向量对分类概率的贡献计算得到的显著性系数,可有效表征各个目标信息对于分类结果的重要性,准确性更高。
S822:服务器分别基于各个显著性系数,确定相应的掩码概率。
在本申请实施例中,由于显著性系数表征的是目标信息对工单分类结果的重要度,也即一个目标信息的显著性系数越大,则这个目标信息越重要,被替换的概率越低,因而,掩码概率与相应的显著性系数成反比。一种具体的实施方式可参见下述公式(6),在此不做具体限定。
S83:服务器分别基于各个目标信息的掩码概率,对对话文本信息中的至少一个目标信息进行掩码重建,获得掩码重建后的对话文本信息。
具体地,考虑到一个目标信息的掩码概率越高,表明该目标信息在该对话文本信息中被选中进行掩码重建的可能性越大,因而,在步骤S83中,可将各个目标信息的掩码概率按照由大到小的顺序排序,选取排序结果在前15%的目标信息进行掩码重建。
例如,对于一个对话文本信息,若目标信息为对话文本(即对话语句),该对话文本信息共包含10轮对话,20条对话语句,则可将排序靠前的三条(20 ×15%=3)对话语句进行掩码,采用BERT作为MLM进行文本重建增强。
又比如,若目标信息为分词,则对于每条对话文本,都可选取该条对话文本中排序前15%的分词进行掩码重建。以某一条对话文本为例,该条对话文本中有60个分词,基于这60个分词各自的掩码概率按照由大到小排序后,选取前9个(60×15%=9)分词进行掩码,采用BERT作为MLM进行文本重建增强。
需要说明的是,上述所列举的基于各个目标信息的掩码概率,对对话文本信息中的至少一个目标信息进行掩码重建的方式只是举例说明,实际上,任何一种基于掩码概率来对对话文本信息中的目标信息进行掩码重建的方式,都适用于本申请实施例,本文不做具体限定。
此外,对于策略三种的掩码重建,上述所列举的是针对词进行掩码重建,或者针对句子进行掩码重建,除此之外,也可直接删除低信息交互句。其中,低信息交互句也即对整个会话的分类结果影响不大或无影响的语句,可在目标信息为对话文本的情况下,根据各个对话文本的掩码概率确定,如果一个对话文本的掩码概率很高,即可表示该对话文本不重要,可直接删除。
S84:服务器基于掩码重建后的对话文本信息和该参考工单样本的类别标签,生成该参考工单样本对应的扩展工单样本。
参阅图9所示,其为本申请实施例中的一种信息掩码重建的逻辑示意图。
具体地,对于一个参考工单样本,其对话文本信息包括:对话1、对话2、对话3、对话4…,首先需要对该参考工单样本的对话文本信息中各个分词,计算相应的掩码概率;进而,选取前15%的分词进行掩码;进而基于BERT进行掩码重建,获得新的对话文本信息,包括:对话1'、对话2'、对话3'、对话4'…将该新的对话文本信息与该参考工单样本的类别标签(A类别)进行结合,获得对应的扩展工单样本。
需要说明的是,上述所列举的信息掩码重建的方式只是举例说明,任何一种信息掩码重建的方式都适用于本申请实施例,本文不做具体限定。
在上述实施方式中,引入模型特征进行数据增广,不需要人工参与且易于迁移至其他模型结构,并且结合显著性图计算掩码概率,不同于随机掩码的方式,可有效保证生成文本的语义不变性。
需要说明的是,上述所列举的策略三中的主架构网络,还可以通过增加节点数、优化编码方式以取得更好的性能。
此外,为了防止异常增广数据影响到最终效果,还可对增广数据用注意力矩阵的方式对原始数据进行加权,以优化最终结果。一种可选的实施方式为,在通过词向量映射获得一个参考工单样本的对话文本信息中,各个分词的词向量之后,还可通过注意力机制,对各个分词的词向量进行注意力加权,获得更新后各个分词的词向量。该方式下,则需要根据更新后的各个分词的词向量,确定对话文本信息中各个目标信息各自的掩码概率。
参阅图10所示,其为本申请实施例中的一种掩码概率的计算方法的流程示意图,具体包括如下过程(S101-S106):
S101:对于一个参考工单样本,服务器通过词向量映射获得该参考工单样本的对话文本信息中,各个分词的词向量。
S102:服务器通过注意力机制,对各个分词的词向量进行注意力加权,获得更新后各个分词的词向量。
具体地,结合注意力机制可学习各个分词的重要性,基于此方式,对于更重要的分词,可赋予较高的权重,对于不重要的分词,可赋予较低的权重,进而,通过结合该方式调整后的词向量,再计算得到的显著性系数,能够更加有效的表征各个目标信息的重要性。
S103:服务器分别基于更新后各个分词的词向量,确定各个目标信息各自的显著性系数。
具体地,该步骤的具体实现方式同步骤S821类似,只是所用到的词向量上有所区别,该步骤中的词向量是通过注意力机制优化后的词向量。
在本申请实施例中,考虑到该步骤中显著性系数的计算依赖于当前训练的网络,训练初期的网络梯度可能存在非常大的噪音,并且在局部范围内剧烈波动,因此本申请提出了一种显著性系数的优化方法。在分别基于各个分词的词向量(或更新后各个分词的词向量),确定各个目标信息各自的显著性系数之后,还可进一步对目标信息的显著性系数进行优化。
一种可选的实施方式为,以分别基于更新后各个分词的词向量,确定各个目标信息各自的显著性系数为例,则在步骤S103之后,还可进一步包括如下步骤:
S104:服务器基于各个目标信息的显著性系数,确定相应的显著性系数协方差矩阵。
在统计学与概率论中,协方差矩阵是一个矩阵,其每个元素是各个向量元素之间的协方差。在本申请实施例中,可将各个目标信息所对应的显著性系数看作是各个向量元素,通过计算目标信息所对应的显著性系数之间的协方差,来构建协方差矩阵。
具体地,目标信息可以是对话文本,也可以是对话文本中的分词。一个对话文本信息通过会包含至少一轮对话文本(一问一答-两个对话文本),而每个对话文本又可包含一个或多个分词,因而,根据目标信息的不同,显著性系数协方差矩阵可以有一个,也可以有多个,如下:
若目标信息为对话文本,则各个目标信息对应的显著性系数协方差矩阵有一个,该显著性系数协方差矩阵为:基于对话文本信息中各个对话文本的显著性系数之间的协方差生成的。
若目标信息为分词,则显著性系数协方差矩阵可以有一个,也可以有多个,如为一个,则该显著性系数协方差矩阵为:基于对话文本信息中的各个分词的显著性系数之间的协方差生成的。若有多个,则显著性系数协方差矩阵与对话文本信息中的对话文本一一对应,每个显著性系数协方差矩阵为:基于相应的对话文本中各个分词的显著性系数之间的协方差生成的。在目标信息为分词的情况下,由于一个对话文本信息一般会包含多轮对话,多个对话文本,而每个对话文本又可划分为多个分词,因而为了方便计算,本文主要是以对话文本为单位,以显著性系数协方差矩阵与对话文本信息中的对话文本一一对应的情况为例进行举例说明的,具体可参见下文。
S105:服务器基于显著性系数协方差矩阵,确定各个目标信息对应的更新后的显著性系数。
在一种可选的实施方式中,步骤S105具体又可分为如下几个子步骤 (S1051-S1053),对于每个目标信息,分别执行以下操作:
S1051:服务器对于一个目标信息,基于该目标信息相应的显著性系数协方差矩阵,对该目标信息的信息向量进行多次修正。
具体地,根据目标信息的类型,可分为以下两种情况:
情况一、若目标信息为对话文本,则信息向量为基于对话文本中各个分词的词向量确定的句向量。
即,若目标信息为对话语句,则可基于该工单对应的显著性系数协方差矩阵,对该对话语句的句向量进行多次修正。
情况二、若目标信息为分词,则信息向量为词向量。
即,若目标信息为分词,则可基于该分词所属的对话语句对应的显著性系数协方差矩阵,对该分词的词向量进行多次修正。
可选的,步骤S1051具体又可分为如下几个子步骤(S10511-S10512,图 10中未示出):
S10511:服务器通过基于显著性系数协方差矩阵确定的高斯分布,获得该目标信息对应的多个高斯噪声。
其中,该高斯分布的方差为显著性系数协方差矩阵的对角线元素之和;另外,该高斯分布的均值为0。
本申请通过一个高斯分布
Figure RE-RE-GDA0003801866130000191
来获得所需的扰动(即高斯噪声),其中此高斯分布的均值为0,∑即为显著性系数协方差矩阵,通过计算显著性系数协方差矩阵∑的对角线元素之和获得高维特征的分布方差,也即该高斯分布的方差。
其中,基于该高斯分布可获取多个高斯噪声,每个高斯噪声的维度与目标信息的信息向量的维度相同。
S10512:服务器基于多个高斯噪声,分别对该目标信息的信息向量进行多次修正。
具体地,步骤S10511中确定的高斯噪声的维度,与目标信息的信息向量的维度相同,因而,基于一个高斯噪声对该目标信息的信息向量进行一次修正时,可表示为将该高斯噪声与该目标信息原始的信息向量进行向量求和,获得修正后的信息向量。
在上述实施方式中,通过对原始梯度增加高斯噪声进行平滑性过渡,可有效减少训练初期的网络梯度在局部范围内的剧烈波动,提高计算结果的准确性。
S1052:服务器基于该参考工单样本的分类概率,以及修正后的各个信息向量,分别确定该目标信息对应的各个中间显著性系数;
具体地,该中间显著性系数的计算方式,同上述S82中所列举的初始的显著性系数的计算过程相似,同样可参考公式(4)、(5)。区别在于,这里的向量Xi表示的是修正后的信息向量。
S1053:服务器将各个中间显著性系数的均值,作为该目标信息对应的更新后的显著性系数。
其中,分类概率是基于工单分类模型预测得到的。
比如,步骤S1051中的目标信息为一个对话语句,则可确定该对话语句对应的多个高斯噪声,分别基于各个高斯噪声,对该对话语句的句向量进行修正,并基于修正后的各个句向量,重新计算各个对话语句的显著性系数(即中间显著性系数)后,即可将重新计算得到的中间显著性系数的均值,作为该对话语句更新后的显著性系数。
又比如,步骤S1051中的目标信息为一个分词,则可确定该分词对应的多个高斯噪声,分别基于各个高斯噪声,对该分词的句向量进行修正,并基于修正后的各个词向量,重新计算各个分词的显著性系数(即中间显著性系数)后,即可将重新计算得到的中间显著性系数的均值,作为该分词更新后的显著性系数。
需要说明的是,步骤S105中的具体计算过程可参见下述公式(4)、(5),重复之处不再赘述。
S106:服务器分别基于各个更新后的显著性系数,确定相应的掩码概率,掩码概率与相应的更新后的显著性系数成反比。
具体地,该步骤同上述所列举的S822相似,区别仅在于显著性系数的更新,重复之处不再赘述。
具体地,下面采用BERT作为MLM进行文本重建增强,同时引入基于显著性图的掩码替换方法来保证生成文本的语义不变性,以目标信息为分词为例,对分词的掩码重建过程进行详细介绍,具体实施方式如下:
在本申请实施例中,可以对话语句为单位,对于对话文本信息中的每条对话语句,都可执行如下过程:
本申请中的方法与常用的随机生成掩码的方式不同,本申请通过一个掩码概率矩阵来表示句子中每个词被替换成掩码的概率,一个词越重要则这个词被替换的概率越低,掩码概率矩阵的一种表示方式如下公式(1):
p=[p1,p2,...,pn] (1)
其中,pn为句子中第n个词被替换的概率。对于每条输入的对话语句S,通过词向量映射后可以生成
Figure RE-RE-GDA0003801866130000201
的矩阵,在通过多轮对话分类模型后得到当前模型分类结果分数y。本申请通过显著性图(saliency map)来衡量句子中每个词对于结果y的重要程度,如下公式(2)和公式(3)所示:
Figure RE-RE-GDA0003801866130000202
Figure RE-RE-GDA0003801866130000211
其中,m为句子中每个词的显著性系数所组成的向量,共包含n个元素,y 为通过当前多轮对话模型得到分类结果分数(即分类概率),1T为指示函数,用于指示在数据归一化过程中的零填充(0-padding)值。通过对
Figure RE-RE-GDA0003801866130000212
得到的分数进行微分,累加每个词的嵌入矩阵
Figure RE-RE-GDA0003801866130000213
中所有维度的微分梯度,来衡量第i 个词对分类结果的重要性。M(Xi)即表示句子中第i个词对分类结果的重要性,也即第i个词的显著性系数,i的取值为1~n(正整数),n表示对话语句S中的分词的数量。
由于此梯度计算方式依赖于当前训练的网络,训练初期的网络梯度可能存在非常大的噪音,并且在局部范围内剧烈波动,因此本申请对原始梯度增加了高斯噪声进行平滑性过渡。
Figure RE-RE-GDA0003801866130000214
Figure RE-RE-GDA0003801866130000215
本申请通过一个高斯分布
Figure RE-RE-GDA0003801866130000216
来获得所需的扰动,其中此高斯分布的均值为0。其中,
Figure RE-RE-GDA0003801866130000217
zj即对话语句S中第i个词对应的第j个高斯噪声,该高斯噪声与其对应的词向量的维度相同,都是1×d,即包含d个元素的一维向量。其中,j的取值可以为1~n,在公式(4)中,即表示可计算得到n个中间显著性系数,M(Xi+zj)即第i个分词对应的第j个中间显著性系数,计算方式同上述公式(3)。
在本申请实施例中,通过计算显著性系数协方差矩阵∑的对角线元素之和获得高维特征的分布方差,获得高斯噪声后对原始梯度进行噪音加和求均值,可以获得高斯平滑后的显著性系数,即更新后的显著性系数
Figure RE-RE-GDA0003801866130000218
在实际应用中,根据上式获得的显著性系数作为词在文本中的重要性度量,那么在做掩码的过程中某个词被替换的概率pi应该与其显著性系数成反比,即越重要的词被替换的概率越低,尽量避免由于关键词替换造成的语义变化缺失。
Figure RE-RE-GDA0003801866130000219
其中,超参数β控制概率的平缓度,概率pi通过其总和进行归一化。
本申请基于pi矩阵对每个工单中的15%的词替换为掩码,同时利用BERT对这些掩码部分进行预测重建成为增广数据集进行训练,由于梯度会随着网络训练变化,所以本申请的概率矩阵p也会在每次迭代的过程中随之变化。
需要说明的是,目标信息为对话文本时也是类似的计算过程,重复之处不再赘述。
下面以三种策略组合为例,参阅图11所示,其为本申请实施例中的一种整体模型结构图。本申请使用MHAN作为基础模型构建智能归档分类网络,通过增加额外的数据增广模块对数据进行增广。增广的方法分为词级别替换增强,同归档工单段落间交叉插入,基于显著性图的掩码重建三部分,增广操作主要针对在实际数据中大量的长尾样本。
在本申请实施例中,经过对比实验表明在对长尾数据进行增广处理后,模型的性能有明显提升,同时在测试集上也表现出了更加优秀的鲁棒性。具体实验如下:
本申请使用连续三个月的历史工单数据进行清洗过滤后作为训练数据,本申请定义如果一个归档路径下的数据小于100单即为长尾样本。同时取现网连续一周的数据作为测试集评估模型训练效果和覆盖度。本申请同时对比了无数据增广、词段落级别数据增广以及全部增广方式对模型性能的影响。
通过在不同归档数的对比实验中可以明显看出,当引入数据增广后,原始模型在测试集上的效果有明显提升,横向来看增广方式越丰富模型对长尾样本的学习效果就越好,纵向来看在长尾样本较多的时候数据增广对模型性能带来的提升越高,也证明了数据增广对长尾问题有明显的改善效果。
表2:数据增广效果对比实验
Figure RE-RE-GDA0003801866130000221
本技术方案通过对长尾工单样本进行多种类型的数据增广以强化智能归档的模型对长尾样本的学习能力,使得模型在数据量有限、长尾样本过多的情况下可以改善长尾样本表现较差,容易过拟合的情况,效果如表2所示。本方法易于实现泛用性强,可以应用于各种工单应用场景。
参阅图12所示,其为本申请实施例中的一种工单分类方法的时序流程图,以服务器为执行主体为例,该方法的具体实施流程如下:
步骤S121:服务器获取初始的工单样本集;
步骤S122:服务器基于各个工单样本的类别标签,确定工单样本集中各类别的工单样本的数量;
步骤S123:服务器将数量低于预设阈值的类别对应的至少一个工单样本,作为参考工单样本;
步骤S124:服务器将筛选出的参考工单样本分为三部分,分别为:第一部分参考工单样本,第二部分参考工单样本和第三部分参考工单样本;
步骤S125:服务器基于同义词替换策略,对第一部分参考工单样本进行数据增广,获得对应的扩展工单样本;
步骤S126:服务器基于段落交叉策略,对第二部分参考工单样本进行数据增广,获得对应的扩展工单样本;
步骤S127:服务器基于信息掩码重建策略,对第三部分参考工单样本进行数据增广,获得对应的扩展工单样本;
步骤S128:服务器基于各个工单样本和获得的扩展工单样本构建训练样本集,对待训练的多轮对话分类模型进行模型训练,获得已训练的工单分类模型。
步骤S129:服务器基于已训练的工单分类模型,确定待分类客服工单所属的工单类别。
参阅图13所示,其为本申请实施例中的一种工单分类方法的逻辑示意图。具体地,对于初始的工单样本集,该工单样本集中有A类别,B类别,C类别和D类别这四种类别的工单样本。可参考图4所列举的筛选方式,筛选出其中的参考工单样本,并将参考工单样本等分为三份,分别为A组,B组和C组,进而,分别采用三种策略对参考工单样本进行数据增广,获得对应的扩展工单样本。基于扩展工单样本和初始的工单样本集构建训练样本集,进而,基于该样本集对MHAN进行训练即可。
综上,本申请中提出了一种利用业务同义词泛化、同归档工单段落交叉互换、基于显著性图的掩码重建的联合增强方法,用于对客服工单中长尾样本数据进行数据增广。同时本申请使用MHAN模型作为基础智能归档模型,并在此模型上进行了数据增广操作进行对比效果评估。实验数据表明在该数据增广方法工单智能归档模型中取得了良好的效果,同时此方法也同样适用于各种以长对话为基础数据的任务型对话模型或无监督聚类体系中。
基于相同的发明构思,本申请实施例还提供一种工单分类模型训练装置。如图14所示,其为工单分类模型训练装置1400的结构示意图,可以包括:
获取单元1401,用于获取工单样本集,每个工单样本包括:相应客服工单的类别标签,以及相应客服工单的业务处理对象与业务服务对象之间的对话文本信息,对话文本信息是基于相应客服工单记录的客服会话得到的;
筛选单元1402,用于基于各个工单样本的类别标签,从工单样本集中筛选出至少一个待扩展的参考工单样本;
增广单元1403,用于基于预设数据增广策略,分别对至少一个参考工单样本中的对话文本信息进行数据增广,获得对应的扩展工单样本,预设数据增广策略用于指示:对对话文本信息进行非关键信息替换,非关键信息为替换前后不改变对话文本信息的语义的信息;
训练单元1404,用于基于各个工单样本和获得的扩展工单样本进行模型训练,获得已训练的工单分类模型,工单分类模型用于确定待分类客服工单所属的工单类别。
可选的,预设数据增广策略包括以下至少一种:
用于对对话文本信息中的非关键信息进行同义词替换的同义词替换策略;
用于对话文本信息进行非关键信息交叉的段落交叉策略;
用于对对话文本信息中的非关键信息进行掩码重建的信息掩码重建策略。
可选的,预设数据增广策略包括同义词替换策略;
增广单元1403具体用于,对于至少一个参考工单样本中的部分或全部,分别执行以下操作:
对于一个参考工单样本,基于预设的同义词词表,对一个参考工单样本的对话文本信息中的至少一个业务相关词进行同义词替换,获得对应的扩展工单样本。
可选的,预设数据增广策略包括段落交叉策略;
增广单元1403具体用于,对于至少一个参考工单样本中的部分或全部,分别执行以下操作:
对于类别标签相同的两个参考工单样本,将两个参考工单样本的对话文本信息中,属于同一对话发表方所发表的对话文本进行对话交叉,获得对应的扩展工单样本;对话发表方为业务处理对象或业务服务对象。
可选的,对话文本信息包括:业务处理对象与业务服务对象之间的至少一轮对话文本;
增广单元1403具体用于通过以下至少一种方式进行对话交叉:
将两个参考工单样本中,属于同一对话发表方在同一对话轮数中所发表的对话文本进行平行交换;
将两个参考工单样本中,属于同一对话发表方在不同对话轮数中所发表的对话文本进行随机交换;
将两个参考工单样本中,其中一个参考工单样本中的对话文本,随机插入另一个参考工单样本中,同一对话发表方所发表的对话文本之间。
可选的,预设数据增广策略包括信息掩码重建策略;
增广单元1403具体用于,对于至少一个参考工单样本中的部分或全部,分别执行以下操作:
对于一个参考工单样本,通过词向量映射获得一个参考工单样本的对话文本信息中,各个分词的词向量;
分别基于各个分词的词向量,确定对话文本信息中各个目标信息各自的掩码概率,目标信息为分词或对话文本;
分别基于各个目标信息的掩码概率,对对话文本信息中的至少一个目标信息进行掩码重建,获得对应的扩展工单样本。
可选的,增广单元1403具体用于:
分别基于各个分词的词向量,确定各个目标信息各自的显著性系数,显著性系数用于表征目标信息对工单分类结果的重要度;
分别基于各个显著性系数,确定相应的掩码概率,掩码概率与相应的显著性系数成反比。
可选的,增广单元1403具体用于:
基于一个参考工单样本的分类概率,以及各个目标信息的信息向量,分别确定各个目标信息各自对应的显著性系数;分类概率是基于工单分类模型预测得到的;
其中,若目标信息为分词,信息向量为词向量;若目标信息为对话文本,信息向量为基于对话文本中各个分词的词向量确定的句向量。
可选的,增广单元1403还用于:
在分别基于各个分词的词向量,确定各个目标信息各自的显著性系数之后,基于各个目标信息的显著性系数,确定相应的显著性系数协方差矩阵;
基于显著性系数协方差矩阵,确定各个目标信息对应的更新后的显著性系数;
增广单元1403具体用于:
分别基于各个更新后的显著性系数,确定相应的掩码概率,掩码概率与相应的更新后的显著性系数成反比。
可选的,增广单元1403具体用于,对于每个目标信息,分别执行以下操作:
对于一个目标信息,基于显著性系数协方差矩阵,对一个目标信息的信息向量进行多次修正;
基于一个参考工单样本的分类概率,以及修正后的各个信息向量,分别确定目标信息对应的各个中间显著性系数;
将各个中间显著性系数的均值,作为一个目标信息对应的更新后的显著性系数;分类概率是基于工单分类模型预测得到的。
可选的,增广单元1403具体用于:
通过基于显著性系数协方差矩阵确定的高斯分布,获得一个目标信息对应的多个高斯噪声;高斯分布的方差为显著性系数协方差矩阵的对角线元素之和;
分别基于各个高斯噪声,对一个目标信息的信息向量进行一次修正。
可选的,增广单元1403具体用于:
若目标信息为对话文本,则显著性系数协方差矩阵为:基于对话文本信息中各个对话文本的显著性系数之间的协方差生成的;
若目标信息为分词,则显著性系数协方差矩阵与对话文本信息中的对话文本一一对应,每个显著性系数协方差矩阵为:基于相应的对话文本中各个分词的显著性系数之间的协方差生成的。
可选的,增广单元1403还用于,通过下列方式确定目标信息的信息向量:
若目标信息为对话文本,则信息向量为基于对话文本中各个分词的词向量确定的句向量;
若目标信息为分词,则信息向量为词向量。
可选的,增广单元1403还用于:
在通过词向量映射获得一个参考工单样本的对话文本信息中,各个分词的词向量之后,通过注意力机制,对各个分词的词向量进行注意力加权,获得更新后各个分词的词向量;
分别基于各个分词的词向量,确定对话文本信息中各个目标信息各自的掩码概率,包括:
分别基于更新后的各个分词的词向量,确定对话文本信息中各个目标信息各自的掩码概率。
可选的,筛选单元1402具体用于:
基于各个工单样本的类别标签,确定工单样本集中各类别的工单样本的数量;
将数量低于预设阈值的类别对应的至少一个工单样本,作为参考工单样本。
由于本申请提出了一种适用于客服工单的增广方法,通过各个客服工单所属的类别筛选出样本,基于该方式,可从初始样本集中筛选出类别符合一定条件的参考工单样本;进而,基于预设数据增广策略,对参考工单样本中的对话文本信息进行数据增广,且保证通过数据增广得到的扩展工单样本的对话文本信息,与相应的参考工单样本中的对话文本信息的语义相同,可在不改变工单所记录的客服对话的语义的情况下,实现一些类别的工单的样本扩充。基于该方式,通过对工单样本的扩展,可均衡各类工单样本的数量,进而,再基于各个工单样本和获得的扩展工单样本进行模型训练,则可有效解决训练数据中长尾问题对模型训练带来的影响,使得模型可以充分学习到各种类别的工单的特征,以避免过拟合,提高模型的准确性。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
在介绍了本申请示例性实施方式的工单分类模型训练方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的电子设备。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种电子设备。在一种实施例中,该电子设备可以是服务器,如图1所示的服务器120。在该实施例中,电子设备的结构可以如图15所示,包括存储器1501,通讯模块1503以及一个或多个处理器1502。
存储器1501,用于存储处理器1502执行的计算机程序。存储器1501可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器1501可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器1501也可以是非易失性存储器 (non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器 1501是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。存储器1501可以是上述存储器的组合。
处理器1502,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器1502,用于调用存储器1501中存储的计算机程序时实现上述工单分类模型训练方法。
通讯模块1503用于与终端设备和其他服务器进行通信。
本申请实施例中不限定上述存储器1501、通讯模块1503和处理器1502之间的具体连接介质。本申请实施例在图15中以存储器1501和处理器1502之间通过总线1504连接,总线1504在图15中以粗线描述,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1504可以分为地址总线、数据总线、控制总线等。为便于描述,图15中仅用一条粗线描述,但并不描述仅有一根总线或一种类型的总线。
存储器1501中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的工单分类模型训练方法。处理器1502用于执行上述的工单分类模型训练方法,如图2所示。
在另一种实施例中,电子设备也可以是其他电子设备,如图1所示的终端设备110。在该实施例中,电子设备的结构可以如图16所示,包括:通信组件 1610、存储器1620、显示单元1630、摄像头1640、传感器1650、音频电路1660、蓝牙模块1670、处理器1680等部件。
通信组件1610用于与服务器进行通信。在一些实施例中,可以包括电路无线保真(Wireless Fidelity,WiFi)模块,WiFi模块属于短距离无线传输技术,电子设备通过WiFi模块可以帮助用户收发信息。
存储器1620可用于存储软件程序及数据。处理器1680通过运行存储在存储器1620的软件程序或数据,从而执行终端设备110的各种功能以及数据处理。存储器1620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1620 存储有使得终端设备110能运行的操作系统。本申请中存储器1620可以存储操作系统及各种应用程序,还可以存储执行本申请实施例工单分类模型训练方法的计算机程序。
显示单元1630还可用于显示由用户输入的信息或提供给用户的信息以及终端设备110的各种菜单的图形用户界面(graphical user interface,GUI)。具体地,显示单元1630可以包括设置在终端设备110正面的显示屏1632。其中,显示屏1632可以采用液晶显示器、发光二极管等形式来配置。显示单元1630 可以用于显示本申请实施例中的工单分类,客服会话等相关用户界面等。
显示单元1630还可用于接收输入的数字或字符信息,产生与终端设备110 的用户设置以及功能控制有关的信号输入,具体地,显示单元1630可以包括设置在终端设备110正面的触控屏1631,可收集用户在其上或附近的触摸操作,例如点击按钮,拖动滚动框等。
其中,触控屏1631可以覆盖在显示屏1632之上,也可以将触控屏1631 与显示屏1632集成而实现终端设备110的输入和输出功能,集成后可以简称触摸显示屏。本申请中显示单元1630可以显示应用程序以及对应的操作步骤。
摄像头1640可用于捕获静态图像,用户可以将摄像头1640拍摄的图像通过应用发布。摄像头1640可以是一个,也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device, CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor, CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给处理器1680转换成数字图像信号。
终端设备还可以包括至少一种传感器1650,比如加速度传感器1651、距离传感器1652、指纹传感器1653、温度传感器1654。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。
音频电路1660、扬声器1661、传声器1662可提供用户与终端设备110之间的音频接口。音频电路1660可将接收到的音频数据转换后的电信号,传输到扬声器1661,由扬声器1661转换为声音信号输出。终端设备110还可配置音量按钮,用于调节声音信号的音量。另一方面,传声器1662将收集的声音信号转换为电信号,由音频电路1660接收后转换为音频数据,再将音频数据输出至通信组件1610以发送给比如另一终端设备110,或者将音频数据输出至存储器 1620以便进一步处理。
蓝牙模块1670用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如,终端设备可以通过蓝牙模块1670与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接,从而进行数据交互。
处理器1680是终端设备的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器1620内的软件程序,以及调用存储在存储器1620内的数据,执行终端设备的各种功能和处理数据。在一些实施例中,处理器1680可包括一个或多个处理单元;处理器1680还可以集成应用处理器和基带处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,基带处理器主要处理无线通信。可以理解的是,上述基带处理器也可以不集成到处理器1680中。本申请中处理器1680可以运行操作系统、应用程序、用户界面显示及触控响应,以及本申请实施例的工单分类模型训练方法。另外,处理器1680与显示单元1630耦接。
在一些可能的实施方式中,本申请提供的工单分类模型训练方法的各个方面还可以实现为一种程序产品的形式,其包括计算机程序,当程序产品在电子设备上运行时,计算机程序用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的工单分类模型训练方法中的步骤,例如,电子设备可以执行如图2中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器 (CD-ROM)并包括计算机程序,并可以在电子设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的计算机程序,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。计算机程序可以完全地在用户电子设备上执行、部分地在用户电子设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户电子设备,或者,可以连接到外部电子设备。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。本申请可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质上实施的计算机程序产品的形式。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (19)

1.一种工单分类模型训练方法,其特征在于,该方法包括:
获取工单样本集,每个工单样本包括:相应客服工单的类别标签,以及所述相应客服工单的业务处理对象与业务服务对象之间的对话文本信息,所述对话文本信息是基于所述相应客服工单记录的客服会话得到的;
基于各个工单样本的类别标签,从所述工单样本集中筛选出至少一个待扩展的参考工单样本;
基于预设数据增广策略,分别对至少一个参考工单样本中的对话文本信息进行数据增广,获得对应的扩展工单样本,所述预设数据增广策略用于指示:对所述对话文本信息进行非关键信息替换,所述非关键信息为替换前后不改变所述对话文本信息的语义的信息;
基于各个工单样本和获得的扩展工单样本进行模型训练,获得已训练的工单分类模型,所述工单分类模型用于确定待分类客服工单所属的工单类别。
2.如权利要求1所述的方法,其特征在于,所述预设数据增广策略包括以下至少一种:
用于对对话文本信息中的非关键信息进行同义词替换的同义词替换策略;
用于对话文本信息进行非关键信息交叉的段落交叉策略;
用于对对话文本信息中的非关键信息进行掩码重建的信息掩码重建策略。
3.如权利要求2所述的方法,其特征在于,所述预设数据增广策略包括同义词替换策略;
所述基于预设数据增广策略,分别对至少一个参考工单样本中的对话文本信息进行数据增广,获得对应的扩展工单样本时,对于所述至少一个参考工单样本中的部分或全部,分别执行以下操作:
对于一个参考工单样本,基于预设的同义词词表,对所述一个参考工单样本的对话文本信息中的至少一个业务相关词进行同义词替换,获得对应的扩展工单样本。
4.如权利要求2所述的方法,其特征在于,所述预设数据增广策略包括段落交叉策略;
基于预设数据增广策略,分别对至少一个参考工单样本中的对话文本信息进行数据增广,获得对应的扩展工单样本时,对于所述至少一个参考工单样本中的部分或全部,分别执行以下操作:
对于类别标签相同的两个参考工单样本,将所述两个参考工单样本的对话文本信息中,属于同一对话发表方所发表的对话文本进行对话交叉,获得对应的扩展工单样本;所述对话发表方为所述业务处理对象或所述业务服务对象。
5.如权利要求4所述的方法,其特征在于,所述对话文本信息包括:所述业务处理对象与所述业务服务对象之间的至少一轮对话文本;
所述将所述两个参考工单样本的对话文本信息中,属于同一对话发表方所发表的对话文本进行对话交叉,包括以下至少一种方式:
将所述两个参考工单样本中,属于同一对话发表方在同一对话轮数中所发表的对话文本进行平行交换;
将所述两个参考工单样本中,属于同一对话发表方在不同对话轮数中所发表的对话文本进行随机交换;
将所述两个参考工单样本中,其中一个参考工单样本中的对话文本,随机插入另一个参考工单样本中,同一对话发表方所发表的对话文本之间。
6.如权利要求2所述的方法,其特征在于,所述预设数据增广策略包括信息掩码重建策略;
基于预设数据增广策略,分别对至少一个参考工单样本中的对话文本信息进行数据增广,获得对应的扩展工单样本时,对于所述至少一个参考工单样本中的部分或全部,分别执行以下操作:
对于一个参考工单样本,通过词向量映射获得所述一个参考工单样本的对话文本信息中,各个分词的词向量;
分别基于所述各个分词的词向量,确定所述对话文本信息中各个目标信息各自的掩码概率,所述目标信息为分词或对话文本;
分别基于各个目标信息的掩码概率,对所述对话文本信息中的至少一个目标信息进行掩码重建,获得对应的扩展工单样本。
7.如权利要求6所述的方法,其特征在于,所述分别基于所述各个分词的词向量,确定各个目标信息各自的掩码概率,包括:
分别基于所述各个分词的词向量,确定各个目标信息各自的显著性系数,所述显著性系数用于表征所述目标信息对工单分类结果的重要度;
分别基于各个显著性系数,确定相应的掩码概率,所述掩码概率与相应的显著性系数成反比。
8.如权利要求7所述的方法,其特征在于,所述分别基于所述各个分词的词向量,确定各个目标信息各自的显著性系数,包括:
基于所述一个参考工单样本的分类概率,以及各个目标信息的信息向量,分别确定所述各个目标信息各自对应的显著性系数;所述分类概率是基于工单分类模型预测得到的;
其中,若所述目标信息为分词,所述信息向量为词向量;若所述目标信息为对话文本,所述信息向量为基于所述对话文本中各个分词的词向量确定的句向量。
9.如权利要求7所述的方法,其特征在于,在所述分别基于所述各个分词的词向量,确定各个目标信息各自的显著性系数之后,还包括:
基于所述各个目标信息的显著性系数,确定相应的显著性系数协方差矩阵;
基于所述显著性系数协方差矩阵,确定所述各个目标信息对应的更新后的显著性系数;
所述分别基于各个显著性系数,确定相应的掩码概率,包括:
分别基于各个更新后的显著性系数,确定相应的掩码概率,所述掩码概率与相应的更新后的显著性系数成反比。
10.如权利要求9所述的方法,其特征在于,基于所述显著性系数协方差矩阵,确定所述各个目标信息对应的更新后的显著性系数时,对于每个目标信息,分别执行以下操作:
对于一个目标信息,基于所述显著性系数协方差矩阵,对所述一个目标信息的信息向量进行多次修正;
基于所述一个参考工单样本的分类概率,以及修正后的各个信息向量,分别确定所述目标信息对应的各个中间显著性系数;
将所述各个中间显著性系数的均值,作为所述一个目标信息对应的更新后的显著性系数;所述分类概率是基于工单分类模型预测得到的。
11.如权利要求10所述的方法,其特征在于,所述基于所述显著性系数协方差矩阵,对所述一个目标信息的信息向量进行多次修正,包括:
通过基于所述显著性系数协方差矩阵确定的高斯分布,获得所述一个目标信息对应的多个高斯噪声;所述高斯分布的方差为所述显著性系数协方差矩阵的对角线元素之和;
分别基于各个高斯噪声,对所述一个目标信息的信息向量进行一次修正。
12.如权利要求9所述的方法,其特征在于,所述基于所述各个目标信息的显著性系数,确定相应的显著性系数协方差矩阵,包括:
若所述目标信息为对话文本,则所述显著性系数协方差矩阵为:基于所述对话文本信息中各个对话文本的显著性系数之间的协方差生成的;
若所述目标信息为分词,则所述显著性系数协方差矩阵与所述对话文本信息中的对话文本一一对应,每个显著性系数协方差矩阵为:基于相应的对话文本中各个分词的显著性系数之间的协方差生成的。
13.如权利要求10所述的方法,其特征在于,通过下列方式确定目标信息的信息向量:
若目标信息为对话文本,则所述信息向量为基于所述对话文本中各个分词的词向量确定的句向量;
若目标信息为分词,则所述信息向量为词向量。
14.如权利要求6~13任一项所述的方法,其特征在于,在所述通过词向量映射获得所述一个参考工单样本的对话文本信息中,各个分词的词向量之后,还包括:
通过注意力机制,对所述各个分词的词向量进行注意力加权,获得更新后所述各个分词的词向量;
所述分别基于所述各个分词的词向量,确定所述对话文本信息中各个目标信息各自的掩码概率,包括:
分别基于更新后的所述各个分词的词向量,确定所述对话文本信息中各个目标信息各自的掩码概率。
15.如权利要求1~13任一项所述的方法,其特征在于,所述基于各个工单样本的类别标签,从所述工单样本集中筛选出至少一个待扩展的参考工单样本,包括:
基于所述各个工单样本的类别标签,确定所述工单样本集中各类别的工单样本的数量;
将数量低于预设阈值的类别对应的至少一个工单样本,作为所述参考工单样本。
16.一种工单分类模型训练装置,其特征在于,包括:
获取单元,用于获取工单样本集,每个工单样本包括:相应客服工单的类别标签,以及所述相应客服工单的业务处理对象与业务服务对象之间的对话文本信息,所述对话文本信息是基于所述相应客服工单记录的客服会话得到的;
筛选单元,用于基于各个工单样本的类别标签,从所述工单样本集中筛选出至少一个待扩展的参考工单样本;
增广单元,用于基于预设数据增广策略,分别对至少一个参考工单样本中的对话文本信息进行数据增广,获得对应的扩展工单样本,所述预设数据增广策略用于指示:对所述对话文本信息进行非关键信息替换,所述非关键信息为替换前后不改变所述对话文本信息的语义的信息;
训练单元,用于基于各个工单样本和获得的扩展工单样本进行模型训练,获得已训练的工单分类模型,所述工单分类模型用于确定待分类客服工单所属的工单类别。
17.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~15中任一所述方法的步骤。
18.一种计算机可读存储介质,其特征在于,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行权利要求1~15中任一所述方法的步骤。
19.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序存储在计算机可读存储介质中;当电子设备的处理器从所述计算机可读存储介质读取所述计算机程序时,所述处理器执行所述计算机程序,使得所述电子设备执行权利要求1~15中任一所述方法的步骤。
CN202210530335.9A 2022-05-16 2022-05-16 一种工单分类模型训练方法、装置、电子设备和存储介质 Pending CN115329068A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210530335.9A CN115329068A (zh) 2022-05-16 2022-05-16 一种工单分类模型训练方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210530335.9A CN115329068A (zh) 2022-05-16 2022-05-16 一种工单分类模型训练方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN115329068A true CN115329068A (zh) 2022-11-11

Family

ID=83915831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210530335.9A Pending CN115329068A (zh) 2022-05-16 2022-05-16 一种工单分类模型训练方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115329068A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116501852A (zh) * 2023-06-29 2023-07-28 之江实验室 一种可控对话模型训练方法、装置、存储介质及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116501852A (zh) * 2023-06-29 2023-07-28 之江实验室 一种可控对话模型训练方法、装置、存储介质及电子设备
CN116501852B (zh) * 2023-06-29 2023-09-01 之江实验室 一种可控对话模型训练方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
US11651163B2 (en) Multi-turn dialogue response generation with persona modeling
US20210117798A1 (en) Multi-dimensional time series event prediction via convolutional neural network(s)
US20220100963A1 (en) Event extraction from documents with co-reference
KR102008169B1 (ko) 고객 질의 대응 서버, 방법 및 판독 가능 저장매체에 저장된 컴퓨터 프로그램
CN110674188A (zh) 一种特征提取方法、装置及设备
CN114817538B (zh) 文本分类模型的训练方法、文本分类方法及相关设备
CN112214652B (zh) 一种报文生成方法、装置及设备
US20220100772A1 (en) Context-sensitive linking of entities to private databases
KR20190072823A (ko) Rnn 문장임베딩과 elm 알고리즘을 이용한 은행업무 관련 고객상담을 위한 도메인 특화 화행분류 방법
US20220100967A1 (en) Lifecycle management for customized natural language processing
CN115329068A (zh) 一种工单分类模型训练方法、装置、电子设备和存储介质
CN112527969B (zh) 增量意图聚类方法、装置、设备及存储介质
CN113010562B (zh) 一种信息推荐的方法以及装置
CN112667803A (zh) 一种文本情感分类方法及装置
CN113627194A (zh) 信息抽取方法及装置、通信消息分类方法及装置
CN113919361A (zh) 一种文本分类方法和装置
KR102282328B1 (ko) Lstm을 이용한 국가별 선호도 예측 시스템 및 방법
Pichl Dialogue act detection using contextual knowledge
KR102661431B1 (ko) 분류된 고객 음성 피드백을 생성하는 방법
CN113284498B (zh) 客户意图识别方法及装置
CN113239164B (zh) 多轮对话流程构建方法、装置、计算机设备及存储介质
CN115599891B (zh) 一种确定异常对话数据方法、装置、设备及可读存储介质
US20230126127A1 (en) Financial information enrichment for intelligent credit decision making
US20240127297A1 (en) Systems and methods for generic aspect-based sentiment analysis
CN115269830A (zh) 异常文本检测模型训练方法、异常文本检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination