CN114218958A - 工单处理方法、装置、设备和存储介质 - Google Patents

工单处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN114218958A
CN114218958A CN202111391953.1A CN202111391953A CN114218958A CN 114218958 A CN114218958 A CN 114218958A CN 202111391953 A CN202111391953 A CN 202111391953A CN 114218958 A CN114218958 A CN 114218958A
Authority
CN
China
Prior art keywords
work order
classified
semantic
category
work
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111391953.1A
Other languages
English (en)
Inventor
吴沐曈
李睿
羌毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202111391953.1A priority Critical patent/CN114218958A/zh
Publication of CN114218958A publication Critical patent/CN114218958A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Tourism & Hospitality (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种工单处理方法、装置、设备和存储介质。所述方法包括:获取待分类工单;将待分类工单输入至预设的工单分类模型进行预测,获取候选类别;从预设的备选工单集的已分类的备选工单中,筛选出属于所述候选类别的参考工单;获取所述参考工单的参考语义特征;将待分类工单输入至预设的语义表征模型,获取待分类工单的待分类语义特征;根据待分类语义特征与参考工单的参考语义特征之间的相似度,确定待分类工单的目标类别,能够降低训练数据分布误差对于语义表征模型和工单分类模型的负面影响,提高了工单分类的准确性,提高工单被分配到与该工单的实际类别相匹配的客户端的准确率。

Description

工单处理方法、装置、设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种工单处理方法和装置、一种电子设备和一种存储介质。
背景技术
为了方便企业对问题进行处理,针对性的设置了工单系统。比如各部门的客服人员面对客户咨询的问题创建的工单,然后该工单被分配到解决问题的人员手中进行处理并反馈结果。并且,各部门内部也存在相互配合的需求,部门内部的某些人员可能会提交解决问题的工单,该工单会分配给相应的人员进行解决。
而随着各种企业规模的不断扩增,用来解决各种问题的工单的类别也随之不断激增,该工单的类别用于将该工单分配到解决该工单中的问题客户端中,而如果工单的类别选择错误,会导致工单被分配到与该工单的实际类别不匹配的客户端,导致工单中提及的问题无法解决。
发明内容
本申请实施例提供了一种工单处理方法,以降低工单被错误分配的概率。
相应的,本申请实施例还提供了一种工单处理装置、一种电子设备以及一种存储介质,用以保证上述方法的实现及应用。
为了解决上述问题,本申请实施例公开了一种工单处理方法,所述方法包括:
获取待分类工单;
将所述待分类工单输入至预设的工单分类模型进行预测,获取候选类别;从预设的备选工单集的已分类的备选工单中,筛选出属于所述候选类别的参考工单;
获取所述参考工单的参考语义特征;
将所述待分类工单输入至所述预设的语义表征模型,获取所述待分类工单的待分类语义特征;
根据所述待分类语义特征与所述参考工单的参考语义特征之间的相似度,确定所述待分类工单的目标类别;
基于所述待分类工单的目标类别,对所述待分类工单进行处理。
本申请实施例还公开了一种工单处理析装置,所述装置包括:
接收模块,用于获取待分类工单;
筛选模块,用于从已分类的备选工单中筛选出属于所述候选类别的参考工单;
参考语义获取模块,用于获取所述参考工单的参考语义特征;语义提取模块,将所述待分类工单输入至所述预设的语义表征模型,获取所述待分类工单的待分类语义特征;
输出模块,用于根据所述待分类语义特征与所述参考工单的参考语义特征之间的相似度,确定所述待分类工单的目标类别;
处理模块,用于基于所述待分类工单的目标类别,对所述待分类工单进行处理。
本申请实施例还公开了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如本申请实施例中一个或多个所述的方法。
本申请实施例还公开了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如本申请实施例中一个或多个所述的方法。
与现有技术相比,本申请实施例包括以下优点:
在本申请实施例中通过工单分类模型预测到的候选类别来从已分类的备选工单选出属于该候选类别的参考工单,然后可以通过语义表征模型对待分类工单和参考工单进行语义特征提取,依据待分类工单与参考工单的语义特征之间相似度比较将工单信息分类到对应的工单类别,使得工单分类模型和语义表征模型进行互补,从而降低训练数据分布误差对于语义表征模型和工单分类模型的负面影响,提高了工单分类的准确性,进而可以提高工单被分配到与该工单的实际类别相匹配的客户端的准确率,提高工单的处理效率。
附图说明
图1是本申请的一种工单处理方法实施例的逻辑架构图;
图2是本申请实施例的一种工单处理方法的系统示意图;
图3是本申请实施例的一种工单类别确定方法的界面效果图之一;
图4是本申请实施例的一种工单的样式示意图;
图5是本申请实施的的一种工单类别确定方法的界面效果图之二;
图6是本申请实施例的一种工单类别确定方法的界面效果图之三;
图7是本申请的一种工单处理方法实施例的步骤流程图;
图8是本申请实施例的一种工单分配方法的逻辑流程图;
图9是本申请的一种工单处理装置实施例的结构示意图;
图10是本申请一实施例提供的装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
在先技术中,很多场景在采用单一类型机器学习模型对工单信息进行预测,例如采用基于TF-IDF(term frequency–inverse document frequency,词频-逆文本频率指数)、Skip-Gram(一种词向量提取算法)等算法通过无监督学习得到的表征模型进行分类,这些表征模型均会受到来自于表征模型在无监督学习的聚类过程中误差以及数据分布带来影响,会影响后续分类的准确性,尤其是在工单的类别较多,但是训练样本较少且分布不均匀的情况下工单分类的精度较低;又或者是基于SVM(Support Vector Machine,支持向量机)、CNN(Convolutional Neural Network,卷积神经网络)等算法通过有监督学习得到的分类模型进行分类,但是有监督学习得到的分类模型又过于依赖于样本集标注的准确性和充分性,无法考虑到同一内容不同表达方式的情况,在遇到不同表达方式的同一内容时,很难进行准确识别,而且样本标注依赖于人工,不可避免引入了人为误差,到所得到的分类模型可识别的内容具有局限性。理解,上述的两种方式虽然均可对工单类别进行识别,但是均无法规避由于工单误差对模型分类结果所带来的负面影响。
参照图1,其示出了本申请实施例的一种工单处理方法的逻辑架构流程图,其中包括:
B1,通过对全量历史工单数据进行分层抽样来得到样本工单;
B2,对所抽取到的样本工单进行分词后例如停用词/无效词过滤和/或替换后存储至工单语料库;
B3,基于工单语料库中的样本工单对表征模型进行无监督训练,得到语义表征模型;
B4,基于工单语料库中的样本工单对分类模型进行有监督训练,得到工单分类模型;
B5,将训练完成的语义表征模型和工单分类模型进行部署;
B6,向模型预测过程提供工单语料库中的历史工单信息。
上述步骤B1至步骤B5属于本申请实施例的模型训练过程,具体可参照后续关于模型训练的详细描述。下面将描述模型在工单分类的模型预测过程:
C11,将待分类工单信息输入至工单分类模型进行预测;
C12,工单分类模型输出待分类工单信息所属于的候选类别;
C13,工单分类模型还输出待分类工单属于不同候选类别的类别概率;
C14,从步骤B6中提供的历史工单信息中筛选属于该候选类别的备选数据集;
C15,将备选数据集交由语义表征模型的预测过程;
C21,将待分类工单信息输入至语义表征模型进行预测;
C22,语义表征模型输出待分类工单信息的待分类语义特征;
C23,将从步骤C15获取到的备选数据集中的参考工单的参考语义特征,与待分类语义特征进行相似度分数计算;
C24,对待分类工单与参考工单中不同维度信息的相似度分数进行结合,得到参考工单相对应的目标语义相似度;
C3,将参考工单相对应的目标语义相似度与其所属候选类别的概率值进行结合,得到目标得分,并根据目标得分筛选出待分类工单信息的目标类别,以向用户进行工单分类推荐。
可以理解,本申请实施例可以先训练有监督的工单分类模型和无监督的语义表征模型,然后在后续对待分类工单进行分类时,结合工单分类模型和语义表征模型去确定更准确的分类,然后给该待分类工单进行推荐该工单分类。
参照图2,其示出了本申请实施例的一种工单处理方法的系统示意图。本申请实施例中,包括:客户端101、工单系统服务端102。
需要说明的是,客户端101是安装有工单提交应用程序的客户端的电子设备,该客户端101是个人电脑、移动终端等带具有信息显示、数据处理、数据传输等功能的电子设备,本申请实施例不对其加以限制。
工单系统服务端102是用于向工单提交应用程序的客户端提供数据支持的服务器,该系统服务端102还用于将工单信息连同工单信息所属的工单类别进行存储,当然该系统服务端102还具有对工单进行查询,以及对工单进行增删改等管理功能,本申请实施例不对其加以限制。
需要说明的是,本申请实施例中的如图4所述工单信息104中格式的电子文本的形式,例如用户利用工单编辑软件进行编写得到的工单信息,或者是系统自动根据工作任务生成的工单信息,从而客户端直接提取工单信息中的文本信息供后续模型处理使用;当然该工单信息104还首先通过对纸质工单进行拍摄或扫描得到的工单图像,然后通过OCR(Optical Character Recognition,光学字符识别)等文字识别技术对工单图像进行识别得到的文本信息,本申请实施例不对其加以限制。例如图4中的工单信息104包含有标题信息、部门信息、工作内容、岗位信息,当然还包含有工种信息、日期信息等其他工单相关信息,本申请实施例不对其加以限制。
需要说明的是,本申请实施例中工单分类模型和语义表征模型为利用相应训练数据预先训练的机器学习模型,该机器学习模型比如神经网络模型、支持向量机模型等,本申请实施不对其加以限制。本申请实施例的模型是数学模型,数学模型是运用数理逻辑方法和数学语言建构的科学或工程模型,数学模型是针对参照某种事物系统的特征或数量依存关系,采用数学语言,概括地或近似地表述出的一种数学结构,这种数学结构是借助于数学符号刻画出来的某种系统的纯关系结构。数学模型是一个或一组代数方程、微分方程、差分方程、积分方程或统计学方程及其组合,通过这些方程定量地或定性地描述系统各变量之间的相互关系或因果关系。除了用方程描述的数学模型外,还有用其他数学工具,如代数、几何、拓扑、数理逻辑等描述的模型。其中,数学模型描述的是系统的行为和特征而不是系统的实际结构。其中,仿真器所采用机器学习、深度学习方法等进行模型训练,机器学习方法可包括线性回归、决策树、随机森林、xgboost、lightgbm等,深度学习方法可包括卷积神经网络(Convolutional Neural Networks,CNN)、长短期记忆网络(Long Short-TermMemory,LSTM)、门控循环单元(Gated Recurrent Unit,GRU)等。
具体的,工单分类模型是有监督模型,该有监督模型是指通过将有标注的训练样本输入至待训练的模型,通过设置训练要求来使得模型的预测结果不断收敛到预期标准得到的机器学习模型,例如将标注有工单类别的工单训练集输入至待训练的有监督模型中,以工单类别为目标,在每次训练后将通过工单样本测试集对训练后的模型效果进行检验,若检验未达到预期则根据模型效果对模型进行调参后继续进行训练,直至模型预测的效果达到预期,该有监督模型是基于Random Forest(随机森林)、Logistics Regression(逻辑回归)、Xgboost(一种基于决策树的提升树)等算法的机器学习模型,只要是输出probability(概率值)的模型即可,本申请实施例不对其加以限制。
语义表征模型是无监督模型,该无监督模型是指通过将无标注的训练样本输入至待训练的模型,使得模型对依据训练样本中样本特征之间的相似性进行聚类,例如将无标注的海量工单样本训练集输入至待训练的无监督模型进行聚类,使得训练后的无监督模型输出模型工单样本中的语义特征,该无监督模型是基于Fasttext(一种词向量与文本分类工具)、Word2vec(一群用来产生词向量的相关模型),GloVe(一种词义的向量化表示算法)、Transformer(机器翻译),BERT(Bidirectional Encoder Representation fromTransformers,双向语言表征器)等算法的机器学习模型,只要提取出文本信息中的语义特征即可,本申请实施例不对其加以限制。
如图2,在本申请一种工单处理方法的实施例中,该方法包括如下过程:
A1,用户在客户端101发起访问工单提交界面的操作。
在图2中,用户在客户端101中发起访问工单提交界的操作,比如在浏览器或者其他应用程序中触发对预设网址或应用界面的访问。
需要说明的是,在采用鼠标、键盘的输入方式的客户端的情况下,用户采用该鼠标或者键盘发起访问工单提交界面的操作。在采用触控屏的输入方式的客户端的情况下,用户采用该触控屏访问工单提交界面的操作。
需要说明的是,本申请实施例中的显示界面为工单提交界面。
A2,客户端显示工单提交界面。
客户端在接收到用户用于访问工单提交界面的操作后,绘制和渲染生成工单提交界面,并通过显示屏显示所生成的如图3所示工单提交界面103,或者显示如图5所示的工单提交界面105。
在实际应用中,客户端通过调用工单提交界面的显示组件进行绘制和渲染来生成工单提交界面,或者是通过访问网址链接来请求工单系统服务端获取工单提交界面的显示数据在浏览器中该工单提交界面。
A3,用户在工单提交界面中输入待分类工单。
在工单提交界面为如图3所示的工单提交界面103时,用户通过在工单提交界面103点击“选择文件”1031选项来选取已有的文本格式或者图片格式的工单文件输入如图4所示的工单文件,图像格式的工单文件可以是还通过现场扫描或拍摄纸质工单得到,对于文本格式的工单文件而言直接从中提取文字信息即可作为待分类工单的工单信息,而对于图像格式的工单文件可通过OCR等文字识别技术来提取文字信息作为待分类工单的工单信息。
在工单提交界面为如图5所述的工单提交界面105时,用户通过对工单提交界面105中工单信息输入栏1051中,针对标题信息输入栏10511和部门信息输入栏10512中分别输入工单的标题信息和部门信息,以及待分类工单中其他维度的信息,使得客户端101直接依据用户输入获取到待分类工单中的文本信息。
A4,客户端101向工单系统服务端102发送待分类工单信息。
客户端101将携带有待分类工单信息的目标类别获取请求通过与分类系统服务端102之间的网络连接发送至分类系统服务端102。
A5,客户端102通过工单分类模型和语义表征模型对待分类工单进行处理得到目标分类。
工单系统服务端102在接收到客户端101发送的待分类工单后,首先将待分类工单输入至预先训练的工单分类模型进行分类,从而获取到该待分类工单属于不同工单类别的概率值,筛选概率值较大的部分工单类别,例如概率值降序排序的前5个或10个等数量的工单分类作为候选类别。然后再从备选工单集中筛选出属于这些候选类别的参考工单,并且将所待分类工单输入至预先训练的语义表征模型后得到待分类工单的待分类语义特征,而参考工单的参考语义特征预先通过语义表征模型进行提取存储至备选工单集中,因此无需再重新提取,直接从备选工单集中提取参考语义特征即可。最后通过将待分类语义特征与参考语义特征进行相似度比对,即可得到待分类工单与参考工单之间的目标语义相似度。最后再将待分类工单属于该参考工单所属的候选类别的概率值与该目标语义相似度进行结合,即可得到待分类工单为参考工单的目标得分。将目标得分最高或者分值降序排列前N个参考工单的底层级工单类别作为最终输出的目标分类。
需要说明的是,目标语义相似度是将待分类语义特征与单个参考工单的参考语义特征分别进行相似度比对,从而得到每个参考工单所属候选类别相对应的目标语义相似度。例如假设存在1个待分类语义特征和3个参考语义特征a、参考语义特征b、参考语义特征c,则将待分类语义特征的与参考语义特征a进行相似度比对,得到目标语义相似度a;将待分类语义特征的与参考语义特征b进行相似度比对,得到目标语义相似度b;将待分类语义特征的与参考语义特征c进行相似度比对,得到目标语义相似度c。目标语义相似度a与候选类别a对应,目标语义相似度b与候选类别b对应,目标语义相似度c与候选类别c对应。
需要说明的是,底层级工单类别指参考工单所属的底层级的工单类别,而候选类别则是该底层级工单类别所隶属的上层级工单类别。
A6,工单系统服务端102向客户端101发送待分类工单的目标分类。
工单系统服务端102将携带有目标类别的响应信息通过与客户端101之间的网络连接发送至客户端101。
A7,客户端101在工单提交界面中推荐显示目标类别。
客户端101在通过工单分类模型和语义表征模型对待分类工单进行处理得到目标类别后,参照图6,客户端101将在图5中工单提交界面105中将原本显示的“选择工单类别”1052的选项栏替换为“选择工单类别”1054的选项栏,可见相较于1052的选项栏,1054的选项栏中将所识别出的目标类别作为推荐内容调整至选项栏的前排位置进行显示,以供用户参考,使得用户便捷地获知待提交工单的工单类别,对于首次提交工单信息的用户而言,大大提高提交工单的效率,尽可能减少了工单类别提交错误的情况出现。
需要说明的是,该待分类工单信息可以是在用户未点击工单提交界面中的提交按钮时就可以将该待分类工单信息发送给服务端,服务端即可用这些信息进行分类计算,然后将计算得到的目标分类返回给客户端展示和推荐,方便使用者快速选择工单类别。
A8,用户在工单提交界面中选择工单类别。
用户查看如图6所示的工单提交界面105中选项栏1054中所推荐的目标类别,通过对目标类别进行选取操作来选择工单类别,当然也对其他工单类别进行选取操作来指定待分类工单所处的工单类别,在选取操作完成后,用户可通过对“提交”选项1053进行选取操作来完成工单提交的操作过程。
当然,客户端101也可将所识别出的目标类别直接作为待分类工作的工单类别,用户仅需对“提交”选项1053进行选取操作来确认即可。
理解,通过本申请实施例中工单分类的确定方法所得到的目标分类不一定是待分类工单的最终提交的工单分类,将所识别出的目标分类向用户推荐,而最终决策权仍然是在用户侧,从而提高用户提交工单信息时工单类别的选择的自由度。
A9,客户端101将工单信息和工单分类上传工单系统服务端102.
客户端101在接收到用户对于如图6中“提交”选项1053的选取操作后,通过将工单信息和用户所选取的工单类别合并上传至工单系统服务端102,以供工单系统服务端102将工单信息和工单类别进行关联存储,以便后续归档和查询使用。
因此,通过上述方式,在本申请实施例中,用户在提交工单信息时,客户端通过有监督的工单分类模型和无监督的语义表征模型,采用待分类工单与参考工单的语义特征之间相似度比较的方式将工单信息分类到对应的工单类别后推荐给用户参考,使得工单分类模型和语义表征模型进行互补,从而降低训练数据分布误差对于语义表征模型和工单分类模型的负面影响,提高了工单分类的准确性,进而可以提高工单被分配到与该工单的实际类别相匹配的客户端的准确率,提高工单的处理效率,需要说明的是,由于本申请所述加快了类别的识别速度,可以实现快速响应,可以实现在工单提交界面中用户输入标题等内容后,自动对工单分类。
参照图7,其示出了本申请实施例的一种工单处理方法,该方法包括如下步骤:
步骤201,获取待分类工单。
需要说明的是,如前述描述,该待分类工单的源文件是文本形式,也是图像格式。在源文件为文本形式时,从中提取文本信息作为待分类工单,在源文件为图像形式时,首先通过OCR识别技术或者其他文字识别技术对图像信息进行识别,从中提取文字信息作为待分类工单。
在实际应用中,考虑到待分类工单无法直接作为模型输入,因此需要预先对待分类工单中句子进行通过分词工具进行分词,例如将“法律合规与风控部”分词为“法律合规”、“与”、“风控”、“部”的分词形式,将“网络与信息安全部”分词为“网络”、“与”、“信息安全”、“部”分词形式,分词工具采用Hanlp分词器、结巴分词器等,本申请实施例对其不加以限制。
可选地,所述步骤201,包括接收客户端发送的携带有待分类工单的工单分类请求。
在本申请实施例中,客户端如前述描述,可以是具有工单提交功能的应用程序的客户端,用户通过在客户端输入待分类工单以使得客户端生成携带有待分类工单的工单分类请求,并将该工单分类请求发送至服务端,以使得服务端通过本申请实施例所示的工单处理方法来对待分类工单进行分类。
步骤202,将所述待分类工单输入至预设的工单分类模型进行预测,获取候选类别。
需要说明的是,如前述描述,工单分类模型是预先通过对于分类模型进行有监督训练得到的算法模型,该机器学习模型是采用Fasttext算法模型以外的深度学习或机器学习模型,例如Random forest,Logistics Regression,Xgboost算法模型等,只要对待分类工单的候选类别进行识别,并输出属于不同候选类别的概率值即可,本申请实施例对其不加以限制。例如:待分类工单输入至预设的工单分类模型进行预测后,分别得到其为3个候选类别的分类概率,即该待分类工单输入候选类别1的概率值为50%,属于候选类别2的概率值为30%,属于候选类别3的概率值为20%。
需要说明的是,如前述描述,待分类工单存在多个类别层级,而工单分类模型所分类的候选类别是对待分类工单中的第一级类别或第二级类别等高层级类别进行识别,从而工单分类模型的训练量,提高模型训练效率。当然,候选类别是属于待分类工单的任意类别层级,类别层级越低,所需分类的类别数量则越多,所需的训练量则越大,因此候选类别所属于的类别层级适应于可负担的算力确定,本申请实施例对其不做限定。
步骤203,从已分类的备选工单中筛选出属于所述候选类别的参考工单;
在本申请实施例中,可以预先收集大量的历史工单,对这些工单进行分类,得到已分类的备选工单并打上分类标签。然后在上线使用过程中,可以从这些已分类的备选工单中筛选出上述候选类别的参考工单。
在本申请实施例中,可以预设一个备选工单集,该备选工单集中包括已分类的参考工单。然后,在步骤203中,可以从预设的备选工单集的备选工单中,筛选出属于所述候选类别的参考工单。当然,该已分类的备选工单也可以不以备选工单集的方式存储,可以直接以列表或者其他方式存储。需要说明的是,预设的备选工单集是预先通过采集历史工单,并对历史工单进行分类得到的数据集,因此其中的备选工单均标注有工单类别。例如:存在备选工单集{{A},{B},{C},{D},{E}...},对于待分类工单进行预测得到的候选类别为A、C、E,则分别从备选工单集中的集合{A}、{C}、{E}中提取部分或全量的备选工单作为参考工单。
步骤204,获取所述参考工单的参考语义特征;
其中,所述参考语义特征通过预设的语义表征模型对所述参考工单进行处理获得。在实际应用中,对于参考工单,可以预先采用语义表征模型对所述参考工单进行处理,获得其参考语义特征,然后进行记录。比如在前述的备选工单集中与参考工单对应记录该参考语义特征,或者在列表中与参考工单对于记录该参考语义特征。该种方式不用实时提取参考语义特征,能节省分类的计算时间。
在本申请实施例中,备选工单集中的备选工单可以预先通过输入语义表征模型提取语义特征,并将语义特征一并关联存储在备选工单集中,从而在实际使用过程中筛选出参考工单后,即可从备选工单集中提取到参考工单相对应的参考语义特征,无需再每次筛选后参考工单再次提取语义特征,有效提高工单分类的效率。当然,若参考工单是实时获取到的新的工单,也在筛选出参考工单后通过将参考工单输入至语义表征模型进行语义特征提取,本申请实施例对此不加以限制。
需要说明的是,也可以在获取到参考工单后,再将该参考工单输入语义表征模型提取对应的参考语义特征。该种方式相当于要实时对参考工单计算其参考语义特征,需要额外消耗一定时间进行计算。步骤205,将所述待分类工单输入至所述预设的语义表征模型,获取所述待分类工单的待分类语义特征。
需要说明的是,如前述描述,语义表征模型是预先通过无监督学习得到的语义表征模型,该语义表征模型是采用不同的自然语言处理预训练方法得到,例如:Fasttext、Word2vec模型、GloVe模型、Transformer模型、BERT模型等。
在实际应用中,语义表征模型至少包括用于输出语义表示向量的子模型,例如BERT模型等,当然用于输出双向语义表征向量的模型除了还包括其他模型,本申请实施例对其不加限制。然后将待分类工单的每个分词输入至语义表征层,即可得到每个分词相对应的词向量,即待分类语义特征。上述参考语义特征同理,此处不再赘述。
步骤206,根据所述待分类语义特征与所述参考工单的参考语义特征之间的相似度,确定所述待分类工单的目标类别。
需要说明的是,在待分类工单的工单类别存在多个层级的情况下,目标类别是指底层级的工单类别,因此候选类别所属的类别层级大于或等于目标类别的类别层级。理解,工单类别的确定通常是要确定到工单类别的底层级才能体现出工单分类的充分性,若仅划分到高层级或中层级的工单类别,则无法对待分类工单进行准确分类。当然,目标工单类别最高层级或者中层级的工单类别,本申请实施例对其不加以限制。
在本申请实施例,通过将待分类语义特征与参考语义特征的余弦相似度比较法、正弦相似度比较法、syms(一种向量比较函数),或者是采用计算两者之间的欧氏距离、曼哈顿距离、切比雪夫距离来对得到待分类语义特征与参考语义特征之间的相似度,本申请实施例对其不加以限制。
进一步的,在计算得到每个参考工单的参考语义特征与待分类语义特征之间的相似度后,通过相似度排序,取相似度最高的参考工单的底层级的工单类别作为该待分类工单的目标类别,例如:算得参考工单1的相似度为90%、参考工单2的相似度为70%、参考工单3的相似度为50%,则可选取参考工单1的底层级工单类别作为待分类工单的目标类别。
或者分别通过两种相似度计算方式算的参考工单的两种相似度,即相似度1和相似度2,通过将两种相似度2进行结合后得到的综合相似度进行取值排序,将综合相似度取值最大的参考工大的底层级工单类别作为待分类工单的目标类别。
此处只是示例性描述,相似度的计算方式和筛选方式根据实际需求设置,本申请实施例对其不加以限制。
步骤207,基于所述待分类工单的目标类别,对所述待分类工单进行处理。
在本申请实施例中,待分类工单的目标类别确定后,可以根据实际需求,基于该待分类工单的目标类别对该待分类工单进行处理。
可选的,步骤207包括:将所述待分类工单分配到与所述目标类别对应的处理客户端。
可以理解,本申请实施例中,对于某个或者某些个待分类工单,确定了其所述的目标类别之后,可以将其分配到处理该目标类别的处理客户端中,供相应的处理人员对该工单进行处理,比如对该工单中提出的技术问题进行解决,对该工单中提到的客户进行联系以解决客户提出问题等。在对工单处理完之后,处理客户端还可以点击完成该工单,然后发送一个完成通知给第一客户端。参照图8,示出本申请的一种工单分配方法的逻辑流程图,其中用户1向第一客户端106输入工单和工单类别,第一客户端106将用户1输入的工单和工单类别上传至工单系统服务端107,而后工单系统服务端将工单依据其相对应的工单类别挑选负责处理该工单的用户2后,将该工单分配至用户2所在的第二客户端108,用户2在第二客户端108上处理该工单。在实际应用中,可依据选取服务能力范围包含该工单类别且处于空闲状态的用户作为分配对象,也可以将工单分配至用户1指定的用户2的第二客户端,本申请实施例对其不加以限定。需要说明的是,图8中的第二客户端108可以为处理工单的处理客户端。
可选的,步骤201包括:在第一客户端的工单提交界面接收到输入后,获取工单提交界面中的待分类工单。
可以理解,在本申请实施例中,如图6的工单提交界面中,接收到用户输入的工单信息,比如标题信息、部门信息等,可以直接将这些待分类工单信息发送给服务端。由服务端处理。
进一步的,步骤206包括:将所述目标类别返回给所述第一客户端,并在所述工单提交界面上展示所述目标类别以供选择。如前述A6、A7的描述,服务端可以将确认的目标类别返回给客户端,客户端则在工单提交界面上展示并推荐目标类别,方便用户选择。当然,也可以直接让第一客户端将工单提交界面上的工单类别先设置为该目标类别,不用用户再选择一次,降低用户操作繁琐程度。
在实际应用中,服务端可以向所述客户端发送携带有所述目标类型的显示指令,所述显示指令用于指示所述客户端在工单提交界面显示所述目标类型。在本申请实施例中,服务端依据本申请所提供的工单分类的确定方法获取到待分类工单的目标类别后,生成携带有该目标类别的显示指令,并将该显示指令发送给客户端,客户端解析该显示指令提取目标分类后,通过对工单提交界面进行更新来显示目标类别,以供用户查看目标类型。值得说明的是,该目标类型仅是供用户参考,用户可直接选择目标类型对待分类工单向服务端进行提交,也可以自主选择其他工单类型进行工单提交,以提高工单提交时候工单类别选择的灵活性。
在本申请实施例中通过工单分类模型预测到的候选类别来从备选数据集中筛选出属于该候选类别的参考工单,然后通过语义表征模型对待分类工单和参考工单进行语义特征提取,依据待分类工单与参考工单的语义特征之间相似度比较将工单信息分类到对应的工单类别,使得工单分类模型和语义表征模型进行互补,从而降低训练数据分布误差对于语义表征模型和工单分类模型的负面影响,提高了工单分类的准确性,进而可以提高工单被分配到与该工单的实际类别相匹配的客户端的准确率,提高工单的处理效率。
可选地,在本申请的一实施例中,步骤206,包括:
步骤S11,确定所述待分类语义特征与所述参考语义特征之间的目标语义相似度。
在本申请实施例中,如前述描述,目标语义相似度采用一种或多种相似度计算方式得到,在存在多种相似度计算方式时,通过加权求和、取最大值或最小值的方式计算出最终的目标语义相似度,本申请实施例对其不加以限制。
步骤S11,根据所述目标语义相似度、所述待分类工单属于所述候选类别的概率值,确定所述参考工单的目标得分。
需要说明的是,如前述描述,待分类工单属于候选类别的概率值是工单分类模型在输出候选类别时一并输出的概率值。
在本申请实施例中,由于工单分类模型在输出候选类别时附带的概率值工单分类模型对于待分类工单属于不同候选类别的可能性,因此综合将目标语义相似度和该概率值来对各参考工单的目标得分进行评价,使得工单分类模型和语义表征模型相互弥补所存在的误差,避免由于某一模型的误差导致最终得到的目标类别与实际工单差距较大的情况出现。
在实际应用中,取目标语义相似度和待分类工单属于候选类别的概率值之间的加权求和的值或概率值之间的差值的正数值或概率值之间的乘积作为目标得分。例如对于某参考工单,其与待分类工单之间的目标语义相似度为80%,待分类工单属于该参考工单所属候选类别的概率值为70%,则将目标语义相似度和概率值相加即可得到目标得分为1.5,或者是取概率值之间的差值的正数值则得到目标得分为0.1,此处只是示例性描述,本申请实施例对此不做限制。
步骤S12,将所述目标得分最大的参考工单所属的底层级工单类别,作为所述待分类工单的目标类别,所述底层级工单类别为所述候选类别相对应的下层级类别。
需要说明的是,考虑到工单类别划分为多个层级,例如第一层级类别下设若干个第二层级类别,第二层级类别又下设若干个第三层级类别,以此类推,类别的层级越低,所包含的类别数量则越多,对于工单分类模型的训练量也随之剧增。因此对于工单分类模型而言,通过对高层级,例如第一层级或第二层级等高层级的工单类别进行分类,相对于对更底层级的工单类别进行分类,所需的训练量大大降低。而对于后续底层级的工单类别分类,本申请实施例是通过将语义表征模型的所提取到属于候选类别的参考工单的参考语义特征与待分类语义特征进行相似度比对,来从参考工单中筛选出与待分类工单最相似度的参考工单,从而将该参考工单的底层级工单类别作为待分类工单的最终确定的目标类别。而通过底层级工单类别通过工单类别映射表查询到所属所有更高层级的工单类别,因此也确定其他层级的工单类别。当然实际应用中,可以选择其他层级的类别作为目标类别,训练时也以该其他层级的类别进行训练。
参照表1,示例性地示出了一种参考工单的类别参照表:
Figure BDA0003364692880000121
表1
其中,参考工单1和参考工单2虽然同属于候选类别1,但是其对应的底层类别1和底层类别2不同,因此参考两者相对应的目标得分进行进一步的筛选,由于0.81大于0.72,因此选取参考工单1的底层类别1作为待分类工单的目标类别。可见,即使参考工单所属的候选类别相同,待分类工单属于该候选类别1的概率值相同,但是由于参考工单的具体内容不同导致参考语义特征存在差异,最终导致参考工单1与待分类工单的目标语义相似度大于参考工单2,最终算得的目标得分是参考工单1更高。
本申请实施例通过有监督和无监督学习相结合的方式,运用工单分类模型仅对底层级工单类别的上层工单类别进行分类,对底层级工单列别则采用相似度衡量与参考工单的语义相似度,将工单分类到其对应具体类别。有效减少工单分类模型的训练量,提高了工单分类模型的训练效率。
可选地,在本申请的一实施例中,步骤S11,包括:将所述目标语义相似度与所述待分类工单属于所述候选类别的概率值之间相乘,获得所述待分类工单的目标类别。
在本申请实施例中,由于目标语义相似度与概率值均为小于或等于1的百分比概率,通过将目标语义相似度和概率值进行相乘,减少单一模型误差对于最终分类结果的影响,提高工单分类的准确性。
示例性的,假设分别存在:参考工单1,其对应的目标语义相似度为0.9,概率值为0.9,则算的目标得分为0.81;参考工单2,其对应的目标语义相似度为0.8,概率值为0.9,则算的目标得分为0.72;参考工单3,其对应的目标语义相似度为0.9,概率值为0.7,则算的目标得分为0.63;参考工单1,其对应的目标语义相似度为0.5,概率值为0.5,则算的目标得分为0.25。可见,虽然参考工单3的目标语义相似度高于参考工单2,但是由于其概率值0.7远低于参考工单2的概率值0.9,因此参考工单3的目标得分小于参考工单2,这显然是因为工单分类模型的存在误差才导致与通过语义表征模型输出的语义特征算得的目标语义相似度差距过大,通过将概率值与目标语义相似度结合有效减少了该误差对于最终分类结果带来的负面影响。
可选地,在本申请的一实施例中,步骤S11,包括:
步骤S111,在所述待分类语义特征包括至少两个维度的语义特征的情况下,分别获取同一维度下的所述待分类语义特征与所述参考语义特征之间的第一语义相似度。
需要说明的是,语义特征的维度是用于表征工单信息中信息的不同类型,例如标题信息维度、工种信息维度、时间信息维度中,理解,由于工单信息中的不同类型信息之间没有可比性,例如某人的姓名与其职位没有任何关联性,因此在进行语义相似度比对时,需要将同一维度下的信息的语义特征进行比对,以保证相似度比对的准确性。
如图4所示的工单信息中存在四个维度的信息,分别是:标题、部门、岗位和工作内容,因此分别针对这4个维度的信息通过语义表征模型进行特征提取,得到标题语义特征、部门语义特征、岗位语义特征和工作内容语义特征。从而在特征相似度比对时,将待分类语义特征与所述参考语义特征之间的标题语义特征进行比较,得到标题语义相似度;将待分类语义特征与所述参考语义特征之间的部门语义特征进行比较,得到部门语义相似度;将待分类语义特征与所述参考语义特征之间的岗位语义特征进行比较,得到岗位语义相似度;将待分类语义特征与所述参考语义特征之间的工作内容语义特征进行比较,得到工作内容语义相似度。此处只是示例性描述,本申请实施例对其不加以限制。
步骤S112,根据至少部分维度下的第一语义相似度,确定所述目标语义相似度。
在本申请实施例中,在存在多个不同维度的第一语义相似度时,选取其中的部分或者全部第一语义相似度进行结合,最为参考工单的目标语义相似度。
示例性的,例如存在标题语义相似度0.5、部门语义相似度0.7、岗位语义相似度0.6和工作内容语义相似度0.6,则仅将标题语义相似度0.5和部门语义相似度0.7进行加权求和,得到目标语义相似度0.5*0.5+0.7*0.5=0.6,或者是将标题语义相似0.5度、部门语义相似度0.7、岗位语义相似度0.6和工作内容语义相似度0.6这4个语义相似度进行加权求和得到目标语义相似度0.5*0.25+0.7*0.25+0.6*0.25+0.6*0.25=0.6。本申请实施例对其不加以限制。
可选地,在本申请的一实施例中,步骤S11,包括:计算所述待分类语义特征与所述参考语义特征之间的余弦相似度,获得所述目标语义相似度。
在本申请实施例中,可通过如下公式(1)计算目标语义相似度:
Figure BDA0003364692880000141
其中,A表示待分类语义特征,B表示参考语义特征,similarityA,B表示目标语义相似度,n表示待分类语义特征和参考语义特征的维度,Ai表示待分类语义特征A中第i维的数值,Bi表示参考语义特征B中第i维的数值。
可选地,在本申请的一实施例中,所述待分类语义特征包括:待分类标题语义特征、待分类部门语义特征。
需要说明的是,如前述描述,待分类标题语义特征是通过语义表征模型对待分类工单中的标题信息进行语义特征提取得到的,待分类部门语义特征是通过语义表征模型对待分类工单中的部门信息进行特征语义特征提取得到的。仅统计发现,工单信息中的标题信息和部门信息对于工单与工单上层级的工单类别的关联性较高,因此本申请实施例将该两种维度的信息作为待提取的语义特征,有效减少语义表征模型的训练量,并且提高了语义表征模型所提取出语义特征与工单类别的关联性,提高了工单分类的准确性。
可选地,在本申请的一实施例中,步骤202,包括:
步骤S21,将所述待分类工单输入至预设的工单分类模型进行预测,获得多个工单类别的概率值。
需要说明的是,如前述描述,工单分类模型的输出未待分类工单属于不同工单类别的概率值。
步骤S22,将所述概率值符合预设条件的N个工单类别作为候选类别。
在本申请实施例中,为减少后续相似度比对的计算量,选用概率值符合预设要求的部分工单类别作为参与后续相似度比对的候选类别,因此N是小于等于工单类别总数的正整数。
在实际应用中,预设条件是概率值取值降序排序靠前、居中或者靠后的工单类别。例如假设N为5,则选取概率值取值降序排序前5的工单类别作为候选类别,或者是选取概率值取值排序里的中间位置以及该中间位置前后两位的工单类别作为候选类别,当然此处仅是示例性描述,本申请实施例对其不加以限制。本申请实施例通过依据工单分类模型输出的概率值筛选部分工单类别作为候选工单,减少了后续相似度比对所需的工作量,提高了工单分类的效率。
可选地,在本申请的一实施例中,所述方法还包括:
步骤S31,获取第一训练集,所述第一训练集包括第一样本工单以及所述第一样本工单相对应的类别标签。
需要说明的是,第一训练集是通过已分类的历史工单进行采集,从不同工单类别的历史工单中按照预设比例进行分层抽样得到,抽取比例是按照工单类别的数量和第一训练集所需的数据量确定,在抽取后依据所收取第一样本工单所属的工单类别对其添加类别标签,完成样本标注。历史用单是通过对历史数据按照工单类别进行聚类分组得到,从而使得不同工单类别的历史工单划分为一组,在抽样时对历史工单数量最多的分组数据进行抽样,数量较少的分组则保留,以避免由于某种工单类别的工单数量较少导致抽样数量不足的情况出现。例如:所需第一训练集的数据量为10000,工单类别的数量为20种,那么分别从各工单类别相对应的历史工单中抽取500个样本输入第一训练集。当然还采用随机抽样的方式从历史工单中进行随机抽取,本申请实施例对其不加以限制。
步骤S32,根据所述第一训练集,对分类模型进行有监督训练,获得所述工单分类模型。
在本申请实施例中,将第一训练集按照例如7:3或者8:2等比例划分成训练集和验证集后,将类别标签作为训练目标,将训练集输入至分类模型进行训练,在每次训练后将验证集输入至训练后的分类模型进行预测,将所得到的预测类别与验证集中的类别标签通过损失函数算得的损失值或者比对得到的准确率来表征模型的预测效果,在预测效果符合预期的情况下确认模型有监督训练完成,将训练后的分类模型作为工单分类模型。将第一样本工单中的至少部门维度信息拼接成句子作为预测因子来输入至分类模型进行单标签分类。例如将第一样本工单中的部门信息和标题信息拼接成句子输入至分类模型进行训练,或者是将第一样本工单中的标题信息和工种信息拼接成句子输入至分类模型进行训练,本申请实施例对其不加以限制。
在实际应用中,工单分类模型的训练过程在工单系统服务端侧完成后下发部署到客户端。
本申请实施例通过预先训练工单分类模型,以供实际进行工单分类时直接使用,提高了工单分类的效率。
可选地,在本申请的一实施例中,所述方法还包括:
步骤S41,获取第二训练集,所述第二训练集包括第二样本工单。
需要说明的是,第二训练集同样参照步骤S31中的第一训练集的获取方式获得,此处不再赘述,与第一训练集不同的是,由于是语义模型是采用无监督训练的方式,因此第二训练集中的第二样本工单无需附带类别标签。
步骤S42,根据所述第二训练集,对语义模型进行无监督训练,获得所述语义表征模型。
在本申请实施例中,如前述描述,语义模型是基于Fasttext、Word2vec、GloVe、Transformer、BERT等算法的无监督模型,从而将无标注的第二训练集输入至初始化的语义模型进行训练,使得语义模型通过依据第二样本工单中各维度信息之间的关联性来对于第二样本工单中的语义特征进行提取。例如将第二样本工单中的标题信息和部门信息输入至语义模型进行训练,得到提取到标题信息和部门信息中高维度语义特征的语义表征模型。
在实际应用中,语义表征模型的训练过程在工单系统服务端侧完成后下发部署到客户端。
本申请实施例通过预先训练语义表征模型,以供实际进行工单分类时直接使用,提高了工单分类的效率。
可选地,在本申请的一实施例中,步骤101,包括:删除所述待分类工单中的停用词;通过预设正则表达式匹配所述待分类工单中的无效信息,并删除所述无效信息和/或将所述无效信息替换为预设信息,其中,所述无效信息包括:网址信息、数字信息、符号信息、重复信息、错误信息中的至少一种。
需要说明的是,停用词是指预先设置不参与模型预测的词语,具体可通过关键词查询的方式搜索特定停用词,例如:啊、哦、哈等与工单语义不相关的语气词等,本申请实施例对其不做限制。
无效信息是指与工单语义不相关的特定类型的词和/或符号,例如网址格式的网址信息,阿拉伯数字、罗马数字等数字信息,感叹号、问号、句号等符合信息,火星文、乱码等错误信息,以及重复出现的信重复信息。预设信息是指预先设置用于替换特定无效信息的信息。
在实际应用中,可通过首先编写需要处理的无效信息所在目标字段的正则表达式,例如数字表达式“\d+”,匹配纯数字。随后,将与表达语义无关的部分删除,或者是将对表达语义有关系但是过长过杂乱的部分统一替换,例如将网址替换成预设信息url,最后对替换。本申请实施例对其不加以限制。
本申请实施例删除待分类工单信息中的停用词,以及删除和/或替换其中的无效信息,减少了待分类工单信息中与工单语义无关的信息对于模型预测带来的负面影响,提高了工单分类的准确性。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
在上述实施例的基础上,本实施例还提供了一种工单处理装置,应用于客户端、服务器等电子设备中。
参照图9,其示出了本申请实施例的一种工单处理装置的结构示意图,具体包括:
接收模块301,用于获取待分类工单;
预测模块302,用于将所述待分类工单输入至预设的工单分类模型进行预测,获取候选类别;
筛选模块303,用于从已分类的备选工单中筛选出属于所述候选类别的参考工单;
参考语义获取模块304,用于获取所述参考工单的参考语义特征;
语义提取模块305,用于将所述待分类工单输入至所述预设的语义表征模型,获取所述待分类工单的待分类语义特征;
输出模块306,用于根据所述待分类语义特征与所述参考工单的参考语义特征之间的相似度,确定所述待分类工单的目标类别;
处理模块307,用于基于所述待分类工单的目标类别,对所述待分类工单进行处理。
可选地,所述输出模块306,还用于:
确定所述待分类语义特征与所述参考语义特征之间的目标语义相似度;
根据所述目标语义相似度、所述待分类工单属于所述候选类别的概率值,确定所述参考工单的目标得分;
将所述目标得分最大的参考工单所属的底层级工单类别,作为所述待分类工单的目标类别,所述底层级工单类别为所述候选类别相对应的下层级类别。
可选地,所述输出模块306,还用于:
将所述目标语义相似度与所述待分类工单属于所述候选类别的概率值之间相乘,获得所述待分类工单的目标类别。
可选地,所述输出模块306,还用于:
在所述待分类语义特征包括至少两个维度的语义特征的情况下,分别获取同一维度下的所述待分类语义特征与所述参考语义特征之间的第一语义相似度;
根据至少部分维度下的第一语义相似度,确定所述目标语义相似度。
可选地,所述输出模块306,还用于:
计算所述待分类语义特征与所述参考语义特征之间的余弦相似度,获得所述目标语义相似度。
可选地,所述待分类语义特征包括:待分类标题语义特征、待分类部门语义特征。
可选地,所述预测模块302,还用于:
将所述待分类工单输入至预设的工单分类模型进行预测,获得多个工单类别的概率值;
将所述概率值符合预设条件的N个工单类别作为候选类别。
可选地,所述装置还包括:第一训练模块,用于
获取第一训练集,所述第一训练集包括第一样本工单以及所述第一样本工单相对应的类别标签;
根据所述第一训练集,对分类模型进行有监督训练,获得所述工单分类模型。
可选地,所述装置还包括:第二训练模块,用于
获取第二训练集,所述第二训练集包括第二样本工单;
根据所述第二训练集,对语义模型进行无监督训练,获得所述语义表征模型。
可选地,所述接收模块301,还用于:
删除所述待分类工单中的停用词;
和/或,通过预设正则表达式匹配所述待分类工单中的无效信息,并删除所述无效信息和/或将所述无效信息替换为预设信息,其中,所述无效信息包括:网址信息、数字信息、符号信息、重复信息、错误信息中的至少一种。
可选的所述处理模块307,还用于:将所述待分类工单分配到与所述目标类别对应的处理客户端
可选地,所述接收模块301,还用于:
在第一客户端的工单提交界面接收到输入后,获取工单提交界面中的待分类工单;
所述处理模块307,还用于:将所述目标类别返回给所述第一客户端,并在所述工单提交界面上展示所述目标类别以供选择。
在本申请实施例中通过工单分类模型预测到的候选类别来从备选数据集中筛选出属于该候选类别的参考工单,然后通过语义表征模型对待分类工单和参考工单进行语义特征提取,依据待分类工单与参考工单的语义特征之间相似度比较将工单信息分类到对应的工单类别,使得工单分类模型和语义表征模型进行互补,从而降低训练数据分布误差对于语义表征模型和工单分类模型的负面影响,提高了工单分类的准确性,进而可以提高工单被分配到与该工单的实际类别相匹配的客户端的准确率,提高工单的处理效率。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,使得该设备执行本申请实施例中各方法步骤的指令(instructions)。
本申请实施例提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中,所述电子设备包括客户端、服务端(集群)等各类型的设备。
本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的装置,该装置可包括客户端、服务端(集群)等电子设备。图10示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置400。
对于一个实施例,图10示出了示例性装置400,该装置具有一个或多个处理器402、被耦合到(一个或多个)处理器402中的至少一个的控制模块(芯片组)404、被耦合到控制模块404的存储器406、被耦合到控制模块404的非易失性存储器(NVM)/存储设备408、被耦合到控制模块404的一个或多个输入/输出设备410,以及被耦合到控制模块404的网络接口412。
处理器402可包括一个或多个单核或多核处理器,处理器402可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,装置400能够作为本申请实施例中所述客户端、服务端(集群)等设备。
在一些实施例中,装置400可包括具有指令414的一个或多个计算机可读介质(例如,存储器406或NVM/存储设备408)以及与该一个或多个计算机可读介质相合并被配置为执行指令414以实现模块从而执行本公开中所述的动作的一个或多个处理器402。
对于一个实施例,控制模块404可包括任意适当的接口控制器,以向(一个或多个)处理器402中的至少一个和/或与控制模块404通信的任意适当的设备或组件提供任意适当的接口。
控制模块404可包括存储器控制器模块,以向存储器406提供接口。存储器控制器模块是硬件模块、软件模块和/或固件模块。
存储器406可被用于例如为装置400加载和存储数据和/或指令414。对于一个实施例,存储器406可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,存储器406可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,控制模块404可包括一个或多个输入/输出控制器,以向NVM/存储设备408及(一个或多个)输入/输出设备410提供接口。
例如,NVM/存储设备408可被用于存储数据和/或指令414。NVM/存储设备408可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备408可包括在物理上作为装置400被安装在其上的设备的一部分的存储资源,或者其可被该设备访问可不必作为该设备的一部分。例如,NVM/存储设备408可通过网络经由(一个或多个)输入/输出设备410进行访问。
(一个或多个)输入/输出设备410可为装置400提供接口以与任意其他适当的设备通信,输入/输出设备410包括通信组件、音频组件、传感器组件等。网络接口412可为装置400提供接口以通过一个或多个网络通信,装置400可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如WiFi、2G、3G、4G、5G等,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器402中的至少一个可与控制模块404的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器402中的至少一个可与控制模块404的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器402中的至少一个可与控制模块404的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器402中的至少一个可与控制模块404的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,装置400但不限于是:服务端、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等客户端。在各个实施例中,装置400可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,装置400包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
其中,装置中可采用主控芯片作为处理器或控制模块,传感器数据、位置信息等存储到存储器或NVM/存储设备中,传感器组可作为输入/输出设备,通信接口可包括网络接口。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请实施例是参照根据本申请实施例的方法、客户端(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据分析客户端的处理器以产生一个机器,使得通过计算机或其他可编程数据分析客户端的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据分析客户端以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据分析客户端上,使得在计算机或其他可编程客户端上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程客户端上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者客户端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者客户端所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者客户端中还存在另外的相同要素。
以上对本申请所提供的一种数据分析方法和装置,一种电子设备和一种存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (14)

1.一种工单处理方法,其特征在于,所述方法包括:
获取待分类工单;
将所述待分类工单输入至预设的工单分类模型进行预测,获取候选类别;
从已分类的备选工单中筛选出属于所述候选类别的参考工单;
获取所述参考工单的参考语义特征;
将所述待分类工单输入至所述预设的语义表征模型,获取所述待分类工单的待分类语义特征;
根据所述待分类语义特征与所述参考工单的参考语义特征之间的相似度,确定所述待分类工单的目标类别;
基于所述待分类工单的目标类别,对所述待分类工单进行处理。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待分类语义特征与所述参考工单的参考语义特征之间的相似度,确定所述待分类工单的目标类别,包括:
确定所述待分类语义特征与所述参考语义特征之间的目标语义相似度;
根据所述目标语义相似度、所述待分类工单属于所述候选类别的概率值,确定所述参考工单的目标得分;
将所述目标得分最大的参考工单所属的底层级工单类别,作为所述待分类工单的目标类别,所述底层级工单类别为所述候选类别相对应的下层级类别。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标语义相似度、所述待分类工单属于所述候选类别的概率值,确定所述参考工单的目标得分,包括:
将所述目标语义相似度与所述待分类工单属于所述候选类别的概率值之间相乘,获得所述待分类工单的目标类别。
4.根据权利要求2所述的方法,其特征在于,所述确定所述待分类语义特征与所述参考语义特征之间的目标语义相似度,包括:
在所述待分类语义特征包括至少两个维度的语义特征的情况下,分别获取同一维度下的所述待分类语义特征与所述参考语义特征之间的第一语义相似度;
根据至少部分维度下的第一语义相似度,确定所述目标语义相似度。
5.根据权利要求2所述的方法,其特征在于,所述确定所述待分类语义特征与所述参考语义特征之间的目标语义相似度,包括:
计算所述待分类语义特征与所述参考语义特征之间的余弦相似度,获得所述目标语义相似度。
6.根据权利要求1-5中任一所述的方法,其特征在于,所述将所述待分类工单输入至预设的工单分类模型进行预测,获取候选类别,包括:
将所述待分类工单输入至预设的工单分类模型进行预测,获得多个工单类别的概率值;
将所述概率值符合预设条件的N个工单类别作为候选类别。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第一训练集,所述第一训练集包括第一样本工单以及所述第一样本工单相对应的类别标签;
根据所述第一训练集,对分类模型进行有监督训练,获得所述工单分类模型。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第二训练集,所述第二训练集包括第二样本工单;
根据所述第二训练集,对语义模型进行无监督训练,获得所述语义表征模型。
9.根据权利要求1所述的方法,其特征在于,所述获取待分类工单,包括:
删除所述待分类工单中的停用词;
和/或,通过预设正则表达式匹配所述待分类工单中的无效信息,并删除所述无效信息和/或将所述无效信息替换为预设信息,其中,所述无效信息包括:网址信息、数字信息、符号信息、重复信息、错误信息中的至少一种。
10.根据权利要求1所述的方法,其特征在于,所述获取待分类工单包括:
在第一客户端的工单提交界面接收到输入后,获取工单提交界面中的待分类工单;
所述基于所述待分类工单的目标类别,对所述待分类工单进行处理,包括:
将所述目标类别返回给所述第一客户端,并在所述工单提交界面上展示所述目标类别以供选择。
11.根据权利要求1所述的方法,其特征在于,所述基于所述待分类工单的目标类别,对所述待分类工单进行处理,包括:
将所述待分类工单分配到与所述目标类别对应的处理客户端。
12.一种工单处理装置,其特征在于,所述装置包括:
接收模块,用于获取待分类工单;
预测模块,用于将所述待分类工单输入至预设的工单分类模型进行预测,获取候选类别;
筛选模块,用于从已分类的备选工单中筛选出属于所述候选类别的参考工单;
参考语义获取模块,用于获取所述参考工单的参考语义特征;语义提取模块,用于将所述待分类工单输入至所述预设的语义表征模型,获取所述待分类工单的待分类语义特征;
输出模块,用于根据所述待分类语义特征与所述参考工单的参考语义特征之间的相似度,确定所述待分类工单的目标类别;
处理模块,用于基于所述待分类工单的目标类别,对所述待分类工单进行处理。
13.一种电子设备,其特征在于,包括:处理器;和
存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如权利要求1-11中任一项所述的工单处理方法。
14.一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如权利要求1-11中任一项所述的工单处理方法。
CN202111391953.1A 2021-11-19 2021-11-19 工单处理方法、装置、设备和存储介质 Pending CN114218958A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111391953.1A CN114218958A (zh) 2021-11-19 2021-11-19 工单处理方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111391953.1A CN114218958A (zh) 2021-11-19 2021-11-19 工单处理方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN114218958A true CN114218958A (zh) 2022-03-22

Family

ID=80697914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111391953.1A Pending CN114218958A (zh) 2021-11-19 2021-11-19 工单处理方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN114218958A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115511397A (zh) * 2022-11-23 2022-12-23 广东华居科技有限公司 一种工单数据智能派送方法及系统
CN116029492A (zh) * 2022-12-01 2023-04-28 广州云趣信息科技有限公司 派单方法和装置
CN116777148A (zh) * 2023-05-31 2023-09-19 江苏瑞德信息产业有限公司 一种基于数据分析的服务工单智能分配处理系统
CN117132218A (zh) * 2023-07-17 2023-11-28 杭州逍邦网络科技有限公司 工作流管理系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115511397A (zh) * 2022-11-23 2022-12-23 广东华居科技有限公司 一种工单数据智能派送方法及系统
CN116029492A (zh) * 2022-12-01 2023-04-28 广州云趣信息科技有限公司 派单方法和装置
CN116029492B (zh) * 2022-12-01 2023-12-01 广州云趣信息科技有限公司 派单方法和装置
CN116777148A (zh) * 2023-05-31 2023-09-19 江苏瑞德信息产业有限公司 一种基于数据分析的服务工单智能分配处理系统
CN116777148B (zh) * 2023-05-31 2023-12-05 江苏瑞德信息产业有限公司 一种基于数据分析的服务工单智能分配处理系统
CN117132218A (zh) * 2023-07-17 2023-11-28 杭州逍邦网络科技有限公司 工作流管理系统
CN117132218B (zh) * 2023-07-17 2024-03-19 杭州逍邦网络科技有限公司 工作流管理系统

Similar Documents

Publication Publication Date Title
Gupta et al. Study of Twitter sentiment analysis using machine learning algorithms on Python
CN109829629B (zh) 风险分析报告的生成方法、装置、计算机设备和存储介质
CN106919619B (zh) 一种商品聚类方法、装置及电子设备
CN110163647B (zh) 一种数据处理方法及装置
CN114218958A (zh) 工单处理方法、装置、设备和存储介质
CN110888990B (zh) 文本推荐方法、装置、设备及介质
WO2019043379A1 (en) CONTROL OF FACTS
CN108073568A (zh) 关键词提取方法和装置
WO2018184518A1 (zh) 微博数据处理方法、装置、计算机设备及存储介质
CN112347244A (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
CN110362798B (zh) 裁决信息检索分析方法、装置、计算机设备和存储介质
JP2008084151A (ja) 情報表示装置および情報表示方法
US11615361B2 (en) Machine learning model for predicting litigation risk in correspondence and identifying severity levels
CN112307770A (zh) 敏感信息的检测方法、装置、电子设备及存储介质
CN114528845A (zh) 异常日志的分析方法、装置及电子设备
CN112836509A (zh) 一种专家系统知识库构建方法及系统
KR20160149050A (ko) 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법
Loyola et al. UNSL at eRisk 2021: A Comparison of Three Early Alert Policies for Early Risk Detection.
Park et al. An analysis of environmental big data through the establishment of emotional classification system model based on machine learning: focus on multimedia contents for portal applications
CN112181490A (zh) 功能点评估法中功能类别的识别方法、装置、设备及介质
Andoh et al. Statistical analysis of public sentiment on the ghanaian government: a machine learning approach
CN114372532A (zh) 标签标注质量的确定方法、装置、设备、介质及产品
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
US20210117448A1 (en) Iterative sampling based dataset clustering
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination