CN112800215A - 一种文本处理方法、装置、可读存储介质和电子设备 - Google Patents
一种文本处理方法、装置、可读存储介质和电子设备 Download PDFInfo
- Publication number
- CN112800215A CN112800215A CN202110129551.8A CN202110129551A CN112800215A CN 112800215 A CN112800215 A CN 112800215A CN 202110129551 A CN202110129551 A CN 202110129551A CN 112800215 A CN112800215 A CN 112800215A
- Authority
- CN
- China
- Prior art keywords
- work order
- text
- sample data
- category
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims description 60
- 238000012545 processing Methods 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 21
- 238000003062 neural network model Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 15
- 238000013507 mapping Methods 0.000 description 10
- 230000002457 bidirectional effect Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种文本处理方法、装置、可读存储介质和电子设备。本发明实施例的技术方案通过获取待处理文本,将待处理文本输入经训练的工单预测模型从而确定与所述待处理文本相关度满足预设条件的至少一个第一工单类别,在所述至少一个第一工单类别中确定指定类别,根据指定类别分发待处理文本,从而使得工单分类的准确度得以提高。
Description
技术领域
本发明涉及计算机领域,具体涉及一种文本处理方法、装置、可读存储介质和电子设备。
背景技术
基于互联网提供服务的实体需要为客户提供海量的客户服务,客户服务的需求通常通过工单的方式流转和管理。在业务系统中,每天都有大量的工单产生,随着业务的调整,工单的层级结构不断变化,现有技术方案通常是人工的方式对工单进行分类。工单层级结构更新后,工作人员需要记忆更新后的工单层级结构,根据工单层级结构找到工单分类结果。当工作人员需要提交工单时往往花费较长的时间找到正确的工单分类结果。通过人工分类还存在分类不够准确的问题。
发明内容
有鉴于此,为了解决人工分类效率低、容易出错的问题,本发明实施例的目的是提供一种文本处理方法、装置、可读存储介质和电子设备。
第一方面,本发明实施例提供一种文本处理方法,包括:
获取待处理文本;
根据所述待处理文本和经训练的工单预测模型确定至少一个第一工单类别;
在所述至少一个第一工单类别中确定指定类别;以及
根据指定类别分发所述待处理文本。
优选地,所述工单预测模型包括主题预测模型和工单微调模型;
根据所述待处理文本和经训练的工单预测模型确定至少一个第一工单类别包括:
从所述待处理文本中提取描述信息;
将所述描述信息输入主题预测模型,预测第一主题;
将所述第一主题与所述描述信息合并后输入工单微调模型,获取所述至少一个第一工单类别。
优选地,所述在所述至少一个第一工单类别中确定指定类别包括:
获取用户端预先输入的第二工单类别;
响应于所述第二工单类别与至少一个所述第一工单类别匹配,将所述第二工单类别确定为所述指定类别;以及
响应于所述第二工单类别与各所述第一工单类别均不匹配,将各所述第一工单类别发送至用户端,并获取用户端在各所述第一工单类别中指定的指定类别。
优选地,所述工单类别通过数字标签表征,所述数字标签通过如下步骤确定:
获取历史工单分类的层级关系,根据历史工单分类的层级关系获取多个文本标签,所述文本标签能够表征历史工单的分类结果;
将文本标签映射到数字标签。
优选地,在所述获取待处理文本之前包括:
根据历史工单数据训练工单预测模型。
优选地,所述根据历史工单数据训练工单预测模型包括:
根据历史工单数据获取预训练样本数据集和微调样本数据集,所述微调样本数据集是根据历史工单数据对所述预训练样本数据集修正获得的;
通过所述预训练样本数据集对神经网络模型预训练;
通过所述微调样本数据集对预训练后的神经网络模型微调,获得所述工单预测模型。
优选地,所述根据历史工单数据获取预训练样本数据集和微调样本数据集包括:
获取所述历史工单数据,所述历史工单数据包括描述样本、人工标注的主题样本以及标签样本;
根据描述样本和主题样本获得预训练样本数据;
根据多条预训练样本数据获得所述预训练样本数据集;
将预训练样本数据集中的描述信息和主题信息合并后去除停用词后获得第一描述信息;
根据所述第一描述信息获得初始微调样本数据;
根据多条初始微调样本数据获得初始微调样本数据集;
根据初始微调样本数据集获得微调样本数据集。
优选地,所述根据初始微调样本数据集获得微调样本数据集包括:
按预定的比例将所述初始微调样本数据集划分为初始微调训练集、初始微调验证集和初始微调测试集;
统计所述初始微调样本数据集中的各标签样本的数量;
将小于预定数量的初始微调样本数据标记为长尾数据集;
使用长尾数据集更新所述初始微调样本数据集后获得微调样本数据集。
第二方面,本发明实施例提供一种文本处理装置,包括:
接收装置,用于获取待处理文本;
工单类别预测装置,用于根据所述待处理文本和经训练的工单预测模型确定与所述待处理文本相关度满足预设条件的至少一个第一工单类别;
确定装置,用于在所述至少一个第一工单类别中确定指定类别;
提交装置,根据所述指定类别分发所述待处理文本。
第三方面,本发明实施例提供一种计算机可读存储介质,用于存储计算机程序指令,所述计算机程序指令在被所述处理器执行时以实现上述中任一项所述的方法。
第四方面,本发明实施例提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现上述任一项所述的方法。
本发明实施例的技术方案通过获取待处理文本,将待处理文本输入经训练的工单预测模型从而确定与待处理文本相关度满足预设条件的至少一个第一工单类别,在所述至少一个第一工单类别中确定指定类别,将待处理文本提交到指定类别表征的业务。从而使得工单分类结果的准确度得以提高。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例提供的实施环境的示意图;
图2是本发明实施例工单预测模型的示意图;
图3是本发明实施例训练工单预测模型的流程图;
图4是本发明实施例获得预训练样本数据集和微调样本数据集的流程图;
图5是本发明实施例获取微调样本数据集的流程图;
图6是本发明实施例的文本处理的流程图;
图7是本发明实施例预测第一工单类别的流程图;
图8是本发明实施例获取指定类别的流程图;
图9是本发明实施例将文本标签与数字标签映射的示意图;
图10是本发明实施例确定数字标签的流程图;
图11是本发明实施例历史工单层级关系的示意图;
图12是本发明实施例文本处理装置的示意图;
图13是本发明本发明实施例文本处理系统的示意图;
图14是本发明实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
为了解决人工分类效率低、容易出错的问题,本发明实施例提供一种文本处理方法。本发明实施例的技术方案首先使用历史工单数据训练工单预测模型,随后使用经训练的工单预测模型辅助人工对待处理工单进行分类。
图1是本发明实施例提供的实施环境的示意图。
该实施环境中包括终端100和服务器200,其中,终端100与服务器200之间通过通信网络进行数据通信,可选地,通信网络可以是有线网络也可以是无线网络,且该通信网络可以是局域网、城域网以及广域网中的至少一种。
终端100中安装有文本处理的应用程序,该应用程序可以是工单录入应用程序、文本分类应用程序、工单分类应用程序、工单分发应用程序等等,本发明实施例对此不作限定。
可选的,终端100可以是平板电脑、膝上便携式笔记本电脑等移动终端,也可以是个人计算机、工作站等终端,本发明实施例对此不做限定。
服务器200可以实现为一台服务器,也可以实现为一组服务器构成的服务器集群,其可以是物理服务器,也可以为云服务器。在一种可选的实施方式中,服务器200是终端100中应用程序的后台服务器。
具体地,业务人员通过终端100将客户反映的问题录入描述信息,其中,描述信息是一条未分类的待处理工单,业务人员将该问题可能的工单分类结果录入第二工单类别,其中,第二工单类别是业务人员对工单分类结果的一种预先判断。服务器200根据经训练的工单预测模型对描述信息进行预测并给出至少一个第一工单类别。通过第一工单类别与第二工单类别进行比较确定指定类别,根据指定类别分发所述描述信息。从而服务器200根据描述信息创建待分类工单后按指定类别将待分类工单分发。本发明实施例的技术方案通过服务器预测的第二工单类别辅助业务人员对描述信息进行分类,从而提高了工单分类的准确率。
参照图1,为了使工单预测模型预测出的至少一个第一工单类别更加准确,本发明实施例的工单预测模型包括主题预测模型和工单微调模型。
图2是本发明实施例工单预测模型的示意图。
参照图2,本发明实施例的工单预测模型210包括主题预测模型240和工单微调模型260。
其中,主题预测模型240能够根据描述信息110预测第一主题320。将描述信息110和第一主题320合并后输入工单微调模型260,通过工单微调模型260预测出满足条件的第一工单类别300。
为了通过工单预测模型210预测至少一个第一工单类别,本发明实施例的工单预测模型210是通过预先训练神经网络获得的。
优选地,本发明实施例的神经网络采用BERT(Bidirectional EncoderRepresentation from Transformers,双向编码神经网络模型)。
具体地,本发明实施例根据历史工单数据训练工单预测模型210。
图3是本发明实施例训练工单预测模型的流程图。
参照图3,训练工单预测模型包括步骤1100-步骤1300。
步骤1100,根据历史工单数据获取预训练样本数据集和微调样本数据集。
图4是本发明实施例获得预训练样本数据集和微调样本数据集的流程图。
具体地,在一种可选的实现方式中,参照图4,通过以下步骤获得预训练样本数据集和微调样本数据集。
步骤1110,获取所述历史工单数据。历史工单数据包括描述样本、人工标注的主题样本以及标签样本。
具体地,每条历史工单数据包括描述样本、人工标注的主题样本和人工标注的标签样本。
描述样本是对客户反映问题的具体描述,以文本形式记录。人工标注的主题样本是对客户反映问题的一种概括。人工标注的标签样本是对客户反映问题的分类结果。根据分类结果能够将客户反映的问题提交到具体的业务部分或人员。例如提交到具体的人员或部门后,具有对应权限的人员或部门能够收到工单,并对工单中客户反映的问题进行跟进和处理。
步骤1120,根据描述样本和主题样本获得预训练样本数据。
具体地将每条历史工单数据的描述样本和人工标注的主题样本提取出来,成为一对预训练样本数据。
步骤1130,根据多条预训练样本数据获得所述预训练样本数据集。
具体地,将预定数量的预训练样本数据组成预训练样本数据集。在本发明实施例中预定数量可以的按周期获取到的。例如,获取过去1年中的历史工单数据,根据过去1年中的历史工单数据获得预训练样本数据集。也可以按数值获取预定数量的历史工单数据。例如,首先,获取20万条历史工单数据,随后,根据20万条历史工单数据获得预训练样本数据集。
本发明实施例通过步骤1110-步骤1130能够获得预训练样本数据集,从而对BERT模型进行训练后获得主题预测模型。具体地,通过描述样本和人工标注的主题样本组成预训练数据集。通过预训练数据集训练BERT模型后获得主题预测模型。随后,根据预训练样本数据集获得微调样本数据集,根据微调样本数据集获得微调预测模型。
步骤1140,将预训练样本数据集中的描述信息和主题信息合并后去除停用词后获得第一描述信息。
停用词是一种无关信息或干扰信息,有时会影响模型的分类结果。为了使工单分类模型的预测结果更加准确,将预训练样本数据集中的描述信息和主题信息合并后去除停用词后获得第一描述信息。
步骤1150,根据所述第一描述信息和标签样本获得初始微调样本数据。
在一种可选的实现方式中根据第一描述信息和标签样本获得初始微调样本数据。
步骤1160,根据多条初始微调样本数据获得初始微调样本数据集。
步骤1170,根据初始微调样本数据集获得微调样本数据集。
本发明实施例通过历史工单数据获取预训练样本数据集和微调样本数据集。从而能够通过预训练样本数据对双向编码神经网络模型BERT进行预训练,以获得主题预测模型。
本发明实施例根据初始微调样本数据集获得微调样本数据集。从而能够对经训练的双向编码神经网络模型BERT进行微调,以获得微调预测模型。主题预测模型和微调预测模型构成工单分类模型。
具体地,为了获得微调样本数据集,步骤1170包括四个子步骤。参照图5,分别是步骤1171-步骤1174。
步骤1171,按预定的比例将所述初始微调样本数据集划分为初始微调训练集、初始微调验证集和初始微调测试集。
优选地,可以通过7:1.5:1.5的比例将初始微调样本数据集划分为初始微调训练集、初始微调验证集和初始微调测试集。本发明实施例对预定比例不做限定。
步骤1172,统计所述初始微调样本数据集中的各初始微调样本的数量。
步骤1173,将小于预定数量的初始微调样本数据标记为长尾数据集。
具体地,在历史工单数据中,有些标签样本的数量非常少,如果直接按预定比例将初始微调样本数据集划分初始微调训练集、初始微调验证集或者初始微调测试集中,有些标签样本可能被划分到验证集。对于这些数量较少的标签样本,就不能使用这些数据对双向编码神经网络模型BERT进行微调,使得与这些标签样本对应的第一描述样本没有机会参与训练的过程。这就会导致预训练后的双向编码神经网络模型BERT的工单分类结果的准确度低。为此,本发明实施例将小于预定数量的初始微调样本数据标记为长尾数据集。
步骤1174,使用长尾数据集更新所述初始微调样本数据集后获得微调样本数据集。
具体地,本发明实施例将长尾数据集划分到微调训练集中,从而使得数量较少的长尾数据能够对双向编码神经网络模型BERT进行训练。进而,提高了预测的准确率。
为了获得主题预测模型,执行步骤1200。
步骤1200,通过所述预训练样本数据集对神经网络模型预训练。
优选地,本发明实施例的神经网络采用BERT(Bidirectional EncoderRepresentation from Transformers,双向编码神经网络模型)。
具体地,通过预训练样本数据集对双向编码神经网络模型BERT预训练,从而获得主题预测模型。
为了获得工单微调模型,执行步骤1300。
步骤1300,通过所述微调样本数据集对预训练后的双向编码神经网络模型BERT微调,获得工单微调模型。
本发明实施例将主题预测模型和工单微调模型组合后获得工单预测模型。
本发明实施例通过历史工单数据获取预训练样本数据集和微调样本数据集,通过预训练样本数据集对双向编码神经网络模型BERT预训练获得主题预测模型,通过微调样本数据集对预训练后的双向编码神经网络模型BERT微调获得工单微调模型,将将主题预测模型和工单微调模型组合后获得工单预测模型,由此,本发明实施例的工单预测模型能够预测工单分类结果,从而提高工单分类的效率。
图6是本发明实施例的文本处理的流程图。
本发明实施例的文本处理流程包括步骤1000-步骤4000。
步骤1000,获取待处理文本;
待处理文本包括描述信息和第二工单类别。其中描述信息是客户反映的问题,第二工单类别是人工对工单分类结果的预先判断。
步骤2000,根据所述待处理文本和经训练的工单预测模型确定与所述待处理文本相关度满足预设条件的至少一个第一工单类别。
具体地,将描述信息输入工单预测模型,通过工单预测模型获得N个第一工单类别。在一种可选的实现方式中N为正整数、N的取值大于等于1。
图7是本发明实施例预测第一工单类别的流程图。
具体地,参照图7,步骤2000包括3个子步骤,分别是步骤2100-步骤2300。
步骤2100,从所述待处理文本中提取描述信息;
步骤2200,将所述描述信息输入主题预测模型,预测第一主题;
步骤2300,将所述第一主题与所述描述信息合并后输入工单微调模型,获取满足预设条件的所述至少一个第一工单类别。
具体地,将所述第一主题与所述描述信息合并后去除停用词获得第一描述信息,将第一描述信息输入工单微调模型。通过工单微调模型预测至少一个第一工单类别。
步骤3000,在所述至少一个第一工单类别中确定指定类别。
图8是本发明实施例获取指定类别的流程图。
第二工单类别是人工对工单分类结果的预先判断。由于不知道第二工单类别是否准确,将第二工单类别与至少一个第一工单类别进行比较。具体地,参照图8,步骤3000包括3个子步骤,分别是步骤3100-步骤3300。
步骤3100,获取用户端预先输入的第二工单类别。
步骤3200,响应于所述第二工单类别与第一工单类别匹配,将所述第二工单类别确定为所述指定类别。
也就是说,用户端提交的第二工单类别与服务器预测的一个或多个第一工单类别进行比较。将用户提交的第二工单类别与服务器预测的一个第一工单类别进行比较,如果用户提交的第二工单类别与第一工单类别相同,则将第二工单类别确定为指定类别。或者,将用户提交的第二工单类别与服务器预测的多个第一工单类别进行比较,如果用户提交的第二工单类别与服务器预测的任意一个第一工单类别相同,则将第二工单类别确定为指定类别。
步骤3300,响应于所述第二工单类别与各所述第一工单类别不匹配,将所述各第一工单类别发送至用户端,并获取用户端在各所述第一工单类别中指定的指定类别。
也就是说,用户端提交的第二工单类别与服务器预测的一个或多个第一工单类别均不匹配,说明用户端提交的第二工单类别有误。则将各第一工单类别发送到用户端,供用户端选择。
具体地,将第二工单类别与一个第一工单类别进行比较,如果第二工单类别与第一工单类别不同,则将服务器预测的第一工单类别确定为指定类别。或者,将用户提交的第二工单类别与服务器预测的多个第一工单类别进行比较,如果用户提交的第二工单类别与服务器预测的任意一个第一工单类都不同,说明用户提交的第二工单类别是错误的,则将多个第一工单类别发送到终端供用户进行选择。将用户在多个第一工单类别中指定的一个第一工单类别确定为指定类别。
步骤4000,根据指定类别分发所述待处理文本。
按指定类别分发待处理文本。具体地,提取待处理文本中的描述信息,将描述信息按指定类别分发。从而使得,描述信息能够准确分类后提交到对应的人员或部门。
本发明实施例的技术方案通过获取待处理文本,将待处理文本输入经训练的工单预测模型,从而确定与待处理文本相关度满足预设条件的至少一个第一工单类别。由于第一工单类别是经预测获得的,效率更高还能避免人工造成的错误。在所述至少一个第一工单类别中确定指定类别,根据指定类别分发待处理文本,从而使得工单分类结果的准确度更高。
优选地,为了使得本发明实施例的文本处理方法能够适应工单分类的层级关系的变化,本发明实施的第一工单类别通过数字标签表征,所述数字标签通过如下步骤确定:获取历史工单分类的层级关系,根据历史工单分类的层级关系获取多个文本标签,所述文本标签能够表征历史工单的分类结果;将文本标签映射到数字标签。
图9是本发明实施例将文本标签与数字标签映射的示意图。
参照图9,根据历史工单分类的层级关系提取文本标签120。所述文本标签120能够表征历史工单的分类结果。
创建数字标签130,所述数字标签能够表征所述工单第一类别。
将文本标签120与数字标签130映射,创建映射关系140。
获取指定类别310。在一种可选的实现方式中,指定类别310为数字标签130中的任意一项。在另一种可选的实现方式中,指定类别310为文本标签120中的任意一项。
获取待处理文本110。待处理文本110是待分类的工单。
根据指定类别310分发待处理文本110。根据映射关系140,待处理文本110能够分发到更新后的工单分类对应的人员或部门。由此,当本发明实施例的工单分类发生变化时,仍然能够根据映射关系140将待处理文本110分发到更新后的工单分类对应的人员或部门。
图10是本发明实施例确定数字标签的流程图。
本发明实施例的数字标签通过步骤5000和步骤6000确定。
步骤5000,获取历史工单分类的层级关系,根据历史工单分类的层级关系获取多个文本标签,所述文本标签能够表征历史工单的分类结果。
图11是本发明实施例历史工单层级关系的示意图。
参照图11,历史工单分类的层级关系采用树状的层级关系,从而能够分层次地描述工单的类别。树状的层级关系可以帮助业务人员快速定位到叶节点表征的业务。具体地,当业务人员接到客户电话时,业务人员将客户的诉求记录下来形成一条工单。业务人员将工单提交到对应的人员或部门。
具体而言,业务人员事先了解工单分类的层级关系,根据客户诉求的具体内容将客户诉求以文本形式记录下来形成工单。业务人员的通过主观判断,将工单提交到对应的人员或部门。例如,业务人员将客户的问题1提交到一级标签1-二级标签1-三级标签1-四级标签1代表的人员或部门。业务人员将客户的问题2提交到一级标签1-二级标签1-三级标签1-四级标签2代表的人员或部门。
树状结构表达的工单分类层级关系中,每个树干节点和叶节点具有对应的文本标签(文本标签是对业务的一种描述)。树干节点的文本标签不同。叶节点的文本标签可以相同也可以不同。例如,四级标签1和四级标签3的文本标签可以相同。具体地,四级标签1的文本标签为“其他”,四级标签3的文本标签也可以为“其他”。四级标签1属于财务部门,四级标签3属于技术部门。也就是说叶节点的文本标签相同时,不同叶节点表征的人员或部门实质不同。叶节点的文本标签不同时,不同叶节点表征的人员或部门实质不同。
工单分类的层级关系中“四级标签1”“四级标签2”“四级标签3”“四级标签4”“二级标签2”“一级标签3”都是文本标签,它们所表征的人员或部门实际上是不同的。
当组织架构发生调整时,人员或部门对应调整,叶节点的层级关系也对应发生变化。例如,叶节点二级标签2被调整为叶节点一级标签3。虽然叶节点的路径发生变化,但是节点表征的人员或部门没有发生变化。为了使得组织架构发生调整后,本发明实施例的工单能够准确的提交到对应的人员或部门,本发明实施例将文本标签与数字标签进行映射。
步骤6000,将文本标签映射到数字标签。
将文本标签映射到数字标签,所述数字标签能够表征所述工单第一类别。
在一种可选的实现方式中,获取历史工单分类的层级关系,根据历史工单分类的层级关系获取文本标签。根据叶节点遍历所有的文本标签,将文本标签与数字标签映射,具体参照表1:
表1
需要说明的是,表1中的“+”表示为字符串的连接关系,表1中的数字标签仅仅是示意性的表示,实际中可以结合具体的业务设置不同的数字标签。本发明实施例对数字标签的表示方式不做限定。
通过将文本标签与数字标签映射,文本标签的层级关系变化,对应的数字标签不变。例如,叶节点二级标签2被调整为叶节点一级标签3。那么文本标签由“二级标签2+一级标签1”调整为“一级标签3”,调整后的一级标签3仍然和数字标签“104”对应,根据数字标签,仍然将该业务提交到表1中数字标签“104”对应的人员或部门。
本发明实施例的技术方案,通过获取历史工单分类的层级关系,根据历史工单分类的层级关系获取多个文本标签,所述文本标签能够表征历史工单的分类结果。将文本标签映射到数字标签,所述数字标签能够表征所述工单第一类别。由此,当工单分类的层级关系的变化时,仍然能够根据映射关系将工单提交到对应的人员或部门。
图12是本发明实施例文本处理装置的示意图。
本发明实施例的文本处理装置包括接收装置11、工单类别预测装置12、确定装置13和提交装置14。本发明实施例的文本处理装置可以部署在如图2所示的服务器200上。
接收装置11用于获取待处理文本。
工单类别预测装置12用于根据所述待处理文本和经训练的工单预测模型210确定与所述待处理文本相关度满足预设条件的至少一个第一工单类别。
确定装置13用于在所述至少一个第一工单类别中确定指定类别。
提交装置14用于根据指定类别分发待处理文本,也即将待处理文本提交到指定类别对应的人员或部门。
图13是本发明实施例文本处理系统的示意图。
以本发明实施例提供的文本处理系统用于辅助业务人员对工单进行分类为例进行说明。
本发明实施例的文本处理系统包括终端100和服务器200。终端100可以为多个也可以为一个。
当业务人员通过客服热线接到客户反映的问题时,业务人员通过终端100将客户反映的问题以描述信息110进行保存,其中,描述信息110是一条未分类的待处理工单,业务人员将该问题可能的工单分类结果录入第二工单类别120,其中,第二工单类别120是业务人员对工单分类结果的一种预先判断。由于业务人员的工作不熟练或工单分类的层级关系发生调整,业务人员提交的第二工单类别120可能不准确。为此,本发明实施例的文本处理系统通过服务器200辅助业务人员对该描述信息110进行分类。
具体地,业务人员通过终端100将描述信息和第二工单类别提交到服务器200,为了使描述信息110所表征的问题能够准确提交到工单分类结果对应的业务。由服务器200通过经训练的工单预测模型210预测出与描述信息110满足预定条件的N个第一工单类别300,并由服务器比较业务人员提交的第二工单类别120与预测出的N个第一工单类别300是否匹配。N为正整数,大于等于1,本发明实施例对N的具体数值不做限定。
具体地,服务器200收到描述信息110和第二工单类别120。服务器200将描述信息110和第二工单类别120作为待处理文本。服务器200将描述信息110输入工单预测模型210,通过工单预测模型210获得N个第一工单类别300。其中,N为正整数。N个第一工单类别是工单预测模型210按预定条件预测出的N个工单分类结果。本发明实施例的预定条件可以是相关度的阈值,例如相关度大于90%,则输出N个相关度大于90%的第一工单类别。预设条件也可以是给定的数值,例如将N设置为5,则按相关度排序,给出相关度最高的5个第一工单类别。
后续以N等于5进行说明。具体地,服务器200将5个第一工单类别300与终端100提交的第二工单类别120进行比较。
如果第二工单类别120是5个第一工单类别300中的任意一个,则说明业务人员主观判断的分类结果是准确的。则将第二工单类别120确定为指定类别310。
如果第二工单类别120不是5个第一工单类别300中的任意一个,说明业务人员通过主观判断的第二工单类别120是错误的。在这种情况下,服务器将5个第一工单类别300反馈到终端100供业务人员选择,由业务人员选择其中一个第一工单类别。服务器200将业务人员选择第一工单类别确定为指定类别310。
服务器200按指定类别310分发描述信息110。从而形成一条工单提交到对应的人员或部门。
本发明实施例通过终端录入描述信息和第二工单类别,第二工单类别是业务人员对工单分类结果的一种预先判断。服务器获取终端上的描述信息和第二工单类别,服务器将描述信息输入经训练的工单预测模型210,预测出N个相关度最高的第一工单类别,服务器将终端提交的第二工单类别与N个第一工单类别进行比较确定指定类别。服务器将描述信息按指定类别分发到对应的人员或部门。本发明实施例通过服务器辅助人工进行工单分类,从而提高了工单分类的准确性。
图14是本发明实施例的电子设备的示意图。
如图14所示的电子设备14包括通用的硬件结构,其至少包括处理器141和存储器142。处理器141和存储器142通过总线143连接。存储器142适于存储处理器141可执行的指令或程序。处理器141可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器141通过执行存储器142所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线143将上述多个组件连接在一起,同时将上述组件连接到显示控制器144和显示装置以及输入/输出(I/O)装置145。输入/输出(I/O)装置145可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置145通过输入/输出(I/O)控制器146与系统相连。
本领域的技术人员应明白,本申请的实施例可提供方法、装置(设备)或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。
这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。
也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
本发明的另一实施例涉及一种非易失性可读存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部方法的实施例。
即,本领域技术人员可以理解,实现上述实施例的方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成,该程序存储在一个可读存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种文本处理方法,其特征在于,所述方法包括:
获取待处理文本;
根据所述待处理文本和经训练的工单预测模型确定至少一个第一工单类别;
在所述至少一个第一工单类别中确定指定类别;以及
根据所述指定类别分发所述待处理文本。
2.根据权利要求1所述的文本处理方法,其特征在于,所述工单预测模型包括主题预测模型和工单微调模型;
根据所述待处理文本和经训练的工单预测模型确定至少一个第一工单类别包括:
从所述待处理文本中提取描述信息;
将所述描述信息输入主题预测模型,预测第一主题;
将所述第一主题与所述描述信息合并后输入工单微调模型,获取所述至少一个第一工单类别。
3.根据权利要求1所述的文本处理方法,其特征在于,所述在所述至少一个第一工单类别中确定指定类别包括:
获取用户端预先输入的第二工单类别;
响应于所述第二工单类别与至少一个所述第一工单类别匹配,将所述第二工单类别确定为所述指定类别;以及
响应于所述第二工单类别与各所述第一工单类别均不匹配,将各所述第一工单类别发送至用户端,并获取用户端在各所述第一工单类别中指定的指定类别。
4.根据权利要求1所述的文本处理方法,其特征在于,所述第一工单类别通过数字标签表征,所述数字标签通过如下步骤确定:
获取历史工单分类的层级关系,根据历史工单分类的层级关系获取多个文本标签,所述文本标签能够表征历史工单的分类结果;
将文本标签映射到数字标签。
5.根据权利要求1所述的文本处理方法,其特征在于,在所述获取待处理文本之前包括:
根据历史工单数据训练工单预测模型。
6.根据权利要求5所述的文本处理方法,其特征在于,所述根据历史工单数据训练工单预测模型包括:
根据历史工单数据获取预训练样本数据集和微调样本数据集,所述微调样本数据集是根据历史工单数据对所述预训练样本数据集修正获得的;
通过所述预训练样本数据集对神经网络模型预训练;
通过所述微调样本数据集对预训练后的神经网络模型微调,获得所述工单预测模型。
7.根据权利要求6所述的文本处理方法,其特征在于,所述根据历史工单数据获取预训练样本数据集和微调样本数据集包括:
获取所述历史工单数据,所述历史工单数据包括描述样本、人工标注的主题样本以及标签样本;
根据描述样本和主题样本获得预训练样本数据;
根据多条预训练样本数据获得所述预训练样本数据集;
将预训练样本数据集中的描述信息和主题信息合并后去除停用词后获得第一描述信息;
根据所述第一描述信息和所述标签样本获得初始微调样本数据;
根据多条初始微调样本数据获得初始微调样本数据集;
根据初始微调样本数据集获得微调样本数据集。
8.根据权利要求7所述的文本处理方法,其特征在于,所述根据初始微调样本数据集获得微调样本数据集包括:
按预定的比例将所述初始微调样本数据集划分为初始微调训练集、初始微调验证集和初始微调测试集;
统计所述初始微调样本数据集中各初始微调样本的数量;
将小于预定数量的初始微调样本数据标记为长尾数据集;
使用长尾数据集更新所述初始微调样本数据集后获得微调样本数据集。
9.一种文本处理装置,其特征在于,所述文本处理装置包括:
接收装置,用于获取待处理文本;
工单类别预测装置,用于根据所述待处理文本和经训练的工单预测模型确定与所述待处理文本相关度满足预设条件的至少一个第一工单类别;
确定装置,用于在所述至少一个第一工单类别中确定指定类别;
提交装置,根据所述指定类别分发所述待处理文本。
10.一种计算机可读存储介质,用于存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时以实现如权利要求1-8中任一项所述的方法。
11.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110129551.8A CN112800215A (zh) | 2021-01-29 | 2021-01-29 | 一种文本处理方法、装置、可读存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110129551.8A CN112800215A (zh) | 2021-01-29 | 2021-01-29 | 一种文本处理方法、装置、可读存储介质和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112800215A true CN112800215A (zh) | 2021-05-14 |
Family
ID=75813019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110129551.8A Pending CN112800215A (zh) | 2021-01-29 | 2021-01-29 | 一种文本处理方法、装置、可读存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800215A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113641823A (zh) * | 2021-08-20 | 2021-11-12 | 北京百度网讯科技有限公司 | 文本分类模型训练、文本分类方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416032A (zh) * | 2018-03-12 | 2018-08-17 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置及存储介质 |
CN109635292A (zh) * | 2018-12-05 | 2019-04-16 | 杭州东方通信软件技术有限公司 | 基于机器学习算法的工单质检方法和装置 |
CN110472246A (zh) * | 2019-08-16 | 2019-11-19 | 上海掌学教育科技有限公司 | 工单分类方法、装置及存储介质 |
WO2020134783A1 (zh) * | 2018-12-26 | 2020-07-02 | 中兴通讯股份有限公司 | 告警派单方法、装置、系统及计算机可读存储介质 |
CN111522947A (zh) * | 2020-04-22 | 2020-08-11 | 北京思特奇信息技术股份有限公司 | 一种处理投诉工单的方法和系统 |
-
2021
- 2021-01-29 CN CN202110129551.8A patent/CN112800215A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416032A (zh) * | 2018-03-12 | 2018-08-17 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置及存储介质 |
CN109635292A (zh) * | 2018-12-05 | 2019-04-16 | 杭州东方通信软件技术有限公司 | 基于机器学习算法的工单质检方法和装置 |
WO2020134783A1 (zh) * | 2018-12-26 | 2020-07-02 | 中兴通讯股份有限公司 | 告警派单方法、装置、系统及计算机可读存储介质 |
CN110472246A (zh) * | 2019-08-16 | 2019-11-19 | 上海掌学教育科技有限公司 | 工单分类方法、装置及存储介质 |
CN111522947A (zh) * | 2020-04-22 | 2020-08-11 | 北京思特奇信息技术股份有限公司 | 一种处理投诉工单的方法和系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113641823A (zh) * | 2021-08-20 | 2021-11-12 | 北京百度网讯科技有限公司 | 文本分类模型训练、文本分类方法、装置、设备及介质 |
CN113641823B (zh) * | 2021-08-20 | 2023-11-17 | 北京百度网讯科技有限公司 | 文本分类模型训练、文本分类方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106934254B (zh) | 一种开源许可证的分析方法及装置 | |
US9146987B2 (en) | Clustering based question set generation for training and testing of a question and answer system | |
US9230009B2 (en) | Routing of questions to appropriately trained question and answer system pipelines using clustering | |
US20140314311A1 (en) | System and method for classification with effective use of manual data input | |
US20110047156A1 (en) | System And Method For Generating A Reference Set For Use During Document Review | |
JP2003519828A (ja) | トレーニングデータから導かれる確率的なレコードリンクモデル | |
CN109784042A (zh) | 时间序列中异常点的检测方法、装置、电子设备及存储介质 | |
CN108920677A (zh) | 问卷调查方法、调查系统及电子设备 | |
CN113256383B (zh) | 保险产品的推荐方法、装置、电子设备及存储介质 | |
US20200090058A1 (en) | Model variable candidate generation device and method | |
CN112528007A (zh) | 一种招商项目的目标企业的确认方法及确认装置 | |
CN107229614A (zh) | 用于分类数据的方法和装置 | |
CN109933648A (zh) | 一种真实用户评论的区分方法和区分装置 | |
CN114139634A (zh) | 一种基于成对标签权重的多标签特征选择方法 | |
CN112800215A (zh) | 一种文本处理方法、装置、可读存储介质和电子设备 | |
CN108304568B (zh) | 一种房地产公众预期大数据处理方法及系统 | |
CN111105041B (zh) | 一种用于智慧数据碰撞的机器学习方法及装置 | |
CN112163415A (zh) | 针对反馈内容的用户意图识别方法、装置及电子设备 | |
EP3489838A1 (en) | Method and apparatus for determining an association | |
CN115982429A (zh) | 一种基于流程控制的知识管理方法及系统 | |
CN107577760B (zh) | 一种基于约束规范的文本分类方法及装置 | |
CN107315807B (zh) | 人才推荐方法和装置 | |
CN105740389A (zh) | 一种分类方法及装置 | |
CN112215006B (zh) | 机构命名实体归一化方法和系统 | |
CN114238768A (zh) | 资讯信息的推送方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |