CN117172508A

CN117172508A - 一种基于城运投诉工单识别的自动派单方法及系统

Info

Publication number: CN117172508A
Application number: CN202311427226.5A
Authority: CN
Inventors: 柴亚团; 黄凯凯; 陈思远
Original assignee: Wuxi Rongzhi Technology Co ltd
Current assignee: Wuxi Rongzhi Technology Co ltd
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2023-12-05
Anticipated expiration: 2043-10-31
Also published as: CN117172508B

Abstract

本发明公开了一种基于城运投诉工单识别的自动派单方法及系统，属于工单分发技术领域，方法包括：接收城运投诉工单；对城运投诉工单进行删除式的脱敏处理；构建具有BERT层、注意力机制层和单维最大池化层的工单语义识别模型，并利用历史城运投诉工单数据对工单语义识别模型进行训练；对脱敏后的城运投诉工单进行包括权重分析的语义识别，判断城运投诉工单的工单类型；根据工单类型确定工单紧急程度，并结合工单投诉时长和工单地理距离计算城运投诉工单的派单优先级；结合派单优先级和工单类型，构建基于随机森林的决策模型；利用决策模型将城运投诉工单派发至相应的接收单位。提升工单自动派发能力和派发速度，避免工单长时间搁置的问题。

Description

一种基于城运投诉工单识别的自动派单方法及系统

技术领域

本发明属于工单分发技术领域，具体涉及一种基于城运投诉工单识别的自动派单方法及系统。

背景技术

城运投诉工单指的是与城市运输或城市运营有关的投诉工单，这些工单通常涉及城市交通、公共交通、城市基础设施或其他与城市运营相关的问题，这些工单可以包括市民或居民提交的投诉、请求、建议或问题报告，目的是解决与城市运营和交通有关的各种问题。城运投诉工单通常由市民、居民或相关部门提交，以便城市运营和相关管理部门能够了解市民的关切和需求，解决问题，改进城市的运营和服务。

现有技术中，城运投诉工单往往是以人工派发的模式转送至相应的接收单位，每一个投诉工单都需要人工消耗大量时间阅读后才能确定具体的接收单位，而人工处理投诉工单效率有限，造成投诉工单高峰时期积压大量工单，严重拖慢工单处理速度，而且会因人为因素造成投诉工单长时间搁置，影响接收单位解决问题的速度，造成接收单位信誉受损。

发明内容

为了解决现有技术存在的城运投诉工单往往是以人工派发的模式转送至相应的接收单位，每一个投诉工单都需要人工消耗大量时间阅读后才能确定具体的接收单位，而人工处理投诉工单效率有限，这就造成投诉工单高峰时期积压大量工单，严重拖慢工单处理速度，而且会因人为因素造成投诉工单长时间搁置，影响接收单位解决问题的速度，造成接收单位信誉受损的技术问题，本发明提供一种基于城运投诉工单识别的自动派单方法及系统。

第一方面

本发明提供了一种基于城运投诉工单识别的自动派单方法，包括：

S101：接收城运投诉工单；

S102：对城运投诉工单进行删除式的脱敏处理，去除投诉人信息；

S103：构建具有BERT层、注意力机制层和单维最大池化层的工单语义识别模型，并利用历史城运投诉工单数据对工单语义识别模型进行训练；其中，注意力机制层分别与BERT层和单维最大池化层连接，注意力机制层用于接收BERT层的输出数据，并为接收到的数据分配重要性权重；

S104：利用训练后的工单语义识别模型对脱敏后的城运投诉工单进行包括权重分析的语义识别，判断城运投诉工单的工单类型；

S105：根据工单类型确定工单紧急程度，并结合工单投诉时长和工单地理距离计算城运投诉工单的派单优先级；

S106：结合派单优先级和工单类型，构建基于随机森林的决策模型；

S107：利用决策模型将城运投诉工单派发至相应的接收单位；

其中，所述工单语义识别模型还包括输入层、全连接层和输出层，所述输入层与所述BERT层连接，所述全连接层分别与所述单维最大池化层和所述输出层连接，其中，所述输出层包括软激活层；

其中，所述S104具体包括：

S1041：利用所述输入层接收所述脱敏后的城运投诉工单；

S1042：利用所述BERT层将脱敏后的城运投诉工单对应的文本内容映射成词向量：

其中，表示所述词向量，/>表示训练得到的词向量对照表，/>表示文本内容中句子X的第t个词语；

S1043：提取所述词向量的双向文本特征：

其中，表示t时刻所述词向量的前向传播隐藏状态，/>表示t时刻所述词向量的后向传播隐藏状态，符号“/>”表示拼接，/>表示所述双向文本特征；

S1044：利用所述注意力机制层计算提取到的双向文本特征中各个元素的重要性权重，得到带有重要性权重的输出向量：

其中，表示元素i相对于元素j的所述重要性权重，/>表示所述双向文本特征中的第i个元素的特征向量， />表示所述双向文本特征中的所有元素，k表示按所述双向文本特征排列得到的元素序号，/>表示元素j对当前位置i的影响程度，o表示所述带有重要性权重的输出向量；

S1045：将所述双向文本特征对应的输出向量和所述带有重要性权重的输出向量输入分别输入至所述单维最大池化层进行池化操作，利用所述全连接层将输出的结果进行相加，得到多个工单类型向量；

S1046：将多个所述工单类型向量输入至所述软激活层，计算工单类型所属概率：

其中，表示第i个工单类型对应的工单类型所属概率，z _i表示所述工单类型向量，/>表示对所述工单类型向量归一化后得到的向量，n表示所述工单类型向量的数量；

S1047：将所述工单类型所属概率最大的工单类型作为输出结果输出。

第二方面

本发明提供了一种基于城运投诉工单识别的自动派单系统，用于执行第一方面中的基于城运投诉工单识别的自动派单方法。

与现有技术相比，本发明至少具有以下有益技术效果：

在本发明中，首先，对城运投诉工单进行删除式的脱敏处理，去除投诉人信息，确保投诉人信息不可追溯，保证投诉人的个人信息安全。之后，引入了注意力机制，使用单维最大池化层构建基于BERT层的工单语义识别模型对城运投诉工单进行自动化识别和审查，在增加了语义识别准确性的同时，确保了文本一维数据的处理效率，能够轻松应对高峰时期的城运投诉工单单量，避免投诉工单高峰时期积压的问题。另外，结合工单紧急程度，并结合工单投诉时长和工单地理距离多种因素，确定城运投诉工单的派单优先级，根据派单优先级进行派单，避免人工派单出现的主观性强，有选择性的人工派单，增加投诉成功率，而且也避免由于人工疏忽导致的城运投诉工单长时间搁置的问题，提升城运问题解决效率，最后构建了基于随机森林的决策模型对城运投诉工单进行自动化派单，提升派单效率，节省人工审核时间。减少人工干预，提升投诉工单派单速度，极大地优化了城运问题投诉环境，确保城运投诉问题得到及时解决。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对本发明的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明提供的一种基于城运投诉工单识别的自动派单方法的流程示意图；

图2是本发明提供的一种工单语义识别模型的结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

还应当进一步理解，在本发明说明书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在本文中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

另外，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例1

在一个实施例中，参考说明书附图1，示出了本发明提供的基于城运投诉工单识别的自动派单方法的流程示意图。

本发明提供的一种基于城运投诉工单识别的自动派单方法，包括：

S101：接收城运投诉工单。

其中，城运投诉工单是指与城市运输服务相关的投诉工单或者服务请求单，这类工单通常由城市运输部门、交通管理机构或相关服务提供商接收，并用于记录和解决市民或用户提交的投诉、请求、报修或咨询等问题，这些工单通常包含投诉人信息、工单内容，指明工单所属的特定类型或类别，例如交通违章、公共汽车服务、出租车服务、路况问题等、工单时间戳、地理信息等。城运投诉工单是市民或用户向城市交通管理部门或相关服务提供商提交的记录问题、投诉或请求的表单，这些工单通常包括问题描述、工单类型、时间戳和地理信息等详细信息，这些工单可以通过在线平台、电话热线、电子邮件、社交媒体等多种方式接收，以便有效记录和解决城市运输服务相关的问题和投诉。

S102：对城运投诉工单进行删除式的脱敏处理，去除投诉人信息。

需要说明的是，脱敏处理旨在保护投诉人的隐私，删除工单中的敏感信息，如姓名、联系方式和身份信息序列码，以确保工单的处理和存储符合隐私法规，并减少潜在的隐私泄露风险，这有助于保护投诉人的个人信息，并确保工单数据的安全性，避免了投诉人信息的可追溯性，可以有效避免投诉单位对投诉人的不友好行为。

在一种可能的实施方式中，S102具体包括：

S1021：创建敏感文本识别规则，其中，敏感文本包括姓名、联系方式、住址和身份信息序列码；

S1022：对城运投诉工单进行文本分词；

S1023：标记分词后的敏感文本；

S1024：删除敏感文本；

S1025：对删除剩余的文本分词进行数据重组，得到脱敏后的城运投诉工单。

具体地，首先，制定敏感文本规则，以识别包括姓名、联系方式、住址和身份信息在内的潜在敏感信息，接下来，工单文本被分词，即分解成单词或短语的序列，然后，已识别的敏感文本被标记并删除，以消除潜在的隐私风险，最后，余下的文本数据被重新组织，生成脱敏后的城运投诉工单，确保用户的敏感信息得到有效保护，同时保持工单的可用性和有用性。

在一种可能的实施方式中，在S103之前还包括：

S103A：对脱敏后的城运投诉工单进行预处理，其中，预处理包括文本分词、词汇表映射、句子嵌套、位置嵌套和文本向量化。

需要说明的是，城运投诉工单可能有表格类或者文本类的，对于表格数据，首要任务是将表格中的文本内容提取出来，以便后续处理。假设我们有N1个表格类的工单，使用符号Ti表示第i个表格工单。对提取的文本进行清理，去除特殊字符、数字、标点等，以保留纯文本信息，对文本进行分词，将其拆分成词语或短语，使用工具或库来执行分词操作，得到文本的词语列表。我们将分词后的结果表示为Wi，其中i表示第i个表格工单，将分词后的词语映射到事先构建的词汇表中，得到对应的词向量，用Vi表示第i个工单的词向量。如果表格中包含多个句子或文本块，嵌套这些文本块以维护其层次结构，这有助于保留文本的组织结构。对于表格中不同位置的文本信息，可以通过位置嵌套来保存其相对位置关系，这有助于保留文本的空间结构，将处理后的文本信息转化为文本向量，以便后续的模型训练或应用，们使用Vi'来表示第i个表格工单的文本向量，而对于文本类的工单，直接获得文本内容。保留数据的结构和语义信息，以便后续的嵌套和向量化操作。

参考说明书附图2，示出了本发明提供的一种工单语义识别模型的结构示意图。

图2中，工单语义识别模型具体分为六层，分别是依次连接的输入层、BERT（Bidirectional Encoder Representations from Transformers）层，BERT层中嵌套了LSTM （Long Short-Term Memory），它是一种递归神经网络的变体，专门用于处理和记忆时间序列数据，可以更好地捕捉长期依赖关系，避免了标准RNN中的梯度消失问题，LSTM可以更好地处理文本序列，因为它们能够记住先前的信息，LSTM允许更细粒度的控制序列数据的处理，这可以通过设置LSTM的不同层、隐藏状态大小和双向性来实现，更好地捕捉特定位置附近的上下文信息。BERT层输出的结果一部分双向文本特征h1直接进入全连接层，另一部分h2、h3、h4进入注意力机制层进行权重分析、注意力机制层、单维最大池化层、全连接层和具有软激活层的输出层。BERT层用于将输入文本转换为上下文感知的词嵌入，以捕获文本中的语义信息。注意力机制层允许模型在处理文本时关注不同部分的文本信息，根据不同部分的重要性分配权重注意力机制允许模型关注文本中的不同部分，根据重要性分配权重，从而更好地捕获文本的关键信息。单维最大池化层用于捕获文本中的关键信息，将文本表示为单一向量，使得模型更容易处理，并且可以聚焦于最重要的信息。全连接层用于将文本表示映射到不同的工单类型向量，输出层包括软激活层，用于计算每个工单类型的概率，全连接层和软激活层将文本表示映射到工单类型概率分布，使模型能够为每个工单类型提供一个相应的概率，从而更准确地确定工单的类型。通过这种结构构建的工单语义识别模型能够更好地捕获文本语义信息，提高模型的准确性和性能，从而改善了城运投诉工单的自动处理和派发流程。

需要说明的是，在处理城运投诉工单时，BERT层虽然能够有效提取文本特征，但它无法明确判别词语的重要程度。例如，对于语句序列“公交站很拥挤问题”，这些词语都被处理成相似的隐含状态，而实际上有些词在语境中更重要，公交站/拥挤才是通俗重要的关键词，应该被分配更大的权重，引入注意力机制，可以更好地识别关键词汇的重要性程度，使关键的文本特征得到更多的权重，提升模型的准确分类能力。

S103：构建具有BERT层、注意力机制层和单维最大池化层的工单语义识别模型，并利用历史城运投诉工单数据对工单语义识别模型进行训练。

其中，注意力机制层分别与BERT层和单维最大池化层连接，注意力机制层用于接收BERT层的输出数据，并为接收到的数据分配重要性权重。

在一种可能的实施方式中，述工单语义识别模型还包括输入层、全连接层和输出层，输入层与BERT层连接，全连接层分别与单维最大池化层和输出层连接，其中，输出层包括软激活层。

具体地，对于构建好的工单语义识别模型需要进行训练，可以收集历史城运投诉工单数据来训练语义识别模型，输入训练数据（包括文本数据）以及相应的标签或类别信息。使用适当的损失函数（例如，交叉熵损失）来度量模型的输出与真实标签之间的差距。通过梯度下降等优化算法来更新模型参数，以最小化损失函数。在模型训练期间，注意力机制层学习如何分配重要性权重给不同的输入特征，这有助于模型自主确定输入文本中的关键信息，将收集到的历史城运投诉工单数据划分出来的验证集或交叉验证来评估模型的性能，以确保模型的泛化能力。针对训练和验证结果，对模型的超参数（例如学习率、批量大小、模型深度等）进行调整，以优化性能。模型训练可以在达到预设的性能标准后终止，保存经过训练的语义识别模型，以便后续的城运投诉工单语义识别任务使用。

需要说明的是，采用BERT层作为输入层，能够更好地捕获文本数据的上下文信息和语义表示，BERT是一种预训练的深度学习模型，已在自然语言处理任务中取得巨大成功，具备出色的语义理解能。引入注意力机制层，使模型能够自主分配重要性权重给输入数据的各个部分，这有助于模型集中关注输入文本中的关键信息，提高了模型的语义理解能力，特别是在处理较长文本时。单维最大池化层用于提取重要特征，使模型能够选择性地捕获文本中最显著的信息，这有助于减少冗余信息的影响，提高了模型的效率和准确性。引入全连接层和软激活层有助于模型在特征层之间建立权重连接，并将模型的输出映射到工单类型的概率分布，这种结构使模型能够进行有效的多类别分类，同时允许模型在输出方面更加灵活。利用历史城运投诉工单数据进行训练，使模型能够从真实世界数据中学习并不断提高性能，这种数据驱动的方法可以适应不同类型的城运投诉工单，增强了模型的泛化能力。这种工单语义识别模型结合了强大的预训练模型（BERT）、注意力机制、池化和全连接层，使其能够更好地处理和理解城运投诉工单的语义信息，提高了分类准确性和泛化性，从而在自动派单等任务中表现更出色，这些特点使其相对于传统的基于规则或浅层模型的方法更具竞争力。

S104：利用训练后的工单语义识别模型对脱敏后的城运投诉工单进行包括权重分析的语义识别，判断城运投诉工单的工单类型。

其中，工单类型通常指的是城运投诉工单的分类，用于描述工单所属的类别或类别集合，以帮助组织更好地管理和处理工单，不同的工单类型可能代表着不同的问题、需求或服务请求，这种分类能够让城运组织更有效地分配工单给合适的处理单位，以提供更高效、有针对性的服务。

引入权重分析来判断城运投诉工单的工单类型能够根据每个特定的工单的特征、语义和内容，为每个工单分配不同的权重，从而实现更细粒度的工单分类，这可以确保工单类型的分类更具精确性，不仅仅是一般性的分类。通过分析工单中的语义信息和关键词，模型可以更准确地判断工单类型，从而减少了误分类的可能性，这可以提高工单处理的准确性，减少后续错误的处理步骤。权重分析可以根据工单内容的变化进行自适应调整，如果城运投诉工单中的语义信息或重要特征发生变化，模型可以根据新的权重信息来进行分类，而无需手动调整分类规则，通过了解哪些词语、句子或特征对工单分类的决策起到关键作用，可以增加工单分类的解释性。根据工单的具体内容，将其快速、准确地分类为不同的工单类型，有助于更有效地分配工单给适当的处理单位，提高了整体工单处理效率。引入权重分析来判断城运投诉工单的工单类型可以提高分类的精确性、自适应性和解释性，从而提高了工单处理的效率和质量。

在一种可能的实施方式中，S104具体包括：

S1041：利用输入层接收脱敏后的城运投诉工单；

S1042：利用BERT层将脱敏后的城运投诉工单对应的文本内容映射成词向量：

其中，表示词向量，/>表示训练得到的词向量对照表，/>表示文本内容中句子X的第t个词语；

S1043：提取词向量的双向文本特征：

其中，表示t时刻词向量的前向传播隐藏状态，/>表示t时刻词向量的后向传播隐藏状态，符号“/>”表示拼接，/>表示双向文本特征；

S1044：利用注意力机制层计算提取到的双向文本特征中各个元素的重要性权重，得到带有重要性权重的输出向量：

其中，表示元素i相对于元素j的重要性权重，/>表示双向文本特征中的第i个元素的特征向量， />表示双向文本特征中的所有元素，k表示按所述双向文本特征排列得到的元素序号，/>表示元素j对当前位置i的影响程度，o表示带有重要性权重的输出向量；

S1045：将双向文本特征对应的输出向量和带有重要性权重的输出向量输入分别输入至单维最大池化层进行池化操作，利用全连接层将输出的结果进行相加，得到多个工单类型向量；

S1046：将多个工单类型向量输入至软激活层，计算工单类型所属概率：

其中，表示第i个工单类型对应的工单类型所属概率，z _i表示工单类型向量，表示对工单类型向量归一化后得到的向量，n表示工单类型向量的数量；

S1047：将工单类型所属概率最大的工单类型作为输出结果输出。

需要说明的是，工单语义识别模型采用了BERT和注意力机制，这允许系统在处理城运投诉工单时更智能、更精确，模型可以自主地分析工单内容，确定哪些信息对于确定工单类型最重要，因此在处理多样的工单时更加适用，这有助于提高派单的精确性和效率，因为它能够更好地理解工单并将其分类到正确的类型，此外，通过引入权重分析，模型的工作方式也更容易解释和监督。

S105：根据工单类型确定工单紧急程度，并结合工单投诉时长和工单地理距离计算城运投诉工单的派单优先级。

需要说明的是，现有的派单方法通常不够灵活，无法根据不同工单类型的特性和紧急性进行个性化处理，引入派单优先级可以根据工单类型调整处理速度，确保紧急工单得到快速处理，而非紧急工单可以稍后处理。而不同工单类型可能有不同的紧急程度，根据工单类型来确定紧急程度可以更准确地满足用户需求，例如，某些问题可能需要更紧急的处理，而其他问题可以稍后处理。

考虑工单投诉时长和地理距离，系统可以更有效地规划派单，将工单分配给最合适的接收单位，这有助于减少不必要的等待时间和提高处理效率。通过考虑工单紧急程度和地理距离，系统可以更快速地响应紧急问题，将它们分配给最近的可处理单位，从而最大程度减少问题的处理时间。综合考虑工单类型、投诉时长和地理距离，可以更好地分配资源，确保每个接收单位都能够按照其能力和距离来处理工单，从而提高整体资源利用效率。采用派单优先级可以减少工单等待时间，系统会将紧急工单分配给最近的接收单位，从而最大程度地减少了用户的等待时间，确保问题能够及时得到处理。进而可以根据实际情况为城运投诉工单分配合适的优先级和接收单位，从而提高服务效率和用户满意度。

在一种可能的实施方式中，S105具体包括：

S1051：对投诉工单处理规范描述的工单类型对应的等级进行归一化处理，根据处理结果确定工单类型的工单紧急程度；

S1052：基于城运投诉工单的投诉对象确定工单地理距离；

S1053：结合工单投诉时长和工单地理距离，计算派单优先级：

其中，L表示派单优先级，表示工单投诉时长，d表示工单地理距离，l表示工单紧急程度，k ₀、k ₁和k ₂分别表示工单投诉时长、工单紧急程度和工单地理距离的相对重要性权重，c ₁和c ₂分别表示调整指数，n表示标准化因子。

具体地，首先，不同工单类型通常对应不同的处理等级，通过归一化处理，可以将这些不同类型的工单统一到一个相对标准的尺度上，以便进行后续计算，这一步有助于确保所有工单类型都在相同的权重范围内，避免某些工单类型在派单过程中被过分强调或低估。城运投诉工单涉及不同的地理位置。通过基于投诉对象的地理距离，可以确定不同工单的接收单位与投诉对象之间的距离，这有助于找到最接近投诉对象的接收单位，减少工单处理的物理距离，提高响应速度。在确定工单紧急程度后，进一步结合工单投诉时长和地理距离来计算派单优先级。这个计算基于不同因素的相对重要性权重（k0、k1和k2）来决定，这意味着可以根据具体情况调整这些权重，以满足不同城市和用户需求的变化。最后，引入调整指数（c1和c2）以进一步微调派单优先级的计算。标准化因子（n）用于确保派单优先级处于一个合理的数值范围内，这一步有助于对计算结果进行规范化，使其更易于理解和应用。提升工单自动派发能力和派发速度，并确保了工单派发的公平性，避免受人工派单的主观性影响，避免工单长时间搁置的问题。

在一种可能的实施方式中，相对重要性权重的确定方法为：

S1053A：通过九级标度法确定工单投诉时长、工单紧急程度和工单地理距离的相对重要性值；

S1053B：根据相对重要性值建立判断矩阵：

其中，D表示判断矩阵，表示单投诉时长、工单紧急程度和工单地理距离的相对重要性值；

S1053C：计算判断矩阵的最大特征根和最大特征根对应的特征向量；

S1053D：计算判断矩阵的一致性指标：

其中，表示最大特征根，q表示判断矩阵的矩阵阶数；

S1053E：根据矩阵阶数对应的一致性指标RI，计算判断矩阵的一致性比例CR：

；

S1053F：在确保判断矩阵的一致性比例小于0.05的情况下，调整判断矩阵的分布，得到工单投诉时长、工单紧急程度和工单地理距离的相对重要性值。

其中，九级标度法是一种常用的调查方法，用于让专家或用户对不同因素进行排名和权衡，在这里，它用于确定工单投诉时长、工单紧急程度和工单地理距离的相对重要性值，通过这个过程，可以了解各因素在派单过程中的相对权重。通过建立判断矩阵，计算特征根和一致性指标，以确定工单投诉时长、工单紧急程度和工单地理距离的相对重要性，确保它们在计算城运投诉工单的派单优先级时的合理权重，这个方法帮助降低主观因素，提高决策的科学性和一致性。

S106：结合派单优先级和工单类型，构建基于随机森林的决策模型。

其中，基于随机森林的决策模型是一种集成学习方法，它结合了多个决策树以进行预测、分类或决策。决策模型用于城运投诉工单的派单决策，具体来说，这个决策模型通过结合两个关键因素来决定城运投诉工单的派单优先级，这两个因素是工单类型和之前计算得到的派单优先级，决策模型的主要任务是为每个城运投诉工单分配一个派单优先级，以便决定哪些工单需要更紧急地处理，以及如何分配资源和人员来处理它们，自动地根据不同的工单类型和之前计算的派单优先级来做出派单决策，而无需手动干预，这可以提高工单的处理效率，确保重要和紧急的工单得到及时处理，同时减少了潜在的人为错误。这种自动派单系统还可以提高资源利用效率，确保城运投诉工单得到适当分配。

在一种可能的实施方式中，S106具体包括：

S1061：获取城运投诉工单样本数据，确定样本数据的派单优先级和工单类型；

S1062：对样本数据进行不放回抽样，每次保留一个样本数据，构建样本数据集；

S1063：以派单优先级和工单类型作为拆分特征，以接收单位作为目标变量，生成多个决策树：

其中，T _i节点拆分结果值，y ₁和y ₂分别表示拆分特征对应的初始目标变量值，v ₁和v ₂表示拆分后形成的子节点目标变量值，x表示决策树数量；

S1064：将决策树进行拼接，得到决策模型：

其中，T表示随机森林的最终结果，N表示决策树的数量；

S1065：从样本数据集中随机划分测试数据集，使用准确性、召回率和F1分数指标来评估模型质量；

S1066：在准确性、召回率和F1分数指标均达到预设要求的情况下，完成决策模型的构建。

具体地，构建基于随机森林的决策模型用于根据城运投诉工单的派单优先级和工单类型来决定工单的最终接收单位。首先，需要获得城运投诉工单的样本数据，并确定每个样本数据的派单优先级和工单类型。对获得的样本数据进行不放回抽样，每次保留一个样本数据，从而构建一个样本数据集，这个集合将用于模型的训练。使用派单优先级和工单类型作为拆分特征，以接收单位作为目标变量，生成多个决策树，这些决策树将根据这些特征和目标变量的关系来做出决策。将生成的多个决策树进行拼接，得到最终的决策模型，这个模型将基于所有决策树的综合决策来分配工单。从样本数据集中随机划分测试数据集，使用准确性、召回率和F1分数等指标来评估模型的质量。在模型质量达到预设要求的情况下，完成基于随机森林的决策模型的构建，以便用于实际的工单派单决策。使用多个决策树综合考虑了不同特征和目标变量之间的复杂关系，提供了一个强大而鲁棒的决策模型，能够更好地应对城运投诉工单的派单需求。此外，通过在测试数据上评估模型，可以确保模型的质量和性能符合要求。

需要说明的是，本领域技术人员可以根据实际需要设定预设要求，本发明在此不做限定。

S107：利用决策模型将城运投诉工单派发至相应的接收单位。

在一种可能的实施方式中，基于城运投诉工单识别的自动派单方法还包括：

S108：根据接收单位的反馈结果记录派发准确率，在派发准确率低于预设准确率的情况下，调整决策模型的超参数，重新派发城运投诉工单，其中，超参数包括树的深度和树的数量。

需要说明的是，如果不设置这种监测模式的话，决策模型的参数将会保持不变，无法动态适应变化的需求，这可能导致系统在某些情况下派发工单错误，因为它不能自我校正或适应新的情况。根据派发准确率不断迭代和优化决策模型，以确保派单过程的高准确率，通过根据接收单位的反馈来及时发现性能下降并自动调整决策模型的超参数，系统能够适应不断变化的城运投诉工单需求，提高工单派发的准确性和效率，减少错误分派的风险，从而提供更可靠和高质量的服务，这种实时反馈和调整机制有助于不断提升派单系统的性能，使其更具智能和适应性。

需要说明的是，本领域技术人员可以根据实际需要设置预设准确率的大小，本发明在此不做限定。

与现有技术相比，本发明至少具有以下有益技术效果：

实施例2

在一个实施例中，本发明提供的一种基于城运投诉工单识别的自动派单系统，用于执行实施例1中的基于城运投诉工单识别的自动派单方法。

本发明提供的一种基于城运投诉工单识别的自动派单系统可以实现上述实施例1中的基于城运投诉工单识别的自动派单方法的步骤和效果，为避免重复，本发明不再赘述。

与现有技术相比，本发明至少具有以下有益技术效果：

在本发明中，首先，对所述城运投诉工单进行删除式的脱敏处理，去除投诉人信息，确保投诉人信息不可追溯，保证投诉人的个人信息安全。之后，引入了注意力机制，使用单维最大池化层构建基于BERT层的工单语义识别模型对城运投诉工单进行自动化识别和审查，在增加了语义识别准确性的同时，确保了文本一维数据的处理效率，能够轻松应对高峰时期的城运投诉工单单量，避免投诉工单高峰时期积压的问题。另外，结合工单紧急程度，并结合工单投诉时长和工单地理距离多种因素，确定城运投诉工单的派单优先级，根据派单优先级进行派单，避免人工派单出现的主观性强，有选择性的人工派单，增加投诉成功率，而且也避免由于人工疏忽导致的城运投诉工单长时间搁置的问题，提升城运问题解决效率，最后构建了基于随机森林的决策模型对城运投诉工单进行自动化派单，提升派单效率，节省人工审核时间。减少人工干预，提升投诉工单派单速度，极大地优化了城运问题投诉环境，确保城运投诉问题得到及时解决。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于城运投诉工单识别的自动派单方法，其特征在于，包括：

S101：接收城运投诉工单；

S102：对所述城运投诉工单进行删除式的脱敏处理，去除投诉人信息；

S103：构建具有BERT层、注意力机制层和单维最大池化层的工单语义识别模型，并利用历史城运投诉工单数据对所述工单语义识别模型进行训练，其中，所述注意力机制层分别与所述BERT层和所述单维最大池化层连接，所述注意力机制层用于接收所述BERT层的输出数据，并为接收到的数据分配重要性权重；

S104：利用训练后的工单语义识别模型对脱敏后的城运投诉工单进行包括权重分析的语义识别，判断所述城运投诉工单的工单类型；

S105：根据所述工单类型确定工单紧急程度，并结合工单投诉时长和工单地理距离计算所述城运投诉工单的派单优先级；

S106：结合所述派单优先级和所述工单类型，构建基于随机森林的决策模型；

S107：利用所述决策模型将所述城运投诉工单派发至相应的接收单位；

其中，所述S104具体包括：

S1041：利用所述输入层接收所述脱敏后的城运投诉工单；

;

S1043：提取所述词向量的双向文本特征：

;

其中，表示元素i相对于元素j的所述重要性权重，/>表示所述双向文本特征中的第i个元素的特征向量， />表示所述双向文本特征中的所有元素，k表示按所述双向文本特征得到的元素序号，/>表示元素j对当前位置i的影响程度，o表示所述带有重要性权重的输出向量；

;

其中，表示第i个工单类型对应的工单类型所属概率，z _i表示所述工单类型向量，表示对所述工单类型向量归一化后得到的向量，n表示所述工单类型向量的数量；

2.根据权利要求1所述的基于城运投诉工单识别的自动派单方法，其特征在于，所述S102具体包括：

S1021：创建敏感文本识别规则，其中，所述敏感文本包括姓名、联系方式、住址和身份信息序列码；

S1022：对所述城运投诉工单进行文本分词；

S1023：标记分词后的所述敏感文本；

S1024：删除所述敏感文本；

3.根据权利要求1所述的基于城运投诉工单识别的自动派单方法，其特征在于，在所述S103之前还包括：

S103A：对脱敏后的城运投诉工单进行预处理，其中，所述预处理包括文本分词、词汇表映射、句子嵌套、位置嵌套和文本向量化。

4.根据权利要求1所述的基于城运投诉工单识别的自动派单方法，其特征在于，所述S105具体包括：

S1051：对投诉工单处理规范描述的工单类型对应的等级进行归一化处理，根据处理结果确定所述工单类型的工单紧急程度；

S1052：基于所述城运投诉工单的投诉对象确定所述工单地理距离；

S1053：结合所述工单投诉时长和所述工单地理距离，计算所述派单优先级：

;

其中，L表示所述派单优先级，表示所述工单投诉时长，d表示所述工单地理距离，l表示所述工单紧急程度，k ₀、k ₁和k ₂分别表示所述工单投诉时长、所述工单紧急程度和所述工单地理距离的相对重要性权重，c ₁和c ₂分别表示调整指数，n表示标准化因子。

5.根据权利要求4所述的基于城运投诉工单识别的自动派单方法，其特征在于，所述相对重要性权重的确定方法为：

S1053A：通过九级标度法确定所述工单投诉时长、所述工单紧急程度和所述工单地理距离的相对重要性值；

S1053B：根据所述相对重要性值建立判断矩阵：

;

其中，D表示所述判断矩阵，表示所述单投诉时长、所述工单紧急程度和所述工单地理距离的相对重要性值；

S1053C：计算所述判断矩阵的最大特征根和所述最大特征根对应的特征向量；

S1053D：计算所述判断矩阵的一致性指标：

;

其中，CI表示所述一致性指标，表示所述最大特征根，q表示所述判断矩阵的矩阵阶数；

S1053E：根据所述矩阵阶数对应的一致性指标RI，计算所述判断矩阵的一致性比例CR：

；

S1053F：在确保所述判断矩阵的一致性比例小于0.05的情况下，调整所述判断矩阵的分布，得到所述工单投诉时长、所述工单紧急程度和所述工单地理距离的相对重要性值。

6.根据权利要求1所述的基于城运投诉工单识别的自动派单方法，其特征在于，所述S106具体包括：

S1061：获取城运投诉工单样本数据，确定所述样本数据的派单优先级和工单类型；

S1062：对所述样本数据进行不放回抽样，每次保留一个样本数据，构建样本数据集；

S1063：以派单优先级和工单类型作为拆分特征，以所述接收单位作为目标变量，生成多个决策树：

;

其中，T _i节点拆分结果值，y ₁和y ₂分别表示所述拆分特征对应的初始目标变量值，v ₁和v ₂表示拆分后形成的子节点目标变量值，x表示决策树数量；

S1064：将所述决策树进行拼接，得到所述决策模型：

;

其中，T表示所述随机森林的最终结果，N表示所述决策树的数量；

S1065：从所述样本数据集中随机划分测试数据集，使用准确性、召回率和F1分数指标来评估模型质量；

S1066：在所述准确性、所述召回率和所述F1分数指标均达到预设要求的情况下，完成所述决策模型的构建。

7.根据权利要求6所述的基于城运投诉工单识别的自动派单方法，其特征在于，还包括：

S108：根据接收单位的反馈结果记录派发准确率，在所述派发准确率低于预设准确率的情况下，调整所述决策模型的超参数，重新派发所述城运投诉工单，其中，所述超参数包括树的深度和树的数量。

8.一种基于城运投诉工单识别的自动派单系统，其特征在于，用于执行权利要求1至7中任一项所述的基于城运投诉工单识别的自动派单方法。