CN114091463B

CN114091463B - 地区工单乱点分析方法、装置、电子设备及可读存储介质

Info

Publication number: CN114091463B
Application number: CN202210063631.2A
Authority: CN
Inventors: 包利安; 汤灏; 郑文博
Original assignee: Beijing Zero Data Technology Co ltd; Beijing Zero Vision Network Technology Co ltd
Current assignee: Beijing Zero Data Technology Co ltd; Beijing Zero Vision Network Technology Co ltd
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-04-12
Anticipated expiration: 2042-01-20
Also published as: CN114091463A

Abstract

本申请涉及人工智能技术领域，尤其是涉及地区工单乱点分析方法、装置、电子设备及可读存储介质，该方法包括，获取待分析区域的工单数据；基于命名实体识别模型对工单数据进行处理，获得工单数据中的实体与实体类型；对工单数据中的实体进行共指消歧；基于实体类型以及预设标准对共指消歧后的实体进行归类，确定乱点实体；对乱点实体进行多维分析，并根据系统中待分析区域的地图配置将乱点进行地理可视化展示，本申请可以对工单中的乱点进行针对性、精准性的分析和定位。

Description

地区工单乱点分析方法、装置、电子设备及可读存储介质

技术领域

本申请涉及人工智能技术领域，尤其是涉及地区工单乱点分析方法、装置、电子设备及可读存储介质。

背景技术

对于人流量且人员属性较为复杂的地点及周边的工单，目前大都是靠人工筛查或者关键词匹配的形式来进行工单的筛查与定位，但是人工提取耗时高、效率低且易出错，而关键词匹配的形式不够智能，形式单一，故亟需一个科学的方法来对工单进行针对性的定位与分析。

发明内容

为了对工单中的乱点进行针对性、精准性的分析和定位，本申请提出了一种地区工单乱点分析方法、装置、电子设备及可读存储介质。

在本申请的第一方面，提出了一种地区工单乱点分析方法，包括：获取待分析区域的工单数据；基于命名实体识别模型对所述工单数据进行处理，获得所述工单数据中的实体与实体类型；对所述工单数据中的实体进行共指消歧；基于所述实体类型以及预设标准对共指消歧后的所述实体进行归类，确定乱点实体；对所述乱点实体进行多维分析，并根据系统中待分析区域的地图配置将所述乱点进行地理可视化展示。

通过采用上述技术方案，基于命名实体识别模型对获取到的工单数据进行处理，可以获取到以预设的实体类型特征为基准的工单中的实体以及实体类型，再对获取到的工单中的实体进行对其归一，即将同一实体的不同描述合并到一起，然后将对其归一后的实体进行归类，确定出来工单中的乱点实体类型及实体，将这些乱点实体与其他变量做分析，比如与地区间做交叉分析，然后可以根据系统中的地图配置将乱点实体在地图中进行展示，通过这种方式可以更加精准的、批量的对工单进行处理，得出可视化的结果，使得对工单的处理更加的准确智能。

进一步地，所述命名实体识别模型通过以下步骤进行训练：获取工单样本数据；对所述工单样本数据进行预处理，基于BERT模型将所述工单样本数据中的文本数据转换为语义编码向量；以所述语义编码向量作为输入，以所有实体和实体类型作为输出，以transformer模型作为特征向量提取表示，以CRF作为损失函数，以维特比算法作为实体与实体类型的推理算法，完成对所述命名实体识别模型的训练。

再进一步地，所述对所述工单样本数据进行预处理，基于BERT模型将所述工单样本数据中的文本信息转换为语义编码向量包括，根据预设实体类型特征对样本数据进行标注，获得第一标签样本数据；将所述第一标签样本数据转换为BIO字符标注体系的数据，得到第二标签样本数据；对所述第二标签样本数据进行分词，在每条文本数据的开头连接CLS标记；对分词后的文本数据进行embedding向量化表示，得到CLS语义编码向量。

进一步地，设置全连接层，将CLS语义编码向量作为所述全连接层的输入，输出维度长度为两倍的实体类型个数加上1。

进一步地，采用如下损失函数作为优化目标：

其中，所述k为所述全连接层输出的维度长度；

所述

为真实标签；

所述

为真实输出序列；

所述

为真实序列得分；

所述

为状态转移矩阵；

所述X为所述工单样本数据的输入序列[

];

所述Y为对应预测的标签序列值[

];

所述

为真实序列中所有可能的位置序列的状态转移特征权重值，包括

和非

。

再进一步地，将最后一层的cls标记字符向量表示，作为下一层的输入向量：

其中，所述n为单个单词向量长度。

进一步地，所述对所述工单数据中的实体进行共指消歧包括，利用ner模型提取所述工单数据的特征向量；基于皮尔逊相关系数对提取的所述实体对应的特征向量值进行余弦相似度计算；根据所述余弦相似度以及皮尔逊相似度系数计算任两个实体的联合相似度指标；将所述联合相似度指标大于预设阈值的两个实体定义为同一实体。

在本申请的第二方面，还提出了一种地区工单乱点分析装置，该装置包括：

获取模块，用于获取待分析区域的工单数据；

模型处理模块，用于基于命名实体识别模型对所述工单数据进行处理，获得所述工单数据中的实体与实体类型；

归一模块，用于对所述工单数据中的实体进行共指消歧；

归类模块，用于基于所述实体类型以及预设标准对共指消歧后的所述实体进行归类，确定乱点实体；

分析模块，用于对所述乱点实体进行多维分析，并根据系统中待分析区域的地图配置将所述乱点进行地理可视化展示。

在本公开的第三方面，提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如第一方面所述的方法。

在本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如根据本公开的第一方面的方法。

附图说明

结合附图并参考以下详细说明，本申请各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本申请实施例的一种电子设备的结构图。

图2示出了本申请实施例中地区工单乱点分析方法的流程图。

图3示出了本申请实施例中命名实体识别模型的训练方法的流程图。

图4示出了本申请实施例中地区工单乱点分析装置的原理框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

为了便于对本申请实施例的理解，首先对本申请实施例涉及的部分术语进行解释。

工单，根据字面意思可以把它理解为工作单据，工单定义由一个和多个作业组成的简单维修或制造计划，上级部门下达任务，下级部门领受任务的依据。

对于人流量且人员属性较为复杂的地点及周边的工单，目前业务部门对其进行分析和治理大都是靠人工筛查或者关键词匹配的形式来进行的，但是人工提取耗时高、效率低且易出错，而关键词匹配的形式不够智能，形式单一，故亟需一个科学的方法来对工单进行针对性的定位与分析。

人工智能行业近些年在快速发展，但是目前还没有一种有效的基于实体抽取的手段对某个局部地理区域附近的工单事项高发情况进行实体抽取，再分析的方案，因此针对上述问题，本申请提出了一种地区工单乱点分析方法、装置、电子设备及可读存储介质。

接下来对本申请实施例所涉及的系统架构进行介绍。需要说明的是，本申请实施例描述的系统架构以及业务场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着网络架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

图1示出了本申请实施例的一种电子设备的结构图。

参见图1，电子设备100包括处理器101和存储器103。其中，处理器101和存储器103相连，如通过总线102相连。可选地，电子设备100还可以包括收发器104。需要说明的是，实际应用中收发器104不限于一个，该电子设备100的结构并不构成对本申请实施例的限定。

处理器101可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器101也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线102可包括一通路，在上述组件之间传送信息。总线102可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线102可以分为地址总线、数据总线、控制总线等。为便于表示，图1中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器103可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器103用于存储执行本申请方案的应用程序代码，并由处理器101来控制执行。处理器101用于执行存储器103中存储的应用程序代码，以实现对地区工单乱点分析。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。需要说明的是，图1示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

图2所示为本申请实施例中地区工单乱点分析方法的流程图，如图2所示，该方法包括：

步骤S201，获取待分析区域的工单数据。

在本申请实施例中，待分析区域为需做政务工单数据分析的地域区域，工单数据可以为预存在数据库中的工单文本数据，也可以实时收集的工单文本数据进行分析，本申请中的工单数据为政务服务中收集的某社区群众的需求信息，包括地址、时间、事件等信息，例如“东川路的馨和兰苑小区刚刚出现了小区内乱丢垃圾的投诉。”为工单数据中的一条文本数据。

在一些申请实施例中，获取到待分析区域的工单数据后，还包括对工单数据进行数据清洗，将工单数据按照人为预设文本格式进行格式规范化整理。

步骤S202，基于命名实体识别模型对工单数据进行处理，获得工单数据中的实体与实体类型。

在步骤S202中，将获取到的工单数据输入到命名实体识别模型中，可以相应的获取到工单数据中的所有实体以及对应的实体类型，这里的实体以及实体类型可根据政务数据的特征由人为预设实体类型来确定的，在一个示例中，在“东川路的馨和兰苑小区刚刚出现了小区内乱丢垃圾的投诉”这句工单数据中，“馨和兰苑小区”、“乱丢垃圾”、“ 投诉”均为此工单数据中的实体，其中“馨和兰苑小区”的实体类型为地址类型。

图3所示为本申请实施例中命名实体识别模型的训练方法的流程图，如图3所示，命名实体识别模型是通过以下步骤进行训练：

步骤S301，获取工单样本数据,。

参考步骤S201中获取待分析区域的工单数据的方式，获取工单样本数据。

步骤S302，对工单样本数据进行预处理，基于BERT模型将工单样本数据中的文本数据转换为语义编码向量。

在一些实施例中，对工单样本数据进行预处理包括：

根据预设实体类型特征对样本数据进行标注，获得第一标签样本数据，这里的预设实体类型与步骤S202中的预设实体类型是相同的。

将第一标签样本数据转换为BIO字符标注体系的数据，得到第二标签样本数据，具体地，BIO字符标注体系标注为：实体名称的开头为B_实体类型,实体其余部分为I_实体类型,非实体部分为O。

对第二标签样本数据进行分词，在每条文本数据的开头连接CLS标记，其中，可通过Jieba、SnowNLP、PkuSeg、THULAC和/或HanLP对所述第二标签样本数据进行分词处理。

对分词后的文本数据进行embedding向量化表示，得到CLS语义编码向量，即，将分词后的每个词用基于BERT预训练模型的特征向量表示，默认单个单词向量长度768，对每个句子进行embedding向量化表示，对文本词的相对位置编码向量表示，三种特征向量相加。

在一些实施例中，对多事件标签数据编码量化处理，样本标签类型数根据训练数据的样本范围自动化采集构建。

步骤S303，以所述语义编码向量作为输入，以所有实体和实体类型作为输出，以transformer模型作为特征向量提取表示，以CRF作为损失函数，以维特比算法作为实体与实体类型的推理算法，完成对所述命名实体识别模型的训练。

在一些实施例中，使用CRF做命名实体识别模型优化的损失函数，进行finetuning训练。所述BERT模型采取双向transformer中的encoder模块作为向量特征提取表示；

其中，BERT包括注意力机制，能够自动化的挖掘文本中当前词和上下文中其他词的语义关联关系，并且忽略距离上的远近，从而获取的词的语义向量表示能够充分地挖掘上下文的关联信息。

进一步地，在本公开中所述transformer设置为12层，模型构建时，取最后一层的[cls]标记字符向量表示作为下一层的输入向量

其中，所述n为单个单词向量长度，优选为768。

在一些实施例中，设置全连接层，将CLS语义编码向量作为所述全连接层的输入，输出维度长度为两倍的实体类型个数加上1。

在一些实施例中，采用如下损失函数作为优化目标：

其中，所述k为所述全连接层输出的维度长度；

所述

为真实标签；

所述

为真实输出序列；

所述

为真实序列得分；

所述

为状态转移矩阵；

所述X为前述工单样本数据的输入序列[

];

所述Y为对应预测的标签序列值[

];

所述

和非

。

在一些实施例中，在进行模型训练时，进行如下设置：

epoch=40；

批次大小batch_size=16；

最大文本截取长度maxlen=410；

学习率lr=le-5；

CRF学习率=100；

多标签的阈值为0，在验证集时，根据最优指标替换保存最优的模型参数，保存及CRF状态转移矩阵

。

在一些实施例中，推理时采用维特比算法进行工单数据中实体与实体类型的推理预测，维特比算法（Viterbi algorithm）是一种动态规划算法，用于寻找最有可能产生观测事件序列的维特比路径。

所述将获取到的工单数据输入到命名实体识别模型中，可以相应的获取到工单数据中的所有实体以及对应的实体类型，即通过上述S301-S303训练完成的命名实体识别模型，来处理所述工单数据，得到工单数据中的所有实体以及对应的实体类型。

步骤S203，对工单数据中的实体进行共指消歧。

共指消解就是将现实世界中同一实体的不同描述合并到一起的过程，本申请实施例主要针对地址类型的实体进行共指消歧，在一个示例中，“东川路的馨和兰苑小区刚刚出现了小区内乱丢垃圾的投诉。东川路的兰苑小区前不久出现了小区内电梯故障的投诉。”，这里的馨和兰苑小区，与兰苑小区，实际均为馨和兰苑小区。因此，在不同的工单数据中，实体抽取后，须有这个对齐的工作。

在一些申请实施例中，对所述工单数据中的实体进行共指消歧包括：

利用ner模型提取所述工单数据的特征向量，即使用上诉的下游任务微调的BERT预训练ner模型做实体向量特征提取器，提取每个实体对应的向量值。

基于皮尔逊相关系数对提取的所述实体对应的特征向量值进行余弦相似度计算，具体的，使用以下公式：

其中X为需比对的一个实体特征向量值；

Y为需比对的另一个实体特征向量值；

n为X、Y特征向量的长度。

根据余弦相似度以及皮尔逊相似度系数计算任两个实体的联合相似度指标，具体的，使用以下公式：

其中，relu为

，

为权重超参。

将所述联合相似度指标大于预设阈值的两个实体定义对齐归类为同一实体对象。

步骤S204，基于实体类型以及预设标准对共指消歧后的实体进行归类，确定乱点实体。

对实体进行共指消歧后，按照人为预设标准对所有实体进行归类，然后确定出乱点实体，在一个示例中，“东川路的兰苑小区前不久出现了小区内电梯故障的投诉。”，其中，“电梯故障”可作为工单数据中的乱点实体。

步骤S205，对乱点实体进行多维分析，并根据系统中待分析区域的地图配置将乱点进行地理可视化展示。

将确认出的乱点实体与其他变量做分析，例如与待分析区域的地理位置做交叉分析，得出待分析区域发生乱点实体的地理位置分布情况，可以基于系统中待分析区域的地图配置，对乱点实体在相应的地理位置进行地理可视化展示。

以上为本申请实施例中地区工单乱点分析方法的完整过程。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上是关于方法实施例的介绍，以下通过装置实施例，对本申请的方案进行进一步说明。

图4所示为本申请实施例中地区工单乱点分析装置的原理框图，如图4所示，该装置包括：

获取模块401，用于获取待分析区域的工单数据。

模型处理模块402，用于基于命名实体识别模型对工单数据进行处理，获得工单数据中的实体与实体类型。

归一模块403，用于对工单数据中的实体进行共指消歧。

归类模块404，用于基于实体类型以及预设标准对共指消歧后的实体进行归类，确定乱点实体。

分析模块405，用于对乱点实体进行多维分析，并根据系统中待分析区域的地图配置将乱点进行地理可视化展示。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络或其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如：同轴电缆、光纤、数据用户线(digital subscriber line，DSL))或无线(例如：红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质，或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如：软盘、硬盘、磁带)、光介质(例如：数字通用光盘(digital versatile disc，DVD))或半导体介质(例如：固态硬盘(solid state disk，SSD))等。值得注意的是，本申请实施例提到的计算机可读存储介质可以为非易失性存储介质，换句话说，可以是非瞬时性存储介质。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的申请范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离前述申请构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中申请的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种地区工单乱点分析方法，其特征在于，包括，

获取待分析区域的工单数据；

基于命名实体识别模型对所述工单数据进行处理，获得所述工单数据中的实体与实体类型；对所述工单数据中的实体进行共指消歧；

基于所述实体类型以及预设标准对共指消歧后的所述实体进行归类，确定乱点实体；

对所述乱点实体进行多维分析，并根据系统中待分析区域的地图配置将所述乱点进行地理可视化展示；

所述命名实体识别模型通过以下步骤进行训练：

获取工单样本数据；

对所述工单样本数据进行预处理，基于BERT模型将所述工单样本数据中的文本数据转换为语义编码向量；

以所述语义编码向量作为输入，以所有实体和实体类型作为输出，以transformer模型作为特征向量提取表示，以CRF作为损失函数，以维特比算法作为实体与实体类型的推理算法，完成对所述命名实体识别模型的训练；

所述对所述工单样本数据进行预处理，基于BERT模型将所述工单样本数据中的文本信息转换为语义编码向量包括，

根据预设实体类型特征对样本数据进行标注，获得第一标签样本数据；

将所述第一标签样本数据转换为BIO字符标注体系的数据，得到第二标签样本数据；

对所述第二标签样本数据进行分词，在每条文本数据的开头连接CLS标记；

对分词后的文本数据进行embedding向量化表示，得到CLS语义编码向量。

2.根据权利要求1所述的地区工单乱点分析方法，其特征在于，还包括，

设置全连接层，将CLS语义编码向量作为所述全连接层的输入，输出维度长度为两倍的实体类型个数加上1。

3.根据权利要求2所述的地区工单乱点分析方法，其特征在于，

采用如下损失函数作为优化目标：

其中，所述k为所述全连接层输出的维度长度；

所述y_k为真实标签；

所述Y_x为真实输出序列；

所述

为真实序列得分；

所述T_yk，yk+1为状态转移矩阵；

所述X为前述工单样本数据的输入序列[x₁，x₂，…x_k]；

所述Y为对应预测的标签序列值[y₁，y₂，…y_k]；

所述

为真实序列中所有可能的位置序列的状态转移特征权重值，包括y_k和非y_k。

4.根据权利要求2所述的地区工单乱点分析方法，其特征在于，

将最后一层的cls标记字符向量表示，作为下一层的输入向量：

其中，所述n为单个单词向量长度。

5.根据权利要求1所述的地区工单乱点分析方法，其特征在于，所述对所述工单数据中的实体进行共指消歧包括，

利用ner模型提取所述工单数据的特征向量；

基于皮尔逊相关系数对提取的所述实体对应的特征向量值进行余弦相似度计算；

根据所述余弦相似度以及皮尔逊相似度系数计算任两个实体的联合相似度指标；

将所述联合相似度指标大于预设阈值的两个实体定义为同一实体。

6.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～5中任一项所述的方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～5中任一项所述的方法。