CN116304719A

CN116304719A - 一种判断异常分类标签的处理系统

Info

Publication number: CN116304719A
Application number: CN202310541928.XA
Authority: CN
Inventors: 靳雯; 石江枫; 赵洲洋; 于伟; 王全修; 张宇
Original assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Current assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Priority date: 2023-05-15
Filing date: 2023-05-15
Publication date: 2023-06-23
Anticipated expiration: 2043-05-15
Also published as: CN116304719B

Abstract

本申请涉及电数字数据处理技术领域，特别是涉及一种判断异常分类标签的处理系统。所述系统包括存储器、处理器和存储有计算机程序的存储介质，当所述计算机程序被所述处理器执行时，实现以下步骤：S100，获取目标用户对目标文本标注的分类标签A；S200，将A在所述标签树中进行匹配，获取匹配的标签节点P_A；S300，获取分类模型对目标文本标注的分类标签B；S400，将B在所述标签树中进行匹配，获取匹配的标签节点P_B；S500，遍历P_B，获取p_B,m与P_A在所述标签树中的第一偏差度V_m；S600，获取A对应的目标偏差度V’；S700，如果V’大于偏差度阈值r₀，则判定A异常。本发明提高了标签异常判断的效率。

Description

一种判断异常分类标签的处理系统

技术领域

本发明涉及电数字数据处理技术领域，特别是涉及一种判断异常分类标签的处理系统。

背景技术

在第一用户对目标文本标注分类标签之后，现有技术中一般由第二用户对第一用户标注的分类标签是否异常进行判断；当第一用户的数量较大时，上述判断第一用户标注的分类标签是否异常的工作量较大，占用了较多的人力资源，且基于人工的判断方法的效率较低。如何减少标签异常判断过程对人力资源的占用和提高判断的效率，是亟待解决的问题。

发明内容

本发明目的在于，提供一种判断异常分类标签的处理系统，减少了标签异常判断过程对人力资源的占用和提高了判断的效率。

根据本发明，提供了一种判断异常分类标签的处理系统，包括存储器，所述存储器存储有标签树，所述标签树包括Q个标签节点的信息(X₁,X₂,…,X_q,…,X_Q)，X_q为第q个标签节点的信息，q的取值范围为1到Q；X_q=(E_q,F_q)，E_q为第q个标签节点，F_q为第q个标签节点的父标签节点。

所述处理系统还包括处理器和存储有计算机程序的存储介质，当所述计算机程序被所述处理器执行时，实现以下步骤：

S100，获取目标用户对目标文本标注的分类标签A。

S200，将A在所述标签树中进行匹配，获取匹配的标签节点P_A。

S300，获取分类模型对目标文本标注的分类标签B，B=(b₁,b₂,…,b_m,…b_M)，b_m为分类模型对目标文本标注的第m个分类标签，m的取值范围为1到M，M为分类模型对目标文本标注的分类标签的数量。

S400，将B在所述标签树中进行匹配，获取匹配的标签节点P_B；P_B=(p_B,1,p_B,2,…,p_B,m,…,p_B,M)，P_B,m为b_m在所述标签树中匹配的标签节点。

S500，遍历P_B，获取p_B,m与P_A在所述标签树中的第一偏差度V_m，V_m=z_m×(D_m,1+D_m,2)，z_m为b_m对应的置信度，D_m,1为p_B,m与P_A在所述标签树中的纵向偏差度；D_m,2为p_B,m与P_A在所述标签树中的横向偏差度。

S600，获取A对应的目标偏差度V’=∑^M _m=1(w_m×V_m)，w_m为V_m对应的权重，0≤w_m≤1，∑^M _m=1w_m=1。

S700，如果V’大于偏差度阈值r₀，则判定A异常，r₀>0。

本发明与现有技术相比至少具有以下有益效果：

本发明的判断异常分类标签的处理系统包括存储器，存储器中存储有标签树，目标用户对目标文本标注的分类标签A和分类模型对目标文本标注的分类标签B均可以在所述标签树中匹配到对应的标签节点；基于目标用户对应的匹配的标签节点P_A和分类模型对应的匹配的标签节点P_B在所述标签树中的目标偏差度，通过将目标偏差度与预设的偏差度阈值进行比较，本发明实现了对分类标签A是否存在异常的自动化判断，减少了标签异常判断过程对人力资源的占用和提高了判断的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的判断异常分类标签的处理方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明，每个标签节点对应一个标签，不同标签节点对应的标签不同，一个父标签节点包括一个以上的子标签节点，一个标签节点包括一个以上的父标签节点。应当理解的是，一个父标签节点是其对应的子标签节点的概括表述，一个子标签节点是其对应的父标签节点的具体表述。

本发明的处理系统还包括处理器和存储有计算机程序的存储介质，当所述计算机程序被所述处理器执行时，实现判断异常分类标签的处理方法。如图1所示，判断异常分类标签的处理方法包括以下步骤：

S100，获取目标用户对目标文本标注的分类标签A。

可选的，遍历所述标签树中的每个标签节点，如果所述标签树中的某个标签节点对应的标签为A，那么判定该标签节点与A匹配，判定该标签节点为匹配的标签节点P_A。

根据本发明，当M=1时，即分类标签B包括1个分类标签；当M≥2时，即分类标签B包括多个分类标签时，可选的，这M个分类标签由同一分类模型标注，或者由M个不同的分类模型标注，每个分类模型对应一个分类标签。

根据本发明，所述分类模型为经训练的神经网络模型。本领域技术人员知悉，现有技术中任何的可用于对文本进行分类的神经网络模型均落入本发明的保护范围。

可选的，对神经网络模型进行训练的过程包括：

S310，获取文本训练样本TP=(TP₁，TP₂，…，TP_g，…，TP_G)，TP_g为第g个文本训练样本，g的取值范围为1到G，G为文本训练样本的数量。

S320，遍历TP，对TP的分类标签进行标注，得到文本训练样本标注BP=(BP₁，BP₂，…，BP_g，…，BP_G)，BP_g为TP_g对应的分类标签。

根据本发明，不同文本对应的分类标签可能相同或不同，可选的，对TP的分类标签进行标注时只标注一个分类标签，或者对TP的分类标签进行标注时可以标注两个以上的分类标签。

S330，利用TP和BP对神经网络模型进行训练。

应当理解的是，经训练的神经网络模型即具备对文本进行分类标签标注的功能。本发明对神经网络进行训练的过程属于有监督的训练过程，本领域技术人员知悉，现有技术中任何的有监督训练的方法均落入本发明的保护范围。

可选的，对于B中的每一分类标签b_m，遍历所述标签树中的每个标签节点，如果所述标签树中的某个标签节点对应的标签为b_m，那么判定该标签节点与b_m匹配，判定该标签节点为匹配的标签节点p_B,m。

根据本发明，分类模型对目标文本进行分类标签标注的任务本质是一个分类的任务，分类模型输出其对分类标签的标注结果时，一般还输出有对应分类标签的概率，当M≥2且这M个分类标签由同一分类模型标注时，可将该同一分类模型输出的对应的概率作为对应分类标签的置信度；当M≥2且这M个分类标签由M个不同的分类模型标注时，可将每一分类模型输出的分类标签对应的概率作为对应分类标签的置信度；当M=1时，将进行标注的分类模型输出的分类标签对应的概率作为置信度。

可选的，所述存储器还存储有标签关联表，所述标签关联表包括N条记录(l ₁,l ₂,…,l _n,…,l _N)，l _n为第n条记录，n的取值范围为1到N；l _n=(e¹ _n,e² _n,f_n)，e¹ _n为l _n包括的第一标签节点，e² _n为l _n包括的第二标签节点，f_n为e¹ _n与e² _n的相似度，0≤f_n≤1；D_m,2的获取方法包括：

S510，获取p_B,m与P_A在所述标签树中的最近公共祖先。

本领域技术人员知悉，现有技术中任何的获取最近公共祖先的方法均落入本发明的保护范围。

S520，如果p_B,m与P_A在所述标签树中的最近公共祖先为p_B,m或P_A，则获取D_m,2为0；否则，进入S530。

S530，将p_B,m与P_A在所述标签关联表中进行匹配，得到匹配的记录；所述匹配的记录为对应的第一标签节点为p_B,m且第二标签节点为P_A的记录或者对应的第一标签节点为P_A且第二标签节点为p_B,m的记录。

S540，获取D_m,2=1-f’，f’为所述匹配的记录中的相似度。

可选的，本发明中标签关联表中的相似度是用户根据经验设置的，两标签节点的相似度越大，说明两标签节点对应的标签越相近，差异越小。根据本发明，f’越大，D_m,2越小，说明p_B,m与P_A在所述标签树中的横向偏差度越小，即横向差异越小；f’越小，D_m,2越大，说明p_B,m与P_A在所述标签树中的横向偏差度越大，即横向差异越大。

可选的，D_m,1的获取方法包括：

S501，获取p_B,m与P_A在所述标签树中的最近公共祖先。

S502，获取所述标签树中p_B,m到所述最近公共祖先的第一累加权重H_m，H_m=∑^R1 _i= ₁ l _1,i，l _1,i为p_B,m到所述最近公共祖先的路径中第i条边对应的权重，i的取值范围为1到R1，R1为p_B,m到所述最近公共祖先的路径中边的数量。

应当理解的是，标签树中除包括标签节点之外，还包括用于连接两标签节点的边。对于任一条边而言，其对应两个标签节点，其中一个标签节点为上层节点，另一个标签节点为下层节点，所述上层节点为所述下层节点的父节点，所述下层节点为所述上层节点的子节点。

本发明中l _1,i与l _1,i对应的上层节点包括的子节点的数量S相关，可选的，l _1,i的获取方法包括：

S5021，如果l _1,i对应的下层节点为叶子节点，则l _1,i=1。

S5022，如果l _1,i对应的下层节点为非叶子节点，则l _1,i=-∑^S _d=1(p_d×logp_d)，p_d为l _1,i对应的上层节点包括的第d个子节点对应的概率，p_d=1/S，d的取值范围为1到S，S为l _1,i对应的上层节点包括的子节点的数量。

S503，获取所述标签树中P_A到所述最近公共祖先的第二累加权重H’；H’=∑^R2 _j= ₁ l _2,j，l _2,j为P_A到所述最近公共祖先的路径中第j条边对应的权重，j的取值范围为1到R2，R2为P_A到所述最近公共祖先的路径中边的数量。

本发明中l _2,j与l _2,j对应的上层节点包括的子节点的数量C相关，可选的，l _2,j的获取方法包括：

S5021，如果l _2,j对应的下层节点为叶子节点，则l _2,j=1。

S5022，如果l _2,j对应的下层节点为非叶子节点，则l _2,j=-∑^C _a=1(p_a×logp_a)，p_a为l _2,j对应的上层节点包括的第a个子节点对应的概率，p_a=1/C，a的取值范围为1到C，C为l _2,j对应的上层节点包括的子节点的数量。

S504，获取D_m,1=H_m-H’。

根据本发明，D_m,1用于表示p_B,m与P_A在所述标签树中的纵向差异的大小，D_m,1越小，说明p_B,m与P_A在所述标签树中的纵向偏差度越小，即纵向差异越小；D_m,1越大，说明p_B,m与P_A在所述标签树中的纵向偏差度越大，即纵向差异越大。需要说明的是，H_m<H’时，D_m,1<0，本发明中D_m,1<0表征p_B,m与P_A在所述标签树中的纵向偏差度较小。

作为第一实施例，将各p_B,m对应的第一偏差度的均值作为目标偏差度w_m，w_m=1/M。

作为第二实施例，将各p_B,m对应的第一偏差度中最大的第一偏差度作为目标偏差度，w_m的获取方法包括：

S601，获取max(V₁,V₂,…,V_m,…,V_M)，max( )为求最大值。

S602，如果V_m=max(V₁,V₂,…,V_m,…,V_M)，则获取w_m=1；否则，获取w_m=0。

作为第三实施例，将各p_B,m对应的第一偏差度中最小的第一偏差度作为目标偏差度，w_m的获取方法包括：

S611，获取min(V₁,V₂,…,V_m,…,V_M)，min( )为求最小值。

S612，如果V_m=min(V₁,V₂,…,V_m,…,V_M)，则获取w_m=1；否则，获取w_m=0。

S700，如果V’大于偏差度阈值r₀，则判定A异常，r₀>0。

根据本发明，如果V’小于等于偏差度阈值r₀，则判定A不存在异常。

可选的，偏差度阈值r₀为用户的经验值，或者通过以下方法获取r₀：

S710，获取样本用户对样本文本标注的分类标签T={t₁,t₂,…,t_y,…,t_Y}，t_y为第y个样本用户对样本文本标注的分类标签，y的取值范围为1到Y，Y为样本用户的数量。

S720，遍历T，将t_y对应的目标偏差度追加到预设目标偏差度集合J，J的初始化为Null。

本发明采用与获取A对应的目标偏差度相同的方法获取t_y对应的目标偏差度，此处不再赘述。应当理解的是，遍历T后得到的J包括各t_y对应的目标偏差度。

S730，获取r₀=k×mean(J)，mean( )为求平均值，k为预设比例。

本发明中k由用户提前设置，应当理解的是，r₀越大，判断异常的条件越宽松；r₀越小，判断异常的条件越严苛。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明的范围由所附权利要求来限定。

Claims

1.一种判断异常分类标签的处理系统，其特征在于，包括存储器，所述存储器存储有标签树，所述标签树包括Q个标签节点的信息(X₁,X₂,…,X_q,…,X_Q)，X_q为第q个标签节点的信息，q的取值范围为1到Q；X_q=(E_q,F_q)，E_q为第q个标签节点，F_q为第q个标签节点的父标签节点；

S100，获取目标用户对目标文本标注的分类标签A；

S200，将A在所述标签树中进行匹配，获取匹配的标签节点P_A；

S300，获取分类模型对目标文本标注的分类标签B，B=(b₁,b₂,…,b_m,…b_M)，b_m为分类模型对目标文本标注的第m个分类标签，m的取值范围为1到M，M为分类模型对目标文本标注的分类标签的数量；

S400，将B在所述标签树中进行匹配，获取匹配的标签节点P_B；P_B=(p_B,1,p_B,2,…,p_B,m,…,p_B,M)，P_B,m为b_m在所述标签树中匹配的标签节点；

S500，遍历P_B，获取p_B,m与P_A在所述标签树中的第一偏差度V_m，V_m=z_m×(D_m,1+D_m,2)，z_m为b_m对应的置信度，D_m,1为p_B,m与P_A在所述标签树中的纵向偏差度；D_m,2为p_B,m与P_A在所述标签树中的横向偏差度；

S600，获取A对应的目标偏差度V’=∑^M _m=1(w_m×V_m)，w_m为V_m对应的权重，0≤w_m≤1，∑^M _m=1w_m=1；

S700，如果V’大于偏差度阈值r₀，则判定A异常，r₀>0。

2.根据权利要求1所述的判断异常分类标签的处理系统，其特征在于，所述存储器还存储有标签关联表，所述标签关联表包括N条记录(l ₁,l ₂,…,l _n,…, l _N)，l _n为第n条记录，n的取值范围为1到N；l _n=(e¹ _n,e² _n,f_n)，e¹ _n为l _n包括的第一标签节点，e² _n为l _n包括的第二标签节点，f_n为e¹ _n与e² _n的相似度，0≤f_n≤1；D_m,2的获取方法包括：

S510，获取p_B,m与P_A在所述标签树中的最近公共祖先；

S520，如果p_B,m与P_A在所述标签树中的最近公共祖先为p_B,m或P_A，则获取D_m,2为0；否则，进入S530；

S530，将p_B,m与P_A在所述标签关联表中进行匹配，得到匹配的记录；所述匹配的记录为对应的第一标签节点为p_B,m且第二标签节点为P_A的记录或者对应的第一标签节点为P_A且第二标签节点为p_B,m的记录；

S540，获取D_m,2=1-f’，f’为所述匹配的记录中的相似度。

3.根据权利要求1所述的判断异常分类标签的处理系统，其特征在于，D_m,1的获取方法包括：

S501，获取p_B,m与P_A在所述标签树中的最近公共祖先；

S502，获取所述标签树中p_B,m到所述最近公共祖先的第一累加权重H_m，H_m=∑^R1 _i=1 l _1,i，l _1,i为p_B,m到所述最近公共祖先的路径中第i条边对应的权重，i的取值范围为1到R1，R1为p_B,m到所述最近公共祖先的路径中边的数量；

S503，获取所述标签树中P_A到所述最近公共祖先的第二累加权重H’；H’=∑^R2 _j=1 l _2,j，l _2,j为P_A到所述最近公共祖先的路径中第j条边对应的权重，j的取值范围为1到R2，R2为P_A到所述最近公共祖先的路径中边的数量；

S504，获取D_m,1=H_m-H’。

4.根据权利要求3所述的判断异常分类标签的处理系统，其特征在于，l _1,i的获取方法包括：

S5021，如果l _1,i对应的下层节点为叶子节点，则l _1,i=1；

5.根据权利要求1所述的判断异常分类标签的处理系统，其特征在于，w_m=1/M。

6.根据权利要求1所述的判断异常分类标签的处理系统，其特征在于，w_m的获取方法包括：

S601，获取max(V₁,V₂,…,V_m,…,V_M)，max( )为求最大值；

7.根据权利要求1所述的判断异常分类标签的处理系统，其特征在于，w_m的获取方法包括：

S611，获取min(V₁,V₂,…,V_m,…,V_M)，min( )为求最小值；

8.根据权利要求1所述的判断异常分类标签的处理系统，其特征在于，r₀的获取方法包括：

S710，获取样本用户对样本文本标注的分类标签T={t₁,t₂,…,t_y,…,t_Y}，t_y为第y个样本用户对样本文本标注的分类标签，y的取值范围为1到Y，Y为样本用户的数量；

S720，遍历T，将t_y对应的目标偏差度追加到预设目标偏差度集合J，J的初始化为Null；

S730，获取r₀=k×mean(J)，mean( )为求平均值，k为预设比例。

9.根据权利要求1所述的判断异常分类标签的处理系统，其特征在于，所述分类模型为经训练的神经网络模型。