CN115062137A

CN115062137A - 一种基于主动学习确定异常文本的数据处理系统

Info

Publication number: CN115062137A
Application number: CN202210976431.6A
Authority: CN
Inventors: 张正义; 傅晓航; 林方; 常鸿宇
Original assignee: Zhongke Yuchen Technology Co Ltd
Current assignee: Zhongke Yuchen Technology Co Ltd
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2022-09-16
Anticipated expiration: 2042-08-15
Also published as: CN115062137B

Abstract

本发明涉及文本处理领域，提供了一种基于主动学习确定异常文本的数据处理系统，系统包括：数据库、处理器和存储有计算机程序的存储器，数据库包括：初始文本列表，当计算机程序被处理器执行时，实现以下步骤：获取初始文本对应的事件摘要列表；获取事件摘要对应的触发词列表；获取触发词对应的论元集；获取论元对应的论元角色集；根据事件摘要的触发词、论元和论元角色确定异常文本；可知，本发明一方面能够在对文本进行处理时，使用三种学习模型分别抽取出文本中的触发词、论元以及论元角色；另一方面能够在对异常文本进行判断时，通过不同的方式根据事件的触发词、论元以及论元角色确定出是否为异常文本，提高了确定异常文本的准确度。

Description

一种基于主动学习确定异常文本的数据处理系统

技术领域

本发明涉及文本处理领域，特别是涉及一种基于主动学习确定异常文本的数据处理系统。

背景技术

现有的获取异常文本的方法，大多是通过抽取文本中的事件得到的，现有的抽取事件的方法大多为将文本输入到预先训练好的事件抽取模型中，通过事件抽取模型获取待抽取文本中的数据的类别标签，其中，文本中的类别标签包括文本中存在的事件触发词类型标签和事件论元类型的标签。

但上述方法也存在以下技术问题：

在对文本进行处理的过程中，使用一种事件抽取模型抽取出所有的文本单元的类别标签，存在触发词和论元抽取错误的的情况，在对异常文本进行判断的过程中，只能通过一种方式根据从文本中抽取出事件的触发词或者论元确定出是否为异常文本，对异常文本的判断准确度较低。

发明内容

针对上述技术问题，本发明采用的技术方案为：

一种基于主动学习确定异常文本的数据处理系统，系统包括：数据库、处理器和存储有计算机程序的存储器，其中，数据库包括：初始文本列表H={H₁，……，H_i，……，H_m}，H_i为第i个初始文本，i=1……m，m为初始文本的数量，当所述计算机程序被处理器执行时，实现以下步骤：

S100、根据H_i，获取H_i对应的事件摘要列表A_i={A_i1，……，A_ij，……，A_in(i)}，A_ij为H_i中第j个事件摘要，j=1……n(i)，n(i)为H_i中的事件的数量。

S200、遍历A_i，获取H_i对应的触发词列表B_i={B_i1，……，B_ij，……，B_in(i)}，B_ij为A_ij对应的触发词。

S300、根据B_i，获取B_i对应的论元集C_i={C_i1，……，C_ij，……，C_in(i)}，C_ij={C¹ _ij，……，C^e _ij，……，C^f _ij}，C^e _ij为B_ij对应的第e个论元，e=1……f，f为B_ij对应的论元的数量。

S400、根据B_i和C_i，获取C_i对应的论元角色集D_i={D_i1，……，D_ij，……，D_in(i)}，D_ij={D¹ _ij，……，D^e _ij，……，D^f _ij}，D^e _ij为C^e _ij与B_ij之间的论元角色。

S500、根据B_i，获取H_i对应的第一优先级F¹ _i。

S600、当F¹ _i＜F¹ ₀，确定H_i为异常文本，其中，F¹ ₀为预设的第一优先级阈值。

S700、当F¹ _i≥F¹ ₀，执行S800。

S800，根据C_i，获取H_i对应的第二优先级F² _i。

S900、当F² _i＜F² ₀，确定H_i为异常文本，其中，F² ₀为预设的第二优先级阈值。

S1000、当F² _i≥F² ₀，执行S1100。

S1100、根据D_i，获取H_i对应的第三优先级F³ _i。

S1200、当F³ _i＜F³ ₀，确定H_i为异常文本，其中，F³ ₀为预设的第三优先级阈值。

S1300、当F³ _i≥F³ ₀，确定H_i为正常文本。

本发明至少具有以下有益效果：

本发明提供了一种基于主动学习确定异常文本的数据处理系统，系统包括：数据库、处理器和存储有计算机程序的存储器，数据库包括：初始文本列表，当计算机程序被处理器执行时，实现以下步骤：获取初始文本对应的事件摘要列表；获取事件摘要对应的触发词列表；获取触发词对应的论元集；获取论元及对应的论元角色集；根据事件摘要的触发词、论元和论元角色确定异常文本；可知，本发明一方面能够在对文本进行处理的过程中，使用三种学习模型分别抽取出文本中的触发词、论元以及论元角色；另一方面能够在对异常文本进行判断的过程中，通过不同的方式根据事件的触发词、论元以及论元角色确定出是否为异常文本，提高了确定异常文本的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于主动学习确定异常文本的数据处理系统执行计算机程序的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本实施例提供了一种基于主动学习确定异常文本的数据处理系统，所述系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库包括：初始文本列表H={H₁，……，H_i，……，H_m}，H_i为第i个初始文本，i=1……m，m为初始文本的数量，当所述计算机程序被处理器执行时，实现以下步骤，如图1所示：

S100、根据H_i，获取H_i对应的事件摘要列表A_i={A_i1，……，A_ij，……，A_in(i)}，A_ij为H_i中第j个事件摘要，j=1……n(i)，n(i)为H_i中的事件的数量，其中，本领域技术人员知晓，通过文本获取事件摘要的现有技术中任一方法均属于本实施例的保护范围，在此不再赘述。

S200、遍历A_i，获取H_i对应的触发词列表B_i={B_i1，……，B_ij，……，B_in(i)}，B_ij为A_ij对应的触发词，其中，本领域技术人员知晓，通过事件摘要获取触发词的现有技术中任一方法均属于本实施例的保护范围，在此不再赘述。

S300、根据B_i，获取B_i对应的论元集C_i={C_i1，……，C_ij，……，C_in(i)}，C_ij={C¹ _ij，……，C^e _ij，……，C^f _ij}，C^e _ij为B_ij对应的第e个论元，e=1……f，f为B_ij对应的论元的数量，其中，本领域技术人员知晓，通过事件摘要获取论元的现有技术中任一方法均属于本实施例的保护范围，在此不再赘述。

S400、根据B_i和C_i，获取C_i对应的论元角色集D_i={D_i1，……，D_ij，……，D_in(i)}，D_ij={D¹ _ij，……，D^e _ij，……，D^f _ij}，D^e _ij为C^e _ij与B_ij之间的论元角色，其中，本领域技术人员知晓，通过事件摘要获取论元角色的现有技术中任一方法均属于本实施例的保护范围，在此不再赘述。

S500、根据B_i，获取H_i对应的第一优先级F¹ _i。

具体地，在S500中还包括如下步骤：

S501、获取A_ij对应的文本字符串A'_ij=（A'¹ _ij，……，A'^r _ij，……，A'^s(j) _ij），A'^r _ij为A_ij中第r个文本字符，r=1……s(j)，s(j)为A_ij对应的文本字符的数量。

S503、将A'_ij输入至预设的第一学习模型中，获取A'_ij对应的第一概率集G_ij={G¹ _ij，……，G^r _ij，……，G^s(j) _ij}，G^r _ij={G^r1 _ij，……，G^rx _ij，……，G^rp _ij}，G^rx _ij为A'^r _ij对应的第x类触发词的概率值，可以理解为：文本字符A'^r _ij为x类触发词的概率，x=1……p，p为触发词的类型数量。

具体地，∑^p _x=1(G^rx _ij)=1。

S505、当G^rx _ij对应的触发词的类型为第一非标准类型时，将从G^r _ij中删除G^rx _ij，构建G^r _ij对应的第一目标概率列表G'^r _ij={G'^r1 _ij，……，G'^rα _ij，……，G'^rp-1 _ij}，G'^rα _ij为A'^r _ij对应的第α类触发词的概率值，可以理解为：文本字符A'^r _ij为α类触发词的概率，α=1……p-1。

具体地，所述第一非标准类型为非预设的触发词的类型，其中，本领域技术人员知晓，可以根据实际需求设置预设触发词的类型。

S507、当G'^rα _ij≥G₀时，获取B_ij对应的第一中间数据列表G⁰ _ij={G⁰¹ _ij，……，G⁰ ^β _ij，……，G^0γ _ij}，G^0β _ij为B_ij对应的第β个第一目标字符的概率值，可以理解为：B_ij为第β个第一目标字符的概率，β=1……γ，γ为B_ij对应的第一目标字符的数量，其中，G₀为预设的第一概率阈值。

具体地，第一目标字符可以理解为：在A'_ij中满足当G'^rα _ij≥G₀时的文本字符。

具体地，G₀的取值范围为0.5-0.6。

S509、根据G⁰ _ij，获取F¹ _i。

进一步的，F¹ _i符合如下条件：

。

上述，在确定事件摘要的触发词时，采用第一学习模型，将文本中的所有事件的触发词抽取出来，能够准确无误的获取到事件的触发词，提高了模型抽取事件的准确度，进而可以准确的通过触发词的概率，确定文本是否为异常文本。

在另一个具体的实施例中，在S509中还通过如下步骤获取F¹ _i：

S5091、根据G⁰ _ij，获取B_ij对应的优先级F¹ _ij，其中，F¹ _ij符合如下条件：

。

S5093、根据F¹ _ij，获取B_ij对应的第一类触发词的优先级列表F'_ij={F'¹ _ij，……，F'^t _ij，……，F'^k _ij}，F'^t _ij为B_ij对应的第t个第一类触发词的优先级，t=1……k，k为B_ij对应的第一类触发词的数量。

S5095、根据F'_ij，获取H_i对应的第一优先级列表，其中，任一H_i对应的第一优先级F₁符合如下条件：

。

S5097、遍历所述第一优先级列表且将所述第一优先级列表中最小的第一优先级作为F¹ _i。

进一步的，B_ij对应的第一类触发词包括B_ij和在B_i中与B_ij对应的触发词的类型一致的触发词。

相较于上述实施例，在本实施例中在确定事件摘要的触发词时，对获取到的事件摘要的触发词进行了分类处理，根据触发词的类型确定出任一触发词的类型的概率值，进而确定触发词的类型。

S700、当F¹ _i≥F¹ ₀，执行S800。

具体地，F¹ ₀的取值范围为0.8-1。

S800，根据C_i，获取H_i对应的第二优先级F² _i。

具体地，在S800中还包括如下步骤：

S801、获取A_ij对应的文本字符串A'_ij=（A'¹ _ij，……，A'^r _ij，……，A'^s(j) _ij），A'^r _ij为A_ij中第r个文本字符，r=1……s(j)，s(j)为A_ij对应的文本字符的数量。

S803、将A'_ij输入至预设的第二学习模型中，获取A'_ij对应的第二概率集U_ij={U¹ _ij，……，U^r _ij，……，U^s(j) _ij}，U^r _ij={U^r1 _ij，……，U^ry _ij，……，U^rq _ij}，U^ry _ij为A'^r _ij对应的第y类论元的概率值，可以理解为：文本字符A'^r _ij为y类论元的概率，y=1……q，q为论元的类型数量。

具体地，∑^q _y=1(U^ry _ij)=1。

S805、当U^ry _ij对应的论元的类型为第二非标准类型时，将从U^r _ij中删除U^ry _ij，构建U^r _ij对应的第二目标概率列表U'^r _ij={U'^r1 _ij，……，U'^rδ _ij，……，U'^rq-1 _ij}，U'^rδ _ij为A^'r _ij对应的第δ类论元的概率值，可以理解为：文本字符A'^r _ij为δ类论元的概率，δ=1……q-1。

具体地，所述第二非标准类型为非预设的论元的类型，其中，本领域技术人员知晓，可以根据实际需求设置预设论元的类型。

S807、当U'^rδ _ij≥U₀时，获取C^e _ij对应的第二中间数据列表Ue⁰ _ij={Ue⁰¹ _ij，……，Ue⁰ ^ε _ij，……，Ue^0η _ij}，Ue^0η _ij为C^e _ij对应的第ε个第二目标字符的概率值，可以理解为：C^e _ij为第ε个第二目标字符的概率，ε=1……η，η为C^e _ij对应的第二目标字符的数量，其中，U₀为预设的第二概率阈值。

具体地，所述第二目标字符可以理解为：在A'_ij中满足当U'^rδ _ij≥U₀时的文本字符。

具体地，U₀的取值范围为0.5-0.6。

S809、根据Ue⁰ _ij，获取F² _i。

进一步的，F² _i符合如下条件：

。

上述，在确定事件摘要的论元时，采用第二学习模型，将文本中的所有事件的论元抽取出来，能够准确无误的获取到事件的论元，提高了模型抽取事件的准确度，进而可以准确的通过论元的概率，确定文本是否为异常文本。

在一个具体的实施例中，在S809中还通过如下步骤获取F¹ _i：

S8091、根据Ue⁰ _ij，获取C_ij对应的第一中间优先级列表W² _ij={W1² _ij，……，We² _ij，……，Wf² _ij}，We² _ij为C^e _ij对应的第一中间优先级，其中，We² _ij符合如下条件：

。

S8093、遍历W² _ij且从W² _ij中获取最小的第一中间优先级，构建C_i对应的第二中间优先级列表。

S8095、遍历所述第二中间优先级列表且将所述第二中间优先级列表中最小的第二中间优先级作为F² _i。

相较于上述实施例，在本实施例中在确定事件摘要的论元时，对获取到的事件摘要的论元进行了分类处理，根据论元的类型确定出任一论元的类型的概率值，进而确定论元的类型。

在另一个具体的实施例中，在S809中还通过如下步骤获取F² _i：

S8091、根据Ue⁰ _ij，获取C_i对应论元优先级列表W² _i={W² _i1，……，W² _ij，……，W² _in(i)}，W² _ij={W1² _ij，……，We² _ij，……，Wf² _ij}，We² _ij为C^e _ij对应的第一中间优先级，其中，We² _ij符合如下条件：

。

S8093、根据We² _ij，获取C^e _ij对应的第二类论元的优先级列表W'^e _ij={W'^e1 _ij，……，W'^ev _ij，……，W'^eh _ij}，W'^ev _ij为C^e _ij对应的第v个第一类论元的优先级，v=1……h，h为C^e _ij对应的第一类论元的数量。

S8095、根据W'_ij，获取H_i对应的第二优先级列表，其中，任一H_i对应的第二优先级F₂符合如下条件：

。

S8097、遍历所述第二优先级列表且将所述第二优先级列表中最小的第二优先级作为F² _i。

相较于上述实施例，在本实施例中在确定事件摘要的论元时，对获取到的事件摘要的论元，按照所属初始文本进行划分处理，之后再对初始文本中的论元进行分类处理，进而确定文本是否为异常文本。

进一步的，C^e _ij对应的第二类论元包括C^e _ij和在C_i中与C^e _ij对应的论元的类型一致的论元。

S1000、当F² _i≥F² ₀，执行S1100。

具体地，F² ₀的取值范围为0.8-1。

S1100、根据B_i和C_i，获取H_i对应的第三优先级F³ ₀。

具体地，在S1100中还包括如下步骤：

S1101、获取A_ij对应的文本字符串A'_ij=（A'¹ _ij，……，A'^r _ij，……，A'^s(j) _ij），A'^r _ij为A_ij中第r个文本字符，r=1……s(j)，s(j)为A_ij对应的文本字符的数量。

S1103、将A'_ij输入至预设的第三学习模型中，获取A'_ij对应的第三概率集L_ij={L¹ _ij，……，L^r _ij，……，L^s(j) _ij}，L^r _ij={L^r1 _ij，……，L^rz _ij，……，L^rg _ij}，L^rz _ij为A'^r _ij对应的第z类论元角色的概率值，可以理解为：文本字符A'^r _ij为z类论元角色的概率，z=1……g，g为论元角色的类型数量。

具体地，∑^g _z=1(L^rz _ij)=1。

S1105、当L^rz _ij对应的论元角色的类型为第三非标准类型时，将从L^r _ij中删除L^rz _ij，构建L^r _ij对应的第三目标概率列表L'^r _ij={L'^r1 _ij，……，L'^rθ _ij，……，L'^rg-1 _ij}，L'^rθ _ij为A^'r _ij对应的第θ类论元的概率值，可以理解为：文本字符A'^r _ij为θ类论元角色的概率，θ=1……g-1。

具体地，所述第三非标准类型为非预设的论元角色的类型，其中，本领域技术人员知晓，可以根据实际需求设置预设论元角色的类型。

S1107、当L'^rθ _ij≥L₀时，获取D^e _ij对应的第三中间数据列表Le⁰ _ij={Le⁰¹ _ij，……，Le⁰ ^ψ _ij，……，Le^0η _ij}，Le^0ψ _ij为D^e _ij对应的第ψ个第三目标字符的概率值，可以理解为：D^e _ij为第ψ个第三目标字符的概率，ψ=1……ξ，ξ为D^e _ij对应的第三目标字符的数量，其中，D^e _ij为C^e _ij与B_ij之间的论元角色，L₀为预设的第三概率阈值。

具体地，所述第三目标字符可以理解为：在A'_ij中满足当L'^rθ _ij≥L₀时的文本字符。

具体地，L₀的取值范围为0.5-0.6。

S1109、根据Le⁰ _ij，获取F³ _i。

进一步的，F³ _i符合如下条件：

。

上述，在确定事件摘要的论元角色时，采用第三学习模型，将文本中的所有事件的论元角色抽取出来，能够准确无误的获取到事件的论元角色，提高了模型抽取事件的准确度，进而可以准确的通过论元角色的概率，确定文本是否为异常文本。

在一个具体的实施例中，在S1109中还通过如下步骤获取F³ _i：

S11091、根据Le⁰ _ij，获取D_ij对应的第三中间优先级列表T² _ij={T1² _ij，……，Te² _ij，……，Tf² _ij}，Te² _ij为D^e _ij对应的第三中间优先级，其中，Te² _ij符合如下条件：

。

S11093、遍历T² _ij且从T² _ij中获取最小的第三中间优先级，构建D_i对应的第四中间优先级列表。

S11095、遍历所述第四中间优先级列表且将所述第四中间优先级列表中最小的第四中间优先级作为F³ _i。

相较于上述实施例，在本实施例中在确定事件摘要的论元角色时，对获取到的事件摘要的论元角色进行了分类处理，根据论元角色的类型确定出任一论元角色的类型的概率值，进而确定论元角色的类型。

在另一个具体的实施例中，在S1109中还通过如下步骤获取F³ _i：

S11091、根据Le⁰ _ij，获取D_i对应论元角色优先级列表T² _i={T² _i1，……，T² _ij，……，T² _in(i)}，T² _ij={T1² _ij，……，Te² _ij，……，Tf² _ij}，Te² _ij为D^e _ij对应的第三中间优先级，其中，Te² _ij符合如下条件：

。

S11093、根据Te² _ij，获取D^e _ij对应的第二类论元角色的优先级列表T'^e _ij={T'^e1 _ij，……，T'^ed _ij，……，T'^el _ij}，T'^ed _ij为D^e _ij对应的第d个第一类论元角色的优先级，d=1……l，l为C^e _ij对应的第一类论元角色的数量。

S11095、根据T'_ij，获取H_i对应的第三优先级列表，其中，任一H_i对应的第三优先级F₃符合如下条件：

。

S11097、遍历所述第三优先级列表且将所述第三优先级列表中最小的第三优先级作为F³ _i。

相较于上述实施例，在本实施例中在确定事件摘要的论元角色时，对获取到的事件摘要的论元角色，按照所属初始文本进行划分处理，之后再对初始文本中的论元角色进行分类处理，进而确定文本是否为异常文本。

进一步的，D^e _ij对应的第二类论元角色包括D^e _ij和在D_i中与D^e _ij对应的论元角色的类型一致的论元角色。

S1300、当F³ _i≥F³ ₀，确定H_i为正常文本。

具体地，F³ ₀的取值范围为0.8-1。

具体地，所述第一学习模型为针对触发词的主动学习模型，所述第二学习模型为针对论元的主动学习模型，所述第三学习模型为针对论元角色的主动学习模型，其中，本领域技术人员知晓，现有技术中任一主动学习模型均属于本实施例的保护范围，在此不再赘述。

优选地，G₀=U₀=L₀=0.5，能够避免阈值设置过高，导致一些数据被删除，进而导致事件摘要的触发词、论元以及论元角色抽取遗漏，对异常文本判断错误。

优选地，F¹ ₀取值为1，F² ₀取值为0.9，F³ ₀取值为0.8，能够准确的抽取出触发词，避免针对触发词对论元和论元角色抽取错误或遗漏，能够更加准确的对异常文本进行判断。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种基于主动学习确定异常文本的数据处理系统，其特征在于，所述系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库包括：初始文本列表H={H₁，……，H_i，……，H_m}，H_i为第i个初始文本，i=1……m，m为初始文本的数量，当所述计算机程序被处理器执行时，实现以下步骤：

S100、根据H_i，获取H_i对应的事件摘要列表A_i={A_i1，……，A_ij，……，A_in(i)}，A_ij为H_i中第j个事件摘要，j=1……n(i)，n(i)为H_i中的事件的数量；

S200、遍历A_i，获取H_i对应的触发词列表B_i={B_i1，……，B_ij，……，B_in(i)}，B_ij为A_ij对应的触发词；

S300、根据B_i，获取B_i对应的论元集C_i={C_i1，……，C_ij，……，C_in(i)}，C_ij={C¹ _ij，……，C^e _ij，……，C^f _ij}，C^e _ij为B_ij对应的第e个论元，e=1……f，f为B_ij对应的论元的数量；

S400、根据B_i和C_i，获取C_i对应的论元角色集D_i={D_i1，……，D_ij，……，D_in(i)}，D_ij={D¹ _ij，……，D^e _ij，……，D^f _ij}，D^e _ij为C^e _ij与B_ij之间的论元角色；

S500、根据B_i，获取H_i对应的第一优先级F¹ _i；

S600、当F¹ _i＜F¹ ₀，确定H_i为异常文本，其中，F¹ ₀为预设的第一优先级阈值；

S700、当F¹ _i≥F¹ ₀，执行S800；

S800，根据C_i，获取H_i对应的第二优先级F² _i；

S900、当F² _i＜F² ₀，确定H_i为异常文本，其中，F² ₀为预设的第二优先级阈值；

S1000、当F² _i≥F² ₀，执行S1100；

S1100、根据D_i，获取H_i对应的第三优先级F³ _i；

S1200、当F³ _i＜F³ ₀，确定H_i为异常文本，其中，F³ ₀为预设的第三优先级阈值；

S1300、当F³ _i≥F³ ₀，确定H_i为正常文本。

2.根据权利要求1所述的基于主动学习确定异常文本的数据处理系统，其特征在于，在S500中还包括如下步骤：

S501、获取A_ij对应的文本字符串A'_ij=（A'¹ _ij，……，A'^r _ij，……，A'^s(j) _ij），A'^r _ij为A_ij中第r个文本字符，r=1……s(j)，s(j)为A_ij对应的文本字符的数量；

S503、将A'_ij输入至预设的第一学习模型中，获取A'_ij对应的第一概率集G_ij={G¹ _ij，……，G^r _ij，……，G^s(j) _ij}，G^r _ij={G^r1 _ij，……，G^rx _ij，……，G^rp _ij}，G^rx _ij为A'^r _ij对应的第x类触发词的概率值，x=1……p，p为触发词的类型数量；

S505、当G^rx _ij对应的触发词的类型为第一非标准类型时，将从G^r _ij中删除G^rx _ij，构建G^r _ij对应的第一目标概率列表G'^r _ij={G'^r1 _ij，……，G'^rα _ij，……，G'^rp-1 _ij}，G'^rα _ij为A'^r _ij对应的第α类触发词的概率值，α=1……p-1；

S507、当G'^rα _ij≥G₀时，获取B_ij对应的第一中间数据列表G⁰ _ij={G⁰¹ _ij，……，G^0β _ij，……，G⁰ ^γ _ij}，G^0β _ij为B_ij对应的第β个第一目标字符的概率值，β=1……γ，γ为B_ij对应的第一目标字符的数量，其中，G₀为预设的第一概率阈值；

S509、根据G⁰ _ij，获取F¹ _i。

3.根据权利要求2所述的基于主动学习确定异常文本的数据处理系统，其特征在于，F¹ _i符合如下条件：

。

4.根据权利要求2所述的基于主动学习确定异常文本的数据处理系统，其特征在于，在S509中还通过如下步骤获取F¹ _i：

；

S5093、根据F¹ _ij，获取B_ij对应的第一类触发词的优先级列表F'_ij={F'¹ _ij，……，F'^t _ij，……，F'^k _ij}，F'^t _ij为B_ij对应的第t个第一类触发词的优先级，t=1……k，k为B_ij对应的第一类触发词的数量；

；

5.根据权利要求4所述的基于主动学习确定异常文本的数据处理系统，其特征在于，B_ij对应的第一类触发词包括B_ij和在B_i中与B_ij对应的触发词的类型一致的触发词。

6.根据权利要求1所述的基于主动学习确定异常文本的数据处理系统，其特征在于，在S800中还包括如下步骤：

S801、获取A_ij对应的文本字符串A'_ij=（A'¹ _ij，……，A'^r _ij，……，A'^s(j) _ij），A'^r _ij为A_ij中第r个文本字符，r=1……s(j)，s(j)为A_ij对应的文本字符的数量；

S803、将A'_ij输入至预设的第二学习模型中，获取A'_ij对应的第二概率集U_ij={U¹ _ij，……，U^r _ij，……，U^s(j) _ij}，U^r _ij={U^r1 _ij，……，U^ry _ij，……，U^rq _ij}，U^ry _ij为A'^r _ij对应的第y类论元的概率值，y=1……q，q为论元的类型数量；

S805、当U^ry _ij对应的论元的类型为第二非标准类型时，将从U^r _ij中删除U^ry _ij，构建U^r _ij对应的第二目标概率列表U'^r _ij={U'^r1 _ij，……，U'^rδ _ij，……，U'^rq-1 _ij}，U'^rδ _ij为A'^r _ij对应的第δ类论元的概率值，δ=1……q-1；

S807、当U'^rδ _ij≥U₀时，获取C^e _ij对应的第二中间数据列表Ue⁰ _ij={Ue⁰¹ _ij，……，Ue⁰ ^ε _ij，……，Ue^0η _ij}，Ue^0η _ij为C^e _ij对应的第ε个第二目标字符的概率值，ε=1……η，η为C^e _ij对应的第二目标字符的数量，其中，U₀为预设的第二概率阈值；

S809、根据Ue⁰ _ij，获取F² _i。

7.根据权利要求6所述的基于主动学习确定异常文本的数据处理系统，其特征在于，F² _i符合如下条件：

。

8.根据权利要求6所述的基于主动学习确定异常文本的数据处理系统，其特征在于，在S809中还通过如下步骤获取F² _i：

；

S8093、遍历W² _ij且从W² _ij中获取最小的第一中间优先级，构建C_i对应的第二中间优先级列表；

9.根据权利要求6所述的基于主动学习确定异常文本的数据处理系统，其特征在于，在S809中还通过如下步骤获取F² _i：

；

S8093、根据We² _ij，获取C^e _ij对应的第二类论元的优先级列表W'^e _ij={W'^e1 _ij，……，W'^ev _ij，……，W'^eh _ij}，W'^ev _ij为C^e _ij对应的第v个第一类论元的优先级，v=1……h，h为C^e _ij对应的第一类论元的数量；

；

10.根据权利要求9所述的基于主动学习确定异常文本的数据处理系统，其特征在于，C^e _ij对应的第二类论元包括C^e _ij和在C_i中与C^e _ij对应的论元的类型一致的论元。