CN115062137A - 一种基于主动学习确定异常文本的数据处理系统 - Google Patents

一种基于主动学习确定异常文本的数据处理系统 Download PDF

Info

Publication number
CN115062137A
CN115062137A CN202210976431.6A CN202210976431A CN115062137A CN 115062137 A CN115062137 A CN 115062137A CN 202210976431 A CN202210976431 A CN 202210976431A CN 115062137 A CN115062137 A CN 115062137A
Authority
CN
China
Prior art keywords
text
priority
argument
obtaining
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210976431.6A
Other languages
English (en)
Other versions
CN115062137B (zh
Inventor
张正义
傅晓航
林方
常鸿宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Yuchen Technology Co Ltd
Original Assignee
Zhongke Yuchen Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Yuchen Technology Co Ltd filed Critical Zhongke Yuchen Technology Co Ltd
Priority to CN202210976431.6A priority Critical patent/CN115062137B/zh
Publication of CN115062137A publication Critical patent/CN115062137A/zh
Application granted granted Critical
Publication of CN115062137B publication Critical patent/CN115062137B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及文本处理领域,提供了一种基于主动学习确定异常文本的数据处理系统,系统包括:数据库、处理器和存储有计算机程序的存储器,数据库包括:初始文本列表,当计算机程序被处理器执行时,实现以下步骤:获取初始文本对应的事件摘要列表;获取事件摘要对应的触发词列表;获取触发词对应的论元集;获取论元对应的论元角色集;根据事件摘要的触发词、论元和论元角色确定异常文本;可知,本发明一方面能够在对文本进行处理时,使用三种学习模型分别抽取出文本中的触发词、论元以及论元角色;另一方面能够在对异常文本进行判断时,通过不同的方式根据事件的触发词、论元以及论元角色确定出是否为异常文本,提高了确定异常文本的准确度。

Description

一种基于主动学习确定异常文本的数据处理系统
技术领域
本发明涉及文本处理领域,特别是涉及一种基于主动学习确定异常文本的数据处理系统。
背景技术
现有的获取异常文本的方法,大多是通过抽取文本中的事件得到的,现有的抽取事件的方法大多为将文本输入到预先训练好的事件抽取模型中,通过事件抽取模型获取待抽取文本中的数据的类别标签,其中,文本中的类别标签包括文本中存在的事件触发词类型标签和事件论元类型的标签。
但上述方法也存在以下技术问题:
在对文本进行处理的过程中,使用一种事件抽取模型抽取出所有的文本单元的类别标签,存在触发词和论元抽取错误的的情况,在对异常文本进行判断的过程中,只能通过一种方式根据从文本中抽取出事件的触发词或者论元确定出是否为异常文本,对异常文本的判断准确度较低。
发明内容
针对上述技术问题,本发明采用的技术方案为:
一种基于主动学习确定异常文本的数据处理系统,系统包括:数据库、处理器和存储有计算机程序的存储器,其中,数据库包括:初始文本列表H={H1,……,Hi,……,Hm},Hi为第i个初始文本,i=1……m,m为初始文本的数量,当所述计算机程序被处理器执行时,实现以下步骤:
S100、根据Hi,获取Hi对应的事件摘要列表Ai={Ai1,……,Aij,……,Ain(i)},Aij为Hi中第j个事件摘要,j=1……n(i),n(i)为Hi中的事件的数量。
S200、遍历Ai,获取Hi对应的触发词列表Bi={Bi1,……,Bij,……,Bin(i)},Bij为Aij对应的触发词。
S300、根据Bi,获取Bi对应的论元集Ci={Ci1,……,Cij,……,Cin(i)},Cij={C1 ij,……,Ce ij,……,Cf ij},Ce ij为Bij对应的第e个论元,e=1……f,f为Bij对应的论元的数量。
S400、根据Bi和Ci,获取Ci对应的论元角色集Di={Di1,……,Dij,……,Din(i)},Dij={D1 ij,……,De ij,……,Df ij},De ij为Ce ij与Bij之间的论元角色。
S500、根据Bi,获取Hi对应的第一优先级F1 i
S600、当F1 i<F1 0,确定Hi为异常文本,其中,F1 0为预设的第一优先级阈值。
S700、当F1 i≥F1 0,执行S800。
S800,根据Ci,获取Hi对应的第二优先级F2 i
S900、当F2 i<F2 0,确定Hi为异常文本,其中,F2 0为预设的第二优先级阈值。
S1000、当F2 i≥F2 0,执行S1100。
S1100、根据Di,获取Hi对应的第三优先级F3 i
S1200、当F3 i<F3 0,确定Hi为异常文本,其中,F3 0为预设的第三优先级阈值。
S1300、当F3 i≥F3 0,确定Hi为正常文本。
本发明至少具有以下有益效果:
本发明提供了一种基于主动学习确定异常文本的数据处理系统,系统包括:数据库、处理器和存储有计算机程序的存储器,数据库包括:初始文本列表,当计算机程序被处理器执行时,实现以下步骤:获取初始文本对应的事件摘要列表;获取事件摘要对应的触发词列表;获取触发词对应的论元集;获取论元及对应的论元角色集;根据事件摘要的触发词、论元和论元角色确定异常文本;可知,本发明一方面能够在对文本进行处理的过程中,使用三种学习模型分别抽取出文本中的触发词、论元以及论元角色;另一方面能够在对异常文本进行判断的过程中,通过不同的方式根据事件的触发词、论元以及论元角色确定出是否为异常文本,提高了确定异常文本的准确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于主动学习确定异常文本的数据处理系统执行计算机程序的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本实施例提供了一种基于主动学习确定异常文本的数据处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:初始文本列表H={H1,……,Hi,……,Hm},Hi为第i个初始文本,i=1……m,m为初始文本的数量,当所述计算机程序被处理器执行时,实现以下步骤,如图1所示:
S100、根据Hi,获取Hi对应的事件摘要列表Ai={Ai1,……,Aij,……,Ain(i)},Aij为Hi中第j个事件摘要,j=1……n(i),n(i)为Hi中的事件的数量,其中,本领域技术人员知晓,通过文本获取事件摘要的现有技术中任一方法均属于本实施例的保护范围,在此不再赘述。
S200、遍历Ai,获取Hi对应的触发词列表Bi={Bi1,……,Bij,……,Bin(i)},Bij为Aij对应的触发词,其中,本领域技术人员知晓,通过事件摘要获取触发词的现有技术中任一方法均属于本实施例的保护范围,在此不再赘述。
S300、根据Bi,获取Bi对应的论元集Ci={Ci1,……,Cij,……,Cin(i)},Cij={C1 ij,……,Ce ij,……,Cf ij},Ce ij为Bij对应的第e个论元,e=1……f,f为Bij对应的论元的数量,其中,本领域技术人员知晓,通过事件摘要获取论元的现有技术中任一方法均属于本实施例的保护范围,在此不再赘述。
S400、根据Bi和Ci,获取Ci对应的论元角色集Di={Di1,……,Dij,……,Din(i)},Dij={D1 ij,……,De ij,……,Df ij},De ij为Ce ij与Bij之间的论元角色,其中,本领域技术人员知晓,通过事件摘要获取论元角色的现有技术中任一方法均属于本实施例的保护范围,在此不再赘述。
S500、根据Bi,获取Hi对应的第一优先级F1 i
具体地,在S500中还包括如下步骤:
S501、获取Aij对应的文本字符串A'ij=(A'1 ij,……,A'r ij,……,A's(j) ij),A'r ij为Aij中第r个文本字符,r=1……s(j),s(j)为Aij对应的文本字符的数量。
S503、将A'ij输入至预设的第一学习模型中,获取A'ij对应的第一概率集Gij={G1 ij,……,Gr ij,……,Gs(j) ij},Gr ij={Gr1 ij,……,Grx ij,……,Grp ij},Grx ij为A'r ij对应的第x类触发词的概率值,可以理解为:文本字符A'r ij为x类触发词的概率,x=1……p,p为触发词的类型数量。
具体地,∑p x=1(Grx ij)=1。
S505、当Grx ij对应的触发词的类型为第一非标准类型时,将从Gr ij中删除Grx ij,构建Gr ij对应的第一目标概率列表G'r ij={G'r1 ij,……,G' ij,……,G'rp-1 ij},G' ij为A'r ij对应的第α类触发词的概率值,可以理解为:文本字符A'r ij为α类触发词的概率,α=1……p-1。
具体地,所述第一非标准类型为非预设的触发词的类型,其中,本领域技术人员知晓,可以根据实际需求设置预设触发词的类型。
S507、当G' ij≥G0时,获取Bij对应的第一中间数据列表G0 ij={G01 ij,……,G0 β ij,……,G ij},G ij为Bij对应的第β个第一目标字符的概率值,可以理解为:Bij为第β个第一目标字符的概率,β=1……γ,γ为Bij对应的第一目标字符的数量,其中,G0为预设的第一概率阈值。
具体地,第一目标字符可以理解为:在A'ij中满足当G' ij≥G0时的文本字符。
具体地,G0的取值范围为0.5-0.6。
S509、根据G0 ij,获取F1 i
进一步的,F1 i符合如下条件:
Figure 49832DEST_PATH_IMAGE002
上述,在确定事件摘要的触发词时,采用第一学习模型,将文本中的所有事件的触发词抽取出来,能够准确无误的获取到事件的触发词,提高了模型抽取事件的准确度,进而可以准确的通过触发词的概率,确定文本是否为异常文本。
在另一个具体的实施例中,在S509中还通过如下步骤获取F1 i
S5091、根据G0 ij,获取Bij对应的优先级F1 ij,其中,F1 ij符合如下条件:
Figure 926521DEST_PATH_IMAGE004
S5093、根据F1 ij,获取Bij对应的第一类触发词的优先级列表F'ij={F'1 ij,……,F't ij,……,F'k ij},F't ij为Bij对应的第t个第一类触发词的优先级,t=1……k,k为Bij对应的第一类触发词的数量。
S5095、根据F'ij,获取Hi对应的第一优先级列表,其中,任一Hi对应的第一优先级F1符合如下条件:
Figure 562033DEST_PATH_IMAGE006
S5097、遍历所述第一优先级列表且将所述第一优先级列表中最小的第一优先级作为F1 i
进一步的,Bij对应的第一类触发词包括Bij和在Bi中与Bij对应的触发词的类型一致的触发词。
相较于上述实施例,在本实施例中在确定事件摘要的触发词时,对获取到的事件摘要的触发词进行了分类处理,根据触发词的类型确定出任一触发词的类型的概率值,进而确定触发词的类型。
S600、当F1 i<F1 0,确定Hi为异常文本,其中,F1 0为预设的第一优先级阈值。
S700、当F1 i≥F1 0,执行S800。
具体地,F1 0的取值范围为0.8-1。
S800,根据Ci,获取Hi对应的第二优先级F2 i
具体地,在S800中还包括如下步骤:
S801、获取Aij对应的文本字符串A'ij=(A'1 ij,……,A'r ij,……,A's(j) ij),A'r ij为Aij中第r个文本字符,r=1……s(j),s(j)为Aij对应的文本字符的数量。
S803、将A'ij输入至预设的第二学习模型中,获取A'ij对应的第二概率集Uij={U1 ij,……,Ur ij,……,Us(j) ij},Ur ij={Ur1 ij,……,Ury ij,……,Urq ij},Ury ij为A'r ij对应的第y类论元的概率值,可以理解为:文本字符A'r ij为y类论元的概率,y=1……q,q为论元的类型数量。
具体地,∑q y=1(Ury ij)=1。
S805、当Ury ij对应的论元的类型为第二非标准类型时,将从Ur ij中删除Ury ij,构建Ur ij对应的第二目标概率列表U'r ij={U'r1 ij,……,U' ij,……,U'rq-1 ij},U' ij为A'r ij对应的第δ类论元的概率值,可以理解为:文本字符A'r ij为δ类论元的概率,δ=1……q-1。
具体地,所述第二非标准类型为非预设的论元的类型,其中,本领域技术人员知晓,可以根据实际需求设置预设论元的类型。
S807、当U' ij≥U0时,获取Ce ij对应的第二中间数据列表Ue0 ij={Ue01 ij,……,Ue0 ε ij,……,Ue ij},Ue ij为Ce ij对应的第ε个第二目标字符的概率值,可以理解为:Ce ij为第ε个第二目标字符的概率,ε=1……η,η为Ce ij对应的第二目标字符的数量,其中,U0为预设的第二概率阈值。
具体地,所述第二目标字符可以理解为:在A'ij中满足当U' ij≥U0时的文本字符。
具体地,U0的取值范围为0.5-0.6。
S809、根据Ue0 ij,获取F2 i
进一步的,F2 i符合如下条件:
Figure 625804DEST_PATH_IMAGE008
上述,在确定事件摘要的论元时,采用第二学习模型,将文本中的所有事件的论元抽取出来,能够准确无误的获取到事件的论元,提高了模型抽取事件的准确度,进而可以准确的通过论元的概率,确定文本是否为异常文本。
在一个具体的实施例中,在S809中还通过如下步骤获取F1 i
S8091、根据Ue0 ij,获取Cij对应的第一中间优先级列表W2 ij={W12 ij,……,We2 ij,……,Wf2 ij},We2 ij为Ce ij对应的第一中间优先级,其中,We2 ij符合如下条件:
Figure 887021DEST_PATH_IMAGE010
S8093、遍历W2 ij且从W2 ij中获取最小的第一中间优先级,构建Ci对应的第二中间优先级列表。
S8095、遍历所述第二中间优先级列表且将所述第二中间优先级列表中最小的第二中间优先级作为F2 i
相较于上述实施例,在本实施例中在确定事件摘要的论元时,对获取到的事件摘要的论元进行了分类处理,根据论元的类型确定出任一论元的类型的概率值,进而确定论元的类型。
在另一个具体的实施例中,在S809中还通过如下步骤获取F2 i
S8091、根据Ue0 ij,获取Ci对应论元优先级列表W2 i={W2 i1,……,W2 ij,……,W2 in(i)},W2 ij={W12 ij,……,We2 ij,……,Wf2 ij},We2 ij为Ce ij对应的第一中间优先级,其中,We2 ij符合如下条件:
Figure 368949DEST_PATH_IMAGE012
S8093、根据We2 ij,获取Ce ij对应的第二类论元的优先级列表W'e ij={W'e1 ij,……,W'ev ij,……,W'eh ij},W'ev ij为Ce ij对应的第v个第一类论元的优先级,v=1……h,h为Ce ij对应的第一类论元的数量。
S8095、根据W'ij,获取Hi对应的第二优先级列表,其中,任一Hi对应的第二优先级F2符合如下条件:
Figure 438011DEST_PATH_IMAGE014
S8097、遍历所述第二优先级列表且将所述第二优先级列表中最小的第二优先级作为F2 i
相较于上述实施例,在本实施例中在确定事件摘要的论元时,对获取到的事件摘要的论元,按照所属初始文本进行划分处理,之后再对初始文本中的论元进行分类处理,进而确定文本是否为异常文本。
进一步的,Ce ij对应的第二类论元包括Ce ij和在Ci中与Ce ij对应的论元的类型一致的论元。
S900、当F2 i<F2 0,确定Hi为异常文本,其中,F2 0为预设的第二优先级阈值。
S1000、当F2 i≥F2 0,执行S1100。
具体地,F2 0的取值范围为0.8-1。
S1100、根据Bi和Ci,获取Hi对应的第三优先级F3 0
具体地,在S1100中还包括如下步骤:
S1101、获取Aij对应的文本字符串A'ij=(A'1 ij,……,A'r ij,……,A's(j) ij),A'r ij为Aij中第r个文本字符,r=1……s(j),s(j)为Aij对应的文本字符的数量。
S1103、将A'ij输入至预设的第三学习模型中,获取A'ij对应的第三概率集Lij={L1 ij,……,Lr ij,……,Ls(j) ij},Lr ij={Lr1 ij,……,Lrz ij,……,Lrg ij},Lrz ij为A'r ij对应的第z类论元角色的概率值,可以理解为:文本字符A'r ij为z类论元角色的概率,z=1……g,g为论元角色的类型数量。
具体地,∑g z=1(Lrz ij)=1。
S1105、当Lrz ij对应的论元角色的类型为第三非标准类型时,将从Lr ij中删除Lrz ij,构建Lr ij对应的第三目标概率列表L'r ij={L'r1 ij,……,L' ij,……,L'rg-1 ij},L' ij为A'r ij对应的第θ类论元的概率值,可以理解为:文本字符A'r ij为θ类论元角色的概率,θ=1……g-1。
具体地,所述第三非标准类型为非预设的论元角色的类型,其中,本领域技术人员知晓,可以根据实际需求设置预设论元角色的类型。
S1107、当L' ij≥L0时,获取De ij对应的第三中间数据列表Le0 ij={Le01 ij,……,Le0 ψ ij,……,Le ij},Le ij为De ij对应的第ψ个第三目标字符的概率值,可以理解为:De ij为第ψ个第三目标字符的概率,ψ=1……ξ,ξ为De ij对应的第三目标字符的数量,其中,De ij为Ce ij与Bij之间的论元角色,L0为预设的第三概率阈值。
具体地,所述第三目标字符可以理解为:在A'ij中满足当L' ij≥L0时的文本字符。
具体地,L0的取值范围为0.5-0.6。
S1109、根据Le0 ij,获取F3 i
进一步的,F3 i符合如下条件:
Figure 785816DEST_PATH_IMAGE016
上述,在确定事件摘要的论元角色时,采用第三学习模型,将文本中的所有事件的论元角色抽取出来,能够准确无误的获取到事件的论元角色,提高了模型抽取事件的准确度,进而可以准确的通过论元角色的概率,确定文本是否为异常文本。
在一个具体的实施例中,在S1109中还通过如下步骤获取F3 i
S11091、根据Le0 ij,获取Dij对应的第三中间优先级列表T2 ij={T12 ij,……,Te2 ij,……,Tf2 ij},Te2 ij为De ij对应的第三中间优先级,其中,Te2 ij符合如下条件:
Figure 601456DEST_PATH_IMAGE018
S11093、遍历T2 ij且从T2 ij中获取最小的第三中间优先级,构建Di对应的第四中间优先级列表。
S11095、遍历所述第四中间优先级列表且将所述第四中间优先级列表中最小的第四中间优先级作为F3 i
相较于上述实施例,在本实施例中在确定事件摘要的论元角色时,对获取到的事件摘要的论元角色进行了分类处理,根据论元角色的类型确定出任一论元角色的类型的概率值,进而确定论元角色的类型。
在另一个具体的实施例中,在S1109中还通过如下步骤获取F3 i
S11091、根据Le0 ij,获取Di对应论元角色优先级列表T2 i={T2 i1,……,T2 ij,……,T2 in(i)},T2 ij={T12 ij,……,Te2 ij,……,Tf2 ij},Te2 ij为De ij对应的第三中间优先级,其中,Te2 ij符合如下条件:
Figure 469049DEST_PATH_IMAGE020
S11093、根据Te2 ij,获取De ij对应的第二类论元角色的优先级列表T'e ij={T'e1 ij,……,T'ed ij,……,T'el ij},T'ed ij为De ij对应的第d个第一类论元角色的优先级,d=1……l,l为Ce ij对应的第一类论元角色的数量。
S11095、根据T'ij,获取Hi对应的第三优先级列表,其中,任一Hi对应的第三优先级F3符合如下条件:
Figure 492369DEST_PATH_IMAGE022
S11097、遍历所述第三优先级列表且将所述第三优先级列表中最小的第三优先级作为F3 i
相较于上述实施例,在本实施例中在确定事件摘要的论元角色时,对获取到的事件摘要的论元角色,按照所属初始文本进行划分处理,之后再对初始文本中的论元角色进行分类处理,进而确定文本是否为异常文本。
进一步的,De ij对应的第二类论元角色包括De ij和在Di中与De ij对应的论元角色的类型一致的论元角色。
S1200、当F3 i<F3 0,确定Hi为异常文本,其中,F3 0为预设的第三优先级阈值。
S1300、当F3 i≥F3 0,确定Hi为正常文本。
具体地,F3 0的取值范围为0.8-1。
具体地,所述第一学习模型为针对触发词的主动学习模型,所述第二学习模型为针对论元的主动学习模型,所述第三学习模型为针对论元角色的主动学习模型,其中,本领域技术人员知晓,现有技术中任一主动学习模型均属于本实施例的保护范围,在此不再赘述。
优选地,G0=U0=L0=0.5,能够避免阈值设置过高,导致一些数据被删除,进而导致事件摘要的触发词、论元以及论元角色抽取遗漏,对异常文本判断错误。
优选地,F1 0取值为1,F2 0取值为0.9,F3 0取值为0.8,能够准确的抽取出触发词,避免针对触发词对论元和论元角色抽取错误或遗漏,能够更加准确的对异常文本进行判断。
本发明提供了一种基于主动学习确定异常文本的数据处理系统,系统包括:数据库、处理器和存储有计算机程序的存储器,数据库包括:初始文本列表,当计算机程序被处理器执行时,实现以下步骤:获取初始文本对应的事件摘要列表;获取事件摘要对应的触发词列表;获取触发词对应的论元集;获取论元及对应的论元角色集;根据事件摘要的触发词、论元和论元角色确定异常文本;可知,本发明一方面能够在对文本进行处理的过程中,使用三种学习模型分别抽取出文本中的触发词、论元以及论元角色;另一方面能够在对异常文本进行判断的过程中,通过不同的方式根据事件的触发词、论元以及论元角色确定出是否为异常文本,提高了确定异常文本的准确度。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims (10)

1.一种基于主动学习确定异常文本的数据处理系统,其特征在于,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:初始文本列表H={H1,……,Hi,……,Hm},Hi为第i个初始文本,i=1……m,m为初始文本的数量,当所述计算机程序被处理器执行时,实现以下步骤:
S100、根据Hi,获取Hi对应的事件摘要列表Ai={Ai1,……,Aij,……,Ain(i)},Aij为Hi中第j个事件摘要,j=1……n(i),n(i)为Hi中的事件的数量;
S200、遍历Ai,获取Hi对应的触发词列表Bi={Bi1,……,Bij,……,Bin(i)},Bij为Aij对应的触发词;
S300、根据Bi,获取Bi对应的论元集Ci={Ci1,……,Cij,……,Cin(i)},Cij={C1 ij,……,Ce ij,……,Cf ij},Ce ij为Bij对应的第e个论元,e=1……f,f为Bij对应的论元的数量;
S400、根据Bi和Ci,获取Ci对应的论元角色集Di={Di1,……,Dij,……,Din(i)},Dij={D1 ij,……,De ij,……,Df ij},De ij为Ce ij与Bij之间的论元角色;
S500、根据Bi,获取Hi对应的第一优先级F1 i
S600、当F1 i<F1 0,确定Hi为异常文本,其中,F1 0为预设的第一优先级阈值;
S700、当F1 i≥F1 0,执行S800;
S800,根据Ci,获取Hi对应的第二优先级F2 i
S900、当F2 i<F2 0,确定Hi为异常文本,其中,F2 0为预设的第二优先级阈值;
S1000、当F2 i≥F2 0,执行S1100;
S1100、根据Di,获取Hi对应的第三优先级F3 i
S1200、当F3 i<F3 0,确定Hi为异常文本,其中,F3 0为预设的第三优先级阈值;
S1300、当F3 i≥F3 0,确定Hi为正常文本。
2.根据权利要求1所述的基于主动学习确定异常文本的数据处理系统,其特征在于,在S500中还包括如下步骤:
S501、获取Aij对应的文本字符串A'ij=(A'1 ij,……,A'r ij,……,A's(j) ij),A'r ij为Aij中第r个文本字符,r=1……s(j),s(j)为Aij对应的文本字符的数量;
S503、将A'ij输入至预设的第一学习模型中,获取A'ij对应的第一概率集Gij={G1 ij,……,Gr ij,……,Gs(j) ij},Gr ij={Gr1 ij,……,Grx ij,……,Grp ij},Grx ij为A'r ij对应的第x类触发词的概率值,x=1……p,p为触发词的类型数量;
S505、当Grx ij对应的触发词的类型为第一非标准类型时,将从Gr ij中删除Grx ij,构建Gr ij对应的第一目标概率列表G'r ij={G'r1 ij,……,G' ij,……,G'rp-1 ij},G' ij为A'r ij对应的第α类触发词的概率值,α=1……p-1;
S507、当G' ij≥G0时,获取Bij对应的第一中间数据列表G0 ij={G01 ij,……,G ij,……,G0 γ ij},G ij为Bij对应的第β个第一目标字符的概率值,β=1……γ,γ为Bij对应的第一目标字符的数量,其中,G0为预设的第一概率阈值;
S509、根据G0 ij,获取F1 i
3.根据权利要求2所述的基于主动学习确定异常文本的数据处理系统,其特征在于,F1 i符合如下条件:
Figure 717927DEST_PATH_IMAGE002
4.根据权利要求2所述的基于主动学习确定异常文本的数据处理系统,其特征在于,在S509中还通过如下步骤获取F1 i
S5091、根据G0 ij,获取Bij对应的优先级F1 ij,其中,F1 ij符合如下条件:
Figure 71679DEST_PATH_IMAGE004
S5093、根据F1 ij,获取Bij对应的第一类触发词的优先级列表F'ij={F'1 ij,……,F't ij,……,F'k ij},F't ij为Bij对应的第t个第一类触发词的优先级,t=1……k,k为Bij对应的第一类触发词的数量;
S5095、根据F'ij,获取Hi对应的第一优先级列表,其中,任一Hi对应的第一优先级F1符合如下条件:
Figure 511888DEST_PATH_IMAGE006
S5097、遍历所述第一优先级列表且将所述第一优先级列表中最小的第一优先级作为F1 i
5.根据权利要求4所述的基于主动学习确定异常文本的数据处理系统,其特征在于,Bij对应的第一类触发词包括Bij和在Bi中与Bij对应的触发词的类型一致的触发词。
6.根据权利要求1所述的基于主动学习确定异常文本的数据处理系统,其特征在于,在S800中还包括如下步骤:
S801、获取Aij对应的文本字符串A'ij=(A'1 ij,……,A'r ij,……,A's(j) ij),A'r ij为Aij中第r个文本字符,r=1……s(j),s(j)为Aij对应的文本字符的数量;
S803、将A'ij输入至预设的第二学习模型中,获取A'ij对应的第二概率集Uij={U1 ij,……,Ur ij,……,Us(j) ij},Ur ij={Ur1 ij,……,Ury ij,……,Urq ij},Ury ij为A'r ij对应的第y类论元的概率值,y=1……q,q为论元的类型数量;
S805、当Ury ij对应的论元的类型为第二非标准类型时,将从Ur ij中删除Ury ij,构建Ur ij对应的第二目标概率列表U'r ij={U'r1 ij,……,U' ij,……,U'rq-1 ij},U' ij为A'r ij对应的第δ类论元的概率值,δ=1……q-1;
S807、当U' ij≥U0时,获取Ce ij对应的第二中间数据列表Ue0 ij={Ue01 ij,……,Ue0 ε ij,……,Ue ij},Ue ij为Ce ij对应的第ε个第二目标字符的概率值,ε=1……η,η为Ce ij对应的第二目标字符的数量,其中,U0为预设的第二概率阈值;
S809、根据Ue0 ij,获取F2 i
7.根据权利要求6所述的基于主动学习确定异常文本的数据处理系统,其特征在于,F2 i符合如下条件:
Figure DEST_PATH_IMAGE008
8.根据权利要求6所述的基于主动学习确定异常文本的数据处理系统,其特征在于,在S809中还通过如下步骤获取F2 i
S8091、根据Ue0 ij,获取Cij对应的第一中间优先级列表W2 ij={W12 ij,……,We2 ij,……,Wf2 ij},We2 ij为Ce ij对应的第一中间优先级,其中,We2 ij符合如下条件:
Figure DEST_PATH_IMAGE010
S8093、遍历W2 ij且从W2 ij中获取最小的第一中间优先级,构建Ci对应的第二中间优先级列表;
S8095、遍历所述第二中间优先级列表且将所述第二中间优先级列表中最小的第二中间优先级作为F2 i
9.根据权利要求6所述的基于主动学习确定异常文本的数据处理系统,其特征在于,在S809中还通过如下步骤获取F2 i
S8091、根据Ue0 ij,获取Ci对应论元优先级列表W2 i={W2 i1,……,W2 ij,……,W2 in(i)},W2 ij={W12 ij,……,We2 ij,……,Wf2 ij},We2 ij为Ce ij对应的第一中间优先级,其中,We2 ij符合如下条件:
Figure DEST_PATH_IMAGE012
S8093、根据We2 ij,获取Ce ij对应的第二类论元的优先级列表W'e ij={W'e1 ij,……,W'ev ij,……,W'eh ij},W'ev ij为Ce ij对应的第v个第一类论元的优先级,v=1……h,h为Ce ij对应的第一类论元的数量;
S8095、根据W'ij,获取Hi对应的第二优先级列表,其中,任一Hi对应的第二优先级F2符合如下条件:
Figure DEST_PATH_IMAGE014
S8097、遍历所述第二优先级列表且将所述第二优先级列表中最小的第二优先级作为F2 i
10.根据权利要求9所述的基于主动学习确定异常文本的数据处理系统,其特征在于,Ce ij对应的第二类论元包括Ce ij和在Ci中与Ce ij对应的论元的类型一致的论元。
CN202210976431.6A 2022-08-15 2022-08-15 一种基于主动学习确定异常文本的数据处理系统 Active CN115062137B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210976431.6A CN115062137B (zh) 2022-08-15 2022-08-15 一种基于主动学习确定异常文本的数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210976431.6A CN115062137B (zh) 2022-08-15 2022-08-15 一种基于主动学习确定异常文本的数据处理系统

Publications (2)

Publication Number Publication Date
CN115062137A true CN115062137A (zh) 2022-09-16
CN115062137B CN115062137B (zh) 2022-11-04

Family

ID=83207380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210976431.6A Active CN115062137B (zh) 2022-08-15 2022-08-15 一种基于主动学习确定异常文本的数据处理系统

Country Status (1)

Country Link
CN (1) CN115062137B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117435697A (zh) * 2023-12-21 2024-01-23 中科雨辰科技有限公司 一种获取核心事件的数据处理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468433A (zh) * 2021-09-02 2021-10-01 中科雨辰科技有限公司 目标事件抽取数据处理系统
CN113704476A (zh) * 2021-09-02 2021-11-26 中科雨辰科技有限公司 目标事件抽取数据处理系统
CN113722462A (zh) * 2021-09-02 2021-11-30 中科雨辰科技有限公司 目标论元信息抽取数据处理系统
CN113722461A (zh) * 2021-09-02 2021-11-30 中科雨辰科技有限公司 目标事件抽取数据处理系统
US20220004714A1 (en) * 2020-11-26 2022-01-06 Beijing Baidu Netcom Science And Technology Co., Ltd. Event extraction method and apparatus, and storage medium

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220004714A1 (en) * 2020-11-26 2022-01-06 Beijing Baidu Netcom Science And Technology Co., Ltd. Event extraction method and apparatus, and storage medium
CN113468433A (zh) * 2021-09-02 2021-10-01 中科雨辰科技有限公司 目标事件抽取数据处理系统
CN113704476A (zh) * 2021-09-02 2021-11-26 中科雨辰科技有限公司 目标事件抽取数据处理系统
CN113722462A (zh) * 2021-09-02 2021-11-30 中科雨辰科技有限公司 目标论元信息抽取数据处理系统
CN113722461A (zh) * 2021-09-02 2021-11-30 中科雨辰科技有限公司 目标事件抽取数据处理系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李培峰 等: "基于语义的中文事件触发词抽取联合模型", 《软件学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117435697A (zh) * 2023-12-21 2024-01-23 中科雨辰科技有限公司 一种获取核心事件的数据处理系统
CN117435697B (zh) * 2023-12-21 2024-03-22 中科雨辰科技有限公司 一种获取核心事件的数据处理系统

Also Published As

Publication number Publication date
CN115062137B (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
US11093854B2 (en) Emoji recommendation method and device thereof
WO2021135910A1 (zh) 基于机器阅读理解的信息抽取方法、及其相关设备
CN111046152B (zh) Faq问答对自动构建方法、装置、计算机设备及存储介质
US7016827B1 (en) Method and system for ensuring robustness in natural language understanding
WO2021212968A1 (zh) 一种非结构化数据的处理方法、装置、设备及介质
WO2022121178A1 (zh) 文本纠错模型训练方法、识别方法、装置及计算机设备
CN110232923B (zh) 一种语音控制指令生成方法、装置及电子设备
CN115048925B (zh) 一种确定异常文本的数据处理系统
WO2022095375A1 (zh) 事件脉络生成方法、装置、终端设备及存储介质
CN111241814A (zh) 语音识别文本的纠错方法、装置、电子设备及存储介质
EP3425521A1 (en) Document classification device, document classification method, and document classification program
CN115062137B (zh) 一种基于主动学习确定异常文本的数据处理系统
CN113127621A (zh) 对话模块的推送方法、装置、设备及存储介质
JP6718345B2 (ja) テキスト分析方法、テキスト分析装置、及びプログラム
US20100125725A1 (en) Method and system for automatically detecting keyboard layout in order to improve the quality of spelling suggestions and to recognize a keyboard mapping mismatch between a server and a remote user
US20110229036A1 (en) Method and apparatus for text and error profiling of historical documents
US7010486B2 (en) Speech recognition system, training arrangement and method of calculating iteration values for free parameters of a maximum-entropy speech model
WO2021004118A1 (zh) 一种相关值确定方法及装置
KR102128415B1 (ko) 딥러닝 모델 기반 키보드 오타 보정 방법 및 시스템
CN111178082A (zh) 一种句向量生成方法、装置及电子设备
CN110543634B (zh) 语料数据集的处理方法、装置、电子设备及存储介质
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN107729817B (zh) 一种基于规则的划分识别多候选项可信度的方法
CN117332768B (zh) 一种获取文本生成模板的数据处理系统
CN116956356B (zh) 一种基于数据脱敏处理的信息传输方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant