CN117435697A - 一种获取核心事件的数据处理系统 - Google Patents
一种获取核心事件的数据处理系统 Download PDFInfo
- Publication number
- CN117435697A CN117435697A CN202311765606.XA CN202311765606A CN117435697A CN 117435697 A CN117435697 A CN 117435697A CN 202311765606 A CN202311765606 A CN 202311765606A CN 117435697 A CN117435697 A CN 117435697A
- Authority
- CN
- China
- Prior art keywords
- event
- candidate
- list
- events
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 20
- 238000010586 diagram Methods 0.000 claims abstract description 38
- 238000004590 computer program Methods 0.000 claims abstract description 9
- 238000003058 natural language processing Methods 0.000 claims description 4
- 230000001364 causal effect Effects 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 24
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- ANBQYFIVLNNZCU-CQCLMDPOSA-N alpha-L-Fucp-(1->2)-[alpha-D-GalpNAc-(1->3)]-beta-D-Galp-(1->3)-[alpha-L-Fucp-(1->4)]-beta-D-GlcpNAc-(1->3)-beta-D-Galp Chemical compound O[C@H]1[C@H](O)[C@H](O)[C@H](C)O[C@H]1O[C@H]1[C@H](O[C@H]2[C@@H]([C@@H](O[C@@H]3[C@@H]([C@@H](O)[C@@H](O)[C@@H](CO)O3)NC(C)=O)[C@@H](O)[C@@H](CO)O2)O[C@H]2[C@H]([C@H](O)[C@H](O)[C@H](C)O2)O)[C@@H](NC(C)=O)[C@H](O[C@H]2[C@H]([C@@H](CO)O[C@@H](O)[C@@H]2O)O)O[C@@H]1CO ANBQYFIVLNNZCU-CQCLMDPOSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种获取核心事件的数据处理系统,涉及文本处理技术领域,包括处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:获取目标文本对应的初始事件列表,获取目标事件关系图,获取候选事件列表,获取第一候选事件列表和第二候选事件列表,根据目标事件关系图和第二候选事件列表,获取第二候选事件列表对应的候选优先级列表,根据第一候选事件列表和候选优先级列表,获取核心事件列表,本发明遍历了文本中的全部事件,根据事件以及事件包括的特征信息构建事件关系图,通过图能够更加直观的获取到事件的特征信息,将图的特征信息与文本的特征信息相结合筛选核心事件,提高了获取到核心事件的准确性。
Description
技术领域
本发明涉及文本处理技术领域,特别是涉及一种获取核心事件的数据处理系统。
背景技术
随着互联网技术的不断发展,各类文本数量呈现指数型增长,例如新闻本文、论文文本等,事件抽取成为自然语言处理领域中的一个重要研究方向,然而,当文本过长时,抽取到的事件数量过多时,如何筛选出核心事件成为热门研究话题,从大量文字中有效筛选出核心事件在智能问答、信息检索等领域中有着重要的应用。
现有技术中,获取核心事件的方法为:从文本中获取到中心句,提取中心句和与中心句相邻语句中的多个事件,将多个事件与文本对应的标题内容进行比较,从而获取到文本的核心事件。
综上,获取核心事件的方法存在的问题:未遍历文本中的全部事件,未基于文本中的全部事件和事件包括的特征信息构建关系图,不能够直观的获取到事件的特征信息,未基于图的特征信息筛选核心事件,降低了获取到核心事件的准确性。
发明内容
针对上述技术问题,本发明采用的技术方案为:一种获取核心事件的数据处理系统,系统包括:处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:
S100,根据目标文本,获取目标文本对应的初始事件列表,其中,所述初始事件列表包括若干个初始事件,所述初始事件为从目标文本中获取到的事件,所述目标文本为待获取核心事件的文本。
S200,根据初始事件列表,获取目标事件关系图,其中,所述目标事件关系图包括初始事件列表中的每个初始事件、每个初始事件对应的若干个论元、每个初始事件与其包括的每个论元的连接关系、相关联的初始事件之间的连接关系。
S300,根据目标事件关系图,获取候选事件列表,其中,所述候选事件列表包括若干个候选事件,所述候选事件为基于目标事件关系图获取到的与初始事件相连接的论元中包括时间论元的初始事件。
S400,根据候选事件列表,获取第一候选事件列表和第二候选事件列表A={A1,……,Ai,……,An},Ai为第i个第二候选事件,i=1……n,n为第二候选事件的数量,其中,所述第一候选事件列表包括若干个第一候选事件,所述第一候选事件为从候选事件列表中获取到的与目标文本标题相关或与目标文本首句相关的候选事件,所述第二候选事件为候选事件列表中除第一候选事件之外的任一候选事件。
S500,根据目标事件关系图和A,获取A对应的候选优先级列表B={B1,……,Bi,……,Bn},Bi为Ai对应的候选优先级,其中,所述候选优先级为基于目标事件关系图中与第二候选事件相连接的初始事件和论元获取到的第二候选事件对应的权重。
S600,根据第一候选事件列表和B,获取核心事件列表,其中,所述核心事件列表包括第一候选事件列表中的第一候选事件,且当Bi≥B0时,将Bi对应的第二候选事件插入至核心事件列表中,B0为预设的优先级阈值。
本发明与现有技术相比具有明显的有益效果,借由上述技术方案,本发明提供的一种获取核心事件的数据处理系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有以下有益效果:
一种获取核心事件的数据处理系统,系统包括处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:根据目标文本,获取目标文本对应的初始事件列表,根据初始事件列表,获取目标事件关系图,根据目标事件关系图,获取候选事件列表,根据候选事件列表,获取第一候选事件列表和第二候选事件列表,根据目标事件关系图和第二候选事件列表,获取第二候选事件列表对应的候选优先级列表,根据第一候选事件列表和候选优先级列表,获取核心事件列表,其中,所述核心事件列表包括若干个核心事件,本发明遍历了文本中的全部事件,根据事件以及事件包括的特征信息构建事件关系图,通过图能够更加直观的获取到事件的特征信息,其次,从不同维度进行核心事件的筛选,将图的特征信息与文本的特征信息相结合筛选核心事件,提高了获取到核心事件的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例提供的一种获取核心事件的数据处理系统的处理器执行计算机程序时实现的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例
本实施例提供了一种获取核心事件的数据处理系统,所述系统包括:处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤,如图1所示:
S100,根据目标文本,获取目标文本对应的初始事件列表,其中,所述初始事件列表包括若干个初始事件,所述初始事件为从目标文本中获取到的事件,所述目标文本为待获取核心事件的文本。
具体的,所述目标文本的类型包括论文、新闻稿等。
具体的,所述初始事件的获取方式为将目标文本输入至事件抽取模型中获取到的,其中,本领域技术人员知晓,现有技术中任一事件抽取模型从文本中抽取事件的方法,均落入本发明的保护范围,在此不再赘述。
进一步的,所述初始事件包括初始事件对应的若干个论元、若干个触发词和若干个触发词类型。
S200,根据初始事件列表,获取目标事件关系图,其中,所述目标事件关系图包括初始事件列表中的每个初始事件、每个初始事件对应的若干个论元、每个初始事件与其包括的每个论元的连接关系、相关联的初始事件之间的连接关系。
具体的,所述论元为参与事件发生的要素,由实体构成。
具体的,在目标事件关系图中,论元与论元之间互不连接。
具体的,所述相关联的初始事件为具有因果关系、顺承关系或共指关系的初始事件,例如:经济萧条和大学生失业人数增多、航海过程中船舰抛锚和船舰离港、阿里巴巴以95 亿美元的高价全资收购饿了么和阿里巴巴集团与饿了么签订收购协议等相关联的初始事件。
上述,获取到目标文本对应的初始事件以及初始事件对应的论元,构建目标事件关系图,通过构建事件关系图,能够更加直观地获取事件的特征信息,为后续筛选核心事件提供便利。
S300,根据目标事件关系图,获取候选事件列表,其中,所述候选事件列表包括若干个候选事件,所述候选事件为基于目标事件关系图获取到的与初始事件相连接的论元中包括时间论元的初始事件。
具体的,所述时间论元为代表着时间的论元,例如十月十日、上周日等时间论元。
S400,根据候选事件列表,获取第一候选事件列表和第二候选事件列表A={A1,……,Ai,……,An},Ai为第i个第二候选事件,i=1……n,n为第二候选事件的数量,其中,所述第一候选事件列表包括若干个第一候选事件,所述第一候选事件为从候选事件列表中获取到的与目标文本标题相关或与目标文本首句相关的候选事件,所述第二候选事件为候选事件列表中除第一候选事件之外的任一候选事件。
具体的,在S400中通过如下步骤获取第一候选事件:
S401,获取目标文本对应的指定文本向量,其中,所述指定文本向量为指定文本的向量,所述指定文本为目标文本对应的标题。
S403,根据指定文本向量,获取指定相似度列表G={G1,……,Gr,……,Gs},Gr为第r个候选事件向量与指定文本向量之间的相似度,r=1……s,s为指定相似度的数量。
具体的,所述候选事件向量为基于自然语言处理模型获取到的候选事件对应的向量,其中,本领域技术人员知晓,现有技术中任一利用自然语言处理模型将文本转换成向量的方法,均落入本发明的保护范围,在此不再赘述,例如:Bert模型、Word2vec模型等自然语言处理模型。
进一步的,本领域技术人员知晓,现有技术中任一获取向量相似度的方法,均落入本发明的保护范围,在此不再赘述,例如余弦相似度等计算向量相似度的方法。
S405,当Gr≥G0时,获取Gr对应的候选事件为第一候选事件,其中,G0为预设的相似度阈值。
具体的,G0的取值范围为0.85~0.9,其中,本领域技术人员知晓,可根据实际需求进行G0的选取,均落入本发明的保护范围,在此不再赘述。
S407,根据G,获取待定事件列表,所述待定事件列表包括若干个待定事件,其中,当Gr<G0时,获取Gr对应的候选事件为待定事件。
S409,根据待定事件列表,获取第一候选事件,其中,当待定事件所在语句为目标文本对应的首句时,获取待定事件为第一候选事件。
具体的,目标文本按照目标符号划分成若干个语句,其中,所述目标符号为具有截断语句的标点符号,例如:句号、感叹号等目标符号。
具体的,所述目标文本对应的首句为目标文本中的第一句话即第一个目标符号前的文本。
上述,从候选事件列表中筛选出第一候选事件列表,遍历目标文本中全部事件,基于目标文本的特征信息以及候选事件的特征信息,进行核心事件的筛选,使得获取到的第一候选事件更加全面,进而使得获取到核心事件的准确性较高。
S500,根据目标事件关系图和A,获取A对应的候选优先级列表B={B1,……,Bi,……,Bn},Bi为Ai对应的候选优先级,其中,所述候选优先级为基于目标事件关系图中与第二候选事件相连接的初始事件和论元获取到的第二候选事件对应的权重。
具体的,在S500中通过如下步骤获取Bi:
S501,根据目标事件关系图,获取Ai对应的候选三元组信息列表Ei={Ei1,……,Eie,……,Eif(i)},Eie={E1 ie,E2 ie,E3 ie},e=1……f(i),f(i)为Ai对应的候选三元组的数量,其中,E1 ie=Ai,E2 ie为E1 ie与E3 ie之间的权重,E3 ie为Ai对应的第e个候选三元组中与E1 ie相连接的顶点信息,所述候选三元组包括第二候选事件、在目标事件关系图中与第二候选事件相连接的顶点信息以及第二候选事件和与第二候选事件相连接的顶点信息之间的权重,所述顶点信息为初始事件或初始事件对应的论元。
具体的,可以理解为:根据目标事件关系图可知:候选三元组信息可能为候选事件、候选事件与其对应的论元之间的权重,与候选事件相连接的论元,候选三元组信息也可能为候选事件、候选事件与候选事件相连接的初始事件之间的权重、与候选事件相连接的初始事件。
具体的,在S501中通过如下步骤获取E2 ie:
S5011,当E3 ie为初始事件时,获取E2 ie,其中,E2 ie为E1 ie与E3 ie之间的相似度。
具体的,两个初始事件相似度的获取方式与指定相似度的获取方式一致。
S5013,当E3 ie为初始事件对应的论元,获取Ai对应的顶点信息列表E3 i={E3 i1,……,E3 ie,……,E3 if(i)}。
S5015,根据E3 i,获取E2 ie,其中,在S5015中通过如下步骤获取E2 ie:
S50151,当E3 ie对应的论元角色为人物或地点时,获取E2 ie,其中,E2 ie符合如下条件:
E2 ie=0.1+1/f(i)。
具体的,所述论元角色为事件对应的论元在事件中扮演的角色。
S50153,当E3 ie对应的论元角色不为人物或地点时,获取E2 ie,其中,E2 ie符合如下条件:
E2 ie=(1-0.1×γ-γ/f(i))/(f(i)-γ),其中,γ为E3 i列表中E3 ie对应的论元角色人物或地点的数量。
S503,根据Ei,获取Ei对应的第三候选事件列表Hi={Hi1,……,Hig,……,Hi(n-1)},Hig为Ei对应的第g个第三候选事件,g=1……(n-1),其中,所述第三候选事件为从A中获取到的除Ai之外的任一第二候选事件。
S505,根据Ei和目标事件关系图,获取A对应的指定优先级列表Y={Y1,……,Yi,……,Yn},Yi为Ai对应的指定优先级,其中,Yi符合如下条件:
Yi=2Ri/SF,其中,SF=f(i)×[f(i)-1],Ri为在目标事件关系图中由Ai和Ei中任意两个E3 ie之间的连线构成三角形的数量。
S507,根据Ei、Hi和Y,获取Ai对应的候选优先级Bi,其中,Bi符合如下条件:
Bi=ω1×f(i)+ω2×∑n-1 g=1λig+(1-ω1-ω2)×(Yi/η),ω1为第一参数,ω2为第二参数,λig为Ai与Hig之间的最小权重值,η为Y中最大的指定优先级。
具体的,ω1+ω2=1。
进一步的,ω1≤ω2≤0.4,其中,本领域技术人员知晓,可根据实际需求进行ω1和ω2的选取,均落入本发明的保护范围,在此不再赘述。
具体的,所述最小权重值为在目标事件关系图中基于每个Ei中的每个E2 ie获取到的某个候选事件与除此候选事件之外的任一候选事件之间所经过的连线对应的权重之和的最小值。
进一步的,所述最小权重值的获取方式为采用最短路径计算方法,其中,本领域技术人员知晓,现有技术中任一利用最短路径算法获取最小权重的方法,均落入本发明的保护范围,在此不再赘述,例如Dijkstra算法等最短路径计算方法。
S600,根据第一候选事件列表和B,获取核心事件列表,其中,所述核心事件列表包括第一候选事件列表中的第一候选事件,且当Bi≥B0时,将Bi对应的第二候选事件插入至核心事件列表中,B0为预设的优先级阈值。
具体的,本领域技术人员知晓,可根据实际需求进行B0的选取,均落入本发明的保护范围,在此不再赘述。
上述,根据候选事件列表,获取第一候选事件列表和第二候选事件列表,其中,所述第一候选事件列表中的第一候选事件是基于目标文本的文本特征从目标文本中获取到的事件,从而作为核心事件,基于第二候选事件列表,获取第二候选事件对应的候选优先级,根据候选优先级从第二候选文本列表中筛选出核心事件是基于目标事件关系图,基于图的特征信息筛选出核心事件,从不同维度进行核心事件的筛选,将图的特征信息与文本的特征信息相结合筛选核心事件,提高了获取到核心事件的准确性。
具体的,在S600之后还包括如下步骤:
S700,获取核心事件列表L={L1,……,Lv,……,Lb},Lv为第v个核心事件,v=1……b,b为核心事件的数量。
S800,根据L,获取L对应的第一关键优先级列表M={M1,……,Mv,……,Mb},Mv为Lv对应的第一关键优先级,其中,在S800中通过如下步骤获取Mv:
S801,获取Lv对应的候选文本列表Cv={Cv1,……,Cvj,……,Cvm(v)},Cvj={C1 vj,C2 vj},C1 vj为Lv对应的第j个候选文本中的第一候选文本,C2 vj为Lv对应的第j个候选文本中的第二候选文本,j=1……m(v),m(v)为Lv中第一候选文本的数量。
具体的,所述第一候选文本为核心事件中的触发词。
具体的,所述第二候选文本为核心事件对应目标文本中的语句文本,可以理解为:一段文本中会有很多的语句,每个语句中可能会包括若干个事件,第二候选文本可以理解为是核心事件所在的那个语句。
S803,根据Cv,获取Cv对应的候选相似度列表ζv={ζv1,……,ζvj,……,ζvm(v)},ζvj为Cvj对应的候选文本向量与目标文本向量之间的相似度。
具体的,所述候选文本向量为候选文本对应的向量,其中,所述候选文本向量的获取方式与指定文本向量的获取方式一致。
进一步的,所述目标文本向量为目标文本对应的向量,其中,所述目标文本向量的获取方式与候选文本向量的获取方式一致。
S805,根据ζv,获取Lv对应的第一关键优先级Mv,其中,Mv符合如下条件:
Mv=∑m(v) j=1ζvj/m(v)。
上述,基于每个核心事件对应的候选文本列表,获取候选文本列表对应的候选相似度列表,基于候选相似度获取到每个核心事件对应的第一关键优先级,其中,所述候选文本是基于候选事件对应的触发词以及候选事件对应目标文本中的语句获取到的文本,通过将事件触发词和文本语句相结合的方法,能够避免同一语句中包括多个事件使得获取到事件对应的优先级一致的情况,使得获取到核心事件对应的优先级更加准确,进而使得获取到中心事件的准确性较高。
S900,根据目标事件关系图,获取L对应的第二关键优先级列表N={N1,……,Nv,……,Nb},Nv为Lv对应的第二关键优先级。
具体的,在S900中还包括如下步骤:
S901,获取Lv对应的初始优先级I0 v,其中,I0 v符合如下条件:
I0 v=1/b。
S903,根据目标事件关系图,获取候选向量列表θ={θ1,……,θv,……,θb},θv=(θv1,……,θvτ,……,θvb),θvτ为第v个候选向量中第τ位的bit值,τ=1……b,其中,在S903中通过如下步骤获取θvτ:
S9031,当v=τ时,θvτ=0。
S9033,当v≠τ时,θvτ=1/β(v),β(v)为在目标事件关系图中与Lv进行连接且由Lv指向与之相连接的核心事件的数量。
S905,根据I0 v和θ,获取Lv对应的第一初始优先级列表Iv={I1 v,……,I(t-1) v,It v,……,Iα v},t=1……α,α为第一初始优先级的数量,其中,It v=∑b v=1θvτ×I(t-1) v,I1 v=∑b v=1θvτ×I0 v,其中,τ=v。
具体的,α可以理解为:迭代的次数,其中,本领域技术人员知晓,可根据实际需求进行α的选取,均落入本发明的保护范围,在此不再赘述。
S907,根据Iv,获取Lv对应的第二关键优先级Nv,其中,Nv=Iα v。
S1000,根据目标文本和L,获取L对应的第三关键优先级列表U={U1,……,Uv,……,Ub},Uv为Lv对应的第三关键优先级。
具体的,在S1000中通过如下步骤获取Uv:
S1,获取目标文本对应的候选权重列表T={T1,……,Ta,……,Td},Ta为从目标文本对应的首句开始目标文本中第a个语句对应的候选权重,a=1……d,d为目标文本中语句的数量,其中,Ta=1/a。
S2,当Lv所在目标文本中的语句位置与Ta对应的语句位置一致时,获取Lv对应的第一优先级U1 v,其中,U1 v=Ta。
S3,根据G,获取Lv对应的指定相似度L0 v,其中,当Lv与第r个候选事件一致时,L0 v=Gr。
S4,根据L0 v,获取Lv对应的第二优先级U2 v,其中,在S4中通过如下步骤获取U2 v:
S41,当L0 v≥G0时,U2 v=δ,δ为预设的第一参数。
具体的,δ的取值范围为0.05~0.1,其中,本领域技术人员知晓,可根据实际需求进行δ的选取,均落入本发明的保护范围,在此不再赘述。
S43,当L0 v<G0时,U2 v=0。
S5,获取Lv对应的目标实体PLv,其中,所述目标实体为核心事件中的时间论元。
S6,获取Lv对应的目标词列表QLv,其中,所述目标词列表包括若干个目标词,所述目标词为将Lv对应的目标语句输入至NLP序列标注模型中获取到的目标语句中的词。
具体的,本领域技术人员知晓,现有技术中任一利用NLP序列标注模型获取文本中词的方法,均落入本发明的保护范围,在此不再赘述,例如BMES等NLP序列标注模型。
具体的,所述目标语句为核心事件所在目标文本中的语句。
S7,根据PLv和QLv,获取Lv对应的第二优先级U3 v。
具体的,在S7中通过如下步骤获取U3 v:
S71,获取当前时间点T0和候选词列表H0,其中,所述候选词列表H0中包括若干个候选词,所述候选词为表征时间特征的词。
具体的,可以理解为:候选词为能够表征事件发生时间的特征词,例如say,said,will,未来等候选词。
S73,当Lv为异常事件时,获取U3 v=0,其中,当PLv≥T0和/或QLv中的目标词与H0中的候选词一致时,确定Lv为异常事件。
具体的,所述异常事件为未发生的事件。
S75,当Lv不为异常事件时,获取U3 v=δ0,δ0为预设的第二参数。
具体的,δ0的取值范围为0.2~0.5,其中,本领域技术人员知晓,可根据实际需求进行δ0的选取,均落入本发明的保护范围,在此不再赘述。
S8,根据U1 v、U2 v和U3 v,获取Uv,其中,Uv符合如下条件:
Uv=(U1 v+U2 v+U3 v)/3。
上述,基于核心事件对应的语句位置、核心事件与目标文本特征信息之间的关联性以及核心事件对应的特征信息,获取核心事件对应的第三关键优先级,基于不同维度获取核心事件对应的第三关键优先级,使得获取到的核心事件对应的优先级的准确性较高,进而提高了获取到的中心事件的准确性。
S1100,根据M、N和U,获取L对应的目标优先级列表P={P1,……,Pv,……,Pb},Pv为Lv对应的目标优先级,其中,Pv符合如下条件:
Pv=(Mv+Nv+Uv)/3。
上述,基于获取到的核心事件对应的第一关键优先级、第二关键优先级和第三关键优先级,获取到核心事件对应的目标优先级,其中,第一关键优先级是基于核心事件的触发词以及核心事件对应目标文本中的语句获取到的,第二关键优先级是基于目标事件关系图获取到的,第三关键优先级是基于核心事件对应的语句位置、核心事件与目标文本特征信息之间的关联性以及核心事件对应的特征信息获取到的,从不同维度获取事件对应的优先级,基于不同维度对事件进行评估,利用图的特征信息和事件对应的特征信息筛选中心事件,使得获取到的中心事件的准确性较高。
S1200,根据P,获取中心事件,其中,当Pv≥P0时,获取Pv对应的核心事件为中心事件,P0为预设的优先级阈值。
在一个具体的实施例中,在S1200中通过如下步骤获取P0:
S121,获取样本文本列表K={K1,……,Kμ,……,Kρ},Kμ为第μ个样本文本,μ=1……ρ,ρ为样本文本的数量。
具体的,所述样本文本为从数据库中获取到的文本,其中,本领域技术人员知晓,可根据实际需求进行数据库的选取,均落入本发明的保护范围,在此不再赘述,例如百度百科、知网空间等数据库。
S123,根据K,获取K对应的中间事件集K0={K0 1,……,K0 μ,……,K0 ρ},K0 μ={K0 μ1,……,K0 μy,……,K0 μq(μ)},K0 μy为Kμ对应的中间事件列表中的第y个中间事件,y=1……q(μ),q(μ)为Kμ对应的中间事件列表中中间事件的数量。
具体的,所述中间事件的获取方式与核心事件的获取方式一致,可参照S100~S600。
S125,根据K0,获取K0对应的最终优先级列表TK0={TK0 1,……,TK0 μ,……,TK0 ρ},TK0 μ={TK0 μ1,……,TK0 μy,……,TK0 μq(μ)},TK0 μy为K0 μy对应的最终优先级。
具体的,所述最终优先级的获取方式与目标优先级的获取方式一致,可参照S700~S1100。
S127,当TK0 μy为TK0 μ中最大的最终优先级时,获取预设的优先级阈值P0,其中,预设的优先级阈值P0符合如下条件:
P0=∑ρ μ=1TK0 μy/ρ。
在另一个具体的实施例中,在S1200中通过如下步骤获取P0:
S1201,获取第一样本文本列表K1={K1 1,……,K1 c,……,K1 ab}和第二样本文本列表K2={K2 1,……,K2 p,……,K2 cd},K1 c为第c个第一样本文本,c=1……(ab),ab为第一样本的数量。K2 p为第p个第二样本文本,p=1……(cd),cd为第二样本文本的数量。
具体的,所述第一样本文本为从数据库中获取到的用于训练的文本,其中,本领域技术人员知晓,可根据实际需求进行数据库的选取,均落入本发明的保护范围,在此不再赘述,例如百度百科、知网空间等数据库。
具体的,所述第二样本文本为从数据库中获取到的用于测试的文本。
S1202,根据K1,获取K1对应的第一中间事件集EK1={EK1 1,……,EK1 c,……,EK1 ab},EK1 c={EK1 c1,……,EK1 cx,……,EK1 cw(μ)},EK1 cx为K1 c对应的第一中间事件列表中的第x个第一中间事件,x=1……w(μ),w(μ)为K1 c对应的第一中间事件列表中第一中间事件的数量。
具体的,所述第一中间事件的获取方式与核心事件的获取方式一样,可参照S100~S600。
S1203,根据EK1,获取EK1对应的第一最终优先级集FK1={FK1 1,……,FK1 c,……,FK1 ab},FK1 c={FK1 c1,……,FK1 cx,……,FK1 cw(μ)},FK1 cx为EK1 cx对应的第一最终优先级。
具体的,所述第一最终优先级的获取方式与目标优先级的获取方式一致,可参照S700~S1100。
S1204,当FK1 cx为FK1 c中最大的第一最终优先级时,获取第一预设优先级阈值P1,其中,第一预设优先级阈值符合如下条件P1:
P1=ξ1×(∑(ab) c=1FK1 cx/(ab))+(1-ξ1-ξ2)×(∑(ab) c=1(1-PEK1 cx)/(ab)),其中,ξ1为第一预设参数,ξ2为第二预设参数,PEK1 cx为EK1 cx与K1 c中真实的中心事件之间的相似度。
具体的,本领域技术人员知晓,可根据实际需求进行ξ1和ξ2选取,均落入本发明的保护范围,在此不再赘述。
S1205,根据P1和K2,获取K2对应的目标数量列表GK2={GK2 1,……,GK2 p,……,GK2 cd},GK2 p为K2 p对应的目标数量,其中,所述目标数量为K2 p对应的第二最终优先级列表中第二最终优先级不小于P1的数量,所述第二最终优先级为第二样本文本中第二中间事件对应的优先级。
具体的,所述第二中间事件的获取方式与第一中间事件的获取方式一致。
具体的,所述第二最终优先级的获取方式与第一最终优先级的获取方式一致。
S1206,当GK2 p≤1时,获取P0=P1。
S1207,当存在GK2 p>1时,将K1中的第一样本文本和K2中的第二样本文本进行随机交叉互换重复执行S1201~S1205直到GK2 p不大于1以获取到P0。
上述,获取第一样本文本列表和第二样本文本列表,基于第一样本文本列表对应的第一最终优先级列表和第二样本文本列表对应的第二最终优先级列表,获取第二样本文本列表对应的目标数量,基于目标数量不断调整阈值,基于不同的样本数据对获取到的中心事件的数量进行限制,使得获取到的中心事件更加准确。
在另一个具体的实施例中,在S1100之后还包括如下步骤:
S10,根据L和P,获取L对应的中间优先级列表KL={KL1,……,KLv,……,KLb},KLv为Lv对应的中间优先级。
具体的,在S10中通过如下步骤获取KLv:
S11,根据P,获取L对应的第一中间优先级列表L1={L1 1,……,L1 v,……,L1 b},L1 v为Lv对应的第一中间优先级,其中,L1 v符合如下条件:
L1 v=JLv/b,JLv为将P中的目标优先级按照从大到小排序后Pv所在的序号。
具体的,可以理解为:将P中的目标优先级按照从大到小的顺序排序后,从左到右第一个目标优先级对应的序号为1,从左到右第二个目标优先级对应的序号为2,依次类推,从左到右最后一个目标优先级对应的序号为b。
S13,不断调整δ和δ0,获取L对应的第一待选优先级集FL={FL1,……,FLψ,……,FLσ},FLψ={FLψ1,……,FLψv,……,FLψb},FLvψ为第ψ次调整δ和δ0时Lv对应的待选优先级,ψ=1……σ,σ为调整δ和δ0的次数,其中,所述待选优先级的获取方式与目标优先级的获取方式一致。
S15,根据FL,获取L对应的第二待选优先级集FL={FL1,……,FLv,……,FLb},FLv={FLv1,……,FLvψ,……,FLvσ},FLvψ为FLψv在第ψ次调整δ和δ0时对应的第二待选优先级,其中,所述第二待选优先级为每次调整δ和δ0时将获取到的每个核心事件对应的第一待选优先级按照从大到小排序后某个核心事件对应的第一待选优先级所在的序号。
S17,根据FL,获取L对应的第二中间优先级列表L2={L2 1,……,L2 v,……,L2 b},L2 v为Lv对应的第二中间优先级,其中,L2 v符合如下条件:
L2 v=(JL1 v-JL0 v)/b,JL1 v为FLv中最大的第二待选优先级,JL0 v为FLv中最小的第二待选优先级。
S19,根据L1和L2,获取L对应的中间优先级列表KL={KL1,……,KLv,……,KLb},KLv为Lv对应的中间优先级,其中,KLv符合如下条件:
KLv=ε×L1 v+(1-ε)×L2 v,ε为预设的中间参数。
具体的,ε的取值范范围为0.6~0.7,其中,本领域技术人员知晓,可根据实际需求进行ε的选取,均落入本发明的保护范围,在此不再赘述。
S20,根据KL,获取第一中间事件列表BD={BD1,……,BDφ,……,BDz},BDφ为第φ个第一中间事件,φ=1……z,z为第一中间事件的数量,其中,当KLv≤KL0时,获取KLv对应的核心事件为第一中间事件。
具体的,KL0的取值范围为0.05~0.1,其中,本领域技术人员知晓,可根据实际需求进行L0的选取,均落入本发明的保护范围,在此不再赘述。
S30,根据P和BD,获取BD对应的第一目标优先级列表BD0={BD0 1,……,BD0 φ,……,BD0 z},BD0 φ为BDφ对应的第一目标优先级,其中,所述第一目标优先级为从P中获取到的第一中间事件对应的目标优先级。
S40,根据BD0,获取第二中间事件列表VC={VC1,……,VCk,……,VCab},VCk为第k个第二中间事件,k=1……(ab),ab为第二中间事件的数量,其中,当BD0 φ≥MN0时,获取BD0 φ对应的第一中间事件为第二中间事件,其中,MN0符合如下条件:
。
S50,根据P和VC,获取VC对应的中间相似度列表FC={FC1,……,FCk,……,FCab},FCk为VCk对应的中间相似度,其中,所述中间相似度为第二中间事件与P中最大的目标优先级对应的核心事件之间的相似度。
具体的,所述中间相似度的获取方式与候选相似度的获取方式一致。
S60,当FC0≤FCk<1时,将VCk从VC中删除以获取中心事件列表UE={VC1,……,VCk-1,VCk+1……,VCab},其中,FC0为预设的中间相似度阈值。
具体的,FC0的取值范围为0.8~0.95,其中,本领域技术人员知晓,可根据实际需求进行FC0的选取,均落入本发明的保护范围,在此不再赘述。
上述,基于核心事件列表对应的目标优先级列表中目标优先级的排名,获取第一中间事件列表,基于目标事件从第一中间事件列表中获取第二中间事件列表,同时基于事件之间的相似度对第二中间事件列表进行处理以获取中心事件,从不同维度对事件进行筛选,使得获取到的中心事件的准确度较高。
本实施例提供的一种获取核心事件的数据处理系统,系统包括处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:根据目标文本,获取目标文本对应的初始事件列表,根据初始事件列表,获取目标事件关系图,根据目标事件关系图,获取候选事件列表,根据候选事件列表,获取第一候选事件列表和第二候选事件列表,根据目标事件关系图和第二候选事件列表,获取第二候选事件列表对应的候选优先级列表,根据第一候选事件列表和候选优先级列表,获取核心事件列表,其中,所述核心事件列表包括若干个核心事件,本发明遍历了文本中的全部事件,根据事件以及事件包括的特征信息构建事件关系图,通过图能够更加直观的获取到事件的特征信息,其次,从不同维度进行核心事件的筛选,将图的特征信息与文本的特征信息相结合筛选核心事件,提高了获取到核心事件的准确性。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。
Claims (8)
1.一种获取核心事件的数据处理系统,其特征在于,所述系统包括:处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:
S100,根据目标文本,获取目标文本对应的初始事件列表,其中,所述初始事件列表包括若干个初始事件,所述初始事件为从目标文本中获取到的事件,所述目标文本为待获取核心事件的文本;
S200,根据初始事件列表,获取目标事件关系图,其中,所述目标事件关系图包括初始事件列表中的每个初始事件、每个初始事件对应的若干个论元、每个初始事件与其包括的每个论元的连接关系、相关联的初始事件之间的连接关系;
S300,根据目标事件关系图,获取候选事件列表,其中,所述候选事件列表包括若干个候选事件,所述候选事件为基于目标事件关系图获取到的与初始事件相连接的论元中包括时间论元的初始事件;
S400,根据候选事件列表,获取第一候选事件列表和第二候选事件列表A={A1,……,Ai,……,An},Ai为第i个第二候选事件,i=1……n,n为第二候选事件的数量,其中,所述第一候选事件列表包括若干个第一候选事件,所述第一候选事件为从候选事件列表中获取到的与目标文本标题相关或与目标文本首句相关的候选事件,所述第二候选事件为候选事件列表中除第一候选事件之外的任一候选事件;
S500,根据目标事件关系图和A,获取A对应的候选优先级列表B={B1,……,Bi,……,Bn},Bi为Ai对应的候选优先级,其中,所述候选优先级为基于目标事件关系图中与第二候选事件相连接的初始事件和论元获取到的第二候选事件对应的权重;
S600,根据第一候选事件列表和B,获取核心事件列表,其中,所述核心事件列表包括第一候选事件列表中的第一候选事件,且当Bi≥B0时,将Bi对应的第二候选事件插入至核心事件列表中,B0为预设的优先级阈值。
2.根据权利要求1所述的获取核心事件的数据处理系统,其特征在于,所述相关联的初始事件为具有因果关系、顺承关系或共指关系的初始事件。
3.根据权利要求1所述的获取核心事件的数据处理系统,其特征在于,在S400中通过如下步骤获取第一候选事件:
S401,获取目标文本对应的指定文本向量,其中,所述指定文本向量为指定文本的向量,所述指定文本为目标文本对应的标题;
S403,根据指定文本向量,获取指定相似度列表G={G1,……,Gr,……,Gs},Gr为第r个候选事件向量与指定文本向量之间的相似度,r=1……s,s为指定相似度的数量,所述候选事件向量为基于自然语言处理模型获取到的候选事件对应的向量;
S405,当Gr≥G0时,获取Gr对应的候选事件为第一候选事件,其中,G0为预设的相似度阈值;
S407,根据G,获取待定事件列表,所述待定事件列表包括若干个待定事件,其中,当Gr<G0时,获取Gr对应的候选事件为待定事件;
S409,根据待定事件列表,获取第一候选事件,其中,当待定事件所在语句为目标文本对应的首句时,获取待定事件为第一候选事件。
4.根据权利要求3所述的获取核心事件的数据处理系统,其特征在于,G0的取值范围为0.85~0.9。
5.根据权利要求1所述的获取核心事件的数据处理系统,其特征在于,在S500中通过如下步骤获取Bi:
S501,根据目标事件关系图,获取Ai对应的候选三元组信息列表Ei={Ei1,……,Eie,……,Eif(i)},Eie={E1 ie,E2 ie,E3 ie},e=1……f(i),f(i)为Ai对应的候选三元组的数量,其中,E1 ie=Ai,E2 ie为E1 ie与E3 ie之间的权重,E3 ie为Ai对应的第e个候选三元组中与E1 ie相连接的顶点信息,所述候选三元组包括第二候选事件、在目标事件关系图中与第二候选事件相连接的顶点信息以及第二候选事件和与第二候选事件相连接的顶点信息之间的权重,所述顶点信息为初始事件或初始事件对应的论元;
S503,根据Ei,获取Ei对应的第三候选事件列表Hi={Hi1,……,Hig,……,Hi(n-1)},Hig为Ei对应的第g个第三候选事件,g=1……(n-1),其中,所述第三候选事件为从A中获取到的除Ai之外的任一第二候选事件;
S505,根据Ei和目标事件关系图,获取A对应的指定优先级列表Y={Y1,……,Yi,……,Yn},Yi为Ai对应的指定优先级,其中,Yi符合如下条件:
Yi=2Ri/SF,其中,SF=f(i)×[f(i)-1],Ri为在目标事件关系图中由Ai和Ei中任意两个E3 ie之间的连线构成三角形的数量;
S507,根据Ei、Hi和Y,获取Ai对应的候选优先级Bi,其中,Bi符合如下条件:
Bi=ω1×f(i)+ω2×∑n-1 g=1λig+(1-ω1-ω2)×(Yi/η),ω1为第一参数,ω2为第二参数,λig为Ai与Hig之间的最小权重值,η为Y中最大的指定优先级。
6.根据权利要求5所述的获取核心事件的数据处理系统,其特征在于,所述顶点信息包括初始事件和初始事件对应的论元。
7.根据权利要求5所述的获取核心事件的数据处理系统,其特征在于,在S501中通过如下步骤获取E2 ie:
S5011,当E3 ie为初始事件时,获取E2 ie,其中,E2 ie为E1 ie与E3 ie之间的相似度;
S5013,当E3 ie为初始事件对应的论元,获取Ai对应的顶点信息列表E3 i={E3 i1,……,E3 ie,……,E3 if(i)};
S5015,根据E3 i,获取E2 ie,其中,在S5015中通过如下步骤获取E2 ie:
S50151,当E3 ie对应的论元角色为人物或地点时,获取E2 ie,其中,E2 ie符合如下条件:
E2 ie=0.1+1/f(i);
S50153,当E3 ie对应的论元角色不为人物或地点时,获取E2 ie,其中,E2 ie符合如下条件:
E2 ie=(1-0.1×γ-γ/f(i))/(f(i)-γ),其中,γ为E3 i列表中E3 ie对应的论元角色人物或地点的数量。
8.根据权利要求5所述的获取核心事件的数据处理系统,其特征在于,ω1+ω2=1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311765606.XA CN117435697B (zh) | 2023-12-21 | 2023-12-21 | 一种获取核心事件的数据处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311765606.XA CN117435697B (zh) | 2023-12-21 | 2023-12-21 | 一种获取核心事件的数据处理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117435697A true CN117435697A (zh) | 2024-01-23 |
CN117435697B CN117435697B (zh) | 2024-03-22 |
Family
ID=89546539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311765606.XA Active CN117435697B (zh) | 2023-12-21 | 2023-12-21 | 一种获取核心事件的数据处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117435697B (zh) |
Citations (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090222395A1 (en) * | 2007-12-21 | 2009-09-03 | Marc Light | Systems, methods, and software for entity extraction and resolution coupled with event and relationship extraction |
CN103617280A (zh) * | 2013-12-09 | 2014-03-05 | 苏州大学 | 一种中文事件信息挖掘方法和系统 |
CN104915446A (zh) * | 2015-06-29 | 2015-09-16 | 华南理工大学 | 基于新闻的事件演化关系自动提取方法及其系统 |
CN105740238A (zh) * | 2016-03-04 | 2016-07-06 | 北京理工大学 | 一种融合句义信息的事件关系强度图构建方法 |
CN106021229A (zh) * | 2016-05-19 | 2016-10-12 | 苏州大学 | 一种中文事件同指消解方法和系统 |
CN106484767A (zh) * | 2016-09-08 | 2017-03-08 | 中国科学院信息工程研究所 | 一种跨媒体的事件抽取方法 |
CN112906391A (zh) * | 2021-03-16 | 2021-06-04 | 合肥讯飞数码科技有限公司 | 元事件抽取方法、装置、电子设备和存储介质 |
CN113468433A (zh) * | 2021-09-02 | 2021-10-01 | 中科雨辰科技有限公司 | 目标事件抽取数据处理系统 |
US20210365306A1 (en) * | 2020-05-21 | 2021-11-25 | International Business Machines Corporation | Unsupervised event extraction |
CN113704476A (zh) * | 2021-09-02 | 2021-11-26 | 中科雨辰科技有限公司 | 目标事件抽取数据处理系统 |
CN113722461A (zh) * | 2021-09-02 | 2021-11-30 | 中科雨辰科技有限公司 | 目标事件抽取数据处理系统 |
CN114065702A (zh) * | 2021-09-28 | 2022-02-18 | 南京邮电大学 | 一种融合实体关系和事件要素的事件检测方法 |
CN114186053A (zh) * | 2022-02-17 | 2022-03-15 | 中科雨辰科技有限公司 | 一种用于事件消息的发送方法 |
CN114330366A (zh) * | 2021-12-30 | 2022-04-12 | 科大讯飞华南人工智能研究院(广州)有限公司 | 事件抽取方法及相关装置、电子设备和存储介质 |
CN114579675A (zh) * | 2022-05-05 | 2022-06-03 | 中科雨辰科技有限公司 | 一种确定共指事件的数据处理系统 |
CN114706992A (zh) * | 2022-02-17 | 2022-07-05 | 中科雨辰科技有限公司 | 一种基于知识图谱的事件信息处理系统 |
CN114925692A (zh) * | 2022-07-21 | 2022-08-19 | 中科雨辰科技有限公司 | 一种获取目标事件的数据处理系统 |
CN114996414A (zh) * | 2022-08-05 | 2022-09-02 | 中科雨辰科技有限公司 | 一种确定相似事件的数据处理系统 |
CN115062137A (zh) * | 2022-08-15 | 2022-09-16 | 中科雨辰科技有限公司 | 一种基于主动学习确定异常文本的数据处理系统 |
CN115238045A (zh) * | 2022-09-21 | 2022-10-25 | 北京澜舟科技有限公司 | 一种生成式事件论元抽取方法、系统及存储介质 |
CN115544212A (zh) * | 2022-10-31 | 2022-12-30 | 中国电子科技集团公司第十研究所 | 文档级事件要素抽取方法、设备及介质 |
CN115544215A (zh) * | 2022-12-02 | 2022-12-30 | 中科雨辰科技有限公司 | 一种关联对象的获取方法、介质及设备 |
CN115563287A (zh) * | 2022-12-02 | 2023-01-03 | 中科雨辰科技有限公司 | 一种获取关联对象的数据处理系统 |
CN115795051A (zh) * | 2022-12-02 | 2023-03-14 | 中科雨辰科技有限公司 | 一种基于实体关系获取链接实体的数据处理系统 |
CN116108169A (zh) * | 2022-12-12 | 2023-05-12 | 长三角信息智能创新研究院 | 一种基于知识图谱的热线工单智能分派方法 |
US20230195075A1 (en) * | 2021-12-16 | 2023-06-22 | Kabushiki Kaisha Toshiba | Information extraction apparatus, information extraction method, and storage medium |
CN117033654A (zh) * | 2023-08-01 | 2023-11-10 | 中国人民解放军军事科学院战争研究院 | 一种面向科技迷雾识别的科技事件图谱构建方法 |
-
2023
- 2023-12-21 CN CN202311765606.XA patent/CN117435697B/zh active Active
Patent Citations (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090222395A1 (en) * | 2007-12-21 | 2009-09-03 | Marc Light | Systems, methods, and software for entity extraction and resolution coupled with event and relationship extraction |
CN103617280A (zh) * | 2013-12-09 | 2014-03-05 | 苏州大学 | 一种中文事件信息挖掘方法和系统 |
CN104915446A (zh) * | 2015-06-29 | 2015-09-16 | 华南理工大学 | 基于新闻的事件演化关系自动提取方法及其系统 |
CN105740238A (zh) * | 2016-03-04 | 2016-07-06 | 北京理工大学 | 一种融合句义信息的事件关系强度图构建方法 |
CN106021229A (zh) * | 2016-05-19 | 2016-10-12 | 苏州大学 | 一种中文事件同指消解方法和系统 |
CN106484767A (zh) * | 2016-09-08 | 2017-03-08 | 中国科学院信息工程研究所 | 一种跨媒体的事件抽取方法 |
US20210365306A1 (en) * | 2020-05-21 | 2021-11-25 | International Business Machines Corporation | Unsupervised event extraction |
CN112906391A (zh) * | 2021-03-16 | 2021-06-04 | 合肥讯飞数码科技有限公司 | 元事件抽取方法、装置、电子设备和存储介质 |
CN113468433A (zh) * | 2021-09-02 | 2021-10-01 | 中科雨辰科技有限公司 | 目标事件抽取数据处理系统 |
CN113704476A (zh) * | 2021-09-02 | 2021-11-26 | 中科雨辰科技有限公司 | 目标事件抽取数据处理系统 |
CN113722461A (zh) * | 2021-09-02 | 2021-11-30 | 中科雨辰科技有限公司 | 目标事件抽取数据处理系统 |
CN114065702A (zh) * | 2021-09-28 | 2022-02-18 | 南京邮电大学 | 一种融合实体关系和事件要素的事件检测方法 |
US20230195075A1 (en) * | 2021-12-16 | 2023-06-22 | Kabushiki Kaisha Toshiba | Information extraction apparatus, information extraction method, and storage medium |
CN114330366A (zh) * | 2021-12-30 | 2022-04-12 | 科大讯飞华南人工智能研究院(广州)有限公司 | 事件抽取方法及相关装置、电子设备和存储介质 |
CN114186053A (zh) * | 2022-02-17 | 2022-03-15 | 中科雨辰科技有限公司 | 一种用于事件消息的发送方法 |
CN114706992A (zh) * | 2022-02-17 | 2022-07-05 | 中科雨辰科技有限公司 | 一种基于知识图谱的事件信息处理系统 |
CN114579675A (zh) * | 2022-05-05 | 2022-06-03 | 中科雨辰科技有限公司 | 一种确定共指事件的数据处理系统 |
CN114925692A (zh) * | 2022-07-21 | 2022-08-19 | 中科雨辰科技有限公司 | 一种获取目标事件的数据处理系统 |
CN114996414A (zh) * | 2022-08-05 | 2022-09-02 | 中科雨辰科技有限公司 | 一种确定相似事件的数据处理系统 |
CN115062137A (zh) * | 2022-08-15 | 2022-09-16 | 中科雨辰科技有限公司 | 一种基于主动学习确定异常文本的数据处理系统 |
CN115238045A (zh) * | 2022-09-21 | 2022-10-25 | 北京澜舟科技有限公司 | 一种生成式事件论元抽取方法、系统及存储介质 |
CN115544212A (zh) * | 2022-10-31 | 2022-12-30 | 中国电子科技集团公司第十研究所 | 文档级事件要素抽取方法、设备及介质 |
CN115544215A (zh) * | 2022-12-02 | 2022-12-30 | 中科雨辰科技有限公司 | 一种关联对象的获取方法、介质及设备 |
CN115563287A (zh) * | 2022-12-02 | 2023-01-03 | 中科雨辰科技有限公司 | 一种获取关联对象的数据处理系统 |
CN115795051A (zh) * | 2022-12-02 | 2023-03-14 | 中科雨辰科技有限公司 | 一种基于实体关系获取链接实体的数据处理系统 |
CN116108169A (zh) * | 2022-12-12 | 2023-05-12 | 长三角信息智能创新研究院 | 一种基于知识图谱的热线工单智能分派方法 |
CN117033654A (zh) * | 2023-08-01 | 2023-11-10 | 中国人民解放军军事科学院战争研究院 | 一种面向科技迷雾识别的科技事件图谱构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117435697B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN110377730B (zh) | 案由分类方法、装置、计算机设备和存储介质 | |
CN114925692B (zh) | 一种获取目标事件的数据处理系统 | |
CN107357793B (zh) | 信息推荐方法和装置 | |
CN107992531A (zh) | 基于深度学习的新闻个性化智能推荐方法与系统 | |
CN108846097B (zh) | 用户的兴趣标签表示方法、文章推荐方法、及装置、设备 | |
CN110503506B (zh) | 基于评分数据的物品推荐方法、装置及介质 | |
CN112052326A (zh) | 一种基于长短文本匹配的智能问答方法及系统 | |
CN112559676B (zh) | 相似题目的检索方法、装置及计算机存储介质 | |
CN113255842B (zh) | 车辆置换预测方法、装置、设备及存储介质 | |
CN115203498A (zh) | 应用专家系统的数据信息推送分析方法及系统 | |
CN111078835A (zh) | 简历评估方法、装置、计算机设备及存储介质 | |
CN115422948B (zh) | 一种基于语义分析的事件层次网络识别系统及方法 | |
CN112800226A (zh) | 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备 | |
CN112380421A (zh) | 简历的搜索方法、装置、电子设备及计算机存储介质 | |
CN112434533A (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
CN112101484B (zh) | 基于知识巩固的增量事件识别方法、系统、装置 | |
Jung et al. | Hybrid collaborative filtering and content-based filtering for improved recommender system | |
Manne et al. | Text categorization with K-nearest neighbor approach | |
Sun et al. | Contextual memory trees | |
Panchala et al. | Hate speech & offensive language detection using ML &NLP | |
CN111460808B (zh) | 同义文本识别及内容推荐方法、装置及电子设备 | |
CN117435697B (zh) | 一种获取核心事件的数据处理系统 | |
CN112163415A (zh) | 针对反馈内容的用户意图识别方法、装置及电子设备 | |
CN111813941A (zh) | 结合rpa和ai的文本分类方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |