CN117435697B

CN117435697B - 一种获取核心事件的数据处理系统

Info

Publication number: CN117435697B
Application number: CN202311765606.XA
Authority: CN
Inventors: 张正义; 林方; 傅晓航; 朱杰
Original assignee: Zhongke Yuchen Technology Co Ltd
Current assignee: Zhongke Yuchen Technology Co Ltd
Priority date: 2023-12-21
Filing date: 2023-12-21
Publication date: 2024-03-22
Anticipated expiration: 2043-12-21
Also published as: CN117435697A

Abstract

本发明涉及一种获取核心事件的数据处理系统，涉及文本处理技术领域，包括处理器和存储有计算机程序的存储器，当计算机程序被处理器执行时，实现以下步骤：获取目标文本对应的初始事件列表，获取目标事件关系图，获取候选事件列表，获取第一候选事件列表和第二候选事件列表，根据目标事件关系图和第二候选事件列表，获取第二候选事件列表对应的候选优先级列表，根据第一候选事件列表和候选优先级列表，获取核心事件列表，本发明遍历了文本中的全部事件，根据事件以及事件包括的特征信息构建事件关系图，通过图能够更加直观的获取到事件的特征信息，将图的特征信息与文本的特征信息相结合筛选核心事件，提高了获取到核心事件的准确性。

Description

一种获取核心事件的数据处理系统

技术领域

本发明涉及文本处理技术领域，特别是涉及一种获取核心事件的数据处理系统。

背景技术

随着互联网技术的不断发展，各类文本数量呈现指数型增长，例如新闻本文、论文文本等，事件抽取成为自然语言处理领域中的一个重要研究方向，然而，当文本过长时，抽取到的事件数量过多时，如何筛选出核心事件成为热门研究话题，从大量文字中有效筛选出核心事件在智能问答、信息检索等领域中有着重要的应用。

现有技术中，获取核心事件的方法为：从文本中获取到中心句，提取中心句和与中心句相邻语句中的多个事件，将多个事件与文本对应的标题内容进行比较，从而获取到文本的核心事件。

综上，获取核心事件的方法存在的问题：未遍历文本中的全部事件，未基于文本中的全部事件和事件包括的特征信息构建关系图，不能够直观的获取到事件的特征信息，未基于图的特征信息筛选核心事件，降低了获取到核心事件的准确性。

发明内容

针对上述技术问题，本发明采用的技术方案为：一种获取核心事件的数据处理系统，系统包括：处理器和存储有计算机程序的存储器，当所述计算机程序被处理器执行时，实现以下步骤：

S100，根据目标文本，获取目标文本对应的初始事件列表，其中，所述初始事件列表包括若干个初始事件，所述初始事件为从目标文本中获取到的事件，所述目标文本为待获取核心事件的文本。

S200，根据初始事件列表，获取目标事件关系图，其中，所述目标事件关系图包括初始事件列表中的每个初始事件、每个初始事件对应的若干个论元、每个初始事件与其包括的每个论元的连接关系、相关联的初始事件之间的连接关系。

S300，根据目标事件关系图，获取候选事件列表，其中，所述候选事件列表包括若干个候选事件，所述候选事件为基于目标事件关系图获取到的与初始事件相连接的论元中包括时间论元的初始事件。

S400，根据候选事件列表，获取第一候选事件列表和第二候选事件列表A={A₁，……，A_i，……，A_n}，A_i为第i个第二候选事件，i=1……n，n为第二候选事件的数量，其中，所述第一候选事件列表包括若干个第一候选事件，所述第一候选事件为从候选事件列表中获取到的与目标文本标题相关或与目标文本首句相关的候选事件，所述第二候选事件为候选事件列表中除第一候选事件之外的任一候选事件。

S500，根据目标事件关系图和A，获取A对应的候选优先级列表B={B₁，……，B_i，……，B_n}，B_i为A_i对应的候选优先级，其中，所述候选优先级为基于目标事件关系图中与第二候选事件相连接的初始事件和论元获取到的第二候选事件对应的权重。

S600，根据第一候选事件列表和B，获取核心事件列表，其中，所述核心事件列表包括第一候选事件列表中的第一候选事件，且当B_i≥B⁰时，将B_i对应的第二候选事件插入至核心事件列表中，B⁰为预设的优先级阈值。

本发明与现有技术相比具有明显的有益效果，借由上述技术方案，本发明提供的一种获取核心事件的数据处理系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有以下有益效果：

一种获取核心事件的数据处理系统，系统包括处理器和存储有计算机程序的存储器，当所述计算机程序被处理器执行时，实现以下步骤：根据目标文本，获取目标文本对应的初始事件列表，根据初始事件列表，获取目标事件关系图，根据目标事件关系图，获取候选事件列表，根据候选事件列表，获取第一候选事件列表和第二候选事件列表，根据目标事件关系图和第二候选事件列表，获取第二候选事件列表对应的候选优先级列表，根据第一候选事件列表和候选优先级列表，获取核心事件列表，其中，所述核心事件列表包括若干个核心事件，本发明遍历了文本中的全部事件，根据事件以及事件包括的特征信息构建事件关系图，通过图能够更加直观的获取到事件的特征信息，其次，从不同维度进行核心事件的筛选，将图的特征信息与文本的特征信息相结合筛选核心事件，提高了获取到核心事件的准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的一种获取核心事件的数据处理系统的处理器执行计算机程序时实现的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例

本实施例提供了一种获取核心事件的数据处理系统，所述系统包括：处理器和存储有计算机程序的存储器，当所述计算机程序被处理器执行时，实现以下步骤，如图1所示：

具体的，所述目标文本的类型包括论文、新闻稿等。

具体的，所述初始事件的获取方式为将目标文本输入至事件抽取模型中获取到的，其中，本领域技术人员知晓，现有技术中任一事件抽取模型从文本中抽取事件的方法，均落入本发明的保护范围，在此不再赘述。

进一步的，所述初始事件包括初始事件对应的若干个论元、若干个触发词和若干个触发词类型。

具体的，所述论元为参与事件发生的要素，由实体构成。

具体的，在目标事件关系图中，论元与论元之间互不连接。

具体的，所述相关联的初始事件为具有因果关系、顺承关系或共指关系的初始事件。

上述，获取到目标文本对应的初始事件以及初始事件对应的论元，构建目标事件关系图，通过构建事件关系图，能够更加直观地获取事件的特征信息，为后续筛选核心事件提供便利。

具体的，所述时间论元为代表着时间的论元，例如十月十日、上周日等时间论元。

具体的，在S400中通过如下步骤获取第一候选事件：

S401，获取目标文本对应的指定文本向量，其中，所述指定文本向量为指定文本的向量，所述指定文本为目标文本对应的标题。

S403，根据指定文本向量，获取指定相似度列表G={G₁，……，G_r，……，G_s}，G_r为第r个候选事件向量与指定文本向量之间的相似度，r=1……s，s为指定相似度的数量。

具体的，所述候选事件向量为基于自然语言处理模型获取到的候选事件对应的向量，其中，本领域技术人员知晓，现有技术中任一利用自然语言处理模型将文本转换成向量的方法，均落入本发明的保护范围，在此不再赘述，例如：Bert模型、Word2vec模型等自然语言处理模型。

进一步的，本领域技术人员知晓，现有技术中任一获取向量相似度的方法，均落入本发明的保护范围，在此不再赘述，例如余弦相似度等计算向量相似度的方法。

S405，当G_r≥G⁰时，获取G_r对应的候选事件为第一候选事件，其中，G⁰为预设的相似度阈值。

具体的，G⁰的取值范围为0.85～0.9，其中，本领域技术人员知晓，可根据实际需求进行G⁰的选取，均落入本发明的保护范围，在此不再赘述。

S407，根据G，获取待定事件列表，所述待定事件列表包括若干个待定事件，其中，当G_r＜G⁰时，获取G_r对应的候选事件为待定事件。

S409，根据待定事件列表，获取第一候选事件，其中，当待定事件所在语句为目标文本对应的首句时，获取待定事件为第一候选事件。

具体的，目标文本按照目标符号划分成若干个语句，其中，所述目标符号为具有截断语句的标点符号，例如：句号、感叹号等目标符号。

具体的，所述目标文本对应的首句为目标文本中的第一句话即第一个目标符号前的文本。

上述，从候选事件列表中筛选出第一候选事件列表，遍历目标文本中全部事件，基于目标文本的特征信息以及候选事件的特征信息，进行核心事件的筛选，使得获取到的第一候选事件更加全面，进而使得获取到核心事件的准确性较高。

具体的，在S500中通过如下步骤获取B_i：

S501，根据目标事件关系图，获取A_i对应的候选三元组信息列表E_i={E_i1，……，E_ie，……，E_if（i）}，E_ie={E¹ _ie，E² _ie，E³ _ie}，e=1……f（i），f（i）为A_i对应的候选三元组的数量，其中，E¹ _ie=A_i，E² _ie为E¹ _ie与E³ _ie之间的权重，E³ _ie为A_i对应的第e个候选三元组中与E¹ _ie相连接的顶点信息，所述候选三元组包括第二候选事件、在目标事件关系图中与第二候选事件相连接的顶点信息以及第二候选事件和与第二候选事件相连接的顶点信息之间的权重，所述顶点信息为初始事件或初始事件对应的论元。

具体的，可以理解为：根据目标事件关系图可知：候选三元组信息可能为候选事件、候选事件与其对应的论元之间的权重，与候选事件相连接的论元，候选三元组信息也可能为候选事件、候选事件与候选事件相连接的初始事件之间的权重、与候选事件相连接的初始事件。

具体的，在S501中通过如下步骤获取E² _ie：

S5011，当E³ _ie为初始事件时，获取E² _ie，其中，E² _ie为E¹ _ie与E³ _ie之间的相似度。

具体的，两个初始事件相似度的获取方式与指定相似度的获取方式一致。

S5013，当E³ _ie为初始事件对应的论元，获取A_i对应的顶点信息列表E³ _i={E³ _i1，……，E³ _ie，……，E³ _if（i）}。

S5015，根据E³ _i，获取E² _ie，其中，在S5015中通过如下步骤获取E² _ie：

S50151，当E³ _ie对应的论元角色为人物或地点时，获取E² _ie，其中，E² _ie符合如下条件：

E² _ie=0.1+1/f（i）。

具体的，所述论元角色为事件对应的论元在事件中扮演的角色。

S50153，当E³ _ie对应的论元角色不为人物或地点时，获取E² _ie，其中，E² _ie符合如下条件：

E² _ie=（1-0.1×γ-γ/f（i））/（f（i）-γ），其中，γ为E³ _i列表中E³ _ie对应的论元角色人物或地点的数量。

S503，根据E_i，获取E_i对应的第三候选事件列表H_i={H_i1，……，H_ig，……，H_i（n-1）}，H_ig为E_i对应的第g个第三候选事件，g=1……（n-1），其中，所述第三候选事件为从A中获取到的除A_i之外的任一第二候选事件。

S505，根据E_i和目标事件关系图，获取A对应的指定优先级列表Y={Y₁，……，Y_i，……，Y_n}，Y_i为A_i对应的指定优先级，其中，Y_i符合如下条件：

Y_i=2R_i/SF，其中，SF=f（i）×[f（i）-1]，R_i为在目标事件关系图中由A_i和E_i中任意两个E³ _ie之间的连线构成三角形的数量。

S507，根据E_i、H_i和Y，获取A_i对应的候选优先级B_i，其中，B_i符合如下条件：

B_i=ω₁×f（i）+ω₂×∑^n-1 _g=1λ_ig+（1-ω₁-ω₂）×（Y_i/η），ω₁为第一参数，ω₂为第二参数，λ_ig为A_i与H_ig之间的最小权重值，η为Y中最大的指定优先级。

具体的，ω₁+ω₂=1。

进一步的，ω₁≤ω₂≤0.4，其中，本领域技术人员知晓，可根据实际需求进行ω₁和ω₂的选取，均落入本发明的保护范围，在此不再赘述。

具体的，所述最小权重值为在目标事件关系图中基于每个E_i中的每个E² _ie获取到的某个候选事件与除此候选事件之外的任一候选事件之间所经过的连线对应的权重之和的最小值。

进一步的，所述最小权重值的获取方式为采用最短路径计算方法，其中，本领域技术人员知晓，现有技术中任一利用最短路径算法获取最小权重的方法，均落入本发明的保护范围，在此不再赘述，例如Dijkstra算法等最短路径计算方法。

具体的，本领域技术人员知晓，可根据实际需求进行B⁰的选取，均落入本发明的保护范围，在此不再赘述。

上述，根据候选事件列表，获取第一候选事件列表和第二候选事件列表，其中，所述第一候选事件列表中的第一候选事件是基于目标文本的文本特征从目标文本中获取到的事件，从而作为核心事件，基于第二候选事件列表，获取第二候选事件对应的候选优先级，根据候选优先级从第二候选文本列表中筛选出核心事件是基于目标事件关系图，基于图的特征信息筛选出核心事件，从不同维度进行核心事件的筛选，将图的特征信息与文本的特征信息相结合筛选核心事件，提高了获取到核心事件的准确性。

具体的，在S600之后还包括如下步骤：

S700，获取核心事件列表L={L₁，……，L_v，……，L_b}，L_v为第v个核心事件，v=1……b，b为核心事件的数量。

S800，根据L，获取L对应的第一关键优先级列表M={M₁，……，M_v，……，M_b}，M_v为L_v对应的第一关键优先级，其中，在S800中通过如下步骤获取M_v：

S801，获取L_v对应的候选文本列表C_v={C_v1，……，C_vj，……，C_vm（v）}，C_vj={C¹ _vj，C² _vj}，C¹ _vj为L_v对应的第j个候选文本中的第一候选文本，C² _vj为L_v对应的第j个候选文本中的第二候选文本，j=1……m（v），m（v）为L_v中第一候选文本的数量。

具体的，所述第一候选文本为核心事件中的触发词。

具体的，所述第二候选文本为核心事件对应目标文本中的语句文本，可以理解为：一段文本中会有很多的语句，每个语句中可能会包括若干个事件，第二候选文本可以理解为是核心事件所在的那个语句。

S803，根据C_v，获取C_v对应的候选相似度列表ζ_v={ζ_v1，……，ζ_vj，……，ζ_vm（v）}，ζ_vj为C_vj对应的候选文本向量与目标文本向量之间的相似度。

具体的，所述候选文本向量为候选文本对应的向量，其中，所述候选文本向量的获取方式与指定文本向量的获取方式一致。

进一步的，所述目标文本向量为目标文本对应的向量，其中，所述目标文本向量的获取方式与候选文本向量的获取方式一致。

S805，根据ζ_v，获取L_v对应的第一关键优先级M_v，其中，M_v符合如下条件：

M_v=∑^m（v） _j=1ζ_vj/m（v）。

上述，基于每个核心事件对应的候选文本列表，获取候选文本列表对应的候选相似度列表，基于候选相似度获取到每个核心事件对应的第一关键优先级，其中，所述候选文本是基于候选事件对应的触发词以及候选事件对应目标文本中的语句获取到的文本，通过将事件触发词和文本语句相结合的方法，能够避免同一语句中包括多个事件使得获取到事件对应的优先级一致的情况，使得获取到核心事件对应的优先级更加准确，进而使得获取到中心事件的准确性较高。

S900，根据目标事件关系图，获取L对应的第二关键优先级列表N={N₁，……，N_v，……，N_b}，N_v为L_v对应的第二关键优先级。

具体的，在S900中还包括如下步骤：

S901，获取L_v对应的初始优先级I⁰ _v，其中，I⁰ _v符合如下条件：

I⁰ _v=1/b。

S903，根据目标事件关系图，获取候选向量列表θ={θ₁，……，θ_v，……，θ_b}，θ_v=（θ_v1，……，θ_vτ，……，θ_vb），θ_vτ为第v个候选向量中第τ位的bit值，τ=1……b，其中，在S903中通过如下步骤获取θ_vτ：

S9031，当v=τ时，θ_vτ=0。

S9033，当v≠τ时，θ_vτ=1/β（v），β（v）为在目标事件关系图中与L_v进行连接且由L_v指向与之相连接的核心事件的数量。

S905，根据I⁰ _v和θ，获取L_v对应的第一初始优先级列表I_v={I¹ _v，……，I^（t-1） _v，I^t _v，……，I^α _v}，t=1……α，α为第一初始优先级的数量，其中，I^t _v=∑^b _v=1θ_vτ×I^（t-1） _v，I¹ _v=∑^b _v=1θ_vτ×I⁰ _v，其中，τ=v。

具体的，α可以理解为：迭代的次数，其中，本领域技术人员知晓，可根据实际需求进行α的选取，均落入本发明的保护范围，在此不再赘述。

S907，根据I_v，获取L_v对应的第二关键优先级N_v，其中，N_v=I^α _v。

S1000，根据目标文本和L，获取L对应的第三关键优先级列表U={U₁，……，U_v，……，U_b}，U_v为L_v对应的第三关键优先级。

具体的，在S1000中通过如下步骤获取U_v：

S1，获取目标文本对应的候选权重列表T={T₁，……，T_a，……，T_d}，T_a为从目标文本对应的首句开始目标文本中第a个语句对应的候选权重，a=1……d，d为目标文本中语句的数量，其中，T_a=1/a。

S2，当L_v所在目标文本中的语句位置与T_a对应的语句位置一致时，获取L_v对应的第一优先级U¹ _v，其中，U¹ _v=T_a。

S3，根据G，获取L_v对应的指定相似度L⁰ _v，其中，当L_v与第r个候选事件一致时，L⁰ _v=G_r。

S4，根据L⁰ _v，获取L_v对应的第二优先级U² _v，其中，在S4中通过如下步骤获取U² _v：

S41，当L⁰ _v≥G⁰时，U² _v=δ，δ为预设的第一参数。

具体的，δ的取值范围为0.05～0.1，其中，本领域技术人员知晓，可根据实际需求进行δ的选取，均落入本发明的保护范围，在此不再赘述。

S43，当L⁰ _v＜G⁰时，U² _v=0。

S5，获取L_v对应的目标实体PL_v，其中，所述目标实体为核心事件中的时间论元。

S6，获取L_v对应的目标词列表QL_v，其中，所述目标词列表包括若干个目标词，所述目标词为将L_v对应的目标语句输入至NLP序列标注模型中获取到的目标语句中的词。

具体的，本领域技术人员知晓，现有技术中任一利用NLP序列标注模型获取文本中词的方法，均落入本发明的保护范围，在此不再赘述，例如BMES等NLP序列标注模型。

具体的，所述目标语句为核心事件所在目标文本中的语句。

S7，根据PL_v和QL_v，获取L_v对应的第二优先级U³ _v。

具体的，在S7中通过如下步骤获取U³ _v：

S71，获取当前时间点T⁰和候选词列表H⁰，其中，所述候选词列表H⁰中包括若干个候选词，所述候选词为表征时间特征的词。

具体的，可以理解为：候选词为能够表征事件发生时间的特征词，例如say，said，will，未来等候选词。

S73，当L_v为异常事件时，获取U³ _v=0，其中，当PL_v≥T⁰和/或QL_v中的目标词与H⁰中的候选词一致时，确定L_v为异常事件。

具体的，所述异常事件为未发生的事件。

S75，当L_v不为异常事件时，获取U³ _v=δ⁰，δ⁰为预设的第二参数。

具体的，δ⁰的取值范围为0.2～0.5，其中，本领域技术人员知晓，可根据实际需求进行δ⁰的选取，均落入本发明的保护范围，在此不再赘述。

S8，根据U¹ _v、U² _v和U³ _v，获取U_v，其中，U_v符合如下条件：

U_v=（U¹ _v+U² _v+U³ _v）/3。

上述，基于核心事件对应的语句位置、核心事件与目标文本特征信息之间的关联性以及核心事件对应的特征信息，获取核心事件对应的第三关键优先级，基于不同维度获取核心事件对应的第三关键优先级，使得获取到的核心事件对应的优先级的准确性较高，进而提高了获取到的中心事件的准确性。

S1100，根据M、N和U，获取L对应的目标优先级列表P={P₁，……，P_v，……，P_b}，P_v为L_v对应的目标优先级，其中，P_v符合如下条件：

P_v=（M_v+N_v+U_v）/3。

上述，基于获取到的核心事件对应的第一关键优先级、第二关键优先级和第三关键优先级，获取到核心事件对应的目标优先级，其中，第一关键优先级是基于核心事件的触发词以及核心事件对应目标文本中的语句获取到的，第二关键优先级是基于目标事件关系图获取到的，第三关键优先级是基于核心事件对应的语句位置、核心事件与目标文本特征信息之间的关联性以及核心事件对应的特征信息获取到的，从不同维度获取事件对应的优先级，基于不同维度对事件进行评估，利用图的特征信息和事件对应的特征信息筛选中心事件，使得获取到的中心事件的准确性较高。

S1200，根据P，获取中心事件，其中，当P_v≥P⁰时，获取P_v对应的核心事件为中心事件，P⁰为预设的优先级阈值。

在一个具体的实施例中，在S1200中通过如下步骤获取P⁰：

S121，获取样本文本列表K={K₁，……，K_μ，……，K_ρ}，K_μ为第μ个样本文本，μ=1……ρ，ρ为样本文本的数量。

具体的，所述样本文本为从数据库中获取到的文本，其中，本领域技术人员知晓，可根据实际需求进行数据库的选取，均落入本发明的保护范围，在此不再赘述，例如百度百科、知网空间等数据库。

S123，根据K，获取K对应的中间事件集K⁰={K⁰ ₁，……，K⁰ _μ，……，K⁰ _ρ}，K⁰ _μ={K⁰ _μ1，……，K⁰ _μy，……，K⁰ _μq（μ）}，K⁰ _μy为K_μ对应的中间事件列表中的第y个中间事件，y=1……q（μ），q（μ）为K_μ对应的中间事件列表中中间事件的数量。

具体的，所述中间事件的获取方式与核心事件的获取方式一致，可参照S100～S600。

S125，根据K⁰，获取K⁰对应的最终优先级列表TK⁰={TK⁰ ₁，……，TK⁰ _μ，……，TK⁰ _ρ}，TK⁰ _μ={TK⁰ _μ1，……，TK⁰ _μy，……，TK⁰ _μq（μ）}，TK⁰ _μy为K⁰ _μy对应的最终优先级。

具体的，所述最终优先级的获取方式与目标优先级的获取方式一致，可参照S700～S1100。

S127，当TK⁰ _μy为TK⁰ _μ中最大的最终优先级时，获取预设的优先级阈值P⁰，其中，预设的优先级阈值P⁰符合如下条件：

P⁰=∑^ρ _μ=1TK⁰ _μy/ρ。

在另一个具体的实施例中，在S1200中通过如下步骤获取P⁰：

S1201，获取第一样本文本列表K¹={K¹ ₁，……，K¹ _c，……，K¹ _ab}和第二样本文本列表K²={K² ₁，……，K² _p，……，K² _cd}，K¹ _c为第c个第一样本文本，c=1……（ab），ab为第一样本的数量。K² _p为第p个第二样本文本，p=1……（cd），cd为第二样本文本的数量。

具体的，所述第一样本文本为从数据库中获取到的用于训练的文本，其中，本领域技术人员知晓，可根据实际需求进行数据库的选取，均落入本发明的保护范围，在此不再赘述，例如百度百科、知网空间等数据库。

具体的，所述第二样本文本为从数据库中获取到的用于测试的文本。

S1202，根据K¹，获取K¹对应的第一中间事件集EK¹={EK¹ ₁，……，EK¹ _c，……，EK¹ _ab}，EK¹ _c={EK¹ _c1，……，EK¹ _cx，……，EK¹ _cw（μ）}，EK¹ _cx为K¹ _c对应的第一中间事件列表中的第x个第一中间事件，x=1……w（μ），w（μ）为K¹ _c对应的第一中间事件列表中第一中间事件的数量。

具体的，所述第一中间事件的获取方式与核心事件的获取方式一样，可参照S100～S600。

S1203，根据EK¹，获取EK¹对应的第一最终优先级集FK¹={FK¹ ₁，……，FK¹ _c，……，FK¹ _ab}，FK¹ _c={FK¹ _c1，……，FK¹ _cx，……，FK¹ _cw（μ）}，FK¹ _cx为EK¹ _cx对应的第一最终优先级。

具体的，所述第一最终优先级的获取方式与目标优先级的获取方式一致，可参照S700～S1100。

S1204，当FK¹ _cx为FK¹ _c中最大的第一最终优先级时，获取第一预设优先级阈值P¹，其中，第一预设优先级阈值符合如下条件P¹：

P¹=ξ₁×（∑^（ab） _c=1FK¹ _cx/（ab））+（1-ξ₁-ξ₂）×（∑^（ab） _c=1（1-PEK¹ _cx）/（ab）），其中，ξ₁为第一预设参数，ξ₂为第二预设参数，PEK¹ _cx为EK¹ _cx与K¹ _c中真实的中心事件之间的相似度。

具体的，本领域技术人员知晓，可根据实际需求进行ξ₁和ξ₂选取，均落入本发明的保护范围，在此不再赘述。

S1205，根据P¹和K²，获取K²对应的目标数量列表GK²={GK² ₁，……，GK² _p，……，GK² _cd}，GK² _p为K² _p对应的目标数量，其中，所述目标数量为K² _p对应的第二最终优先级列表中第二最终优先级不小于P¹的数量，所述第二最终优先级为第二样本文本中第二中间事件对应的优先级。

具体的，所述第二中间事件的获取方式与第一中间事件的获取方式一致。

具体的，所述第二最终优先级的获取方式与第一最终优先级的获取方式一致。

S1206，当GK² _p≤1时，获取P⁰=P¹。

S1207，当存在GK² _p＞1时，将K¹中的第一样本文本和K²中的第二样本文本进行随机交叉互换重复执行S1201～S1205直到GK² _p不大于1以获取到P⁰。

上述，获取第一样本文本列表和第二样本文本列表，基于第一样本文本列表对应的第一最终优先级列表和第二样本文本列表对应的第二最终优先级列表，获取第二样本文本列表对应的目标数量，基于目标数量不断调整阈值，基于不同的样本数据对获取到的中心事件的数量进行限制，使得获取到的中心事件更加准确。

在另一个具体的实施例中，在S1100之后还包括如下步骤：

S10，根据L和P，获取L对应的中间优先级列表KL={KL₁，……，KL_v，……，KL_b}，KL_v为L_v对应的中间优先级。

具体的，在S10中通过如下步骤获取KL_v：

S11，根据P，获取L对应的第一中间优先级列表L¹={L¹ ₁，……，L¹ _v，……，L¹ _b}，L¹ _v为L_v对应的第一中间优先级，其中，L¹ _v符合如下条件：

L¹ _v=JL_v/b，JL_v为将P中的目标优先级按照从大到小排序后P_v所在的序号。

具体的，可以理解为：将P中的目标优先级按照从大到小的顺序排序后，从左到右第一个目标优先级对应的序号为1，从左到右第二个目标优先级对应的序号为2，依次类推，从左到右最后一个目标优先级对应的序号为b。

S13，不断调整δ和δ⁰，获取L对应的第一待选优先级集FL={FL₁，……，FL_ψ，……，FL_σ}，FL_ψ={FL_ψ1，……，FL_ψv，……，FL_ψb}，FL_vψ为第ψ次调整δ和δ⁰时L_v对应的待选优先级，ψ=1……σ，σ为调整δ和δ⁰的次数，其中，所述待选优先级的获取方式与目标优先级的获取方式一致。

S15，根据FL，获取L对应的第二待选优先级集FL={FL₁，……，FL_v，……，FL_b}，FL_v={FL_v1，……，FL_vψ，……，FL_vσ}，FL_vψ为FL_ψv在第ψ次调整δ和δ⁰时对应的第二待选优先级，其中，所述第二待选优先级为每次调整δ和δ⁰时将获取到的每个核心事件对应的第一待选优先级按照从大到小排序后某个核心事件对应的第一待选优先级所在的序号。

S17，根据FL，获取L对应的第二中间优先级列表L²={L² ₁，……，L² _v，……，L² _b}，L² _v为L_v对应的第二中间优先级，其中，L² _v符合如下条件：

L² _v=（JL¹ _v-JL⁰ _v）/b，JL¹ _v为FL_v中最大的第二待选优先级，JL⁰ _v为FL_v中最小的第二待选优先级。

S19，根据L¹和L²，获取L对应的中间优先级列表KL={KL₁，……，KL_v，……，KL_b}，KL_v为L_v对应的中间优先级，其中，KL_v符合如下条件：

KL_v=ε×L¹ _v+（1-ε）×L² _v，ε为预设的中间参数。

具体的，ε的取值范范围为0.6～0.7，其中，本领域技术人员知晓，可根据实际需求进行ε的选取，均落入本发明的保护范围，在此不再赘述。

S20，根据KL，获取第一中间事件列表BD={BD₁，……，BD_φ，……，BD_z}，BD_φ为第φ个第一中间事件，φ=1……z，z为第一中间事件的数量，其中，当KL_v≤KL⁰时，获取KL_v对应的核心事件为第一中间事件。

具体的，KL⁰的取值范围为0.05～0.1，其中，本领域技术人员知晓，可根据实际需求进行L0的选取，均落入本发明的保护范围，在此不再赘述。

S30，根据P和BD，获取BD对应的第一目标优先级列表BD⁰={BD⁰ ₁，……，BD⁰ _φ，……，BD⁰ _z}，BD⁰ _φ为BD_φ对应的第一目标优先级，其中，所述第一目标优先级为从P中获取到的第一中间事件对应的目标优先级。

S40，根据BD⁰，获取第二中间事件列表VC={VC₁，……，VC_k，……，VC_ab}，VC_k为第k个第二中间事件，k=1……（ab），ab为第二中间事件的数量，其中，当BD⁰ _φ≥MN⁰时，获取BD⁰ _φ对应的第一中间事件为第二中间事件，其中，MN⁰符合如下条件：

。

S50，根据P和VC，获取VC对应的中间相似度列表FC={FC₁，……，FC_k，……，FC_ab}，FC_k为VC_k对应的中间相似度，其中，所述中间相似度为第二中间事件与P中最大的目标优先级对应的核心事件之间的相似度。

具体的，所述中间相似度的获取方式与候选相似度的获取方式一致。

S60，当FC⁰≤FC_k＜1时，将VC_k从VC中删除以获取中心事件列表UE={VC₁，……，VC_k-1，VC_k+1……，VC_ab}，其中，FC⁰为预设的中间相似度阈值。

具体的，FC⁰的取值范围为0.8～0.95，其中，本领域技术人员知晓，可根据实际需求进行FC⁰的选取，均落入本发明的保护范围，在此不再赘述。

上述，基于核心事件列表对应的目标优先级列表中目标优先级的排名，获取第一中间事件列表，基于目标事件从第一中间事件列表中获取第二中间事件列表，同时基于事件之间的相似度对第二中间事件列表进行处理以获取中心事件，从不同维度对事件进行筛选，使得获取到的中心事件的准确度较高。

本实施例提供的一种获取核心事件的数据处理系统，系统包括处理器和存储有计算机程序的存储器，当所述计算机程序被处理器执行时，实现以下步骤：根据目标文本，获取目标文本对应的初始事件列表，根据初始事件列表，获取目标事件关系图，根据目标事件关系图，获取候选事件列表，根据候选事件列表，获取第一候选事件列表和第二候选事件列表，根据目标事件关系图和第二候选事件列表，获取第二候选事件列表对应的候选优先级列表，根据第一候选事件列表和候选优先级列表，获取核心事件列表，其中，所述核心事件列表包括若干个核心事件，本发明遍历了文本中的全部事件，根据事件以及事件包括的特征信息构建事件关系图，通过图能够更加直观的获取到事件的特征信息，其次，从不同维度进行核心事件的筛选，将图的特征信息与文本的特征信息相结合筛选核心事件，提高了获取到核心事件的准确性。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种获取核心事件的数据处理系统，其特征在于，所述系统包括：处理器和存储有计算机程序的存储器，当所述计算机程序被处理器执行时，实现以下步骤：

S100，根据目标文本，获取目标文本对应的初始事件列表，其中，所述初始事件列表包括若干个初始事件，所述初始事件为从目标文本中获取到的事件，所述目标文本为待获取核心事件的文本；

S200，根据初始事件列表，获取目标事件关系图，其中，所述目标事件关系图包括初始事件列表中的每个初始事件、每个初始事件对应的若干个论元、每个初始事件与其包括的每个论元的连接关系、相关联的初始事件之间的连接关系；

S300，根据目标事件关系图，获取候选事件列表，其中，所述候选事件列表包括若干个候选事件，所述候选事件为基于目标事件关系图获取到的与初始事件相连接的论元中包括时间论元的初始事件；

S400，根据候选事件列表，获取第一候选事件列表和第二候选事件列表A={A₁，……，A_i，……，A_n}，A_i为第i个第二候选事件，i=1……n，n为第二候选事件的数量，其中，所述第一候选事件列表包括若干个第一候选事件，所述第一候选事件为从候选事件列表中获取到的与目标文本标题相关或与目标文本首句相关的候选事件，所述第二候选事件为候选事件列表中除第一候选事件之外的任一候选事件，其中，在S400中通过如下步骤获取第一候选事件：

S401，获取目标文本对应的指定文本向量，其中，所述指定文本向量为指定文本的向量，所述指定文本为目标文本对应的标题；

S403，根据指定文本向量，获取指定相似度列表G={G₁，……，G_r，……，G_s}，G_r为第r个候选事件向量与指定文本向量之间的相似度，r=1……s，s为指定相似度的数量，所述候选事件向量为基于自然语言处理模型获取到的候选事件对应的向量；

S405，当G_r≥G⁰时，获取G_r对应的候选事件为第一候选事件，其中，G⁰为预设的相似度阈值；

S407，根据G，获取待定事件列表，所述待定事件列表包括若干个待定事件，其中，当G_r＜G⁰时，获取G_r对应的候选事件为待定事件；

S409，根据待定事件列表，获取第一候选事件，其中，当待定事件所在语句为目标文本对应的首句时，获取待定事件为第一候选事件；

S500，根据目标事件关系图和A，获取A对应的候选优先级列表B={B₁，……，B_i，……，B_n}，B_i为A_i对应的候选优先级，其中，所述候选优先级为基于目标事件关系图中与第二候选事件相连接的初始事件和论元获取到的第二候选事件对应的权重；

2.根据权利要求1所述的获取核心事件的数据处理系统，其特征在于，所述相关联的初始事件为具有因果关系、顺承关系或共指关系的初始事件。

3.根据权利要求1所述的获取核心事件的数据处理系统，其特征在于，G⁰的取值范围为0.85～0.9。

4.根据权利要求1所述的获取核心事件的数据处理系统，其特征在于，在S500中通过如下步骤获取B_i：

S501，根据目标事件关系图，获取A_i对应的候选三元组信息列表E_i={E_i1，……，E_ie，……，E_if（i）}，E_ie={E¹ _ie，E² _ie，E³ _ie}，e=1……f（i），f（i）为A_i对应的候选三元组的数量，其中，E¹ _ie=A_i，E² _ie为E¹ _ie与E³ _ie之间的权重，E³ _ie为A_i对应的第e个候选三元组中与E¹ _ie相连接的顶点信息，所述候选三元组包括第二候选事件、在目标事件关系图中与第二候选事件相连接的顶点信息以及第二候选事件和与第二候选事件相连接的顶点信息之间的权重，所述顶点信息为初始事件或初始事件对应的论元；

S503，根据E_i，获取E_i对应的第三候选事件列表H_i={H_i1，……，H_ig，……，H_i（n-1）}，H_ig为E_i对应的第g个第三候选事件，g=1……（n-1），其中，所述第三候选事件为从A中获取到的除A_i之外的任一第二候选事件；

Y_i=2R_i/SF，其中，SF=f（i）×[f（i）-1]，R_i为在目标事件关系图中由A_i和E_i中任意两个E³ _ie之间的连线构成三角形的数量；

B_i=ω₁×f（i）+ω₂×+（1-ω₁-ω₂）×（Y_i/η），ω₁为第一参数，ω₂为第二参数，λ_ig为A_i与H_ig之间的最小权重值，η为Y中最大的指定优先级。

5.根据权利要求4所述的获取核心事件的数据处理系统，其特征在于，所述顶点信息包括初始事件和初始事件对应的论元。

6.根据权利要求4所述的获取核心事件的数据处理系统，其特征在于，在S501中通过如下步骤获取E² _ie：

S5011，当E³ _ie为初始事件时，获取E² _ie，其中，E² _ie为E¹ _ie与E³ _ie之间的相似度；

S5013，当E³ _ie为初始事件对应的论元，获取A_i对应的顶点信息列表E³ _i={E³ _i1，……，E³ _ie，……，E³ _if（i）}；

E² _ie=0.1+1/f（i）；

E² _ie=（1-0.1×γ-γ/f（i））/（f（i）-γ），其中，γ为E³ _i顶点信息列表中顶点信息对应的论元角色为人物或地点的数量。

7.根据权利要求4所述的获取核心事件的数据处理系统，其特征在于，ω₁+ω₂=1。