CN114254121A - 一种图谱构建方法及其相关设备 - Google Patents
一种图谱构建方法及其相关设备 Download PDFInfo
- Publication number
- CN114254121A CN114254121A CN202111481742.7A CN202111481742A CN114254121A CN 114254121 A CN114254121 A CN 114254121A CN 202111481742 A CN202111481742 A CN 202111481742A CN 114254121 A CN114254121 A CN 114254121A
- Authority
- CN
- China
- Prior art keywords
- event
- reason
- text
- cause
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种图谱构建方法及其相关设备,该方法包括:在获取到包括至少一组因果事件的待使用文本之后,先从该待使用文本抽取至少一个待使用原因事件;再根据各待使用原因事件和该待使用文本,确定各待使用原因事件对应的结果事件;最后,根据至少一个待使用原因事件和该至少一个待使用原因事件对应的结果事件,确定因果事件图谱,以使该因果事件图谱用于记录该待使用文本中所存在的因果关系,如此能够实现自动构建因果事件图谱的目的,从而能够降低因果事件图谱的构建成本。
Description
技术领域
本申请涉及自然语言处理领域,尤其涉及一种图谱构建方法及其相关设备。
背景技术
因果事件图谱是一种以“事件”为核心的知识图谱;而且该因果事件图谱用于描述不 同事件之间的因果事理关系,以使该因果事件图谱能够模拟出类人脑的知识建模、推理与 分析决策能力。
然而,因因果事件图谱通常是由专家手动构建的,使得该因果事件图谱的构建成本比 较大。
发明内容
本申请实施例的主要目的在于提供一种图谱构建方法及其相关设备,能够降低因果事 件图谱的构建成本。
本申请实施例提供了一种图谱构建方法,所述方法包括:获取待使用文本;其中,所 述待使用文本包括至少一组因果事件;从所述待使用文本抽取至少一个待使用原因事件; 根据各所述待使用原因事件和所述待使用文本,确定各所述待使用原因事件对应的结果事 件;根据所述至少一个待使用原因事件和所述至少一个待使用原因事件对应的结果事件, 确定因果事件图谱。
本申请实施例还提供了一种图谱构建装置,包括:
文本获取单元,用于获取待使用文本;其中,所述待使用文本包括至少一组因果事件;
原因抽取单元,用于从所述待使用文本抽取至少一个待使用原因事件;
结果抽取单元,用于根据各所述待使用原因事件和所述待使用文本,确定各所述待使 用原因事件对应的结果事件;
图谱构建单元,用于根据所述至少一个待使用原因事件和所述至少一个待使用原因事 件对应的结果事件,确定因果事件图谱。
本申请实施例还提供了一种设备,所述设备包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被 所述处理器执行时使所述处理器执行本申请实施例提供的图谱构建方法的任意一种可能的 实施方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有 指令,当所述指令在终端设备上运行时,使得所述终端设备执行本申请实施例提供的图谱 构建方法的任意一种可能的实施方式。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行 时,使得所述终端设备执行本申请实施例提供的图谱构建方法的任意一种可能的实施方式。
基于上述技术方案,本申请具有以下有益效果:
本申请提供的技术方案中,在获取到包括至少一组因果事件的待使用文本之后,先从 该待使用文本抽取至少一个待使用原因事件;再根据各待使用原因事件和该待使用文本, 确定各待使用原因事件对应的结果事件;最后,根据至少一个待使用原因事件和该至少一 个待使用原因事件对应的结果事件,确定因果事件图谱,以使该因果事件图谱用于记录该 待使用文本中所存在的因果关系,如此能够实现自动构建因果事件图谱的目的,从而能够 降低因果事件图谱的构建成本。
另外,因本申请实施例提供的图谱构建方法是按照两步提取方式进行因果事件提取处 理的,使得该图谱构建方法不仅能够针对简单因果文本(也就是,包括单因单果的文本数 据)进行因果事件提取处理,还能够针对复杂因果文本(例如,包括单音多果、多音多果、 或者多音单果等的文本数据)进行因果事件提取处理,如此有利于提高因果事件的提取效 果,从而有利于提高因果事件图谱的构建效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技 术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一 些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这 些附图获得其他的附图。
图1为本申请实施例提供的一种文本数据的示意图;
图2为本申请实施例提供的一种图谱构建方法的流程图;
图3为本申请实施例提供的一种原因事件抽取模型的示意图;
图4为本申请实施例提供的一种第k个原因位置描述数据的示意图;
图5为本申请实施例提供的一种事件元素抽取模型的示意图;
图6为本申请实施例提供的一种因果图谱构建流程的示意图;
图7为本申请实施例提供的一种噪声事件的示意图;
图8为本申请实施例提供的一种语义表征模型的示意图;
图9为本申请实施例提供的一种三元组样本的示意图;
图10为本申请实施例提供的一种文本数据的事件属性描述信息的示意图;
图11为本申请实施例提供的一种生成第三文本特征的参考信息的示意图;
图12为本申请实施例提供的一种第二确定模型的示意图;
图13为本申请实施例提供的一种图谱构建装置的结构示意图。
具体实施方式
发明人在针对因果事件图谱研究中发现,可以先从大量文本数据(例如,经济领域的 新闻文本数据等)中提取大量因果事件;再由相关人员参考这些因果事件手动构建因果事 件图谱,以使该因果事件图谱用于记录这些因果事件。可见,因果事件可以通过由相关人 员进行人工提取,但是因人工提取方式的提取成本比较大,导致因果事件图谱的构建成本 也比较大。
发明人还发现,为了克服人工提取方式的缺陷,可以借助预先训练的机器学习模型实 现因果事件自动提取处理。其中,上述“预先训练的机器学习模型”比较适用于针对简单 因果文本(例如,图1所示的“文本1”)进行因果事件提取处理;但是,因上述“预先训 练的机器学习模型”无法从复杂因果文本(例如,包括单音多果的文本数据、包括多音多 果的文本数据、或者包括多音单果的文本数据等)中提取出准确且全面的因果事件,导致 上述“预先训练的机器学习模型”针对复杂因果文本的因果事件提取效果较差,从而导致 因果事件图谱的构建效果较差。
需要说明的是,对于图1来说,“文本1”是一个包括单因单果的文本数据;“文本2”是一个包括单音多果的文本数据;“文本3”是一个包括多音单果的文本数据。另外,“某 国”用于表示一个国家;“某企”用于表示一个企业。
基于上述发现,为了解决背景技术部分所示的技术问题,本申请实施例提供了一种图 谱构建方法,该方法包括:在获取到包括至少一组因果事件的待使用文本之后,先从该待 使用文本抽取至少一个待使用原因事件;再根据各待使用原因事件和该待使用文本,确定 各待使用原因事件对应的结果事件;最后,根据至少一个待使用原因事件和至少一个待使 用原因事件对应的结果事件,确定因果事件图谱,以使该因果事件图谱用于记录该待使用 文本中所存在的因果关系,如此能够实现自动构建因果事件图谱的目的,从而能够降低因 果事件图谱的构建成本。
另外,因本申请实施例提供的图谱构建方法是按照两步提取方式进行因果事件提取处 理的,使得该图谱构建方法不仅能够针对简单因果文本(也就是,包括单因单果的文本数 据)进行因果事件提取处理,还能够针对复杂因果文本(例如,包括单音多果、多音多果、 或者多音单果等的文本数据)进行因果事件提取处理,如此有利于提高因果事件的提取效 果,从而有利于提高因果事件图谱的构建效果。
此外,本申请实施例不限定图谱构建方法的执行主体,例如,本申请实施例提供的图 谱构建方法可以应用于终端设备或服务器等数据处理设备。其中,终端设备可以为智能手 机、计算机、个人数字助理(Personal Digital Assitant,PDA)或平板电脑等。服务器可以 为独立服务器、集群服务器或云服务器。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的 附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本 申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员 在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
方法实施例一
参见图2,该图为本申请实施例提供的一种图谱构建方法的流程图。
本申请实施例提供的图谱构建方法,包括S1-S4:
S1:获取待使用文本。
其中,待使用文本是指携带有因果关系的文本数据;而且该待使用文本包括至少一组 因果事件(也就是,原因事件+结果事件)。
另外,本申请实施例不限定上述“待使用文本”的个数,例如,当利用大量文本数据构建一个新的因果关系图谱时,上述“待使用文本”的个数比较大。又如,当利用一个或 多个文本数据更新一个已有因果关系图谱时,上述“待使用文本”的个数比较小(如,上 述“待使用文本”的个数为1等)。
此外,本申请实施例不限定待使用文本的获取过程,例如,其可以采用下文方法实 施例二所示的获取待使用文本的任一实施方式进行实施。
S2:从待使用文本抽取至少一个待使用原因事件。
其中,待使用原因事件是指待使用文本携带的原因事件。例如,当上述“待使用文本” 为图1所示的文本1时,该待使用原因事件可以为“帮扶某企”。
另外,本申请实施例不限定上述“待使用原因事件”的个数,而且该“待使用原因事件”的个数可以根据待使用文本携带的原因事件的个数确定。例如,当上述“待使用文本”为图1所示的文本3时,该“待使用原因事件”的个数可以为2。
此外,本申请实施例不限定S2的实施方式,例如,可以采用现有的或者未来出现的任一种原因事件抽取方法进行实施。又如,可以采用下文方法实施例三所示的S2的任一种可能的实施方式进行实施。
S3:根据各待使用原因事件和待使用文本,确定各待使用原因事件对应的结果事件。
其中,“第j个待使用原因事件对应的结果事件”用于表示待使用文本携带的由该第j 个待使用原因事件所导致的后果。j为正整数,j≤J,J为正整数,J表示上文“至少一个待 使用原因事件”中待使用原因事件的个数。
另外,上述“第j个待使用原因事件对应的结果事件”是根据该第j个待使用原因事件和待使用文本确定的;而且该“第j个待使用原因事件对应的结果事件”也可以由从待 使用文本中抽取出来的字符进行表示。
此外,本申请实施例不限定S3的实施方式,例如,其可以采用下文方法实施例四所示的S3的任一种可能的实施方式进行实施。
基于上述S3的相关内容可知,在获取到第j个待使用原因事件之后,可以按照该第j 个待使用原因事件,从待使用文本中抽取该第j个待使用原因事件对应的结果事件,以使该结果事件能够表示出由该第j个待使用原因事件所导致的后果,以便后续能够由该结果事件与该第j个待使用原因事件组成一组因果事件,参与到因果事件图谱的构建过程中。
S4:根据至少一个待使用原因事件和该至少一个待使用原因事件对应的结果事件,确 定因果事件图谱。
本申请实施例中,在获取到J个待使用原因事件以及J个待使用原因事件对应的结果 事件之后,可以先将该第j个待使用原因事件以及该第j个待使用原因事件对应的结果事件 进行组合,得到第j组因果事件;j为正整数,j≤J;再利用第1组因果事件至第J组因果事件,构建一个新的因果事件图谱(或者,更新一个已有的因果事件图谱),以使构建好的因果事件图谱能够记录该J组因果事件。
另外,为了提高因果事件图谱的构建效果,本申请实施例可以采用下文方法实施 例四、方法实施例五、以及方法实施例七所示的S4的任一种可能的实施方式进行实施。
基于上述S1至S4的相关内容可知,对于本申请实施例提供的图谱构建方法来说,在 获取到包括至少一组因果事件的待使用文本之后,先从该待使用文本抽取至少一个待使用 原因事件;再根据各待使用原因事件和该待使用文本,确定各待使用原因事件对应的结果 事件;最后,根据至少一个待使用原因事件和至少一个待使用原因事件对应的结果事件, 确定因果事件图谱,以使该因果事件图谱用于记录该待使用文本中所存在的因果关系,如 此能够实现自动构建因果事件图谱的目的,从而能够降低因果事件图谱的构建成本。
另外,因本申请实施例提供的图谱构建方法是按照两步提取方式进行因果事件提取处 理的,使得该图谱构建方法不仅能够针对简单因果文本(也就是,包括单因单果的文本数 据)进行因果事件提取处理,还能够针对复杂因果文本(例如,包括单音多果、多音多果、 或者多音单果等的文本数据)进行因果事件提取处理,如此有利于提高因果事件的提取效 果,从而有利于提高因果事件图谱的构建效果。
方法实施例二
实际上,为了避免那些不存在因果关系的文本数据对因果事件图谱的构建过程造成干 扰,本申请实施例还提供了获取上述“待使用文本”(也就是,S1)的一种可能的实施方式, 其具体可以包括步骤11-步骤12:
步骤11:在获取到待处理文本之后,对该待处理文本进行因果关系识别处理,得到待 使用关系识别结果。
上述“待处理文本”用于表示目标领域下的一个文本数据(例如,新闻文本等);而且本申请实施例不限定该“待处理文本”的个数。
上述“目标领域”是指本申请实施例提供的图谱构建方法的应用领域;而且本申请实 施例不限定该“目标领域”,例如,其可以为:经济新闻领域、或者娱乐新闻领域等。
上述“待使用关系识别结果”用于表示待处理文本中是否存在因果关系。
另外,本申请实施例不限定上述“待使用关系识别结果”的确定过程,例如,其具体可以为:将待处理文本输入预先构建的因果关系识别模型,得到该因果关系识别模型输出的待使用关系识别结果。
上述“因果关系识别模型”用于针对该因果关系识别模型的输入数据进行因果关系识 别处理;而且本申请实施例不限定该“因果关系识别模型”,例如,该“因果关系识别模型” 可以是一种机器学习模型。
上述“因果关系识别模型”可以预先根据第一样本文本和该第一样本文本的标签信息 进行构建。其中,上述“第一样本文本的标签信息”用于表示该第一样本文本中实际是否 存在因果关系;而且本申请实施例不限定该“第一样本文本的标签信息”的获取方式,例如,可以通过人工标注方式进行实施。需要说明的是,本申请实施例不限定上述“因果关 系识别模型”的构建过程,可以采用现有的或者未来出现的任一种模型构建方法进行实施。
基于上述步骤11的相关内容可知,对于目标领域下的图谱构建过程来说,在获取到 该目标领域下大量文本数据(例如,新闻文本)之后,可以识别这些文本数据中是否存在因果关系,以便后续能够利用那些存在因果关系的文本数据,构建该目标领域下的因果关系图谱。
步骤12:若待使用关系识别结果表示待处理文本中存在因果关系,则将该待处理文本, 确定为待使用文本。
本申请实施例中,在获取到待使用关系识别结果之后,如果该待使用关系识别结果表 示待处理文本中存在因果关系,则可以将该待处理文本,确定为待使用文本,以便该待处 理文本能够参与到图谱构建过程中;如果该待使用关系识别结果表示待处理文本中不存在 因果关系,则可以直接丢弃该待处理文本即可,如此能够有效地避免那些不存在因果关系 的文本数据参与到图谱构建过程中,从而能够有效地克服那些不存在因果关系的文本数据 对图谱构建过程造成干扰,进而有利于提高因果关系图谱的构建效率。
基于上述步骤11至步骤12的相关内容可知,对于目标领域下的图谱构建过程来说, 在获取到该目标领域下大量文本数据之后,可以先从这些文本数据中滤除那些不存在因果 关系的文本数据;再利用那些存在因果关系的文本数据,构建该目标领域下的因果关系图 谱,如此能够有效地克服那些不存在因果关系的文本数据对图谱构建过程造成干扰,从而 利于提高因果关系图谱的构建效率。
方法实施例三
另外,为了提高原因事件的提取效果,本申请实施例还提供了上文S2的一种可能的实 施方式,其具体可以包括:将待使用文本输入预先构建的原因事件抽取模型,得到该原因 事件抽取模型输出的至少一个待使用原因事件。
上述“原因事件抽取模型”用于针对该原因事件抽取模型的输入数据进行原因事件抽 取处理;而且本申请实施例不限定该“原因事件抽取模型”,例如,其可以是一种机器学习 模型。
另外,本申请实施例不限定上述“原因事件抽取模型”的模型结构,例如,该“原因事件抽取模型”可以包括第一编码层和第一解码层;而且该第一解码层的输入数据包括该第一编码层的输出数据(如图3所示)。
上述“第一编码层”用于针对该第一编码层的输入数据进行编码处理;而且本申请实 施例不限定该“第一编码层”,例如,其可以是现有的或者未来出现的任一种编码网络(例 如,语言模型(Bidirectional Encoder Representation from Transformers,BERT))进行实施。
另外,本申请实施例不限定上述“第一编码层的输入数据”,例如,对于如图3所示的 原因事件抽取模型来说,该原因事件抽取模型中“第一编码层的输入数据”可以是BERT的原始固有输入。可见,在图3中,“第一编码层的输入数据”可以是一个文本数据的词嵌 入向量(word embeddings)、该文本数据的语句分块向量(segmentation embeddings)、以及该文本数据的位置描述向量(position embeddings)之间的加和结果。需要说明的是,对于图3来说,图3所示的BERT可以包括12层transformer网络结构。
上述“第一解码层”用于针对该第一解码层的输入数据进行解码处理;而且本申请实 施例不限定该“第一解码层”的实施方式,例如,其可以包括第一交互网络、第一指针网络和原因确定网络;而且该第一指针网络的输入数据包括该第一交互网络的输出数据,该原因确定网络的输入数据包括该第一指针网络的输出数据。
为了便于理解上述“第一解码层”的工作原理,下面以上文“至少一个待使用原因事 件”的确定过程为例进行说明。
作为示例,利用上述“第一解码层”确定“至少一个待使用原因事件”过程,具体可以包括步骤21-步骤24:
步骤21:根据待使用文本和第一编码层,确定第一编码特征。
上述“第一编码特征”用于表示待使用文本携带的文本信息。
另外,本申请实施例不限定步骤21的实施方式,例如,当上文“原因事件抽取模型”采用图3所示的模型进行实施时,该“原因事件抽取模型”可以还包括特征提取层,而且 步骤21具体可以包括步骤211-步骤212:
步骤211:将待使用文本输入特征提取层,得到该特征提取层输出的待编码特征。
上述“特征提取层”用于针对该特征提取层的输入数据进行特征提取处理;而且本申 请实施例不限定该“特征提取层”的实施方式,例如,其可以采用BERT的输入端进行实施。
上述“待编码特征”用于表示待使用文本携带的文本信息;而且本申请实施例不限定 该“待编码特征”,例如,该“待编码特征”可以是待使用文本的词嵌入向量(wordembeddings)、 该待使用文本的语句分块向量(segmentationembeddings)、以及该待使用文本的位置描述 向量(positionembeddings)之间的加和结果。
步骤212:将待编码特征输入第一编码层,得到该第一编码层输出的第一编码特征。
需要说明的是,“第一编码层”的相关内容请参见上文。
基于上述步骤211至步骤212的相关内容可知,对于图3所示的原因事件抽取模型来 说,在将待使用文本输入该原因事件抽取模型之后,可以先由该原因事件抽取模型中特征 提取层,对该待使用文本进行特征提取,得到待编码特征;再由第一编码层针对该待编码 特征进行编码处理,得到并输出第一编码特征,以使该第一编码特征能够表示出该待使用 文本携带的文本信息。
步骤22:将第一编码特征输入第一交互网络,得到该第一交互网络输出的第一交互结 果。
上述“第一交互网络”用于将至少一个候选因果事件类型与该第一交互网络的输入数 据进行语义交互处理。
上述“候选因果事件类型”是指目标领域下文本数据可能属于的因果事件类型。例如, 当上述“目标领域”为经济新闻领域时,“候选因果事件类型”可以是帮扶、并购、交流等。
另外,本申请实施例不限定上述“至少一个候选因果事件类型”的确定过程,例如,可以由相关人员预先设定。又如,为了提高灵活性,上述“至少一个候选因果事件类型” 的确定过程,具体可以包括步骤31-步骤33:
步骤31:对待使用文本进行领域分类处理,得到待使用文本领域。
上述“领域分类处理”用于确定一个文本数据所属的文本领域;而且本申请实施例不 限定该“领域分类处理”的实施方式,例如,其可以借助预先构建的领域分类模型进行实施。其中,“领域分类模型”是一种具有领域分类处理功能的机器学习模型。
需要说明的是,上述“领域分类模型”可以预先根据第二样本文本和该第二样本文本 的标签信息进行构建。其中,“第二样本文本的标签信息”用于表示该第二样本文本实际所 属的文本领域;而且本申请实施例不限定该“第二样本文本的标签信息”的获取方式,例如,可以通过人工标注方式进行实施。另外,本申请实施例也不限定上述“领域分类模型”的构建过程,例如,可以采用现有的或者未来出现的任一种模型构建方法进行实施。
上述“待使用文本领域”用于表示待使用文本所属的文本领域;而且本申请实施例不 限定该“待使用文本领域”,例如,当待使用文本为图1所示的文本1时,“待使用文本领域”可以是经济新闻领域。
步骤32:从预设映射关系中查找待使用领域对应的因果事件类型集。其中,预设映射 关系包括待使用领域与该待使用领域对应的因果事件类型集之间的对应关系。
上述“预设映射关系”用于记录至少一个候选文本领域对应的因果事件类型集;而且 本申请实施例不限定该“预设映射关系”,例如,其可以包括:第1个候选文本领域与第1个因果事件类型集之间的对应关系、第2个候选文本领域与第2个因果事件类型集之间的对应关系、……、以及第B个候选文本领域与第B个因果事件类型集之间的对应关系。其 中,B为正整数,B表示上述“至少一个候选文本领域”中候选文本领域的个数。
可见,在获取到待使用领域(例如,经济新闻领域)之后,可以将该待使用领域与预设映射关系中B个候选文本领域进行匹配,得到文本领域匹配结果,以便在确定该文本领域匹配结果表示第b个候选文本领域与该待使用领域匹配成功时,将该第b个候选文本领域对应的第b个因果事件类型集,确定为该待使用领域对应的因果事件类型集。其中,b 为正整数,b∈{1,2,3,……,B}。
需要说明的是,上述“因果事件类型集”包括至少一个因果事件类型。
步骤33:根据待使用领域对应的因果事件类型集,确定至少一个候选因果事件类型。
需要说明的是,本申请实施例不限定步骤33的实施方式,例如,其具体可以包括:将 上述“待使用领域对应的因果事件类型集”中全部因果事件类型(或者,部分因果事件类型),均确定为候选因果事件类型。
基于上述步骤31至步骤33的相关内容可知,在一些情况下,可以根据待使用文本所 属的文本领域(例如,经济新闻领域),确定第一交互网络中所涉及的“至少一个候选因果 事件类型”,以使该第一交互网络能够利用该“至少一个候选因果事件类型”与该待使用文 本的编码特征(也就是,第一编码特征)进行语义层面上的交互处理。
上文“第一交互结果”是指针对第一编码特征的语义交互处理结果,以使该“第一交 互结果”用于表示至少一个候选因果事件类型与待使用文本之间的关联性。
另外,本申请实施例不限定上述“第一交互结果”,例如,当上述“候选因果事件类型” 的个数为K时,该“第一交互结果”可以包括K个候选因果事件类型对应的第一交互特征。 其中,“第k个候选因果事件类型对应的第一交互特征”用于表示该第k个候选因果事件类 型与待使用文本之间的关联性。k为正整数,k≤K,K为正整数。
此外,本申请实施例不限定上述“第k个候选因果事件类型对应的第一交互特征”的 确定过程,例如,其具体可以包括:将该第k个候选因果事件类型的表征特征与第一编码特征进行语义交互处理,得到该“第k个候选因果事件类型对应的第一交互特征”。
需要说明的是,本申请实施例不限定上述“语义交互处理”,例如,其可以采用公式(1) 进行实施。
需要说明的是,上述“第k个候选因果事件类型的表征特征”用于表示该第k个候选因果事件类型;而且本申请实施例不限定该“第k个候选因果事件类型的表征特征”的获 取方式,例如,其可以采用word2vec算法进行实施。
基于上述步骤22的相关内容可知,对于原因事件抽取模型来说,在获取到第一编码特 征(也就是,待使用文本的编码特征)之后,可以由该原因事件抽取模型中第一交互网络, 将至少一个候选因果事件类型与该第一编码特征进行语义层面上的交互处理,得到第一交 互结果,以使该第一交互结果能够表示出该待使用文本在不同候选因果事件类型下的特征 表示,从而使得该第一交互结果能够表示出该待使用文本中是否存在与这些候选因果事件 类型相关联(如,语义相近甚至相同)的词汇,以便后续能够基于该第一交互结果,从该 待使用文本中抽取原因事件。
步骤23:将第一交互结果输入第一指针网络,得到该第一指针网络输出的原因位置描 述数据。
上述“第一指针网络”用于针对该第一指针网络的输入数据进行原因事件定位处理。
另外,本申请实施例不限定该“第一指针网络”的工作原理,例如,当上述“第一交互结果”包括K个候选因果事件类型对应的第一交互特征时,该“第一指针网络”的工作 原理,具体可以包括步骤231-步骤232:
步骤231:对第k个候选因果事件类型对应的第一交互特征进行全连接处理,得到第 一全连接结果(如公式(2)所示)。其中,k为正整数,k≤K。
步骤232:根据第一全连接结果,确定第k个原因位置描述数据;其中,k为正整数,k≤K。
上述“第k个原因位置描述数据”用于表示待使用文本携带的与第k个候选因果事件 类型相关的原因事件所处位置。
另外,本申请实施例不限定上述“第k个原因位置描述数据”,例如,其可以包括第k个起始位置描述数据和第k个结束位置描述数据。其中,“第k个起始位置描述数据”用于 表示待使用文本携带的与第k个候选因果事件类型相关的原因事件所处位置的起点。“第k 个结束位置描述数据”用于表示待使用文本携带的与第k个候选因果事件类型相关的原因 事件所处位置的终点。
此外,本申请实施例不限定上述“第k个原因位置描述数据”的确定过程,例如,当上述“第k个原因位置描述数据”包括第k个起始位置描述数据和第k个结束位置描述数 据时,该“第k个原因位置描述数据”可以借助公式(3)-(4)进行确定。
基于上述步骤23的相关内容可知,对于上述“第一指针网络”来说,其可以借助一个 全连接层、一个头指针网络以及一个尾指针网络,确定待使用文本携带的与第k个候选因 果事件类型相关的原因事件的起始位置以及结束位置(如图3所示)。其中,k为正整数,k≤K,K为正整数。需要说明的是,上述“全连接层”用于实现上述公式(2);上述“头 指针网络”用于实现上述公式(3);上述“尾指针网络”用于实现上述公式(4)。
步骤24:根据原因位置描述数据和原因确定网络,确定至少一个待使用原因事件。
上述“原因确定网络”用于针对该原因确定网络的输入数据进行原因事件解析处理。
实际上,对于一个文本数据中所出现的多个原因事件来说,这些原因事件可能属于以 下两种情况中的任意一种;而且该两种情况具体为:①不同原因事件可以与不同候选因果 事件类型相关(例如,一个原因事件与帮扶相关、一个原因事件与并购相关、……)。②一 些原因事件可能均与同一个候选因果事件类型相关(例如,两个原因事件均与帮扶相关、 一个原因事件与并购相关、……)。
对于上述第一种情况来说,因不同候选因果事件类型下的原因事件是由不同的原因位 置描述数据进行位置表示的,使得该原因确定网络可以针对不同候选因果事件类型下的原 因事件进行独立解析,如此使得该原因确定网络能够准确地从文本数据中提取出这些原因 事件。然而,对于上述第二种情况来说,因同一候选因果事件类型下的多个原因事件均是 由同一个原因位置描述数据进行位置表示的,故为了能够准确地解析出同一候选因果事件 类型下的多个原因事件,该原因确定网络可以采用最短路径的位置解析准则进行实施。
为了便于理解,下面结合示例进行说明。
作为示例,当上述“原因位置描述数据”的个数为K,且第k个原因位置描述数据包括第k个起始位置描述数据和第k个结束位置描述数据时,步骤24具体可以包括步骤241-步骤243:
步骤241:若第k个原因位置描述数据满足预设无原因条件,则舍弃该第k个原因位置描述数据。其中,k为正整数,k≤K。
上述“预设无原因条件”可以预先设定,例如,其具体可以包括:上述“第k个起始位置描述数据”中不存在预设起始位置标记符(例如,图3所示的“1”),以使该“第k个 起始位置描述数据”表示待使用文本中不存在原因起始位置。
可见,在获取到第k个原因位置描述数据之后,若该第k个原因位置描述数据中没有 出现预设起始位置标记符,则可以确定该“第k个起始位置描述数据”表示待使用文本没有携带与第k个候选因果事件类型相关的原因事件,从而可以确定该待使用文本与该第k个候选因果事件类型无关,故可以直接舍弃该第k个原因位置描述数据即可。其中,k为 正整数,k≤K。
步骤242:若第k个原因位置描述数据满足预设单原因条件,则根据第k个起始位置描述数据和第k个结束位置描述数据,从待使用文本中抽取一个待使用原因事件。其中,k为正整数,k≤K。
上述“预设单原因条件”可以预先设定,例如,其具体可以包括:预设起始位置标记符在第k个起始位置描述数据中只出现了一次,以使该“第k个起始位置描述数据”表示 待使用文本中存在一个原因起始位置。
可见,在获取到第k个原因位置描述数据之后,若该第k个原因位置描述数据中只出 现了一个预设起始位置标记符,则可以确定该“第k个起始位置描述数据”表示待使用文本只携带有一个与第k个候选因果事件类型相关的原因事件,故可以先根据第k个起始位置描述数据和第k个结束位置描述数据,分别确定一个原因起始位置以及一个原因结束位置;再按照该原因起始位置以及该原因结束位置,从待使用文本中抽取一个待使用原因事件,以使被抽取到的待使用原因事件与该第k个候选因果事件类型相关。其中,k为正整 数,k≤K。
步骤243:若第k个原因位置描述数据满足预设多原因条件,则根据第k个起始位置描述数据和第k个结束位置描述数据,从待使用文本中抽取多个待使用原因事件。其中,k为正整数,k≤K。
上述“预设多原因条件”可以预先设定,例如,其具体可以包括:预设起始位置标记符在第k个起始位置描述数据中出现了至少两次(如图4所示),以使该“第k个起始位置 描述数据”表示待使用文本中存在至少两个原因起始位置。
另外,本申请实施例不限定步骤243的实施方式,例如,其具体可以包括步骤2431-步骤2433:
步骤2431:根据第k个起始位置描述数据,确定至少两个原因起始位置。其中,k为正整数,k≤K。
本申请实施例中,在获取到第k个起始位置描述数据之后,若确定该第k个起始位置 描述数据中存在多处预设起始位置标记符,则可以将该第k个起始位置描述数据中各个预 设起始位置标记符所处位置,分别确定为各个原因起始位置。例如,如图4所示,当上述“预设起始位置标记符”为1时,可以将待使用文本中第6个字符位置(也就是,以5作 为字符编号的字符位置)以及第10个字符位置(也就是,以9作为字符编号的字符位置), 分别确定为原因起始位置。
步骤2432:根据各原因起始位置和第k个结束位置描述数据,确定各原因起始位置对 应的原因结束位置。其中,k为正整数,k≤K。
其中,“第n个原因起始位置”用于表示上述“第k个原因位置描述数据”携带的第n个原因事件所处位置的起点。其中,n为正整数,n≤N,N为正整数,N表示上述“第k 个起始位置描述数据”所表示的原因起始位置的个数。
“第n个原因起始位置对应的原因结束位置”用于表示上述“第k个原因位置描述数据”所表示的第n个原因事件所处位置的终点。
另外,上述“第n个原因起始位置对应的原因结束位置”是根据该第n个原因起始位置以及第k个结束位置描述数据确定的;而且本申请实施例不限定该“第n个原因起始位 置对应的原因结束位置”的确定过程,为了便于理解,下面结合示例进行说明。
作为示例,当上述“第k个起始位置描述数据”表示待使用文本中存在N个原因起始位置时,上述“第n个原因起始位置对应的原因结束位置”的确定过程具体可以包括步骤24321-步骤24322:
步骤24321:根据第n个原因起始位置和第k个结束位置描述数据,确定至少一个候选结束位置,以使各个候选结束位置均比该第n个原因起始位置靠后。其中,n为正整数, n≤N,N为正整数,2≤N。
本申请实施例中,在获取到第k个结束位置描述数据之后,可以先将该第k个结束位 置描述数据中各个预设结束位置标记符所处位置,分别确定为各个结束标记位置;再将这 些结束标记位置中筛选出那些位于第n个原因起始位置后面的各个结束标记位置,均确定 为候选结束位置。例如,如图4所示,当上述“预设结束位置标记符”为1,且上述“第n 个原因起始位置”为图4所示的“第一起始位置”时,可以将待使用文本中第9个字符位 置以及第13个字符位置,分别确定为候选结束位置。
步骤24322:从至少一个候选结束位置中筛选出目标结束位置,确定为第n个原因起 始位置对应的原因结束位置。其中,n为正整数,n≤N,N为正整数,2≤N。
上述“目标结束位置”用于表示与第n个原因起始位置相匹配的候选结束位置。
另外,上述“目标结束位置”满足以下条件:该“目标结束位置”与该第n个原因起始位置之间的距离不高于上述“至少一个候选结束位置”中除了目标结束位置以外的其他任意一个候选结束位置与第n个原因起始位置之间的距离。为了便于理解,下面结合示例进行说明。
作为示例,当上述“第n个原因起始位置”为图4所示的“第一起始位置”时,因第 一结束位置与该第一起始位置之间的距离小于该第一结束位置与第二起始位置之间的距离,故可以将该第一结束位置,确定为该第n个原因起始位置对应的原因结束位置。
基于上述步骤2432的相关内容可知,在获取到上述“第k个起始位置描述数据”所表 示的第n个原因起始位置之后,可以根据该第n个原因起始位置以及第k个结束位置描述数据,确定该第n个原因起始位置对应的原因结束位置,以使该“第n个原因起始位置对 应的原因结束位置”与该第n个原因起始位置之间连接路径满足最短路径准则,如此有利 于提高原因事件所处位置的确定准确性。其中,n为正整数,n≤N,N为正整数,2≤N。
步骤2433:按照各原因起始位置和各原因起始位置对应的原因结束位置,从待使用文 本中抽取各待使用原因事件。其中,k为正整数,k≤K。
本申请实施例中,在获取到上述“第k个起始位置描述数据”所表示的第n个原因起始位置、以及该第n个原因起始位置对应的原因结束位置之后,可以按照该第n个原因起 始位置、以及该第n个原因起始位置对应的原因结束位置,对待使用文本进行字符抽取处 理,得到一个待使用原因事件。其中,n为正整数,n≤N,N为正整数,2≤N。
基于上述步骤243的相关内容可知,在确定第k个原因位置描述数据满足预设多原因 条件之后,可以根据该第k个原因位置描述数据,按照最短路径准则从待使用文本中抽取 多个待使用原因事件,以使被抽取到的各个待使用原因事件均与该第k个候选因果事件类 型相关,如此能够实现针对同一候选因果事件类型下的多个原因事件的解析处理。其中,k 为正整数,k≤K。
基于上述步骤24的相关内容可知,对于原因事件抽取模型中原因确定网络来说,其可 以按照多种规则,对各个候选因果事件类型对应的原因位置描述数据进行解析处理,得到 待使用文本中所携带的至少一个候选因果事件类型下的原因事件,如此有利于提高原因事 件的抽取效果。
基于上述“原因事件抽取模型”的相关内容可知,因该原因事件抽取模型是借助BERT+ 指针网络的方式进行实现的,使得该原因事件抽取模型能够针对一个文本数据所携带的多 个原因事件进行抽取,如此有利于实现多组因果事件的抽取处理。
另外,上述“原因事件抽取模型”可以预先根据第三样本文本和该第三样本文本的标 签信息进行构建。其中,“第三样本文本的标签信息”用于表示该第三样本文本中实际存在 的原因事件;而且本申请实施例不限定该“第三样本文本的标签信息”的获取方式,例如, 可以通过人工标注方式进行实施。需要说明的是,本申请实施例不限定上述“原因事件抽 取模型”的构建过程,可以采用现有的或者未来出现的任一种模型构建方法进行实施。
基于上述S2的相关内容可知,在获取到待使用文本之后,可以由原因事件抽取模型针 对该待使用文本进行原因事件抽取处理,得到并输出至少一个待使用原因事件,以使这些 待使用原因事件能够表示出该待使用文本所携带的原因事件。其中,因原因事件抽取模型 具有较好的多原因事件抽取功能,使得基于该原因事件抽取模型抽取所得的至少一个待使 用原因事件,能够更准确且更全面地表示出该待使用文本所携带的原因事件,如此有利于 提高原因事件的抽取效果,从而有利于提高因果关系图谱的构建效果。
方法实施例四
另外,为了提高结果事件的提取效果,本申请实施例还提供了上文S3的一种可能的实 施方式,为了便于理解,下面以上文“第j个待使用原因事件对应的结果事件”的确定过 程进行说明。其中,j为正整数,j≤J,J为正整数。
作为示例,“第j个待使用原因事件对应的结果事件”的确定过程,具体可以包括步骤 41-步骤42:
步骤41:根据第j个待使用原因事件和待使用文本,确定第一文本特征。
上述“第一文本特征”用于表示待使用文本携带的文本信息以及第j个待使用原因事 件携带的文本信息。
另外,本申请实施例不限定上述“第一文本特征”的确定过程,例如,其可以采用公式(5)-(6)所示的文本特征进行实施。
式中,表示第一文本特征;表示第j个待使用原因事件的词嵌入向量; 表示待使用文本的词嵌入向量;表示待使用文本的位置描述向量;表 示第j个待使用原因事件的文本位置标识数据的表征向量,以使该用于表示该第 j个待使用原因事件在待使用文本中所处位置;E[CLS]表示[CLS]的词嵌入向量;E[SEP]表示 [SEP]的词嵌入向量。需要说明的是,本申请实施例不限定上述的确定过程,例如, 可以借助word2vec进行实施。另外,[CLS]与[SEP]的相关内容请参见BERT算法。
上述“第j个待使用原因事件的文本位置标识数据”用于描述该第j个待使用原因事件 在待使用文本中所处位置;而且本申请实施例不限定该“第j个待使用原因事件的文本位 置标识数据”,例如,其可以类似于图5所示的文本位置标识数据。
基于上述公式(5)-(6)所示的第一文本特征可知,该第一文本特征不仅能够表示出 该待使用文本携带的文本信息,还能够表示出第j个待使用原因事件携带的文本信息、以 及该第j个待使用原因事件在待使用文本中所处位置,如此有利于辅助提高下文“事件元 素抽取模型”的结果事件抽取能力,从而使得该“事件元素抽取模型”能够更容易从待使用文本中抽取到该第j个待使用原因事件对应的结果事件。
步骤42:将第一文本特征输入预先构建的事件元素抽取模型,得到该事件元素抽取模 型输出的事件元素抽取结果。
上述“事件元素抽取结果”用于表示第j个待使用原因事件对应的事件元素(例如,结果事件、事件角色等)。需要说明的是,上述“事件角色”是指一个因果事件所涉及的各 个角色;而且该“事件角色”可以包括主体以及客体(如图1所示)。
另外,上述“事件元素抽取结果”可以包括该第j个待使用原因事件对应的结果事件、 以及该第j个待使用原因事件对应的事件角色中的至少一个。其中,“第j个待使用原因事 件对应的事件角色”用于表示该第j个待使用原因事件(以及该第j个待使用原因事件对应 的结果事件)所涉及的各个角色。
上述“事件元素抽取模型”用于针对该事件元素抽取模型的输入数据进行事件元素抽 取处理(例如,结果事件抽取处理、事件角色抽取处理等);而且本申请实施例不限定该“事 件元素抽取模型”,例如,其可以是一种机器学习模型。
另外,本申请实施例不限定上述“事件元素抽取模型”的模型结构,例如,该“事件元素抽取模型”可以包括第二编码层和第二解码层;而且该第二解码层的输入数据包括该第二编码层的输出数据(如图5所示)。
上述“第二编码层”用于针对该第二编码层的输入数据进行编码处理;而且本申请实 施例不限定该“第二编码层”,例如,其可以是现有的或者未来出现的任一种编码网络(例 如,BERT)进行实施。
上述“第二解码层”用于针对该第二解码层的输入数据进行解码处理;而且本申请实 施例不限定该“第二解码层”的实施方式,为了便于理解,下面结合两种情况进行说明。
情况1,当上述“事件元素抽取模型”用于针对该事件元素抽取模型的输入数据进行 结果事件抽取处理时,该“事件元素抽取模型”中第二解码层可以包括第二指针网络和结 果确定网络;而且该第二指针网络的输入数据包括第二编码层的输出数据,该结果确定网 络的输入数据包括该第二指针网络的输出数据。
为了便于理解上述“第二解码层”的工作原理,下面以上文“第j个待使用原因事件对应的结果事件”的确定过程为例进行说明。
作为示例,利用上述“第二解码层”确定“第j个待使用原因事件对应的结果事件”过程,具体可以包括步骤51-步骤53:
步骤51:将第一文本特征输入第二编码层,得到该第二编码层输出的第二编码特征。
本申请实施例中,对于具有结果事件抽取功能的事件元素抽取模型来说,在将第一文 本特征输入该事件元素抽取模型之后,由该事件元素抽取模型中第二编码层针对该第一文 本特征进行编码处理,得到并输出第二编码特征,以使该第二编码特征用于表示待使用文 本携带的文本信息以及第j个待使用原因事件的相关信息。
步骤52:将第二编码特征输入第二指针网络,得到该第二指针网络输出的结果位置描 述数据。
上述“结果位置描述数据”用于表示由第j个待使用原因事件所导致的后果在待使用 文本中所处位置;而且本申请实施例不限定该“结果位置描述数据”,例如,其可以包括结 果起点位置描述数据和结果终点位置描述数据。其中,“结果起点位置描述数据”用于表示 由第j个待使用原因事件所导致的后果在待使用文本中所处位置的起点。“结果终点位置描 述数据”用于表示由第j个待使用原因事件所导致的后果在待使用文本中所处位置的终点。
上述“第二指针网络”用于针对该第二指针网络的输入数据进行结果事件定位处理。
另外,本申请实施例不限定该“第二指针网络”的实施方式,例如,其可以采用上文“第一指针网络”的任一实施方式进行实施。可见,上述“第二指针网络”可以采用公式 (7)-(9)进行实施。
式中,表示上述“结果起点位置描述数据”;表示上述“结果终点 位置描述数据”;表示第二编码特征;以及均是 第二指针网络中的网络参数,而且这些网络参数均可以在上述“事件元素抽取模型”的构 建过程进行更新确定。
基于上述步骤52的相关内容可知,对于上述“第二指针网络”来说,其可以借助一个 全连接层、一个头指针网络以及一个尾指针网络,确定第j个待使用原因事件所导致的后 果在待使用文本中所处位置的起点以及终点。需要说明的是,上述“全连接层”用于实现上述公式(7);上述“头指针网络”用于实现上述公式(8);上述“尾指针网络”用于实 现上述公式(9)。
步骤53:根据结果位置描述数据和结果确定网络,确定第j个待使用原因事件对应的 结果事件。
其中,上述“结果确定网络”用于针对该结果确定网络的输入数据进行结果事件解析 处理。
需要说明的是,步骤53的实施方式类似于上文步骤24的实施方式。
基于上述步骤51至步骤53所示的事件元素抽取模型可知,在一些情况下,该事件元 素抽取模型可以借助一个BERT以及一个指针网络,实现结果事件抽取功能,以使该事件元素抽取模型具有较好的结果事件抽取能力,从而使得利用该事件元素抽取模型抽取所得的第j个待使用原因事件对应的结果事件,能够更准确且完整地表示出由该第j个待使用原因事件导致的后果,如此有利于提高结果事件的抽取效果,从而有利于提高因果关系图谱的构建效果。
情况2,为了进一步提高因果关系图谱的元素多样性,上述“事件元素抽取模型”可以还具有事件角色抽取功能。基于此,本申请实施例还提供了上述“事件元素抽取模型” 的另一种可能的实施方式,在该实施方式中,该“事件元素抽取模型”中第二解码层不仅 包括第二指针网络和结果确定网络,可以还包括第三指针网络和事件角色确定网络。
为了便于理解上述“第二解码层”的工作原理,下面以上文“第j个待使用原因事件对应的事件角色”的确定过程为例进行说明。
作为示例,“第j个待使用原因事件对应的事件角色”的确定过程,具体可以包括步骤 54-步骤55:
步骤54:将第二编码特征输入第三指针网络,得到该第三指针网络输出的事件角色识 别结果。
上述“第二编码特征”的相关内容请参见上文步骤51。
上述“事件角色识别结果”用于表示第j个待使用原因事件所涉及的各个角色在待使 用文本中所处位置;而且为了更好的区分不同角色,可以在该“事件角色识别结果”中采用不同标记符号来标记不同角色所处位置。例如,对于当待使用文本为图1所示的文本1,且该第j个待使用原因事件为“某国,帮扶某企”时,该“事件角色识别结果”可以为[1 1 0 00 2 2 0 0 0 0 0 0 0]。其中,“1”来标记主体;“2”来标记客体。
上述“第三指针网络”针对该第二指针网络的输入数据进行事件角色识别处理;而且 本申请实施例不限定该“第三指针网络”的工作原理,例如,其可以采用公式(7)以及公式(10)进行实施。
基于上述步骤54的相关内容可知,对于上述“第三指针网络”来说,其可以借助全连 接层以及softmax函数,从待使用文本中识别第j个待使用原因事件所涉及的各个角色,得 到事件角色识别结果,以使该事件角色识别结果能够表示出第j个待使用原因事件所涉及 的各个角色在待使用文本中所处位置。
步骤55:根据事件角色识别结果和事件角色确定网络,确定第j个待使用原因事件对 应的事件角色。
本申请实施例中,对于事件元素抽取模型来说,在获取到事件角色识别结果之后,可 以由该事件元素抽取模型中事件角色确定网络,按照该事件角色识别结果,从待使用文本 中第j个待使用原因事件所涉及的各个角色,得到该第j个待使用原因事件对应的事件角色。
基于上述步骤54至步骤55的相关内容可知,在一些情况下,该事件元素抽取模型可 以借助一个BERT以及两个指针网络,实现结果事件抽取功能以及事件角色抽取功能,以使该事件元素抽取模型具有较好的结果事件抽取能力以及事件角色抽取能力,以便后续能够一个文本数据中因果事件及其事件角色,构建因果关系图谱,如此有利于提高该因果关系图谱的构建效果。
基于上述“事件元素抽取模型”的相关内容可知,因该事件元素抽取模型是借助BERT+ 至少一个指针网络的方式进行实现的,使得该事件元素抽取模型能够针对一个文本数据所 携带的第j个待使用原因事件对应的事件元素进行抽取,如此有利于提高事件信息的提取 效果。
另外,上述“事件元素抽取模型”可以预先根据第四样本文本、该第四样本文本中原 因事件和该第四样本文本的标签信息进行构建。其中,“第四样本文本的标签信息”用于表 示该第四样本文本中原因事件实际对应的结果事件(以及事件角色);而且本申请实施例不 限定该“第四样本文本的标签信息”的获取方式,例如,可以通过人工标注方式进行实施。
需要说明的是,本申请实施例不限定上述“事件元素抽取模型”的构建过程,可以采 用现有的或者未来出现的任一种模型构建方法进行实施。
此外,为了进一步提高因果事件的抽取效果,上述“事件元素抽取模型”与上文“原因事件抽取模型”可以进行联合构建(例如,可以先参考“事件元素抽取模型”的模型结 构和“原因事件抽取模型”的模型结构,生成一个联合模型;再借助该联合模型的训练过 程,实现针对该“事件元素抽取模型”与该“原因事件抽取模型”的构建过程);而且该联 合构建过程是根据第五样本文本和该第五样本文本的标签信息进行实施。其中,“第五样本 文本的标签信息”用于表示该第五样本文本中实际存在的至少一组因果事件以及该至少一 组因果事件的事件角色。
基于上述S3的相关内容可知,在获取到待使用文本中第j个待使用原因事件之后,可 以由事件元素抽取模型参考该待使用文本、该第j个待使用原因事件、以及该第j个待使用 原因事件的文本位置标识数据,确定并输出该第j个待使用原因事件对应的结果事件以及 事件元素,以便后续能够参考该第j个待使用原因事件、该第j个待使用原因事件对应的结 果事件以及事件元素,构建因果关系图谱,如此有利于提高因果关系图谱的构建效果。
另外,对于本申请实施例提供的图谱构建方法来说,在获取到至少一个待使用原因事 件对应的结果事件以及事件角色之后,上述S4具体可以包括:根据至少一个待使用原因事 件、该至少一个待使用原因事件对应的结果事件、以及该至少一个待使用原因事件对应的 事件角色,确定因果事件图谱。
可见,在获取到J个待使用原因事件、该J个待使用原因事件对应的结果事件以及事 件角色之后,可以先将该第j个待使用原因事件、该第j个待使用原因事件对应的结果事件、 以及该第j个待使用原因事件对应的事件角色进行组合,得到第j个因果事件四元组;j为 正整数,j≤J;再利用第1个因果事件四元组至第J个因果事件四元组,构建一个新的因果 事件图谱(或者,更新一个已有的因果事件图谱),以使构建好的因果事件图谱能够记录该 J个因果事件四元组。
需要说明的是,上述“因果事件四元组”可以表示(原因事件,结果事件,主体,客体)。
基于上述S3至S4的相关内容可知,对于一些情况来说,在获取到待使用文本之后,可以先借助上文“原因事件抽取模型”以及上文“事件元素抽取模型”,从待使用文本中抽取至少一个因果事件四元组;再利用这些因果事件四元组,构建一个新的因果事件图谱(或者,更新一个已有的因果事件图谱),以使构建好的因果事件图谱能够记录该J个因果事件四元组,如此有利于提高因果事件图谱的信息全面性,从而有利于提高因果关系图谱的构建效果。
方法实施例五
另外,为了提高因果事件图谱的信息表达效果,该因果事件图谱可以按照因果事件聚 合的方式进行信息表达。基于此,本申请实施例还提供了上述S4的另一种可能的实施方式, 其具体可以包括S41-S43:
S41:根据至少一个待使用原因事件和至少一个参考原因事件,确定多个待聚类原因事 件。
上述“至少一个参考原因事件”是指在构建因果事件图谱时所需参考的原因事件;而 且本申请实施例不限定该“至少一个参考原因事件”的获取过程,为了便于理解,下面结合两种情况进行说明。
情况1,当利用待使用文本构建一个新的因果事件图谱时,上述“至少一个参考原因 事件”可以包括Y个参考文本中至少一个原因事件。需要说明的是,“第y个参考文本中至少一个原因事件”的获取过程与上文“至少一个待使用原因事件”的获取过程相同;而 且“第y个参考文本”的获取过程与上文“待使用文本”的获取过程相同。其中,y为正 整数,y≤Y,Y为正整数。
情况2,当利用待使用文本更新一个已有的因果事件图谱时,上述“至少一个参考原 因事件”可以包括该“已有的因果事件图谱”中所记录的全部或者部分原因事件。
上述“待聚类原因事件”用于表示需要进行聚类处理的原因事件。
另外,本申请实施例不限定S41的实施方式,例如,其具体可以包括:将各个待使用原因事件均确定为待聚类原因事件,并将各个参考原因事件均确定为待聚类原因事件。
S42:根据多个待聚类原因事件的语义特征,对该多个待聚类原因事件进行聚类处理, 得到至少一个原因事件簇。
其中,第r个待聚类原因事件的语义特征用于表示该第r个待聚类原因事件的语义信息。
另外,本申请实施例不限定上述“第r个待聚类原因事件的语义特征”的获取方式,例如,其可以采用现有的或者未来出现的任意一种语义特征提取方法进行实施。又如,为了提高语义特征的提取效果,其可以采用下文方法实施例六所示的确定上述“第r个待聚类原因事件的语义特征”的任意一种可能的实施方式进行实施。
上述“原因事件簇”用于记录某一类原因事件。可见,对于上述“至少一个原因事件簇”来说,每个原因事件簇均包括至少一个待聚类原因事件。
另外,本申请实施例不限定上述“至少一个原因事件簇”的确定过程,例如,可以采用现有的或者未来出现的任意一种聚类方法(例如,k-means、x-means、以及基于密度的 聚类方法等)进行实施。
此外,为了提高原因事件聚类效果,本申请实施例还提供了确定上述“至少一个原因 事件簇”的一种可能的实施方式,其具体可以包括S421-S422:
S421:对多个待聚类原因事件进行第一聚类处理,得到至少一个待处理事件簇。
上述“第一聚类处理”用于针对上述“多个待聚类原因事件”进行粗聚合处理(例如, 针对字面表达比较相近的原因事件进行聚合处理等);而且本申请实施例不限定该“第一聚 类处理”的实施方式,例如,其具体可以包括S42101-S42110:
S42101:初始化i。
本申请实施例不限定S42101的实施方式,例如,其具体可以为:将预设初始值1,确定为i(也就是,i=1)。
S42102:根据多个待聚类原因事件,初始化待抽取事件集合。
本申请实施例不限定S42102的实施方式,例如,其具体可以为:将上述“多个待聚类 原因事件”进行集合处理,得到待抽取事件集合,以使该待抽取事件集合包括所有待聚类 原因事件。
S42103:根据待抽取事件集合,确定目标原因事件和至少一个候选原因事件。
上述“目标原因事件”用于表示下文“第i个待处理事件簇”中的第一个成员。
上述“至少一个候选原因事件”是指可能加入下文“第i个待处理事件簇”的原因事件,以使该“至少一个候选原因事件”用于表示下文“第i个待处理事件簇”的可选成员。
另外,本申请实施例不限定S42103的实施方式,例如,其具体可以包括:先从待抽取 事件集合中随机抽取一个待聚类原因事件,确定为目标原因事件;再将该待抽取事件集合 中除了该目标原因事件以外的其他各个待聚类原因事件,均确定为各个候选原因事件。
S42104:根据目标原因事件,确定第i个待处理事件簇。
本申请实施例中,在获取到目标原因事件之后,根据该目标原因事件,初始化第i个 待处理事件簇,以使该第i个待处理事件簇包括该目标原因事件,从而使得该目标原因事 件成为该第i个待处理事件簇中的第一个成员。
S42105:根据各候选原因事件的哈希值与目标原因事件的哈希值之间的距离,确定至 少一个候选原因事件中是否存在待聚合原因事件;若是,则执行S42106-S42107;若否,则 执行S42108。
其中,第g个候选原因事件的哈希值用于表示该第g个候选原因事件所携带的字符信 息。g为正整数,g≤G,G为正整数,G表示候选原因事件的个数。
另外,本申请实施例不限定上述“第g个候选原因事件的哈希值”的确定过程,例如, 其具体可以包括:先对该第g个候选原因事件进行分词处理,得到该第g个候选原因事件 的分词结果;再利用预设哈希值算法,对该第g个候选原因事件的分词结果进行哈希值计 算处理,得到该第g个候选原因事件的哈希值。
需要说明的是,本申请实施例不限定上述“分词处理”的实施方式,例如,可以借助语言技术平台(Language Technology Plantform,LTP)进行实施。另外,本申请实施例也不限 定上述“预设哈希值算法”,例如,其可以是现有的或者未来出现的任一种哈希值计算方法 (例如,simhash算法等)。
上述“目标原因事件的哈希值”用于表示该目标原因事件所携带的字符信息;而且该 “目标原因事件的哈希值”的确定过程类似于上文“第g个候选原因事件的哈希值”的确定过程。
上述“第g个候选原因事件的哈希值与目标原因事件的哈希值之间的距离”用于表示 该第g个候选原因事件与该目标原因事件之间的语义相似度;而且本申请实施例不限定该 “第g个候选原因事件的哈希值与目标原因事件的哈希值之间的距离”的确定过程,例如, 可以借助任意一种距离计算方法(例如,汉明距离、欧式距离、余弦距离等)进行实施。
上述“待聚合原因事件”用于表示需要加入下文“第i个待处理事件簇”的原因事件; 而且该“待聚合原因事件”的哈希值与目标原因事件的哈希值之间的距离满足预设距离条 件。
上述“预设距离条件”可以预先设定,例如,若上述“第g个候选原因事件的哈希值与目标原因事件的哈希值之间的距离”是借助汉明距离进行确定的,则该“预设距离条件”具体可以为:待聚合原因事件的哈希值与目标原因事件的哈希值之间的距离不高于第一距离阈值(例如,≤3)。
可见,对于第g个候选原因事件来说,在获取到上述“第g个候选原因事件的哈希值与目标原因事件的哈希值之间的距离”之后,若确定该第g个候选原因事件的哈希值与目标原因事件的哈希值之间的距离”满足预设距离条件(例如,汉明距离≤3),则可以确定 该第g个候选原因事件的语义信息与该目标原因事件的语义信息比较相似,故可以将该第 g个候选原因事件,确定为待聚合原因事件;若确定该第g个候选原因事件的哈希值与目 标原因事件的哈希值之间的距离”不满足预设距离条件(例如,汉明距离>3),则可以确 定该第g个候选原因事件的语义信息与该目标原因事件的语义信息相差较远,故可以舍弃 该第g个候选原因事件即可。其中,g为正整数,g≤G,G为正整数,G表示候选原因事 件的个数。
基于上述S42105的相关内容可知,在获取到目标原因事件以及至少一个候选原因事件 之后,可以参考目标原因事件与各个候选原因事件之间的语义相似程度,确定这些候选原 因事件中是否存在待聚合原因事件;若存在,则可以将这些待聚合原因事件添加至第i个 待处理事件簇;若不存在,则可以直接执行待抽取事件集合的更新过程即可。
S42106:将待聚合原因事件添加至第i个待处理事件簇。
本申请实施例中,若确定上述“至少一个候选原因事件”中存在至少一个待聚合原因 事件,则将这些候选原因事件均添加至第i个待处理事件簇,以使这些候选原因事件均成 为该第i个待处理事件簇中的成员,如此使得该第i个待处理事件簇能够更好地代表某一原 因语义(例如,帮扶等)。
S42107:从待抽取事件集合中删除目标原因事件以及至少一个待聚合原因事件,并继 续执行S42109。
本申请实施例中,在获取到目标原因事件以及至少一个待聚合原因事件之后,可以直 接从待抽取事件集合中删除该目标原因事件以及所有待聚合原因事件,以使该待抽取事件 集合不再包括该目标原因事件以及所有待聚合原因事件,从而使得该待抽取事件集合不再 包括上述“第i个待处理事件簇”所涉及的原因事件,如此使得该待抽取事件集合能够被 用于生成下一个待处理事件簇。
S42108:从待抽取事件集合中删除目标原因事件,并继续执行S42109。
S42109:判断是否达到第一停止条件,若是,则执行S422;若否,则执行S42110。
上述“第一停止条件”可以预先设定;而且本申请实施例不限定该“第一停止条件”, 例如,其具体可以为:待抽取事件集合为空集(也就是,所有待聚类原因事件均已被划分 到某一待处理事件簇中)。
可见,在针对待抽取事件集合进行更新完成之后,可以判断更新后的待抽取事件集合 是否为空集,若是空集,则确定所有待聚类原因事件均已被划分到某一待处理事件簇中, 从而可以确定针对这些待聚类原因事件的粗聚合过程已完成,故可以结束第一聚类处理, 并开始执行下文所示的第二聚类处理;若不是空集,则确定依旧存在一些待聚类原因事件 未被划分到任何待处理事件簇中,从而可以基于更新后的待抽取事件集合,生成下一个待 处理事件簇。
S42110:更新i,并返回执行S42103。
本申请实施例不限定S42110的实施方式,例如,其具体可以包括:利用公式(11)更新i,并继续执行S42103及其后续步骤。
i′=i+1 (11)
式中,i′表示更新后i。
可见,在确定未达到第一停止条件时,可以确定依旧存在一些待聚类原因事件未被划 分到任何待处理事件簇中,故可以利用公式(11)更新i,以使更新后i表示下一个待处理 事件簇的簇标识,以便后续能够参考更新后的待抽取事件集合,继续执行S42103及其后续 步骤,以生成下一个待处理事件簇。
基于上述S421的相关内容可知,在获取到多个待聚类原因事件之后,可以针对这些待 聚类原因事件进行第一聚类处理,得到至少一个待处理事件簇,以使各个待处理事件簇中 均包括语义相似的原因事件(例如,“对某企进行帮扶”、“将某企进行了帮扶”、“帮扶某企” 等),如此有利于降低后续语义聚合处理的复杂度,从而有利于提高原因事件的聚类效果。
S422:根据至少一个待处理事件簇、以及多个待聚类原因事件的语义特征,对该多个 待聚类原因事件进行第二聚类处理,得到至少一个原因事件簇。
上述“第二聚类处理”用于针对上述“多个待聚类原因事件”进行语义聚合处理(例如,针对类似于“某企被帮扶”、以及“提倡某企”等语义相近的原因事件进行聚类处理等)。
另外,本申请实施例不限定上述“第二聚类处理”的实施方式,例如,其可以采用现有的或者未来出现的任一种聚类方法(例如,Louvain算法等)进行实施。其中,Louvain算法是一种基于模块度的社区发现算法,该算法在效率和效果上都表现较好,并且能够发现层次性的社区结构,其优化目标是最大化整个社区网络的模块度。
为了便于理解上述“第二聚类处理”,下面结合示例进行说明。
作为示例,当上述“第二聚类处理”采用Louvain算法进行实施时,S422具体可以包括S4221-S4227:
S4221:从至少一个待处理事件簇中确定至少一个目标事件簇,以使各目标事件簇均满 足预设保留条件。
上述“预设保留条件”可以预先设定。例如,上述“预设保留条件”具体可以为:事件个数高于预设阈值(例如,3)。可见,对于第h个待处理事件簇来说,若该第h个待处 理事件簇中的原因事件个数高于预设阈值,则可以确定该第h个待处理事件簇满足预设保 留条件;若该第h个待处理事件簇中的原因事件个数不高于预设阈值(也就是,≤预设阈 值),则可以确定该第h个待处理事件簇不满足预设保留条件。其中,h为正整数,h≤H, H为正整数,H表示待处理事件簇的个数。
上述“目标事件簇”是指满足预设保留条件的待处理事件簇;而且本申请实施例不限 定该“目标事件簇”的确定过程,例如,其具体可以包括:若第h个待处理事件簇满足预设保留条件,则将该第h个待处理事件簇确定为目标事件簇;若第h个待处理事件簇不满 足预设保留条件,则解散该第h个待处理事件簇,以使该第h个待处理事件簇中所有原因 事件恢复成单个原因事件节点,以便后续能够基于这些目标事件簇、以及这些原因事件节 点,进行社区初始化处理。其中,h为正整数,h≤H,H为正整数,H表示待处理事件簇 的个数。
S4222:根据至少一个目标事件簇和多个待聚类原因事件,确定至少一个簇社区和至少 一个节点社区。其中,簇社区包括至少两个待聚类原因事件。节点社区包括一个待聚类原 因事件。
作为示例,当上述“目标事件簇”的个数为V时,S4222具体可以包括S42221-S42223:
S42221:利用第v个目标事件簇,确定第v个簇社区,以使该第v个簇社区包括该第v个目标事件簇内所有原因事件。其中,v为正整数,v≤V,V为正整数。
S42222:根据V个目标事件簇和多个待聚类原因事件,确定至少一个原因事件节点。
上述“原因事件节点”用于表示不属于任何目标事件簇的待聚类原因事件。
另外,本申请实施例不限定S42222的实施方式,例如,其具体可以为:从上文“多个待聚类原因事件”中删除V个目标事件簇内所有原因事件,得到至少一个原因事件节点, 以使这些原因事件节点能够表示那些不属于任何目标事件簇的待聚类原因事件。
S42223:将各个原因事件节点分别确定为节点社区。
基于上述S4222的相关内容可知,在获取到至少一个目标事件簇之后,可以利用这些 目标事件簇以及上文“多个待聚类原因事件”,确定至少一个簇社区和至少一个节点社区, 以使各个簇社区均包括至少两个待聚类原因事件,且使得各个节点社区只包括一个待聚类 原因事件。
S4223:根据多个待聚类原因事件的语义特征、至少一个簇社区和至少一个节点社区, 初始化至少一个社区表征节点。
上述“社区表征节点”用于代表一个社区;而且本申请实施例不限定该“社区表征节 点”的确定过程,例如,其具体可以包括步骤一-步骤二:
步骤一:若目标社区包括至少两个待聚类原因事件,则将该目标社区中所有待聚类原 因事件的语义特征之间的平均值,确定为社区表征节点,以使该社区表征节点能够代表该 目标社区参与社区合并处理。
步骤二:若目标社区包括一个待聚类原因事件,则将该待聚类原因事件的语义特征, 确定为社区表征节点,以使该社区表征节点能够代表该目标社区参与社区合并处理。
需要说明的是,上述“目标社区”用于表示任意一个社区,例如,该“目标社区”可以是一个簇社区,也可以是一个节点社区。
基于上述S4223的相关内容可知,在获取到至少一个簇社区、以及至少一个节点社区 之后,可以依据上文“多个待聚类原因事件的语义特征”,确定出各个社区对应的社区表征 节点,以使各个社区对应的社区表征节点能够代表该目标社区参与社区合并处理。
S4224:根据至少一个社区表征节点,确定至少一个待处理社区。
作为示例,S4224可以采用最大化模块度收益的方式进行实施。基于此可知,S4224具体可以为:遍历所有社区表征节点,针对每个社区表征节点遍历该节点的所有邻居节点,衡量把该节点加入其邻居节点所在社区前后所带来的模块度收益,以便将该社区表征节点加入至具有最大收益的邻居节点所在社区;而且重复执行前述过程,直至每个社区表征节点的社区归属都不再发生变化时结束。
需要说明的是,上述“模块度”可以采用现有的Louvain算法中所涉及的模块度计算 公式(如公式(12)所示)进行实施。
式中,α表示边个数;Axz表示第x个社区表征节点与第z个社区表征节点之间的边权重;kx表示所有指向第x个社区表征节点的连边权重之和;kz表示所有指向第z个社区表 征节点的连边权重之和;δ(Cx,Cz)是一个函数,而且当第x个社区表征节点与第z个社区表 征节点属于同一个社区时,δ(Cx,Cz)=1,当第x个社区表征节点与第z个社区表征节点不 属于同一个社区时,δ(Cx,Cz)=0。
还需要说明的是,两个社区表征节点之间的距离可以借助余弦距离进行确定。
S4225:判断是否达到第二停止条件,若是,则执行S4227;若否,则执行S4226。
上述“第二停止条件”可以预先设定,例如,其具体可以包括:Louvain算法稳定(也就是,聚类结果达到稳定)。需要说明的是,上述“第二停止条件”可以是Louvain算法的 停止条件。
S4226:根据至少一个待处理社区,更新至少一个社区表征节点,并返回执行S4224。
本申请实施例中,在确定未达到第二停止条件之后,可以从各个待处理社区中抽象出 社区表征节点,得到更新后的至少一个社区表征节点,以便后续能够基于该“更新后的至 少一个社区表征节点”,继续执行S4224及其后续步骤,以实现下一轮聚类过程。
S4227:根据至少一个待处理社区,确定至少一个原因事件簇。
本申请实施例中,在确定达到第二停止条件之后,可以将各个待处理社区,分别确定 为各个原因事件簇,以便后续能够基于这些原因事件簇,构建因果事件图谱,以实现在保 证该因果事件图谱表述信息比较丰富的前提下减少该因果事件图谱中的节点个数,如此有 利于有效地降低该因果事件图谱的节点冗余,从而有利于提高该因果事件图谱的表达效果。
需要说明的是,上述S4221至S4227所示的聚类过程类似于现有的Louvain算法,故上述S4221至S4227所涉及的相关技术概念(例如,模块度、模块度收益等)可以参见Louvain算法。
基于上述S421至S422的相关内容可知,对于大量待聚类原因事件来说,可以借助粗 聚合与语义聚合的方式进行聚类处理(如图6所示),得到至少一个原因事件簇,以便后续 能够基于这些原因事件簇,构建因果事件图谱,以实现在保证该因果事件图谱表述信息比 较丰富的前提下减少该因果事件图谱中的节点个数,如此有利于有效地降低该因果事件图 谱的节点冗余,从而有利于提高该因果事件图谱的表达效果。
S43:根据至少一个原因事件簇、以及多个待聚类原因事件对应的结果事件,确定因果 事件图谱。
本申请实施例不限定S43的实施方式,例如,其具体可以为:先根据至少一个原因事 件簇,确定因果事件图谱中各个原因类型节点(例如,帮扶类、并购类等),以使各个原因类型节点下包括至少一个待聚类原因事件;再将各个待聚类原因事件对应的结果事件(以及事件角色),添加至该因果事件图谱,以使该因果事件图谱能够记录有大量因果关系(或者因果事件四元组)。
另外,因上述“原因事件簇”中可能会存在噪声数据,故为了提高因果事件图谱的表 达效果,本申请实施例还提供了S43的一种可能的实施方式,其具体可以包括S431-S432:
S431:对各原因事件簇进行噪声剔除处理,得到各去噪事件簇。
其中,第f个去噪事件簇是指针对第f个原因事件簇进行噪声剔除处理得到的,以使该 第f个去噪事件簇用于表示不包括噪声数据的第f个原因事件簇。f为正整数,f≤F,F为 正整数,F表示原因事件簇的个数。
另外,本申请实施例不限定上述“第f个去噪事件簇”的确定过程,例如,其具体可以包括S4311-S4315:
S4311:根据第f个原因事件簇中所有待聚类原因事件的语义特征,确定该第f个原因 事件簇中各待聚类原因事件的簇内位置表征数据。
其中,“第f个原因事件簇中第u个待聚类原因事件的簇内位置表征数据”用于表示该 第f个原因事件簇中第u个待聚类原因事件与该第f个原因事件簇的簇中心之间的距离。u 为正整数,u≤Uf;Uf为正整数;Uf表示第f个原因事件簇中待聚类原因事件的个数。
另外,本申请实施例不限定上述“第f个原因事件簇中第u个待聚类原因事件的簇内 位置表征数据”的确定过程,例如,其具体可以为:先计算该第u个待聚类原因事件的语义特征与该第f个原因事件簇中除了该第u个待聚类原因事件以外的其他各个待聚类原因事件的语义特征之间的距离(例如,余弦距离等);再将这些距离之间的和值(或者平均值),确定为该“第f个原因事件簇中第u个待聚类原因事件的簇内位置表征数据”。
需要说明的是,若上述“第f个原因事件簇中第u个待聚类原因事件的簇内位置表征 数据”是借助余弦距离确定的,则该“第f个原因事件簇中第u个待聚类原因事件的簇内位置表征数据”越大,则表示该第u个待聚类原因事件越靠近该第f个原因事件簇的簇中心。
S4312:根据第f个原因事件簇中各待聚类原因事件的簇内位置表征数据,从该第f个 原因事件簇中筛选至少一个核心事件,以使各核心事件的簇内位置表征数据均满足预设核 心条件。
上述“预设核心条件”可以预先设定。例如,当上述“簇内位置表征数据”借助余弦距离确定的,且将第f个原因事件簇中所有待聚类原因事件的簇内位置表征数据按照从大到小进行排序时,“预设核心条件”具体可以为:排名不高于预设名次阈值(例如,3)。
上述“核心事件”是指第f个原因事件簇中满足预设核心条件的待聚类原因事件。
另外,本申请实施例不限定S4312的实施方式,例如,其具体可以为:先将第f个原因事件簇中所有待聚类原因事件的簇内位置表征数据按照从大到小进行排序,得到排序结果;再将该排序结果中排名不高于预设名次阈值的各个待聚类原因事件,均确定为核心事件,以使这些核心事件能够有效地表示出该第f个原因事件簇的簇中心。
基于上述S4312的相关内容可知,在获取到第f个原因事件簇之后,可以根据该第f个原因事件簇中各个待聚类原因事件的簇内位置表征数据,从第f个原因事件簇中筛选至少一个核心事件,以使各核心事件的簇内位置表征数据均满足预设核心条件,从而使得这些核心事件均比较靠近该第f个原因事件簇的簇中心,从而使得这些核心事件能够有效地表示出该第f个原因事件簇的簇中心。
S4313:根据至少一个核心事件,确定第f个原因事件簇的中心特征。
本申请实施例中,在获取到第f个原因事件簇中至少一个核心事件之后,可以将这些 核心事件的语义特征的平均值,确定为该第f个原因事件簇的中心特征,以使该中心特征 能够表示出该第f个原因事件簇的簇中心,以便后续能够基于该中心特征进行噪声数据筛 选处理。
S4314:根据第f个原因事件簇中各待聚类原因事件的语义特征与该第f个原因事件簇 的中心特征之间的距离(例如,余弦距离),从该第f个原因事件簇中筛选出至少一个噪声 事件,以使各噪声事件的语义特征与该第f个原因事件簇的中心特征之间的距离均满足预 设噪声条件。
上述“预设噪声条件”可以预先设定,例如,其具体可以包括:噪声事件的语义特征与第f个原因事件簇的中心特征之间的余弦距离不高于第二距离阈值(例如,0.7)。
可见,对于第f个原因事件簇中第u个待聚类原因事件来说,若该第u个待聚类原因事件的语义特征与第f个原因事件簇的中心特征之间的余弦距离不高于第二距离阈值,则可以将该第u个待聚类原因事件满足预设噪声条件;若该第u个待聚类原因事件的语义特征与第f个原因事件簇的中心特征之间的余弦距离高于第二距离阈值,则可以确定该第u个待聚类原因事件不满足预设噪声条件。其中,u为正整数,u≤Uf;Uf为正整数;Uf表示 第f个原因事件簇中待聚类原因事件的个数。
上述“噪声事件”用于表示第f个原因事件簇中噪声数据;而且该“噪声事件”的语义特征与该第f个原因事件簇的中心特征之间的距离满足预设噪声条件。
另外,本申请实施例不限定上述“噪声事件”的确定过程,例如,其具体可以包括:若确定第f个原因事件簇中第u个待聚类原因事件的语义特征与该第f个原因事件簇的中心特征之间的距离满足预设噪声条件,则可以将该第u个待聚类原因事件确定为噪声事件;若确定该第u个待聚类原因事件的语义特征与该第f个原因事件簇的中心特征之间的距离不满足预设噪声条件,则可以确定该第u个待聚类原因事件不属于噪声数据。其中,u为 正整数,u≤Uf;Uf为正整数;Uf表示第f个原因事件簇中待聚类原因事件的个数。
基于上述S4314的相关内容可知,在获取到第f个原因事件簇的中心特征之后,可以 根据第f个原因事件簇中各待聚类原因事件的语义特征与该第f个原因事件簇的中心特征之 间的距离(例如,余弦距离),确定出该第f个原因事件簇中各个噪声事件,以使各个噪声 事件距离均分布于第f个原因事件簇的边缘地带(如图7所示)。
S4315:将至少一个噪声事件从第f个原因事件簇中删除,得到第f个去噪事件簇。
本申请实施例中,在获取到第f个原因事件簇中至少一个噪声事件之后,可以将这些 噪声事件从该第f个原因事件簇中删除,得到第f个去噪事件簇,以保证该第f个去噪事件 簇中所有待聚类原因事件之间的语义相似性比较大,并保证该第f个去噪事件簇与其他去 噪事件簇之间的簇间距离比较大。
基于上述S4311至S4315的相关内容可知,在获取到第f个原因事件簇之后,可以先参考该第f个原因事件簇中各个待聚类原因事件的语义分布,确定该第f个原因事件簇中噪声事件;再将这些噪声事件从该第f个原因事件簇删除,得到第f个去噪事件簇,以使该第 f个去噪事件簇能够更好地表示出该第f个去噪事件簇中所有待聚类原因事件之间的语义共性。
基于上述S431的相关内容可知,在获取到第f个原因事件簇之后,可以针对该第f个 原因事件簇进行噪声提出处理,得到第f个去噪事件簇,以使该第f个去噪事件簇只包括哪 些比较靠近该第f个原因事件簇的簇中心的待聚类原因事件,且不包括哪些远离该第f个原 因事件簇的簇中心的待聚类原因事件,如此该第f个去噪事件簇能够更好地表示出该第f 个去噪事件簇中所有待聚类原因事件之间的语义共性。其中,f为正整数,f≤F,F为正整 数,F表示原因事件簇的个数。
S432:根据至少一个去噪事件簇、以及该至少一个去噪事件簇中待聚类原因事件对应 的结果事件,确定因果事件图谱。
本申请实施例中,在获取到至少一个去噪事件簇之后,可以根据这些去噪事件簇、以 及这些去噪事件簇中待聚类原因事件对应的结果事件(以及事件角色),确定因果事件图谱, 以使该因果事件图谱具有更好的表达效果。
基于上述S431至S432的相关内容可知,在获取到至少一个原因事件簇之后,可以先 针对这些原因事件簇进行噪声剔除处理,得到一些去噪事件簇;再根据这些去噪事件簇, 确定因果事件图谱,以使该因果事件图谱具有更好的表达效果,如此有利于提高因果事件 图谱的构建效果。
基于上述S41至S43的相关内容可知,在获取到至少一个待使用原因事件和该至少一 个待使用原因事件对应的结果事件之后,可以先针对这些待使用原因事件进行聚类处理, 得到聚类结果;再根据该待使用原因事件以及这些待使用原因事件对应的结果事件,构建 因果事件图谱,以使该因果事件图谱能够具有更好的表达效果,如此有利于提高因果事件 图谱的构建效果。
方法实施例六
另外,为了提高针对一个原因事件的语义提取效果,本申请实施例还提供了确定上文 “第r个待聚类原因事件的语义特征”的一种可能的实施方式,其具体可以包括:根据第r 个待聚类原因事件和预先构建的语义表征模型,确定第r个待聚类原因事件的语义特征。
上述“语义表征模型”用于针对该语义表征模型的输入数据进行语义表征处理;而且 本申请实施例不限定该“语义表征模型”,例如,该“语义表征模型”可以是一种机器学习模型。
为了便于理解上述“语义表征模型”的工作原理,下面以“第r个待聚类原因事件的语义特征”的确定过程为例进行说明。
作为示例,利用语义表征模型确定“第r个待聚类原因事件的语义特征”的过程,具体可以包括步骤61-步骤64:
步骤61:对第r个待聚类原因事件进行分词处理,得到该第r个待聚类原因事件的词 块标记数据。
上述“第r个待聚类原因事件的词块标记数据”用于描述该第r个待聚类原因事件中各 个分词在该第r个待聚类原因事件中所处位置;而且本申请实施例不限定该“第r个待聚类 原因事件的词块标记数据”,例如,其可以采用图8所示的“词块标记”进行实施。
步骤62:根据第r个待聚类原因事件和该第r个待聚类原因事件的词块标记数据,确 定第二文本特征。
上述“第二文本特征”用于表示第r个待聚类原因事件携带的字符信息以及该第r个待 聚类原因事件中分词位置信息。
另外,本申请实施例不限定上述“第二文本特征”的确定过程,例如,其具体可以包括:将第r个待聚类原因事件的词嵌入向量、该第r个待聚类原因事件的位置描述向量、以及该第r个待聚类原因事件的词块标记数据的表征向量之间的加和,确定为第二文本特征。
需要说明的是,上述“第r个待聚类原因事件的词块标记数据的表征向量”用于表征 该第r个待聚类原因事件的词块标记数据;而且本申请实施例不限定该“第r个待聚类原因 事件的词块标记数据的表征向量”,例如,可以直接将该第r个待聚类原因事件的词块标记 数据,确定为该“第r个待聚类原因事件的词块标记数据的表征向量”。又如,可以利用word2vec,对该第r个待聚类原因事件的词块标记数据进行向量化处理,得到该“第r个待聚类原因事件的词块标记数据的表征向量”。
步骤63:将第二文本特征输入语义表征模型,得到该语义表征模型输出的语义表征数 据。
本申请实施例不限定上述“语义表征模型”的模型结构,例如,其可以包括:第三编码层和语义表征层;而且该语义表征层的输入数据包括该第三编码层的输出数据(如图8所示)。
上述“第三编码层”用于针对该第三编码层的输入数据进行编码处理;而且本申请实 施例不限定该“第三编码层”的实施方式,例如,当上述“语义表征模型”采用transformer 的领域化网络sentence-bert+BILSTM进行实施时,该“第三编码层”可以采用sentence-bert 进行实施。
需要说明的是,上述“sentence-bert+BILSTM”能够针对一个(或者两个)文本数据进 行深层次的语义向量化表示。另外,上述“sentence-bert”包括transformer架构中encode 端的6层结构。
上述“语义表征层”用于针对该语义表征层的输入数据进行语义表征处理;而且本申 请实施例不限定该“语义表征层”的实施方式,例如,当上述“语义表征模型”采用transformer 的领域化网络sentence-bert+BILSTM进行实施时,该“语义表征层”可以采用双向长短期 记忆网络(Bi-directional Long Short-Term Memory,BILSTM)进行实施。
另外,本申请实施例也不限定上述“语义表征模型”的构建过程,例如,其可以采用现有的或者未来出现的任一种模型构建方法(例如,预训练+模型微调等)进行实施。又如,上述“语义表征模型”的构建过程,具体可以包括步骤71-步骤73:
步骤71:获取三元组样本。
上述“三元组样本”可以表示为(锚点数据,正例,负例)。例如,“三元组样本”可 以是图9所示的文本数据三元组。其中,“锚点数据”、“正例”以及“负例”均是文本数据。
另外,本申请实施不限定上述“三元组样本”,例如,其可以借助在互联网上进行爬取 的方式进行获取。
步骤72:利用待训练模型,确定三元组样本中各个文本数据的语义表征。
上述“待训练模型”用于针对该待训练模型的输入数据进行语义表征处理;而且该“待 训练模型”的模型结构与上文语义表征模型的模型结构保持一致。
步骤73:判断是否达到第三停止条件,若是,则执行步骤75;若否,则执行步骤74。
上述“第三停止条件”可以预先设定,例如,其具体可以为:待训练模型达到收敛(也 就是,该待训练模型的预测损失的变化率低于预设变化率阈值)。
步骤74:根据三元组样本中各个文本数据的语义表征、以及预设损失函数,更新该待 训练模型,并继续执行步骤72。
上述“预设损失函数”用于计算待训练模型的预测损失;而且本申请实施例不限定该 “预设损失函数”,例如,其可以采用现有的或者未来出现的任意一种模型损失函数(例如, 公式(13)所示的Triplet loss函数)进行实施。
Lmodel=max(d(TF2,TF1)-d(TF3,TF1)+margin,0) (13)
式中,Lmodel表示待训练模型的预测损失;TF1表示三元组样本中锚点数据的语义表征; TF2表示三元组样本中正例的语义表征;TF3表示三元组样本中负例的语义表征;margin表 示Triplet loss函数中一个可以设定的参数。
另外,上述“待训练模型”采用无监督训练方法进行训练;而且该“待训练模型”的训练目标就是:对于三元组样本来说,该三元组样本中正例的语义表征与该三元组样本中锚点数据的语义表征之间的距离比较近;而且该三元组样本中负例的语义表征与该三元组样本中锚点数据的语义表征之间的距离比较远。
此外,本申请实施例不限定待训练模型的更新过程,例如,可以采用现有的或者未来 出现的任一种模型更新方法进行实施。
步骤75:根据待训练模型,确定语义表征模型。
本申请实施例中,在确定达到第三停止条件之后,可以确定待训练模型达到收敛,故 可以直接将该待训练模型,确定为语义表征模型,以使该语义表征模型具有较好的语义表 征性能。
基于上述步骤71至步骤75的相关内容可知,在一些情况下,可以借助三元组样本以 及无监督训练方法,构建语义表征模型,以使该语义表征模型具有较好的语义表征性能, 以便后续能够利用该语义表征模型针对一个文本数据进行语义表征处理。
步骤63中“语义表征数据”用于表示上述“第二文本特征”携带的语义信息。
基于上述步骤63的相关内容可知,在获取到第二文本特征之后,可以将该第二文本特 征输入语义表征模型,以使该语义表征模型针对该第二文本特征进行语义表征数据,得到 并输出语义表征数据,以使该语义表征数据能够表示出该第二文本特征携带的语义信息。
步骤64:根据语义表征数据,确定第r个待聚类原因事件的语义特征。
本申请实施例不限定步骤64的实施方式,例如,其具体可以包括:将语义表征数据, 确定为第r个待聚类原因事件的语义特征。又如,步骤64具体可以包括:对语义表征数据 进行最大池化处理,得到第r个待聚类原因事件的语义特征。
基于上述步骤61至步骤64的相关内容可知,在获取到第r个待聚类原因事件之后,可以根据该第r个待聚类原因事件以及该第r个待聚类原因事件的词块标记数据,确定该第r个待聚类原因事件的语义特征,以使该“第r个待聚类原因事件的语义特征”能够更准确地表示出该第r个待聚类原因事件携带语义信息,如此有利于提高因果事件图谱的构建效果。
方法实施例七
另外,为了进一步提高因果事件图谱的信息多样性,本申请实施例还提供了构建因果 事件图谱的另一种可能的实施方式,其具体可以包括步骤81-步骤82:
步骤81:根据待使用文本,确定待使用事件属性描述信息。
上述“待使用事件属性描述信息”用于表示待使用文本中因果事件的事件属性。其中, 事件属性可以包括事件类型、触发词、主体、客体、发生时间、结束时间、持续时间、地点中的至少一个。
另外,本申请实施例不限定上述“待使用事件属性描述信息”,例如,其可以包括图10所示的“事件属性描述信息”。
此外,本申请实施例不限定上述“待使用事件属性描述信息”的确定过程,例如,当上述“待使用事件属性描述信息”包括待使用事件类型、待使用事件触发词和待使用事件参数信息时,该“待使用事件属性描述信息”的确定过程,可以包括步骤811-步骤812:
步骤811:根据待使用文本,确定待使用事件触发词和待使用事件类型。
上述“待使用事件触发词”是指该待使用文本中因果事件的触发词内容。
上述“待使用事件类型”是指该待使用文本中因果事件所属的事件类型。
另外,本申请实施例不限定步骤811的实施方式,例如,其具体可以包括:将待使用文本输入预先构建的第一确定模型,得到该第一确定模型输出的待使用事件触发词和待使用事件类型。
上述“第一确定模型”用于针对该第一确定模型的输入数据进行触发词以及事件类型 抽取处理;而且本申请实施例不限定该“第一确定模型”,例如,其可以是一种机器学习模 型。
另外,本申请实施例不限定上述“第一确定模型”的模型结构,例如,该“第一确定模型”可以包括第四编码层和第四解码层;而且该第四解码层的输入数据包括该第四编码层的输出数据。
上述“第四编码层”用于针对该第四编码层的输入数据进行编码处理;而且本申请实 施例不限定该“第四编码层”,例如,其可以是现有的或者未来出现的任一种编码网络(例 如,BERT)进行实施。需要说明的是,上述“第四编码层”类似于上文“第一编码层”。
另外,本申请实施例不限定上述“第四编码层的输入数据”,例如,当第四编码层采用 BERT进行实施时,该第四编码层的输入数据可以是BERT的原始固有输入。也就是,该“第四编码层的输入数据”可以是一个文本数据的词嵌入向量(word embeddings)、该文本数据的语句分块向量(segmentation embeddings)、以及该文本数据的位置描述向量(position embeddings)之间的加和结果。
上述“第四解码层”用于针对该第四解码层的输入数据进行解码处理;而且本申请实 施例不限定该“第四解码层”的实施方式,例如,其可以包括第二交互网络、第四指针网络和第一确定网络;而且该第四指针网络的输入数据包括该第二交互网络的输出数据,该第一确定网络的输入数据包括该第四指针网络的输出数据。
为了便于理解上述“第四解码层”的工作原理,下面以上文“待使用事件触发词和待 使用事件类型”的确定过程为例进行说明。
作为示例,利用上述“第四解码层”确定“待使用事件触发词和待使用事件类型”的过程,具体可以包括步骤8111-步骤8114:
步骤8111:根据待使用文本和第四编码层,确定第三编码特征。
上述“第三编码特征”用于表示待使用文本携带的文本信息;而且本申请实施例不限 定该“第三编码特征”的确定过程,例如,其可以采用上文步骤21的任一实施方式进行实施,只需将上文步骤21的任一实施方式中“第一编码特征”替换为“第三编码特征”、“第 一编码层”替换为“第四编码层”、以及“原因事件抽取模型”替换为“第一确定模型”即 可。
步骤8112:将第三编码特征输入第二交互网络,得到该第二交互网络输出的第二交互 结果。
上述“第二交互结果”是指针对第三编码特征的语义交互处理结果,以使该“第二交 互结果”用于表示至少一个候选因果事件类型与待使用文本中触发词之间的关联性。
另外,本申请实施例不限定上述“第二交互结果”,例如,当上述“候选因果事件类型” 的个数为K时,该“第二交互结果”可以包括K个候选因果事件类型对应的第二交互特征。 其中,“第k个候选因果事件类型对应的第二交互特征”用于表示该第k个候选因果事件类 型与待使用文本中触发词之间的关联性。k为正整数,k≤K,K为正整数。
此外,本申请实施例不限定上述“第k个候选因果事件类型对应的第二交互特征”的 确定过程,例如,其具体可以包括:将该第k个候选因果事件类型的表征特征与第三编码特征进行语义交互处理,得到该“第k个候选因果事件类型对应的第二交互特征”。
另外,本申请实施例不限定步骤8112的实施方式,例如,其可以采用上文步骤22的任一实施方式进行实施,只需将上文步骤22的任一实施方式中“第一编码特征”替换为“第三编码特征”、“第一交互网络”替换为“第二交互网络”、“第一交互结果”替换为“第二 交互结果”、“第一交互特征”替换为“第二交互特征”即可。
步骤8113:将第二交互结果输入第四指针网络,得到该第四指针网络输出的第一识别 结果。
上述“第一识别结果”用于表示待使用文本携带的与至少一个候选因果事件类型相关 的触发词的位置描述信息;而且该“第一识别结果”可以包括K个触发词识别结果和该K 个触发词识别结果对应的事件类型标识。
“第k个触发词识别结果”用于表示待使用文本携带的与第k个候选因果事件类型相 关的触发词的位置描述信息。其中,k为正整数,k≤K,K为正整数。
“第k个触发词识别结果对应的事件类型标识”用于唯一标识该第k个候选因果事件 类型。
上述“第四指针网络”用于针对该第四指针网络的输入数据进行触发词定位处理。
另外,本申请实施例不限定该“第四指针网络”的工作原理,例如,当上述“第二交互结果”包括K个候选因果事件类型对应的第二交互特征时,该“第四指针网络”的工作 原理(也就是,步骤8113),具体可以包括步骤81131-步骤81132:
步骤81131:对第k个候选因果事件类型对应的第二交互特征进行全连接处理,得到第 二全连接结果。其中,k为正整数,k≤K。
需要说明的是,步骤81131可以采用上文步骤231的任一实施方式进行实施,只需将 上文步骤231的任一实施方式中“第一交互特征”替换为“第二交互特征”、“第一全连接结果”替换为“第二全连接结果”即可。
步骤81132:根据第二全连接结果,确定第k个触发词识别结果以及该第k个触发词识 别结果对应的事件类型标识。其中,k为正整数,k≤K。
本申请实施例不限定步骤81132的实施方式,例如,其可以借助公式(14)-(15)进行实施。
式中,表示第k个触发词识别结果;表示第二全连接结果;表 示第k个触发词识别结果对应的事件类型标识;表示第k个候选因果事 件类型的类型标识;WTrigger、以及bTrigger均是第四指针网络中的网络参数,而且这些网 络参数均可以在上述“第一确定模型”的构建过程进行更新确定。
基于上述步骤8113的相关内容可知,对于第四指针网络来说,其可以借助一个全连接 层以及一个softmax函数,确定待使用文本携带的与第k个候选因果事件类型相关的触发 词的位置描述信息。其中,k为正整数,k≤K,K为正整数。
步骤8114:根据第一识别结果和第一确定网络,确定待使用事件触发词和待使用事件 类型。
作为示例,当上述“第一识别结果”包括K个触发词识别结果和该K个触发词识别结果对应的事件类型标识时,步骤8114具体可以包括步骤81141-步骤81144:
步骤81141:根据第k个触发词识别结果,确定待使用文本中是否存在与第k个候选因 果事件类型相关的触发词;若是,则执行步骤81142-步骤81143;若否,则执行步骤81144。 其中,k为正整数,k≤K。
本申请实施例中,在获取到第k个触发词识别结果之后,若该第k个触发词识别结果 中存在触发词位置标记符(例如,“1”),则可以确定待使用文本中存在与第k个候选因果事件类型相关的触发词,故可以基于该第k个触发词识别结果以及该第k个触发词识别结果对应的事件类型标识,确定与该第k个候选因果事件类型相关的待使用事件触发词以及对应的待使用事件类型;但是,若该第k个触发词识别结果中不存在触发词位置标记符, 则可以确定待使用文本中不存在与第k个候选因果事件类型相关的触发词,故可以直接舍 弃该第k个触发词识别结果以及该第k个触发词识别结果对应的事件类型标识即可。其中, k为正整数,k≤K。
步骤81142:根据该第k个触发词识别结果,确定触发词位置;按照该触发词位置,从 待使用文本中抽取待使用事件触发词。其中,k为正整数,k≤K。
本申请实施例中,若第k个触发词识别结果表示待使用文本中存在与第k个候选因果 事件类型相关的触发词,则可以参考该第k个触发词识别结果中触发词位置标记符所处位 置,确定触发词位置,以便后续能够按照该触发词位置,从待使用文本中提取出与该第k个候选因果事件类型相关的触发词,确定为待使用事件触发词。
步骤81143:根据第k个触发词识别结果对应的事件类型标识,确定待使用事件类型。 其中,k为正整数,k≤K。
本申请实施例中,若第k个触发词识别结果表示待使用文本中存在与第k个候选因果 事件类型相关的触发词,则可以参考该第k个触发词识别结果对应的事件类型标识,确定 出与该第k个候选因果事件类型相关的触发词所属的事件类型,作为从待使用文本中抽取 的待使用事件触发词对应的待使用事件类型。
步骤81144:舍弃该第k个触发词识别结果以及该第k个触发词识别结果对应的事件类 型标识。其中,k为正整数,k≤K。
本申请实施例中,若第k个触发词识别结果表示待使用文本中不存在与第k个候选因 果事件类型相关的触发词,则可以直接舍弃该第k个触发词识别结果以及该第k个触发词 识别结果对应的事件类型标识即可。
基于上述步骤8114的相关内容可知,对于上文“第一确定模型”来说,在获取到第一 识别结果之后,可以由该第一确定模型中第一确定网络参考该第一识别结果,从待使用文 本中提取触发词,得到待使用事件触发词以及该待使用事件触发词对应的待使用事件类型。
需要说明的是,上述“第一确定模型”可以预先根据第六样本文本和该第六样本文本 的标签信息进行构建。其中,“第六样本文本的标签信息”用于表示该第六样本文本中因果 事件的实际触发词以及实际事件类型;而且本申请实施例不限定该“第六样本文本的标签 信息”的获取方式,例如,可以通过人工标注方式进行实施。另外,本申请实施例不限定上述“原因事件抽取模型”的构建过程,可以采用现有的或者未来出现的任一种模型构建方法进行实施。
基于上述步骤811的相关内容可知,在获取到待使用文本之后,可以针对该待使用文 本进行触发词以及事件类型分析处理,得到各个待使用事件触发词以及各个待使用事件触 发词对应的待使用事件类型,以便后续能够基于这两项属性信息,从该待使用文本中抽取 其他属性信息(例如,主体、客体、发生时间、结束时间、持续时间、地点等)。
步骤812:根据待使用事件触发词、待使用事件类型和待使用文本,确定待使用事件 参数信息。
上述“待使用事件参数信息”是指待使用文本中因果事件的参数信息;而且本申请实 施例不限定该“参数信息”,例如,其可以包括除了触发词以及事件类型以外的其他至少一 种属性信息(例如,主体、客体、发生时间、结束时间、持续时间、地点中的至少一个)。
另外,本申请实施例不限定确定上述“待使用事件参数信息”的实施方式,例如,其具体可以包括步骤8121-步骤8122:
步骤8121:根据待使用事件触发词、待使用事件类型和待使用文本,确定第三文本特 征。
上述“第三文本特征”用于表示待使用文本携带的字符信息、待使用事件触发词携带 的字符信息、以及待使用事件类型携带的字符信息。
另外,本申请实施例不限定上述“第三文本特征”的确定过程,例如,其可以采用公式(16)-(17)进行实施。
式中,inputparameter表示第三文本特征;表示待使用事件触发词的词嵌入 向量;表示待使用事件类型的词嵌入向量;表示待使用文本的词嵌入向量; 表示待使用文本的位置描述向量;表示待使用事件触发词的文本位 置标识数据的表征向量,以使该用于表示该待使用事件触发词在待使用文本 中所处位置;E[CLS]表示[CLS]的词嵌入向量;E[SEP]表示[SEP]的词嵌入向量。需要说明的 是,本申请实施例不限定上述的确定过程,例如,可以借助word2vec进行实施。又如,可以直接将待使用事件触发词的文本位置标识数据,确定为另外,[CLS]与[SEP]的相关内容请参见BERT算法。
上述“待使用事件触发词的文本位置标识数据”用于描述该待使用事件触发词在待使 用文本中所处位置;而且本申请实施例不限定该“待使用事件触发词的文本位置标识数据”, 例如,其可以类似于图11所示的触发词标记。
基于上述公式(16)-(17)所示的第三文本特征可知,该第三文本特征不仅能够表示 出待使用文本携带的字符信息、待使用事件触发词携带的字符信息、以及待使用事件类型 携带的字符信息,还能够表示出该待使用事件触发词在待使用文本中所处位置,如此有利 于辅助提高下文“第二确定模型”的参数信息抽取能力,从而使得该“第二确定模型”能够更容易从待使用文本中抽取到至少一个参数信息。
步骤8122:将第三文本特征输入预先构建的第二确定模型,得到第二确定模型输出的 待使用事件参数信息。
上述“第二确定模型”用于针对该第二确定模型的输入数据进行参数信息提取处理; 而且本申请实施例不限定该“第二确定模型”,例如,其可以采用任一种机器学习模型进行 实施。
另外,本申请实施例不限定上述“第二确定模型”的模型结构,例如,其可以第五编码层和第五解码层;而且该第五解码层的输入数据包括该第五编码层的输出数据(如图11所示)。
上述“第五编码层”用于针对该第五编码层的输入数据进行编码处理;而且本申请实 施例不限定该“第五编码层”,例如,其可以是现有的或者未来出现的任一种编码网络(例 如,BERT)进行实施。
上述“第五解码层”用于针对该第五解码层的输入数据进行解码处理;而且本申请实 施例不限定该“第五解码层”的实施方式,例如,该“第五解码层”可以包括第五指针网络和第二确定网络;而且该第二确定网络的输入数据包括该第五指针网络的输出数据。
上述“第五指针网络”用于针对该第五指针网络的输入数据进行参数识别处理;而且 该“第五指针网络”的工作原理类似于上文“第二指针网络”的工作原理。
上述“第二确定网络”用于针对该第二确定网络的输入数据进行参数信息解析处理; 而且本申请实施例不限定该“第二确定网络”的工作原理。例如,当上述“第五指针网络” 输出第二识别结果时,“第二确定网络”的工作原理,具体可以包括步骤91-步骤92:
步骤91:根据第二识别结果,确定待处理文本中是否存在第l个候选参数的描述信息; 若是,则执行步骤92-93;若否,则执行步骤94。其中,l为正整数,l≤L,L为正整数, L表示候选参数的个数。
上述“第二识别结果”是指第五指针网络的输出数据,以使该“第二识别结果”用于表示至少一个参数信息在待使用文本中所处位置;而且本申请实施例不限定该“第二识别结果”,例如,其可以采用不同的参数位置标记符来标记不同参数信息所处位置。
上述“第l个候选参数”是指一个文本数据可能携带的参数;而且本申请实施例不限 定L个候选参数,例如,该“L个候选参数”可以包括主体、客体、发生时间、结束时间、 持续时间、以及地点。
上述“第l个候选参数的描述信息”是指第l个候选参数的参数值。
本申请实施例中,在获取到第二识别结果之后,若确定该第二识别结果中存在用于标 记第l个候选参数的目标参数位置标记符,则可以确定待处理文本中存在第l个候选参数的 描述信息,故可以参考该第二识别结果,从该待处理文本中抽取第l个候选参数的描述信 息;但是,若确定该第二识别结果中不存在用于标记第l个候选参数的目标参数位置标记 符,则无法从该待处理文本中抽取第l个候选参数的描述信息。
步骤92:根据第二识别结果,确定待使用参数位置;根据该待使用参数位置,从待处 理文本中抽取第l个候选参数的描述信息。
上述“待使用参数位置”用于表示第l个候选参数的描述信息在待使用文本中所处位 置。
可见,若第二识别结果表示待处理文本中存在第l个候选参数的描述信息,则可以先 根据该第二识别结果,确定待使用参数位置,以使该待使用参数位置能够表示出该第l个 候选参数的描述信息在待使用文本中所处位置;再按照该待使用参数位置,从待处理文本 中抽取第l个候选参数的描述信息。
步骤93:根据第l个候选参数的描述信息,确定待使用事件参数信息。
本申请中,在获取到L个候选参数的描述信息之后,可以将这些候选参数的描述信息 进行集合处理,得到待使用事件参数信息,以使该待使用事件参数信息能够更好地表示出 待使用文本携带的因果事件属性。
步骤94:将预设信息,确定为第l个候选参数的描述信息。
上述“预设信息”可以预先设定。例如,“预设信息”可以是空白,也可以是预设字符(例如,无)。
基于上述步骤91至步骤94的相关内容可知,上述“第二确定网络”能够针对第五指针网络的输出数据进行参数信息分析处理,得到并输出待使用事件参数信息,以使该待使用事件参数信息能够更好地表示出待使用文本携带的因果事件属性。
需要说明的是,上述“第二确定模型”可以预先根据第七样本文本和该第七样本文本 的标签信息进行构建。其中,“第七样本文本的标签信息”用于表示该第七样本文本中因果 事件的实际触发词以及实际事件类型;而且本申请实施例不限定该“第七样本文本的标签 信息”的获取方式,例如,可以通过人工标注方式进行实施。另外,本申请实施例不限定上述“原因事件抽取模型”的构建过程,可以采用现有的或者未来出现的任一种模型构建方法进行实施。
还需要说明的是,为了进一步提高属性提取效果,上文“第一确定模型”与上述“第二确定模型”可以进行联合构建(例如,可以先参考“第一确定模型”的模型结构和“第 二确定模型”的模型结构,生成一个联合模型;再借助该联合模型的训练过程,实现针对 该“第一确定模型”与该“第二确定模型”的构建过程);而且该联合构建过程是根据第八 样本文本和该第八样本文本的标签信息进行实施。其中,“第八样本文本的标签信息”用 于表示该第八样本文本中因果事件的实际属性描述信息。
基于上述步骤81的相关内容可知,在获取到待使用文本之后,不仅可以从该待使用文 本中抽取因果事件以及因果事件的事件角色,还可以从该待使用文本中抽取因果事件的属 性信息,以便后续能够基于参考抽取因果事件、因果事件的事件角色、以及因果事件的属 性信息,构建因果事件图谱。
步骤82:根据至少一个待使用原因事件、该至少一个待使用原因事件对应的结果事件、 以及待使用事件属性描述信息,确定因果事件图谱。
需要说明的是,步骤82的实施方式类似于上文S4的实施方式。
基于上述步骤81至步骤82的相关内容可知,在获取到待使用文本之后,可以先从该 待使用文本中抽取因果事件、该因果事件的事件角色、以及该因果事件的属性信息;再参 考这些因果事件、这些因果事件的事件角色、以及这些因果事件的属性信息,构建因果事 件图谱,以使该因果事件图谱记录有更丰富的因果关系描述信息,从而使得该因果事件图 谱具有更好的表达效果,如此有利于提高因果事件图谱的构建效果。
方法实施例八
另外,为了进一步提高模型构建效果,可以借助数据増广方式获取模型构建所需使用 的大量样本文本数据(例如,大量第一样本文本、大量第二样本文本、……、或者大量第 八样本文本)。为了便于理解,下面以大量目标样本文本的获取方式进行实施。
作为示例,大量目标样本文本的获取过程包括步骤101-步骤103:
步骤101:从互联网上爬取至少一个新闻文本。
需要说明的是,步骤101中所涉及的“新闻文本”满足上述“目标样本文本”的文本内容需求(例如,携带有因果事件等)。
步骤102:利用预设翻译工具以及至少一个新闻文本,生成至少一个第一生成文本。
上述“预设翻译工具”可以预先设定,例如,该“预设翻译工具”可以是中英翻译工具。
本申请实施例不限定步骤102的实施方式,例如,当上述“预设翻译工具”是中英翻译工具时,步骤102具体可以包括:对于每个新闻文本来说,可以先利用预设翻译工具将 该新闻文本翻译成英文文本;再利用该预设翻译工具将该英文文本翻译成中文,得到一个 第一生成文本。
步骤103:利用预训练语言模型以及至少一个新闻文本,生成至少一个第二生成文本。
本申请实施例不限定步骤103的实施方式,例如,其具体可以包括:对于一个新闻文 本来说,可以先针对该新闻文本进行词汇掩码处理,得到掩码文本,以使该掩码文本依旧 符合上述“目标样本文本”的文本内容需求;再利用预训练语言模型对该掩码文本进行预 测,得到一个第二生成文本。
作为示例,当上述“新闻文本”为“从XXX年XXX月开始,第一企业对某企的帮扶 措施大幅度增多,将某企作为优抚目标”,且上述“目标样本文本”为上文“第六样本文本” 时,可以针对该“新闻文本”进行掩码处理,得到掩码文本“从XXX年XXX月开始,[MASK] [MASK][MASK][MASK]对某企的帮扶措施大幅度增多,将某企作为优抚目标”;再利用预 训练语言模型对该掩码文本进行预测,得到一个第二生成文本“从XXX年XXX月开始, 第二企业对某企的帮扶措施大幅度增多,将某企作为优抚目标”。需要说明的是,“第一企 业”是指一个企业的名称;“第二企业”是指另一个企业的名称。
步骤104:将至少一个新闻文本、至少一个第一生成文本、以及至少一个第二生成文 本进行集合处理,得到大量目标样本文本。
本申请实施例中,在获取到至少一个第一生成文本、以及至少一个第二生成文本之后, 可以利用这些第一生成文本以及这些第二生成文本,对这些新闻文本进行数据扩充处理, 得到大量目标样本文本,如此有利于提高目标样本文本的数据量,从而有利于提高模型构 建效果。
基于上述方法实施例提供的图谱构建方法,本申请实施例还提供了一种图谱构建装置, 下面结合附图进行解释和说明。
装置实施例
装置实施例对图谱构建装置进行介绍,相关内容请参见上述方法实施例。
参见图13,该图为本申请实施例提供的一种图谱构建装置的结构示意图。
本申请实施例提供的图谱构建装置1300,包括:
文本获取单元1301,用于获取待使用文本;其中,所述待使用文本包括至少一组因果 事件;
原因抽取单元1302,用于从所述待使用文本抽取至少一个待使用原因事件;
结果抽取单元1303,用于根据各所述待使用原因事件和所述待使用文本,确定各所述 待使用原因事件对应的结果事件;
图谱构建单元1304,用于根据所述至少一个待使用原因事件和所述至少一个待使用原 因事件对应的结果事件,确定因果事件图谱。
在一种可能的实施方式中,所述原因抽取单元1302,具体用于:将所述待使用文本输 入预先构建的原因事件抽取模型,得到所述原因事件抽取模型输出的所述至少一个待使用 原因事件;其中,所述原因事件抽取模型包括第一编码层和第一解码层;所述第一解码层 的输入数据包括所述第一编码层的输出数据。
在一种可能的实施方式中,所述第一解码层包括第一交互网络、第一指针网络和原因 确定网络;
所述至少一个待使用原因事件的确定过程,包括:根据所述待使用文本和所述第一编 码层,确定第一编码特征;将所述第一编码特征输入所述第一交互网络,得到所述第一交 互网络输出的第一交互结果;将所述第一交互结果输入所述第一指针网络,得到所述第一 指针网络输出的原因位置描述数据;根据所述原因位置描述数据和所述原因确定网络,确 定所述至少一个待使用原因事件。
在一种可能的实施方式中,所述第一交互结果包括K个候选因果事件类型对应的第一 交互特征,且第k个候选因果事件类型对应的第一交互特征的确定过程,包括:将所述第 k个候选因果事件类型的表征特征与所述第一编码特征进行语义交互处理,得到所述第k 个候选因果事件类型对应的第一交互特征;其中,k为正整数,k≤K,K为正整数。
在一种可能的实施方式中,所述图谱构建装置1300还包括:
类型确定单元,用于对所述待使用文本进行领域分类处理,得到待使用文本领域;从 预设映射关系中查找所述待使用领域对应的因果事件类型集;其中,所述预设映射关系包 括所述待使用领域与所述待使用领域对应的因果事件类型集之间的对应关系;根据所述待 使用领域对应的因果事件类型集,确定K个候选因果事件类型。
在一种可能的实施方式中,所述第一交互结果包括K个候选因果事件类型对应的第一 交互特征;所述原因位置描述数据的个数为K,且第k个原因位置描述数据的确定过程, 包括:对第k个候选因果事件类型对应的第一交互特征进行全连接处理,得到第一全连接 结果;根据所述第一全连接结果,确定所述第k个原因位置描述数据;其中,k为正整数,k≤K,K为正整数。
在一种可能的实施方式中,所述原因位置描述数据的个数为K,且第k个原因位置描 述数据包括第k个起始位置描述数据和第k个结束位置描述数据;其中,k为正整数,k≤K,K为正整数;
所述至少一个待使用原因事件的确定过程,包括:若所述第k个原因位置描述数据满 足预设单原因条件,则根据所述第k个起始位置描述数据和所述第k个结束位置描述数据, 从所述待使用文本中抽取一个所述待使用原因事件;若所述第k个原因位置描述数据满足 预设多原因条件,则根据所述第k个起始位置描述数据,确定至少两个原因起始位置;根 据各所述原因起始位置和所述第k个结束位置描述数据,确定各所述原因起始位置对应的 原因结束位置;按照各所述原因起始位置和各所述原因起始位置对应的原因结束位置,从 所述待使用文本中抽取各所述待使用原因事件;其中,k为正整数,k≤K。
在一种可能的实施方式中,所述原因起始位置的个数为N;其中,N为正整数,2≤N;
第n个原因起始位置对应的原因结束位置的确定过程,包括:根据所述第n个原因起 始位置和所述第k个结束位置描述数据,确定至少一个候选结束位置;其中,所述候选结束位置比所述第n个原因起始位置靠后;从所述至少一个候选结束位置中筛选出目标结束位置,确定为所述第n个原因起始位置对应的原因结束位置;其中,所述目标结束位置与 所述第n个原因起始位置之间的距离,不高于所述至少一个候选结束位置中除了所述目标 结束位置以外的其他任意一个候选结束位置与所述第n个原因起始位置之间的距离;n为 正整数,n≤N。
在一种可能的实施方式中,所述待使用原因事件的个数为J;其中,J为正整数;
所述结果抽取单元1303,具体用于:根据所述第j个待使用原因事件和所述待使用文 本,确定第一文本特征;将所述第一文本特征输入预先构建的事件元素抽取模型,得到所 述事件元素抽取模型输出的事件元素抽取结果;其中,所述事件元素抽取结果包括所述第 j个待使用原因事件对应的结果事件;所述事件元素抽取模型包括第二编码层和第二解码层; 所述第二解码层的输入数据包括所述第二编码层的输出数据;其中,j为正整数,j≤J。
在一种可能的实施方式中,所述第二解码层包括第二指针网络和结果确定网络;
所述第j个待使用原因事件对应的结果事件的确定过程,包括:将所述第一文本特征 输入第二编码层,得到所述第二编码层输出的第二编码特征;将所述第二编码特征输入所 述第二指针网络,得到所述第二指针网络输出的结果位置描述数据;根据所述结果位置描 述数据和所述结果确定网络,确定所述第j个待使用原因事件对应的结果事件。
在一种可能的实施方式中,所述事件元素抽取结果还包括所述第j个待使用原因事件 对应的事件角色;
所述第二解码层还包括第三指针网络和事件角色确定网络;
所述第j个待使用原因事件对应的事件角色的确定过程,包括:将所述第二编码特征 输入所述第三指针网络,得到所述第三指针网络输出的事件角色识别结果;根据所述事件 角色识别结果和所述事件角色确定网络,确定所述第j个待使用原因事件对应的事件角色;
所述图谱构建单元1304,具体用于:根据所述至少一个待使用原因事件、所述至少一 个待使用原因事件对应的结果事件、以及所述至少一个待使用原因事件对应的事件角色, 确定因果事件图谱。
在一种可能的实施方式中,所述图谱构建单元1304,包括:
第一确定子单元,用于根据所述至少一个待使用原因事件和至少一个参考原因事件, 确定多个待聚类原因事件;
原因聚类子单元,用于根据所述多个待聚类原因事件的语义特征,对所述多个待聚类 原因事件进行聚类处理,得到至少一个原因事件簇;
第二确定子单元,用于根据所述至少一个原因事件簇、以及所述多个待聚类原因事件 对应的结果事件,确定因果事件图谱。
在一种可能的实施方式中,所述待聚类原因事件的个数为R;其中,R为正整数;
所述图谱构建装置1300还包括:
语义表征单元,用于根据所述第r个待聚类原因事件和预先构建的语义表征模型,确 定所述第r个待聚类原因事件的语义特征;其中,所述语义表征模型包括第三编码层和语 义表征层;所述语义表征层的输入数据包括所述第三编码层的输出数据;r为正整数,r≤R。
在一种可能的实施方式中,所述语义表征单元,包括:
分词子单元,用于对所述第r个待聚类原因事件进行分词处理,得到所述第r个待聚类 原因事件的词块标记数据;
第三确定子单元,用于根据所述第r个待聚类原因事件和所述第r个待聚类原因事件的 词块标记数据,确定第二文本特征;
语义表征子单元,用于将所述第二文本特征输入所述语义表征模型,得到所述语义表 征模型输出的语义表征数据;
第四确定子单元,用于根据所述语义表征数据,确定所述第r个待聚类原因事件的语 义特征。
在一种可能的实施方式中,所述第四确定子单元,具体用于:对所述语义表征数据进 行最大池化处理,得到所述第r个待聚类原因事件的语义特征。
在一种可能的实施方式中,所述原因聚类子单元,包括:
粗聚合子单元,用于对所述多个待聚类原因事件进行第一聚类处理,得到至少一个待 处理事件簇;
语义聚合子单元,用于根据所述至少一个待处理事件簇以及所述多个待聚类原因事件 的语义特征,对所述多个待聚类原因事件进行第二聚类处理,得到所述至少一个原因事件 簇。
在一种可能的实施方式中,所述粗聚合子单元,具体用于:初始化i;根据所述多个待 聚类原因事件,初始化待抽取事件集合;根据所述待抽取事件集合,确定目标原因事件和 至少一个候选原因事件;根据所述目标原因事件,确定第i个待处理事件簇;根据各所述候选原因事件的哈希值与所述目标原因事件的哈希值之间的距离,确定所述至少一个候选原因事件中是否存在待聚合原因事件;其中,所述待聚合原因事件的哈希值与所述目标原因事件的哈希值之间的距离均满足预设距离条件;若确定所述至少一个候选原因事件中存在至少一个待聚合原因事件,则将所述至少一个待聚合原因事件添加至所述第i个待处理事件簇;从所述待抽取事件集合中删除所述目标原因事件以及所述至少一个待聚合原因事件,更新所述i,并继续执行所述根据所述待抽取事件集合,确定目标原因事件和至少一个候选原因事件的步骤,直至达到第一停止条件。
在一种可能的实施方式中,所述语义聚合子单元,具体用于:从所述至少一个待处理 事件簇中确定至少一个目标事件簇;其中,各所述目标事件簇均满足预设保留条件;根据 所述至少一个目标事件簇和所述多个待聚类原因事件,确定至少一个簇社区和至少一个节 点社区;其中,所述簇社区包括至少两个所述待聚类原因事件;所述节点社区包括一个所 述待聚类原因事件;根据所述多个待聚类原因事件的语义特征、所述至少一个簇社区和所 述至少一个节点社区,确定至少一个社区表征节点;根据所述至少一个社区表征节点,确 定至少一个待处理社区;根据所述至少一个待处理社区,更新所述至少一个社区表征节点, 并继续执行所述根据所述至少一个社区表征节点,确定至少一个待处理社区的步骤,直至 在达到第二停止条件时,根据所述至少一个待处理社区,确定所述至少一个原因事件簇。
在一种可能的实施方式中,所述第二确定子单元,包括:
去噪处理子单元,用于对各所述原因事件簇进行噪声剔除处理,得到各所述去噪事件 簇;
第五确定子单元,用于根据至少一个去噪事件簇、以及所述至少一个去噪事件簇中待 聚类原因事件对应的结果事件,确定因果事件图谱。
在一种可能的实施方式中,所述原因事件簇的个数为F;第f个原因事件簇包括H个待聚类原因事件;其中,f为正整数,f≤F,F为正整数;
所述去噪处理子单元,具体用于:根据所述第f个原因事件簇中所有待聚类原因事件 的语义特征,确定所述第f个原因事件簇中各待聚类原因事件的簇内位置表征数据;根据 所述第f个原因事件簇中各待聚类原因事件的簇内位置表征数据,从所述第f个原因事件簇 中筛选至少一个核心事件;其中,各所述核心事件的簇内位置表征数据均满足预设核心条 件;根据所述至少一个核心事件,确定所述第f个原因事件簇的中心特征;根据所述第f 个原因事件簇中各待聚类原因事件的语义特征与所述中心特征之间的距离,从所述第f个 原因事件簇中筛选出至少一个噪声事件;其中,各所述噪声事件的语义特征与所述中心特 征之间的距离均满足预设噪声条件;
将所述至少一个噪声事件从所述第f个原因事件簇中删除,得到所述第f个去噪事件簇。
在一种可能的实施方式中,所述图谱构建装置1300还包括:
属性抽取单元,用于根据所述待使用文本,确定待使用事件属性描述信息;
所述图谱构建单元1304,具体用于:根据所述至少一个待使用原因事件、所述至少一 个待使用原因事件对应的结果事件、以及所述待使用事件属性描述信息,确定因果事件图 谱。
在一种可能的实施方式中,所述待使用事件属性描述信息包括待使用事件类型、待使 用事件触发词和待使用事件参数信息;
所述属性抽取单元,包括:
第一抽取子单元,用于根据所述待使用文本,确定所述待使用事件触发词和所述待使 用事件类型;
第二抽取子单元,用于根据所述待使用事件触发词、所述待使用事件类型和所述待使 用文本,确定所述待使用事件参数信息。
在一种可能的实施方式中,所述第一抽取子单元,具体用于:将所述待使用文本输入 预先构建的第一确定模型,得到所述第一确定模型输出的所述待使用事件触发词和所述待 使用事件类型;其中,所述第一确定模型包括第四编码层和第四解码层;所述第四解码层 的输入数据包括所述第四编码层的输出数据。
在一种可能的实施方式中,所述第四解码层包括第二交互网络、第四指针网络和第一 确定网络;
所述待使用事件触发词和所述待使用事件类型的确定过程,包括:根据所述待使用文 本和所述第四编码层,确定第三编码特征;将所述第三编码特征输入所述第二交互网络, 得到所述第二交互网络输出的第二交互结果;将所述第二交互结果输入所述第四指针网络, 得到所述第四指针网络输出的第一识别结果;根据所述第一识别结果和所述第一确定网络, 确定所述待使用事件触发词和所述待使用事件类型。
在一种可能的实施方式中,所述第一识别结果包括K个触发词识别结果和所述K个触 发词识别结果对应的事件类型标识;其中,K为正整数。
在一种可能的实施方式中,所述第二抽取子单元,具体用于:根据所述待使用事件触 发词、所述待使用事件类型和所述待使用文本,确定第三文本特征;将所述第三文本特征 输入预先构建的第二确定模型,得到所述第二确定模型输出的所述待使用事件参数信息; 其中,所述第二确定模型包括第五编码层和第五解码层;所述第五解码层的输入数据包括 所述第五编码层的输出数据。
在一种可能的实施方式中,所述文本获取单元1301,具体用于:在获取到待处理文本 之后,对所述待处理文本进行因果关系识别处理,得到待使用关系识别结果;若所述待使 用关系识别结果表示所述待处理文本中存在因果关系,则将所述待处理文本,确定为所述 待使用文本。
进一步地,本申请实施例还提供了一种设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被 所述处理器执行时使所述处理器执行上述图谱构建方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介 质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述图谱构建 方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端 设备上运行时,使得所述终端设备执行上述图谱构建方法的任一种实现方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方 法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解, 本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出 来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干 指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通 信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的 都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例 公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参 见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体 或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在 任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖 非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要 素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设 备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排 除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这 些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般 原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将 不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致 的最宽的范围。
Claims (30)
1.一种图谱构建方法,其特征在于,所述方法包括:
获取待使用文本;其中,所述待使用文本包括至少一组因果事件;
从所述待使用文本抽取至少一个待使用原因事件;
根据各所述待使用原因事件和所述待使用文本,确定各所述待使用原因事件对应的结果事件;
根据所述至少一个待使用原因事件和所述至少一个待使用原因事件对应的结果事件,确定因果事件图谱。
2.根据权利要求1所述的方法,其特征在于,所述从所述待使用文本抽取至少一个待使用原因事件,包括:
将所述待使用文本输入预先构建的原因事件抽取模型,得到所述原因事件抽取模型输出的所述至少一个待使用原因事件;其中,所述原因事件抽取模型包括第一编码层和第一解码层;所述第一解码层的输入数据包括所述第一编码层的输出数据。
3.根据权利要求2所述的方法,其特征在于,所述第一解码层包括第一交互网络、第一指针网络和原因确定网络;
所述至少一个待使用原因事件的确定过程,包括:
根据所述待使用文本和所述第一编码层,确定第一编码特征;
将所述第一编码特征输入所述第一交互网络,得到所述第一交互网络输出的第一交互结果;
将所述第一交互结果输入所述第一指针网络,得到所述第一指针网络输出的原因位置描述数据;
根据所述原因位置描述数据和所述原因确定网络,确定所述至少一个待使用原因事件。
4.根据权利要求3所述的方法,其特征在于,所述第一交互结果包括K个候选因果事件类型对应的第一交互特征,且第k个候选因果事件类型对应的第一交互特征的确定过程,包括:
将所述第k个候选因果事件类型的表征特征与所述第一编码特征进行语义交互处理,得到所述第k个候选因果事件类型对应的第一交互特征;其中,k为正整数,k≤K,K为正整数。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
对所述待使用文本进行领域分类处理,得到待使用文本领域;
从预设映射关系中查找所述待使用领域对应的因果事件类型集;其中,所述预设映射关系包括所述待使用领域与所述待使用领域对应的因果事件类型集之间的对应关系;
根据所述待使用领域对应的因果事件类型集,确定K个候选因果事件类型。
6.根据权利要求3所述的方法,其特征在于,所述第一交互结果包括K个候选因果事件类型对应的第一交互特征;其中,K为正整数;
所述原因位置描述数据的个数为K,且第k个原因位置描述数据的确定过程,包括:
对第k个候选因果事件类型对应的第一交互特征进行全连接处理,得到第一全连接结果;其中,k为正整数,k≤K;
根据所述第一全连接结果,确定所述第k个原因位置描述数据;其中,k为正整数,k≤K。
7.根据权利要求3所述的方法,其特征在于,所述原因位置描述数据的个数为K,且第k个原因位置描述数据包括第k个起始位置描述数据和第k个结束位置描述数据;其中,k为正整数,k≤K,K为正整数;
所述至少一个待使用原因事件的确定过程,包括:
若所述第k个原因位置描述数据满足预设单原因条件,则根据所述第k个起始位置描述数据和所述第k个结束位置描述数据,从所述待使用文本中抽取一个所述待使用原因事件;其中,k为正整数,k≤K;
若所述第k个原因位置描述数据满足预设多原因条件,则根据所述第k个起始位置描述数据,确定至少两个原因起始位置;根据各所述原因起始位置和所述第k个结束位置描述数据,确定各所述原因起始位置对应的原因结束位置;按照各所述原因起始位置和各所述原因起始位置对应的原因结束位置,从所述待使用文本中抽取各所述待使用原因事件;其中,k为正整数,k≤K。
8.根据权利要求7所述的方法,其特征在于,所述原因起始位置的个数为N;其中,N为正整数,2≤N;
第n个原因起始位置对应的原因结束位置的确定过程,包括:
根据所述第n个原因起始位置和所述第k个结束位置描述数据,确定至少一个候选结束位置;其中,各所述候选结束位置比所述第n个原因起始位置靠后;n为正整数,n≤N;
从所述至少一个候选结束位置中筛选出目标结束位置,确定为所述第n个原因起始位置对应的原因结束位置;其中,所述目标结束位置与所述第n个原因起始位置之间的距离,不高于所述至少一个候选结束位置中除了所述目标结束位置以外的其他任意一个候选结束位置与所述第n个原因起始位置之间的距离;n为正整数,n≤N。
9.根据权利要求1所述的方法,其特征在于,所述待使用原因事件的个数为J;其中,J为正整数;
第j个待使用原因事件对应的结果事件的确定过程,包括:
根据所述第j个待使用原因事件和所述待使用文本,确定第一文本特征;其中,j为正整数,j≤J;
将所述第一文本特征输入预先构建的事件元素抽取模型,得到所述事件元素抽取模型输出的事件元素抽取结果;其中,所述事件元素抽取结果包括所述第j个待使用原因事件对应的结果事件;所述事件元素抽取模型包括第二编码层和第二解码层;所述第二解码层的输入数据包括所述第二编码层的输出数据。
10.根据权利要求9所述的方法,其特征在于,所述第二解码层包括第二指针网络和结果确定网络;
所述第j个待使用原因事件对应的结果事件的确定过程,包括:
将所述第一文本特征输入第二编码层,得到所述第二编码层输出的第二编码特征;
将所述第二编码特征输入所述第二指针网络,得到所述第二指针网络输出的结果位置描述数据;
根据所述结果位置描述数据和所述结果确定网络,确定所述第j个待使用原因事件对应的结果事件。
11.根据权利要求10所述的方法,其特征在于,所述事件元素抽取结果还包括所述第j个待使用原因事件对应的事件角色;
所述第二解码层还包括第三指针网络和事件角色确定网络;
所述第j个待使用原因事件对应的事件角色的确定过程,包括:
将所述第二编码特征输入所述第三指针网络,得到所述第三指针网络输出的事件角色识别结果;根据所述事件角色识别结果和所述事件角色确定网络,确定所述第j个待使用原因事件对应的事件角色;
所述根据所述至少一个待使用原因事件和所述至少一个待使用原因事件对应的结果事件,确定因果事件图谱,包括:
根据所述至少一个待使用原因事件、所述至少一个待使用原因事件对应的结果事件、以及所述至少一个待使用原因事件对应的事件角色,确定因果事件图谱。
12.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个待使用原因事件和所述至少一个待使用原因事件对应的结果事件,确定因果事件图谱,包括:
根据所述至少一个待使用原因事件和至少一个参考原因事件,确定多个待聚类原因事件;
根据所述多个待聚类原因事件的语义特征,对所述多个待聚类原因事件进行聚类处理,得到至少一个原因事件簇;
根据所述至少一个原因事件簇、以及所述多个待聚类原因事件对应的结果事件,确定因果事件图谱。
13.根据权利要求12所述的方法,其特征在于,所述待聚类原因事件的个数为R;其中,R为正整数;
第r个待聚类原因事件的语义特征的确定过程,包括:
根据所述第r个待聚类原因事件和预先构建的语义表征模型,确定所述第r个待聚类原因事件的语义特征;其中,所述语义表征模型包括第三编码层和语义表征层;所述语义表征层的输入数据包括所述第三编码层的输出数据;r为正整数,r≤R。
14.根据权利要求13所述的方法,其特征在于,所述根据所述第r个待聚类原因事件和预先构建的语义表征模型,确定所述第r个待聚类原因事件的语义特征,包括:
对所述第r个待聚类原因事件进行分词处理,得到所述第r个待聚类原因事件的词块标记数据;
根据所述第r个待聚类原因事件和所述第r个待聚类原因事件的词块标记数据,确定第二文本特征;
将所述第二文本特征输入所述语义表征模型,得到所述语义表征模型输出的语义表征数据;
根据所述语义表征数据,确定所述第r个待聚类原因事件的语义特征。
15.根据权利要求14所述的方法,其特征在于,所述根据所述语义表征数据,确定所述第r个待聚类原因事件的语义特征,包括:
对所述语义表征数据进行最大池化处理,得到所述第r个待聚类原因事件的语义特征。
16.根据权利要求12所述的方法,其特征在于,所述根据所述多个待聚类原因事件的语义特征,对所述多个待聚类原因事件进行聚类处理,得到至少一个原因事件簇,包括:
对所述多个待聚类原因事件进行第一聚类处理,得到至少一个待处理事件簇;
根据所述至少一个待处理事件簇以及所述多个待聚类原因事件的语义特征,对所述多个待聚类原因事件进行第二聚类处理,得到所述至少一个原因事件簇。
17.根据权利要求16所述的方法,其特征在于,所述至少一个待处理事件簇的确定过程,包括:
初始化i;
根据所述多个待聚类原因事件,初始化待抽取事件集合;
根据所述待抽取事件集合,确定目标原因事件和至少一个候选原因事件;
根据所述目标原因事件,确定第i个待处理事件簇;
根据各所述候选原因事件的哈希值与所述目标原因事件的哈希值之间的距离,确定所述至少一个候选原因事件中是否存在待聚合原因事件;其中,所述待聚合原因事件的哈希值与所述目标原因事件的哈希值之间的距离均满足预设距离条件;
若确定所述至少一个候选原因事件中存在至少一个待聚合原因事件,则将所述至少一个待聚合原因事件添加至所述第i个待处理事件簇;
从所述待抽取事件集合中删除所述目标原因事件以及所述至少一个待聚合原因事件,更新所述i,并继续执行所述根据所述待抽取事件集合,确定目标原因事件和至少一个候选原因事件的步骤,直至达到第一停止条件。
18.根据权利要求16所述的方法,其特征在于,所述根据所述至少一个待处理事件簇以及所述多个待聚类原因事件的语义特征,对所述多个待聚类原因事件进行第二聚类处理,得到所述至少一个原因事件簇,包括:
从所述至少一个待处理事件簇中确定至少一个目标事件簇;其中,各所述目标事件簇均满足预设保留条件;
根据所述至少一个目标事件簇和所述多个待聚类原因事件,确定至少一个簇社区和至少一个节点社区;其中,所述簇社区包括至少两个所述待聚类原因事件;所述节点社区包括一个所述待聚类原因事件;
根据所述多个待聚类原因事件的语义特征、所述至少一个簇社区和所述至少一个节点社区,确定至少一个社区表征节点;
根据所述至少一个社区表征节点,确定至少一个待处理社区;
根据所述至少一个待处理社区,更新所述至少一个社区表征节点,并继续执行所述根据所述至少一个社区表征节点,确定至少一个待处理社区的步骤,直至在达到第二停止条件时,根据所述至少一个待处理社区,确定所述至少一个原因事件簇。
19.根据权利要求12所述的方法,其特征在于,所述根据所述至少一个原因事件簇、以及所述多个待聚类原因事件对应的结果事件,确定因果事件图谱,包括:
对各所述原因事件簇进行噪声剔除处理,得到各所述去噪事件簇;
根据至少一个去噪事件簇、以及所述至少一个去噪事件簇中待聚类原因事件对应的结果事件,确定因果事件图谱。
20.根据权利要求19所述的方法,其特征在于,所述原因事件簇的个数为F;第f个原因事件簇包括H个待聚类原因事件;其中,f为正整数,f≤F,F为正整数;
第f个去噪事件簇的确定过程,包括:
根据所述第f个原因事件簇中所有待聚类原因事件的语义特征,确定所述第f个原因事件簇中各待聚类原因事件的簇内位置表征数据;
根据所述第f个原因事件簇中各待聚类原因事件的簇内位置表征数据,从所述第f个原因事件簇中筛选至少一个核心事件;其中,各所述核心事件的簇内位置表征数据均满足预设核心条件;
根据所述至少一个核心事件,确定所述第f个原因事件簇的中心特征;
根据所述第f个原因事件簇中各待聚类原因事件的语义特征与所述中心特征之间的距离,从所述第f个原因事件簇中筛选出至少一个噪声事件;其中,各所述噪声事件的语义特征与所述中心特征之间的距离均满足预设噪声条件;
将所述至少一个噪声事件从所述第f个原因事件簇中删除,得到所述第f个去噪事件簇。
21.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述待使用文本,确定待使用事件属性描述信息;
所述根据所述至少一个待使用原因事件和所述至少一个待使用原因事件对应的结果事件,确定因果事件图谱,包括:
根据所述至少一个待使用原因事件、所述至少一个待使用原因事件对应的结果事件、以及所述待使用事件属性描述信息,确定因果事件图谱。
22.根据权利要求21所述的方法,其特征在于,所述待使用事件属性描述信息包括待使用事件类型、待使用事件触发词和待使用事件参数信息;
所述待使用事件属性描述信息的确定过程,包括:
根据所述待使用文本,确定所述待使用事件触发词和所述待使用事件类型;
根据所述待使用事件触发词、所述待使用事件类型和所述待使用文本,确定所述待使用事件参数信息。
23.根据权利要求22所述的方法,其特征在于,所述根据所述待使用文本,确定所述待使用事件触发词和所述待使用事件类型,包括:
将所述待使用文本输入预先构建的第一确定模型,得到所述第一确定模型输出的所述待使用事件触发词和所述待使用事件类型;其中,所述第一确定模型包括第四编码层和第四解码层;所述第四解码层的输入数据包括所述第四编码层的输出数据。
24.根据权利要求23所述的方法,其特征在于,所述第四解码层包括第二交互网络、第四指针网络和第一确定网络;
所述待使用事件触发词和所述待使用事件类型的确定过程,包括:
根据所述待使用文本和所述第四编码层,确定第三编码特征;
将所述第三编码特征输入所述第二交互网络,得到所述第二交互网络输出的第二交互结果;
将所述第二交互结果输入所述第四指针网络,得到所述第四指针网络输出的第一识别结果;
根据所述第一识别结果和所述第一确定网络,确定所述待使用事件触发词和所述待使用事件类型。
25.根据权利要求24所述的方法,其特征在于,所述第一识别结果包括K个触发词识别结果和所述K个触发词识别结果对应的事件类型标识;其中,K为正整数。
26.根据权利要求22所述的方法,其特征在于,所述根据所述待使用事件触发词、所述待使用事件类型和所述待使用文本,确定所述待使用事件参数信息,包括:
根据所述待使用事件触发词、所述待使用事件类型和所述待使用文本,确定第三文本特征;
将所述第三文本特征输入预先构建的第二确定模型,得到所述第二确定模型输出的所述待使用事件参数信息;其中,所述第二确定模型包括第五编码层和第五解码层;所述第五解码层的输入数据包括所述第五编码层的输出数据。
27.根据权利要求1所述的方法,其特征在于,所述待使用文本的获取过程,包括:
在获取到待处理文本之后,对所述待处理文本进行因果关系识别处理,得到待使用关系识别结果;
若所述待使用关系识别结果表示所述待处理文本中存在因果关系,则将所述待处理文本,确定为所述待使用文本。
28.一种图谱构建装置,其特征在于,包括:
文本获取单元,用于获取待使用文本;其中,所述待使用文本包括至少一组因果事件;
原因抽取单元,用于从所述待使用文本抽取至少一个待使用原因事件;
结果抽取单元,用于根据各所述待使用原因事件和所述待使用文本,确定各所述待使用原因事件对应的结果事件;
图谱构建单元,用于根据所述至少一个待使用原因事件和所述至少一个待使用原因事件对应的结果事件,确定因果事件图谱。
29.一种设备,其特征在于,所述设备包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1至27任一项所述的方法。
30.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1至27任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111481742.7A CN114254121A (zh) | 2021-12-06 | 2021-12-06 | 一种图谱构建方法及其相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111481742.7A CN114254121A (zh) | 2021-12-06 | 2021-12-06 | 一种图谱构建方法及其相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114254121A true CN114254121A (zh) | 2022-03-29 |
Family
ID=80794114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111481742.7A Pending CN114254121A (zh) | 2021-12-06 | 2021-12-06 | 一种图谱构建方法及其相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114254121A (zh) |
-
2021
- 2021-12-06 CN CN202111481742.7A patent/CN114254121A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804521B (zh) | 一种基于知识图谱的问答方法及农业百科问答系统 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN111753024B (zh) | 一种面向公共安全领域的多源异构数据实体对齐方法 | |
CN108932342A (zh) | 一种语义匹配的方法、模型的学习方法及服务器 | |
CN109408578B (zh) | 一种针对异构环境监测数据融合方法 | |
CN108509521B (zh) | 一种自动生成文本索引的图像检索方法 | |
CN109359302B (zh) | 一种领域化词向量的优化方法及基于其的融合排序方法 | |
CN111143553B (zh) | 一种实时文本数据流的特定信息识别方法及系统 | |
CN112948601B (zh) | 一种基于受控语义嵌入的跨模态哈希检索方法 | |
CN116127090B (zh) | 基于融合和半监督信息抽取的航空系统知识图谱构建方法 | |
CN112434533B (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN114821271A (zh) | 模型训练方法、图像描述生成方法、装置及存储介质 | |
CN112650833A (zh) | Api匹配模型建立方法及跨城市政务api匹配方法 | |
CN115544303A (zh) | 用于确定视频的标签的方法、装置、设备及介质 | |
CN109299286A (zh) | 非结构化数据的知识挖掘方法及系统 | |
CN116662565A (zh) | 基于对比学习预训练的异质信息网络关键词生成方法 | |
CN112711944B (zh) | 一种分词方法、系统、分词器生成方法及系统 | |
CN114676346A (zh) | 新闻事件处理方法、装置、计算机设备和存储介质 | |
CN110941958A (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
CN114820134A (zh) | 一种商品信息召回方法、装置、设备和计算机存储介质 | |
CN114254121A (zh) | 一种图谱构建方法及其相关设备 | |
CN115238705A (zh) | 语义解析结果重排序方法及系统 | |
CN113128210B (zh) | 一种基于同义词发现的网页表格信息解析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |