CN112905868A - 事件抽取方法、装置、设备及存储介质 - Google Patents
事件抽取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112905868A CN112905868A CN202110301630.2A CN202110301630A CN112905868A CN 112905868 A CN112905868 A CN 112905868A CN 202110301630 A CN202110301630 A CN 202110301630A CN 112905868 A CN112905868 A CN 112905868A
- Authority
- CN
- China
- Prior art keywords
- event
- model
- text
- processed
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种事件抽取方法、装置、设备及存储介质,该方法包括:获取待处理文本;将所述待处理文本输入到事件检测模型进行检测处理,确定所述待处理文本中的事件类型;基于所述事件类型构建第一问询语料;将所述待处理文本和所述第一问询语料输入到阅读理解模型中,确定所述待处理文本中的事件元素;基于所述事件类型和所述事件元素,确定所述待处理文本的事件抽取结果。该技术方案由于使用了事件检测模型和阅读理解模型,从而能够精准地确定出待处理文本中的事件类型和事件元素,且适用于篇章级别的文本中的事件抽取,提高了事件抽取的整体性能,进一步提高了事件抽取效率。
Description
技术领域
本发明一般涉及自然语言处理技术领域,具体涉及一种事件抽取方法、装置、设备及存储介质。
背景技术
随着网络信息技术的不断发展,互联网上在线文本信息数量急剧增加,尤其是在金融领域数字化爆炸式增长的过程中,存在大量的金融文件,例如大量的公司的公告和公司年报,但是这些数据大多数是非结构化或半结构化数据,需要通过人工分析得到结构化数据。为了在金融领域更好地进行投资分析、资产管理等重大决策,需要对海量的金融文件进行处理。其中,事件抽取是处理大规模金融文件信息的关键技术,在信息处理中起着至关重要的作用,事件抽取是指识别特定类型的事件,并进行相关信息的确定和抽取。
目前,传统技术的事件抽取是基于模板匹配和机器学习的,然而相关技术中对事件抽取仅仅是针对句子级别的文本,对于篇章级别的文本,由于文本中可能存在大量的转义符号且爬取不规范产生的元素混乱,事件元素可能分布在不同的句子中,导致对金融事件相关元素抽取的准确度较低,从而影响金融事件抽取的整体性能。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种事件抽取方法、装置、设备及存储介质,能够提高事件抽取的准确性和效率。
第一方面,本申请实施例提供了一种事件抽取方法,该方法包括:
获取待处理文本;
将所述待处理文本输入到事件检测模型进行检测处理,确定所述待处理文本中的事件类型;
基于所述事件类型构建第一问询语料;
将所述待处理文本和所述第一问询语料输入到阅读理解模型中,确定所述待处理文本中的事件元素;
基于所述事件类型和所述事件元素,确定所述待处理文本的事件抽取结果。
第二方面,本申请提供了一种事件抽取装置,该装置包括:
获取模块,用于获取待处理文本;
类型确定模块,用于将所述待处理文本输入到事件检测模型进行检测处理,确定所述待处理文本中的事件类型;
语料构建模块,用于基于所述事件类型构建第一问询语料;
元素确定模块,用于将所述待处理文本和所述第一问询语料输入到阅读理解模型中,确定所述待处理文本中的事件元素;
结果确定模块,用于基于所述事件类型和所述事件元素,确定所述待处理文本的事件抽取结果。
第三方面,本申请实施例提供一种设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如上述第一方面的事件抽取方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序用于实现如上第一方面的事件抽取方法。
本申请实施例中提供的事件抽取方法、装置、设备及存储介质,通过获取待处理文本,并将待处理文本输入到事件检测模型,确定待处理文本中的事件类型,并基于事件类型构建第一问询语料,然后将待处理文本和第一问询语料输入到阅读理解模型中,确定待处理文本中的事件元素,并基于事件类型和事件元素,确定待处理文本的事件抽取结果。该技术方案由于使用了事件检测模型,能够精准地确定出待处理文本中的事件类型,并通过构建第一问询语料和使用了阅读理解模型,从而能够全面且精准地确定出待处理文本中的事件元素,适用于篇章级别的文本中的事件抽取,提高了事件抽取的整体性能,进一步提高了事件抽取效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例提供的事件抽取的应用系统的系统架构图;
图2为本申请实施例提供的事件抽取方法的流程示意图;
图3为本申请实施例提供的确定事件类型方法的流程示意图;
图4为本申请实施例提供的第一语义提取模型的结构示意图;
图5为本申请实施例提供的确定事件类型的结构示意图;
图6为本申请实施例提供的确定事件元素方法的流程示意图;
图7为本申请实施例提供的确定事件主体的结构示意图;
图8为本申请实施例提供的确定事件元素的结构示意图;
图9为本申请实施例提供的确定事件元素的结构示意图;
图10为本申请实施例提供的事件抽取的结构示意图;
图11为本申请实施例提供的事件抽取装置的结构示意图;
图12为本申请实施例示出的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
可以理解,随着互联网的不断普及和发展,网络中的信息呈爆炸式增长,如何从海量自然语言文档中及时准确地找到需要的信息变得日益迫切。可以通过信息抽取技术从松散、无结构的普通文本中抽取指定类型的实体、关系、事件等事实信息,并输出为结构化数据。其中,事件抽取技术已经在很多金融结构化领域得到了应用,比如公司公告的抽取和金融事件图谱化的构建,从而将计算机不能理解的非结构化数据转化为计算机能理解的结构化数据。事件抽取主要研究的是如何从非结构化自然语言文本中抽取出事件的基本信息,例如事件的类型,事件的参与者,事件的发生事件,事件的发生地点等,并以结构化的形式呈现出来。
需要说明的是,“事件”在金融领域是投资分析、资产管理的重要决策参考,金融领域的“事件”是指财务造假、偿付能力不足、高层失联/去世、企业破产、重大赔付、重大事故、股权冻结、股权质押、增持、减持等信息。随着网民规模的不断扩大,网页数据也呈海量增长,因此,如何从海量信息中高效地挖掘出事件显得非常重要。
相关技术的事件抽取是基于模板匹配和机器学习的,然而相关技术中对事件抽取仅仅是针对句子级别的文本,对于篇章级别的文本,由于文本中可能存在大量的转义符号且爬取不规范产生的元素混乱,例如多个金额之间的空格丢失,以及篇章级别的文本中的事件要素可能出现在篇章中的各个位置,从而分布在不同的句子中,并且一些金融文本中存在复杂的表格事件,同一事件类型可能对应多个事件主体,即多个子事件,且事件主体存在缩写等问题,导致对金融事件中相关元素抽取的准确度较低,从而影响金融事件抽取的整体性能。
基于上述缺陷,本申请提供了一种事件抽取方法、装置、设备及存储介质,与相关技术相比,该方法由于使用了事件检测模型,能够精准地确定出待处理文本中的事件类型,并通过构建第一问询语料和使用了阅读理解模型,从而能够全面且精准地确定出待处理文本中的事件元素,适用于篇章级别的文本中的事件抽取,提高了事件抽取的整体性能,进一步提高了事件抽取效率。
本申请实施例提供的方案涉及人工智能的自然语言处理以及机器学习等技术,具体通过下述实施例进行说明。
图1是本申请实施例提供的一种事件抽取方法的实施环境架构图。如图1所示,该实施环境架构包括:终端100和服务器200。
终端100可以是各类AI应用场景中的终端设备。例如,终端100可以是智能电视、智能电视机顶盒等智能家居设备,或者终端100可以是智能手机、平板电脑以及电子书阅读器等移动式便携终端,或者,该终端100可以是智能眼镜、智能手表等智能可穿戴设备,本实施例对此不进行具体限定。
其中,终端100中可安装有基于自然语言处理的AI应用。比如,该AI应用可以是智能搜索、智能问答等应用。
服务器200可以是一台服务器,也可以是由若干台服务器构成的服务器集群,或者服务器200可以包含一个或多个虚拟化平台,或者服务器200可以是一个云计算服务中心。
其中,服务器200可以是为上述终端100中安装的AI应用提供后台服务的服务器设备。
终端100与服务器200之间通过有线或无线网络建立通信连接。可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan AreaNetwork,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。
上述基于自然语言处理的AI应用系统在提供AI应用服务的过程中,可以通过事件检测模型和阅读理解模型对待处理文本进行抽取处理,得到事件抽取结果,并根据事件抽取结果提供AI应用服务。其中,上述多个事件检测模型和阅读理解模型可以设置在服务器200中,由服务器训练以及应用;或者,上述事件检测模型和阅读理解模型也可以设置在终端100中,并由服务器200训练及更新。
为了便于理解和说明,下面通过图2至图12详细阐述本申请实施例提供的事件抽取方法、装置、设备及存储介质。
图2所示为本申请实施例的事件抽取方法的流程示意图,该方法可以由计算机设备执行,该计算机设备可以是上述图1所示系统中的服务器200或者终端100,或者,该计算机设备也可以是终端100和服务器200的结合。如图2所示,该方法包括:
S101、获取待处理文本。
具体的,上述待处理文本可以是篇章级别的文本,还可以是句子级别的文本,该待处理文本中也可以包括表格格式的文本,本实施例中的待处理文本的语言可以是中文,也可以是英文,或者,还可以是其他语言类型,本实施例对待处理文本的语言类型不作具体限定。
可选的,该待处理文本可以是计算机设备获取的任意文本类型的文本,其中,可以是从用户指定的位置获取的待处理文本,也可以是通过其他外部设备导入的待处理文本,还可以是用户向计算机设备提交的待处理文本,本实施例对此不做限定。该待处理文本可以是一个,也可以是多个,每个待处理文本中可以包括至少一个词。
需要说明的是,该待处理文本是指需要进行事件抽取的文本,该待处理文本可以是任意领域的文本,其中,可以为金融领域的文本,例如,待处理文本可以为“浙江中科公司关于合计持股5%以上股份减持计划实施完毕的公告特别提示:深圳安车检测公司以1月8日以集中竞价方式共减持公司股份477090股”。
S102、将待处理文本输入到事件检测模型进行检测处理,确定待处理文本中的事件类型。
在本实施例中,上述事件检测模型包括第一语义提取模型和第一输出模型,可以预先定义好所有的事件类型,在获取到待处理文本后,可以按照预设的长度对待处理文本进行分句处理,划分为多个句序列,可以对于每个句序列,将定义好的所有事件类型和该句序列输入到第一语义提取模型中,得到第一语义向量,然后将第一语义向量输入到第一输出模型中,从而确定待待处理文本中的事件类型。
需要说明的是,上述第一语义提取模型可以是预训练语言模型AWF-NEZHA,用于提取篇章级文本的语义特征,输出的是第一语义向量,上述第一输出模型可以包括全连接层和激活函数,能够对第一语义提取模型输出的第一语义向量进行二分类处理,从而得到待处理文本中的事件元素。
作为一种可实现方式,在上述实施例的基础上,如图3所示,上述步骤S102可以包括如下步骤:
S201、将待处理文本和预设的所有事件类型按照预设格式进行拼接处理,得到第一拼接文本。
上述预设的所有事件类型例如可以包括高层死亡、破产清算、重大资产损失、重大赔付、重大安全事故、股东增持、股东减持、股权冻结、股权质押等。
本步骤中,在获取到待处理文本后,由于获取的待处理文本可能过长,如果输入到事件检测模型进行预测会耗费大量资源,因此需要对待处理文本进行截断处理,例如可以按照1024字对待处理文本进行截断处理,从而将待处理文本截断为多个子文本。对于每个子文本,可以将该子文本和预设的所有事件类型按照预设格式进行拼接处理,得到第一拼接文本。
需要说明的是,当第一语义提取模型为预训练语言模型时,上述预设格式例如可以是[CLS]+待处理文本+[SEP]+[UNUSED1]+事件类型+[SEP]。其中,[CLS]和[SEP]为预训练语言模型中特有的标志位,代表了一个句子的开始分隔符和结束分隔符,[UNUSED1]为预训练语言模型字典中的保留字,可以表示任意未登录字。上述事件类型可以包括预设的所有事件类型。
S202、将第一拼接文本输入第一语义提取模型中,得到至少一个第一语义向量。
具体的,上述第一语义提取模型可以是预训练语言模型AWF-NEZHA,用于提取待处理文本的语义特征。可以参见图4所示,该第一语义提取模型包括依次相连的多个变换模型Transformer Encoder和与每个变换模型Transformer Encoder对应的输出子模型。输出子模型可以包括全连接层Dense和激活函数。其中,变换模型和输出子模型的个数可以根据用户的不同需求进行自定义设置,例如可以是至少两个,且不同的变换模型对应的模型参数不同。
其中,依次相连的多个变换模型是指将前一个变换模型的输出作为后一个变换模型的输入。例如多个变换模型为依次相连的3个变换模型时,即将第一个变换模型的输出结果作为第二个变换模型的输入,使其通过第二个变换模型得到对应的输出结果,并将第二个变换模型的输出结果作为第三个变换模型的输入,从而通过第三个变换模型得到对应的输出结果。
需要说明的是,变换模型Transformer Encoder是基于注意力机制的机器学习模型,能够并行处理文本中的所有单词或符号,同时利用自注意力机制将上下文与较远的单词结合起来,通过并行处理所有单词,并让每个单词在多个处理步骤中注意到句子中的其他单词。
本实施例中,在得到第一拼接文本后,可以将第一拼接文本进行编码处理,确定字嵌入向量和位置嵌入向量,并将字嵌入向量和位置嵌入向量相加,得到输入向量,并将输入向量通过多个变换模型中,得到每个变换模型对应的子输出向量,然后通过与每个变换模型一一对应的输出子模型,对与每个变换模型相对应的输出子向量进行分类处理,得到每个变换模型对应的子权重向量,并对与每个变换模型对应的子权重向量进行归一化处理,确定总权重向量,对每个变换模型对应的子输出向量进行拼接处理,确定总输出向量,并基于总输出向量和总权重向量,确定至少一个第一语义向量。
在将输入向量通过多个变换模型中进行处理的过程中,可以先将输入向量输入到多个变换模型中的第一个变换模型Transformer Encoder 1中,得到第一个变换模型Transformer Encoder 1对应的输出结果,并将该输出结果作为下一个变换模型Transformer Encoder 2的输入,从而确定下一输出结果,依次类推,前一个变换模型的输出作为后一个变换模型的输入,通过各个变换模型对输入向量的依次融合编码,从而可以确定出最后一个变换模型的输出结果,即最后一个变换模型对应的子输出向量。
具体的,可以基于字典,对第一拼接文本进行映射处理,将第一拼接文本中的单词映射成数字id,即x1 x2,...,xn,也就是说将第一拼接文本映射为拼接向量X=(x1,x2,...,xn),,然后将其编码成一个字嵌入向量Wt和位置嵌入向量Wp。将字嵌入向量Wt和位置嵌入向量Wp进行相加,得到输入向量h0。然后将输入向量h0通过一个N层的变换模型中进行处理得到每个变换模型Transformer Encoder对应的子权重向量hl,可以通过如下公式表示:
h0=XWt+Wp
hl=Transformer(hl-1),l∈[1,N]
其中,h0为输入向量,X为拼接向量,Wt为字嵌入向量,Wp为位置嵌入向量,hl为隐藏层向量,即第l层Transformer变换模型的子输出向量。
例如,当字嵌入向量Wt=(Wt1,Wt2,...,Wtn)时,拼接向量X=(x1,x2,...,xn),位置嵌入向量Wp=(Wp1,Wp2,...,Wpn)时,可以通过h0=XWt+Wp将字嵌入向量与位置嵌入向量相乘得到对应的结果,并将该结果和位置嵌入向量进行相加,从而得到输入向量h0。
需要说明的是,为了有效利用每个Transformer变换模型的信息,需要通过与变换模型一一对应的输出子模型,对与每个变换模型相对应的子输出向量进行分类处理,得到每个变换模型对应的子权重向量,即通过全连接层学习每个Transformer变换模型的重要程度μ,然后通过如下公式进行加权叠加得到最终的子权重向量:
μl=σ(Denseunit=1(hl))
其中,σ为relu激活函数,μl为第l层Transformer变换模型对应的子权重向量,hl为第l层Transformer变换模型的子输出向量,Dense表示全连接层,Dense(·)为全连接层对应的函数。并通过将每个Transformer变换模型对应的子权重向量进行拼接处理,然后通过softmax函数进行归一化处理,得到1*L的总权重向量,可以通过如下公式表示:
μL=softmax(concatenate([μ1,μ2,...,μl]))
其中,μl为第l层Transformer变换模型对应的子权重向量,μL为总权重向量,softmax(·)为激活函数,concatenate(·)为连接函数,用于将每个变换模型对应的子权重向量进行融合。然后通过将N层Transformer变换模型中每个变换模型对应的子输出向量进行拼接融合处理,得到总输出向量hL,可以通过如下公式表示:
hL=concatenate([h1,h2,...,hl])
其中,hl为第l层Transformer变换模型的子输出向量,hL为总输出向量,concatenate(·)为连接函数,用于将每个变换模型对应的子输出向量进行融合。并通过动态权重融合层Dynamic Weight Fusion Layer对总输出向量和总权重向量进行加权求和,得到第一语义向量hAWF,可以通过如下公式表示:
hAWF=matmul([μL,hL])
其中,μL为总权重向量,hL为总输出向量,hAWF为第一语义向量,matmul(·)代表矩阵乘法。由于子权重向量μ在训练过程中是根据每层变换模型的重要程度自动更新的,因而可以称为自适应权重融合NEZHA,可以按照上述方式得到多个第一语义向量。
S203、将每个第一语义向量进行拼接处理,得到第一语义向量序列。
S204、将第一语义向量序列通过第一输出模型中进行二分类处理,确定待处理文本中的事件类型。
具体的,在得到多个第一语义向量后,可以将至少一个第一语义向量按照预设拼接顺序进行拼接处理,得到第一语义向量序列,即从第一拼接文本的相应位置中抽取UNUSED1标志出的第一语义向量,并将该第一语义向量拼接在一起形成第一语义向量序列,该第一语义向量序列可以包括至少一个事件类型。
然后将第一语义向量序列通过第一输出模型进行二分类处理,确定待处理文本中的事件类型,该第一输出模型包括全连接层Fully Connected Layer和激活函数Sigmoid,可以先将第一语义向量序列通过权连接层Fully Connected Layer处理得到全连接向量,并采用激活函数对全连接向量进行处理,得到待处理文本的预测结果集合,预测结果集合可以0和1,其中,输出为0的位置对应的事件类型不为待处理文本中所包含的事件类型,最终输出的预测结果集合中输出为1的位置对应的事件类型为待处理文本中所包含的事件类型。
需要说明的是,上述第一输出模型可以包括但不限于全连接层和激活函数。全连接层可以包括一层,或者也可以包括多层。全连接层主要是用于对融合词向量进行分类的作用。上述激活函数可以是softmax函数,激活函数的作用是用来加入非线性因素,因为线性模型的表达能力不够,能够把输入的连续实值变换为0和1之间的输出。
可以理解的是,上述事件检测模型是基于历史文本数据预先训练得到的。作为一种可能的实现方式,训练事件检测模型的过程可以为:获取历史文本数据,其中,历史文本数据包括样本文本以及样本文本对应的事件类型,将历史文本数据分为训练集和验证集,其中,训练集用于对初始第一语义提取模型和第一输出模型进行训练,以得到训练好的第一语义提取模型和第一输出模型,验证集用于对训练好的第一语义提取模型和第一输出模型进行验证,以验证第一语义提取模型和第一输出模型性能的好坏。即利用训练集对待构建的第一语义提取模型和第一输出模型进行训练,得到待验证的第一语义提取模型和第一输出模型,并利用验证集对待验证的第一语义提取模型和第一输出模型,按照第一损失函数最小化对待验证的第一语义提取模型和第一输出模型中的模型参数进行优化处理,得到第一语义提取模型和第一输出模型,基于第一语义提取模型和第一输出模型,得到事件检测模型。
其中,Wt为预设的可训练的参数向量,Wt∈R2×H,H为第一语义提取模型中的网络隐藏层维度,bt为偏置项,hAWF-T为从hAWF中抽取得到[1*K*H]的张量,K为事件类型个数,hAWF为预训练的第一语义向量。
其中,K为事件类型个数,其中yi,分别表示第i个位置处的真实标签值和模型预测值。然后,按照第一损失函数最小化对待验证的第一语义提取模型和第一输出模型中的参数进行优化处理,从而得到第一语义提取模型和第一输出模型,进而得到事件检测模型。
其中,通过第一损失函数对待验证的第一语义提取模型和第一输出模型中的参数进行更新时,可以是根据第一损失函数确定待验证的第一语义提取模型和第一输出模型未收敛时,通过调整模型中的参数,以使得待验证的第一语义提取模型和第一输出模型收敛,从而得到第一语义提取模型和第一输出模型。待验证的第一语义提取模型和第一输出模型收敛,可以是指待验证的第一语义提取模型和第一输出模型对验证集的输出结果与训练数据的标注结果之间的差值小于预设阈值,或者,输出结果与训练数据的标注结果之间的差值的变化率趋近于某一个较低值。当计算的第一损失函数较小,或者,与上一轮迭代输出的第一损失函数之间的插值趋近于0,则认为待验证的第一语义提取模型和第一输出模型收敛。
示例性地,可以参见图5所示,在获取到待处理文本后,例如待处理文本为“安车检测:关于合计持股5%以上股东股减持计划实施完毕的公告股票代码...”,且预设的常见的所有事件类型可以包括“高层死亡、破产清算、重大资产损失、重大赔付、重大安全事故、股东增持、股东减持、股权冻结、股权质押”,可以将该待处理文本和预设的所有事件类型按照预设格式进行拼接,得到第一拼接文本,即第一拼接文本为:[CLS]+“安车检测:关于合计持股5%以上股东股减持计划实施完毕的公告股票代码...”+[SEP]+[UNUSED1]+高层死亡+[SEP]+[UNUSED1]+破产清算+[SEP]+[UNUSED1]+重大资产损失+[SEP]+[UNUSED1]+重大赔付+...+[SEP]+[UNUSED1]+股东增持+[SEP]+[UNUSED1]+股权质押。然后将该第一拼接文本输入第一语义提取模型AWF-NEZHA中,得到至少一个第一语义向量,并将该至少一个第一语义向量进行拼接处理,得到第一语义向量序列,然后将第一语义向量序列通过第一输出模型进行二分类处理,可以先通过全连接层进行处理为全连接向量,并采用激活函数对全连接向量进行处理,得到事件预测结果集合,该事件预测结果集合包括0和1,其中,最终输出的事件预测结果集合中输出为1的位置对应的事件类型为待处理文本中所包含的事件类型,从而确定出该待处理文本中包含的事件类型为股东减持。
与传统的事件检测采用的分类预测方法相比,本实施例中能够在模型的输入中考虑到事件类型的标签,即把所有的事件类型和待处理文本进行拼接,通过预先定义好的所有事件类型来监督当前的待处理文本,从而实现事件类型的检测。
S103、基于事件类型构建第一问询语料。
本步骤中,在确定出待处理文本中所包含的事件类型后,可以根据预设的事件类型与事件主体的映射关系,确定与事件类型对应的事件主体,并对每个事件主体构建第一问询语料。
其中,上述事件类型与事件主体的映射关系可以参见如下表格所示:
事件类型 | 事件主体 |
高层死亡 | 高层人员 |
破产清算 | 公司名称 |
重大资产损失 | 公司名称 |
重大赔付 | 公司名称 |
重大安全事故 | 公司名称 |
股东增持 | 增持的股东 |
股东减持 | 减持的股东 |
股权冻结 | 被冻结的股东 |
股权质押 | 质押方 |
示例性地,当事件类型为股东减持时,对应的事件主体为减持的股东;当事件类型为股东增持时,对应的事件主体为增持的股东;当事件类型为股权质押时,对应的事件主体为质押方。
在确定出事件类型后,可以为每个事件主体构造第一问询语料query,如针对“股东减持”这一事件,可以构造query为“股东减持的减持的股东是什么?”。
S104、将待处理文本和第一问询语料输入到阅读理解模型中,确定待处理文本中的事件元素。
具体的,上述阅读理解模型可以包括相互级联的第一模型和第二模型,该第一模型用于从待处理文本中抽取事件主体,该第二模型用于基于事件主体,从待处理文本中抽取事件元素。该第一模型和第二模型可以同时训练学习和优化。
上述第一模型可以包括第二语义提取模型和第二输出模型,在确定出第一问询语料后,可以将第一问询语料和待处理文本通过第二语义提取模型进行处理,得到第二语义向量,然后将第二语义向量输入到第二输出模型中,从而确定事件类型对应的事件主体。同理,第二模型也可以包括第三语义提取模型和第三输出模型。
需要说明的是,上述第二语义提取模型和第三语义模型可以是预训练语言模型AWF-NEZHA,用于提取篇章级文本的语义特征,输出的分别是第二语义向量和第三语义向量,上述第二输出模型和第三输出模型可以分别包括全连接层和激活函数,能够对第二语义提取模型输出的第二语义向量进行二分类处理,从而得到事件类型对应的事件主体,以及对第三语义提取模型输出的第三语义向量进行二分类处理,从而得到事件主体对应的事件元素。
可选的,作为一种可实现方式,在上述实施例的基础上,如图6所示,上述步骤S104可以包括如下步骤:
S301、将第一问询语料和待处理文本按照预设格式进行拼接处理,得到第二拼接文本。
本步骤中,在得到第一问询语料后,可以将第一问询语料和待处理文本按照预设格式进行拼接处理,得到第二拼接文本,该预设格式可以是[CLS]+第一问询语料+[SEP]+待处理文本[SEP]。
例如,确定的事件类型为“股东减持”,且构建的第一问询语料为“股东减持的减持的股东是什么?”,则得到的第二拼接文本可以为“[CLS]股东减持的减持的股东是什么?[SEP]安车检测:关于合计股持股5%以上股份减持计划实施完毕的公司股票代码::300572股票简称:安车检测...[SEP]”。
S302、将第二拼接文本输入第一模型中,确定事件类型对应的事件主体。
其中,上述第一模型包括第二语义提取模型和第二输出模型,在得到第二拼接文本后,可以先将第二拼接文本输入第二语义提取模型中,得到至少一个第二语义向量,并将每个第二语义向量进行拼接处理,得到第二语义向量序列,然后将第二语义向量序列通过第二输出模型进行二分类处理,确定事件主体在待处理文本中的起始位置和终止位置,并基于事件主体在文档中的起始位置和终止位置,确定事件类型对应的事件主体。该第二输出模型可以为两个二分类网络。
上述第二语义提取模型可以是预训练语言模型AWF-NEZHA,用于提取待处理文本和第一问询语料的语义特征。与第一语义提取模型结构类似,该第二语义提取模型包括依次相连的多个变换模型Transformer Encoder和与每个变换模型Transformer Encoder对应的输出子模型。输出子模型可以包括全连接层Dense和激活函数。
本实施例中,在得到第二拼接文本后,将第二拼接文本输入第二语义提取模型得到至少一个第二语义向量的过程与上述将第一拼接文本输入第一语义提取模型得到至少一个第一语义向量的过程类似,可以参见上述描述过程。
可以将第二语义向量按照预设拼接顺序进行拼接处理,得到第二语义向量序列,然后将第二语义向量序列通过第二输出模型进行二分类处理,例如可以通过两个二分类网络进行二分类处理,可以先将第二语义向量序列通过全连接层Fully Connected Layer处理得到全连接向量,并采用激活函数对全连接向量进行处理,得到待处理文本中事件主体的预测结果集合,该预测结果集合包括待处理文本中当前位置为事件主体的起始位置或终止位置的置信度,当置信度大于预设阈值时,则在相应的位置上标记为1,否则标记为0,即最终得到的该预测结果集合可以0和1。其中,输出为0的位置对应的不为事件主体的起止位置,输出为0的位置对应的为事件主体的起止位置,例如可以取置信度大于0.45的位置确定为事件主体的起始位置和终止位置,从而根据标记为1的位置,在原始输入的待处理文本的相应位置中,截取该位置对应的文本,即可得到事件类型对应的事件主体。
示例性地,请参见图7所示,在确定出待处理文本对应的事件类型后,可以根据事件类型构建第一问询语料,例如确定的事件类型为股东减持,则根据预设的事件类型与事件主体的映射关系,确定股东减持对应的事件主体是减持的股东,则构建的第一问询语料query为“股东减持的减持的股东是什么?”,然后将第一问询语料和待处理文本按照预设格式进行拼接处理,得到第二拼接文本,例如得到的第二拼接文本可以为“[CLS]股东减持的减持的股东是什么?[SEP]安车检测:关于合计股持股5%以上股份减持计划实施完毕的公司股票代码::300572股票简称:安车检测公告编号:2019-002深圳市安车检测股份有限公司关于合计持股5%以上的股东浙江华睿德银创业投资有限公司及其一致行动人浙江华睿中科创业投资有限公司...[SEP]”。
然后将待处理文本和第一问询语料输入到第一模型中,该第一模型包括第二语义提取模型AWF-NEZHA和第二输出模型,可以先将第二拼接文本输入第二语义提取模型中,得到至少一个第二语义向量,并将每个第二语义向量进行拼接处理,得到第二语义向量序列,然后将第二语义向量序列通过第二输出模型中的全连接层Fully Connected Layer和激活函数sigmoid进行二分类处理,得到预测结果集合,该预测结果集合可以包括0和1,即可确定事件主体在待处理文本中的起始位置和终止位置,则根据标记为1的位置,在原始输入的待处理文本的相应位置中,截取该位置对应的文本,即可得到事件类型对应的事件主体,可以得到待处理文本中的事件主体减持的股东为“浙江华睿中科创业投资有限公司”。
S303、基于事件主体构建第二问询语料。
本步骤中,在从待处理文本中确定出事件主体后,可以根据预设的事件主体与事件元素的映射关系,确定与事件主体对应的事件元素,并对每个事件主体构建包括多个事件元素的第二问询语料。
其中,上述事件主体与事件元素之间的映射关系可以参见如下表格所示:
示例性地,当事件类型为股东减持时,对应的事件主体为减持的股东,对应的事件元素包括减持开始日期和减持的金额;当事件类型为股东增持时,对应的事件主体为增持的股东,对应的事件元素为增持开始日期和增持的金额。
在确定出事件主体后,由于每个事件主体可能对应多个事件元素,可以根据多个事件元素,根据预设模板为每个事件主体构造第二问询语料query,该预设模板可以为“事件主体#role1,role2#role3...”,即事件主体与事件元素之间用#分割,事件元素之间用逗号分割。例如抽取的事件主体为“浙江华睿中科创业投资有限公司”,则构建的第二问询语料为query为“浙江华睿中科创业投资有限公司#减持金额,减持开始日期”。
S304、将第二问询语料和待处理文本按照预设格式进行拼接处理,得到第三拼接文本。
具体的,在得到第二问询语料后,可以将第二问询语料和待处理文本按照预设格式进行拼接处理,得到第三拼接文本,该预设格式可以是[CLS]+第二问询语料+[SEP]+待处理文本+[SEP]。
例如,确定的事件主体为““浙江华睿中科创业投资有限公司”,且构建的第二问询语料为“浙江华睿中科创业投资有限公司#减持金额,减持开始日期”,则得到的第三拼接文本可以为“[CLS]浙江华睿中科创业投资有限公司#减持金额,减持开始日期[SEP]安车检测:关于合计股持股5%以上股份减持计划实施完毕的公司股票代码::300572股票简称:安车检测...[SEP]”。
S305、将第三拼接文本输入到第二模型中,确定事件主体对应的事件元素。
其中,上述第二模型可以包括第三语义提取模型和第三输出模型,在得到第三拼接文本后,可以先将第三拼接文本输入第三语义提取模型中,得到至少一个第三语义向量,并将每个第三语义向量进行拼接处理,得到第三语义向量序列,然后将第三语义向量序列通过第二输出子模型进行二分类处理,确定事件元素在待处理文本中的边界,并通过多个二分类网络对边界进行标注处理,得到事件主体对应的事件元素。
上述第三语义提取模型可以是预训练语言模型AWF-NEZHA,用于提取待处理文本和第二问询语料的语义特征。与第一语义提取模型结构类似,该第三语义提取模型包括依次相连的多个变换模型Transformer Encoder和与每个变换模型Transformer Encoder对应的输出子模型。输出子模型可以包括全连接层Dense和激活函数。
本实施例中,在得到第三拼接文本后,将第三拼接文本输入第三语义提取模型得到至少一个第三语义向量的过程与上述将第一拼接文本输入第一语义提取模型得到至少一个第一语义向量的过程类似,可以参见上述描述过程。
可以将第三语义向量按照预设拼接顺序进行拼接处理,得到第三语义向量序列,然后将第三语义向量序列通过第三输出模型进行二分类处理,例如可以通过多个二分类网络进行二分类处理,可以先将第三语义向量序列通过全连接层Fully Connected Layer处理得到全连接向量,并采用激活函数对全连接向量进行处理,得到事件元素在待处理文本中的边界,并通过多个二分类网络对边界进行标注处理,得到事件主体对应的事件元素。
需要说明的是,与现有技术相比,本实施例中将多个事件元素一块进行抽取,通过构建第二问询语料的形式,把当前事件主体的所有的事件要素拼接在一起,作为第二模型的输入,从而能够全面快速地抽取到事件元素。
为了同时抽取多个事件元素,可以通过多个二分类网络生成两个包括0和1的序列来确定事件元素在序列中的边界span,其中,每个边界span都由一个头位置指针start和一个尾位置指针end确定,同时采用多个二分类网络对元素span进行角色分类,即输入序列中的每个字符都可以表示为某一事件元素的起止位置,任意两个字符之间的文本组成的span都可以表示成任意一个事件角色。
示例性地,如图8所示,在确定出事件主体后,可以根据预设模板为事件主体构建第二问询语料,例如,根据抽取的事件主体为“浙江华睿中科创业投资有限公司”,则构建的第二问询语料为query为“浙江华睿中科创业投资有限公司#减持金额,减持开始时间”,并将第二问询语料和待处理文本按照预设格式进行拼接处理,得到第三拼接文本,该第三拼接文本例如可以为“[CLS]浙江华睿中科创业投资有限公司#减持金额,减持开始时间[SEP]安车检测:关于合计股持股5%以上股份减持计划实施完毕的公司股票代码::300572股票简称:安车检测...[SEP]”,并将该第三拼接文本输入到阅读理解模型中与第一模型级联的第二模型中,该第二模型包括第三语义提取模型AWF-NEZHA和第三输出模型,可以先将第三拼接文本输入第三语义提取模型中,得到至少一个第三语义向量,并将每个第三语义向量进行拼接处理,得到第三语义向量序列,然后将第三语义向量序列通过第三输出模型中的全连接层Fully Connected Layer和激活函数sigmoid进行二分类处理,得到预测结果序列,该预测结果序列包括0和1,将预测结果序列中为1对应的位置,确定事件元素在待处理文本中的边界span,该边界span包括一个头位置指纹start和尾位置指纹end,并采用多个二分类网络对边界span进行角色分类,从而确定事件元素减持开始时间和减持金额。
可以理解的是,上述阅读理解模型是基于历史文本数据预先训练的。作为一种可能的实现方式,训练阅读理解模型的过程可以为:获取历史文本数据,其中,历史文本数据包括样本文本以及样本文本对应的事件主体和事件元素,并将历史文本数据分为训练集和验证集,其中,训练集用于对初始的第一模型和第二模型进行训练,以得到训练好的第一模型和第二模型,验证集用于对训练好的第一模型和第二模型进行验证,以验证第一模型和第二模型性能的好坏。即利用训练集对待构建的第一模型和第二模型进行训练,得到待验证的第一模型和第二模型,然后利用验证集中对待验证的第一模型和第二模型,按照第二损失函数最小化对待验证的第一模型和第二模型进行优化处理,得到第一模型和第二模型,并基于第一模型和第二模型,得到阅读理解模型。
在对阅读理解模型进行训练的过程中,可以将历史文本数据输入到初始的第一模型中,从而得到第一输出结果,该第一输出结果可以通过如下公式表示:
其中,xi=hDWF[i],即待处理文本中第i个字符经过编码器后的向量表示,σ为sigmoid激活函数,Wstart,Wend为预设的可训练的权重,bs,be为相应的偏置项分别为当前待处理文本中第i个字符为事件主体的开始位置和终止位置的概率,当概率大于设定阈值时,则相应的位置上会标志为1,否则会标志为0。
在得到第一输出结果后,可以确定出第一模型的第一优化目标函数,该第一优化目标函数可以通过如下公式表示:
然后将该第一输出结果输入至第二模型中,得到第二输出结果,由于每个事件元素的角色都对应一组指针向量(start,end),并将所有标签的start和end指针向量分别组合在一起可以得到两个二维矩阵,记为Ss,Se,即Ss,Se中的每一行表示一个角色类型,每一列都对应文本中一个字符。待处理文本采用多组二分类网络来预测输入序列在每个角色中对应的start和end指针向量,通过指针向量所在位置是0或1的可能性来表示事件元素的起止位置以及角色类型。对于输入的第一输出结果的中的每个字符进行多标签分类,第i个字符被预测为角色r的元素起止位置的概率值分别表示为:
其中,m为输入序列的整体长度,为已知的正确分类标签,k为query的长度,即在计算loss损失函数时,不考虑query部分的损失。然后,将上述第一模型对应的第一优化目标函数和第二模型对应的第二优化目标函数进行相加,即得到第二损失函数,该第二损失函数可以通过如下公式表示:
loss=losssubject+lossargument
其中,losssubject为第一优化目标函数,lossargument为第二优化目标函数,loss为第二损失函数。并按照第二损失函数最小化对第一模型和第二模型中的参数进行优化处理,从而得到第一模型和第二模型,进而得到阅读理解模型。
S105、基于事件类型和事件元素,确定待处理文本的事件抽取结果。
本步骤中,在确定出时间类型和事件元素后,可以获取事件元素在待处理文本中的索引值,该索引值用于标识事件元素在待处理文本中的位置,然后按照索引值,将与事件类型对应的事件元素进行整理,得到待处理文本的事件抽取结果。由于相同的事件主体可能对应多个不同的事件元素,可以按照索引值为相同的事件主体分配不同的与该事件主体对应的事件元素,从而得到待处理文本的事件抽取结果,该事件抽取结果例如可以是通过表格的形式呈现。
示例性地,可以参见图9所示,在确定出待处理文本对应的事件类型后,可以根据事件类型构建第一问询语料,例如确定的事件类型为股东减持,则根据预设的事件类型与事件主体的映射关系,确定股东减持对应的事件主体是减持的股东,则构建的第一问询语料query为“股东减持的减持的股东是什么?”,然后将第一问询语料和待处理文本按照预设格式进行拼接处理,得到第二拼接文本,例如得到的第二拼接文本可以为“[CLS]股东减持的减持的股东是什么?[SEP]安车检测:关于合计股持股5%以上股份减持计划实施完毕的公司股票代码::300572股票简称:安车检测公告编号:2019-002深圳市安车检测股份有限公司关于合计持股5%以上的股东浙江华睿德银创业投资有限公司及其一致行动人浙江华睿中科创业投资有限公司...[SEP]”。
然后将待处理文本和第一问询语料输入到阅读理解模型中的第一模型中,该第一模型包括第二语义提取模型AWF-NEZHA和第二输出模型,可以先将第二拼接文本输入第二语义提取模型中,得到至少一个第二语义向量,并将每个第二语义向量进行拼接处理,得到第二语义向量序列,然后将第二语义向量序列通过第二输出模型中的全连接层FullyConnected Layer和激活函数sigmoid进行二分类处理,得到预测结果集合,该预测结果集合可以包括0和1,即可确定事件主体在待处理文本中的起始位置和终止位置,则根据标记为1的位置,在原始输入的待处理文本的相应位置中,截取该位置对应的文本,即可得到事件类型对应的事件主体,可以得到待处理文本中的事件主体减持的股东为“浙江华睿中科创业投资有限公司”。
在确定出事件主体后,可以根据预设模板为事件主体构建第二问询语料,例如,根据抽取的事件主体为“浙江华睿中科创业投资有限公司”,则构建的第二问询语料为query为“浙江华睿中科创业投资有限公司#减持金额,减持开始日期”,并将第二问询语料和待处理文本按照预设格式进行拼接处理,得到第三拼接文本,该第三拼接文本例如可以为“[CLS]浙江华睿中科创业投资有限公司#减持金额,减持开始日期[SEP]安车检测:关于合计股持股5%以上股份减持计划实施完毕的公司股票代码::300572股票简称:安车检测...[SEP]”,并将该第三拼接文本输入到阅读理解模型中与第一模型级联的第二模型中,该第二模型包括第三语义提取模型AWF-NEZHA和第三输出模型,可以先将第三拼接文本输入第三语义提取模型中,得到至少一个第三语义向量,并将每个第三语义向量进行拼接处理,得到第三语义向量序列,然后将第三语义向量序列通过第三输出模型中的全连接层FullyConnected Layer和激活函数sigmoid进行二分类处理,得到预测结果序列,该预测结果序列包括0和1,将预测结果序列中为1对应的位置,确定事件元素在待处理文本中的边界span,该边界span包括一个头位置指纹start和尾位置指纹end,并采用多个二分类网络对边界span进行角色分类,从而确定事件元素减持开始时间和减持金额。
在确定出事件主体和事件元素后,可以获取事件元素在待处理文本中的索引值,并根据该索引值,为相同事件主体分配多个不同的事件元素,从而得到事件抽取结果,该事件抽取结果可以通过如下表格表示:
请参见图10所示,本申请提供的事件抽取方法,通过根据预先定义的事件schema,该事件schema包括所有的事件类型,然后将所有的事件类型和待处理文本输入到事件检测模型中,得到待处理文本中的事件类型,并基于事件类型构建第一问询语料,然后将第一问询语料和待处理文本输入到阅读理解模型中,抽取得到事件主体,然后基于事件主体从待处理文本中抽取得到事件要素,进而根据事件类型和事件要素,生成对应的事件抽取结果。该技术方案由于使用了事件检测模型和阅读理解模型,从而能够精准地确定出待处理文本中的事件类型和事件元素,且适用于篇章级别的文本中的事件抽取,提高了事件抽取的整体性能,进一步提高了事件抽取效率。
另一方面,图11为本申请实施例提供的一种事件抽取装置的结构示意图。该装置可以为终端或服务器内的装置,如图11所示,该装置700包括:
获取模块710,用于获取待处理文本;
类型确定模块720,用于将待处理文本输入到事件检测模型进行检测处理,确定待处理文本中的事件类型;
语料构建模块730,用于基于事件类型构建第一问询语料;
元素确定模块740,用于将待处理文本和第一问询语料输入到阅读理解模型中,确定待处理文本中的事件元素;
结果确定模块750,用于基于事件类型和事件元素,确定待处理文本的事件抽取结果。
可选的,类型确定模块720,包括:
将待处理文本和预设的所有事件类型按照预设格式进行拼接处理,得到第一拼接文本;
将第一拼接文本输入第一语义提取模型中,得到至少一个第一语义向量;
将至少一个第一语义向量进行拼接处理,得到第一语义向量序列;
将第一语义向量序列通过第一输出模型进行二分类处理,确定待处理文本中的事件类型。
可选的,上述输入单元722,具体用于:
对第一拼接文本进行编码处理,确定字嵌入向量和位置嵌入向量;
将字嵌入向量和位置嵌入向量进行相加,得到输入向量;
将输入向量通过多个变换模型中,得到每个变换模型对应的子输出向量;
通过与每个变换模型一一对应的输出子模型,对与每个变换模型相对应的子输出向量进行分类处理,得到每个变换模型对应的子权重向量;
对与每个变换模型对应的子权重向量进行归一化处理,确定总权重向量;
对每个变换模型对应的子输出向量进行拼接处理,确定总输出向量;
基于总输出向量和总权重向量,确定第一语义向量。
可选的,元素确定模块740,用于:
将第一问询语料和待处理文本按照预设格式进行拼接处理,得到第二拼接文本;
将第二拼接文本输入第一模型中,确定事件类型对应的事件主体;
基于事件主体构建第二问询语料;
将第二问询语料和待处理文本按照预设格式进行拼接处理,得到第三拼接文本;
将第三拼接文本输入到第二模型中,确定事件主体对应的事件元素。
可选的,元素确定模块740,用于:
将第二拼接文本输入第二语义提取模型中,得到至少一个第二语义向量;
将每个第二语义向量进行拼接处理,得到第二语义向量序列;
将第二语义向量序列通过第二输出模型进行二分类处理,确定事件主体在待处理文本中的起始位置和终止位置;
基于事件主体在文档中的起始位置和终止位置,确定事件类型对应的事件主体。
可选的,元素确定模块740,用于:
将第三拼接文本输入第三语义提取模型中,得到至少一个第三语义向量;
将每个第三语义向量进行拼接处理,得到第三语义向量序列;
将第三语义向量序列通过第二输出子模型进行二分类处理,确定事件元素在待处理文本中的边界;
通过多个二分类网络对边界进行标注处理,得到事件主体对应的事件元素。
可选的,结果确定模块750,用于:
获取事件元素在待处理文本中的索引值;
基于索引值,将与事件类型对应的事件元素进行整理,得到待处理文本的事件抽取结果。
可选的,事件检测模型通过如下步骤构建:
获取历史文本数据,将历史文本数据分为训练集和验证集;
利用训练集对待构建的第一语义提取模型和第一输出模型进行训练,得到待验证的第一语义提取模型和第一输出模型;
利用验证集对待验证的第一语义提取模型和第一输出模型,按照第一损失函数最小化对待验证的第一语义提取模型和第一输出模型进行优化处理,得到第一语义提取模型和第一输出模型;
基于第一语义提取模型和第一输出模型,得到事件检测模型。
可选的,阅读理解模型通过如下步骤构建:
获取历史文本数据,将历史文本数据分为训练集和验证集;
利用训练集对待构建的第一模型和第二模型进行训练,得到待验证的第一模型和第二模型;
利用验证集中对待验证的第一模型和第二模型,按照第二损失函数最小化对待验证的第一模型和第二模型进行优化处理,得到第一模型和第二模型;
基于第一模型和第二模型,得到阅读理解模型。
可以理解的是,本实施例的事件抽取装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,在此不再赘述。
另一方面,本申请实施例提供的设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如上述的事件抽取方法。
下面参考图12,图12为本申请实施例的终端设备的计算机系统的结构示意图。
如图12所示,计算机系统300包括中央处理单元(CPU)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储部分303加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有系统300操作所需的各种程序和数据。CPU 301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
以下部件连接至I/O接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分307;包括硬盘等的存储部分308;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分303从网络上被下载和安装,和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元(CPU)301执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器,包括:获取模块、类型确定模块、语料构建模块、元素确定模块和结果确定模块。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,获取模块还可以被描述为“用于获取待处理文本”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序,当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的事件抽取方法:
获取待处理文本;
将所述待处理文本输入到事件检测模型进行检测处理,确定所述待处理文本中的事件类型;
基于所述事件类型构建第一问询语料;
将所述待处理文本和所述第一问询语料输入到阅读理解模型中,确定所述待处理文本中的事件元素;
基于所述事件类型和所述事件元素,确定所述待处理文本的事件抽取结果。
综上所述,本申请实施例中提供的事件抽取方法、装置、设备及存储介质,通过获取待处理文本,并将待处理文本输入到事件检测模型,确定待处理文本中的事件类型,并基于事件类型构建第一问询语料,然后将待处理文本和第一问询语料输入到阅读理解模型中,确定待处理文本中的事件元素,并基于事件类型和事件元素,确定待处理文本的事件抽取结果。该技术方案由于使用了事件检测模型,能够精准地确定出待处理文本中的事件类型,并通过构建第一问询语料和使用了阅读理解模型,从而能够全面且精准地确定出待处理文本中的事件元素,适用于篇章级别的文本中的事件抽取,提高了事件抽取的整体性能,进一步提高了事件抽取效率。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (12)
1.一种事件抽取方法,其特征在于,包括:
获取待处理文本;
将所述待处理文本输入到事件检测模型进行检测处理,确定所述待处理文本中的事件类型;
基于所述事件类型构建第一问询语料;
将所述待处理文本和所述第一问询语料输入到阅读理解模型中,确定所述待处理文本中的事件元素;
基于所述事件类型和所述事件元素,确定所述待处理文本的事件抽取结果。
2.根据权利要求1所述的事件抽取方法,其特征在于,所述事件检测模型包括第一语义提取模型和第一输出模型,将所述待处理文本输入到事件检测模型进行检测处理,确定所述待处理文本中的事件类型,包括:
将所述待处理文本和预设的所有事件类型按照预设格式进行拼接处理,得到第一拼接文本;
将所述第一拼接文本输入所述第一语义提取模型中,得到至少一个第一语义向量;
将所述至少一个第一语义向量进行拼接处理,得到第一语义向量序列;
将所述第一语义向量序列通过所述第一输出模型进行二分类处理,确定所述待处理文本中的事件类型。
3.根据权利要求2所述的事件抽取方法,其特征在于,所述第一语义提取模型包括依次相连的多个变换模型和与每个所述变换模型对应的输出子模型,将所述第一拼接文本输入所述第一语义提取模型中,得到至少一个第一语义向量,包括:
对所述第一拼接文本进行编码处理,确定字嵌入向量和位置嵌入向量;
将所述字嵌入向量和所述位置嵌入向量进行相加,得到输入向量;
将所述输入向量通过所述多个变换模型中,得到每个变换模型对应的子输出向量;
通过与每个变换模型一一对应的输出子模型,对与每个变换模型相对应的子输出向量进行分类处理,得到每个所述变换模型对应的子权重向量;
对与所述每个变换模型对应的子权重向量进行归一化处理,确定总权重向量;
对所述每个变换模型对应的子输出向量进行拼接处理,确定总输出向量;
基于所述总输出向量和所述总权重向量,确定所述第一语义向量。
4.根据权利要求1所述的事件抽取方法,其特征在于,所述阅读理解模型包括第一模型和与所述第一模型级联的第二模型,将所述待处理文本和所述第一问询语料输入到阅读理解模型中,确定所述待处理文本中的事件元素,包括:
将所述第一问询语料和所述待处理文本按照预设格式进行拼接处理,得到第二拼接文本;
将所述第二拼接文本输入所述第一模型中,确定所述事件类型对应的事件主体;
基于所述事件主体构建第二问询语料;
将所述第二问询语料和所述待处理文本按照预设格式进行拼接处理,得到第三拼接文本;
将所述第三拼接文本输入到所述第二模型中,确定所述事件主体对应的事件元素。
5.根据权利要求4所述的事件抽取方法,其特征在于,所述第一模型包括第二语义提取模型和第二输出模型,将所述第二拼接文本输入所述第一模型中,确定所述事件类型对应的事件主体,包括:
将所述第二拼接文本输入所述第二语义提取模型中,得到至少一个第二语义向量;
将每个所述第二语义向量进行拼接处理,得到第二语义向量序列;
将所述第二语义向量序列通过所述第二输出模型进行二分类处理,确定事件主体在所述待处理文本中的起始位置和终止位置;
基于所述事件主体在文档中的起始位置和终止位置,确定所述事件类型对应的事件主体。
6.根据权利要求4所述的事件抽取方法,其特征在于,所述第二模型包括第三语义提取模型和第三输出模型,将所述第三拼接文本输入到所述第二模型中,确定所述事件主体对应的事件元素,包括:
将所述第三拼接文本输入所述第三语义提取模型中,得到至少一个第三语义向量;
将每个所述第三语义向量进行拼接处理,得到第三语义向量序列;
将所述第三语义向量序列通过所述第二输出子模型进行二分类处理,确定事件元素在所述待处理文本中的边界;
通过多个二分类网络对所述边界进行标注处理,得到所述事件主体对应的事件元素。
7.根据权利要求1所述的事件抽取方法,其特征在于,基于所述事件类型和所述事件元素,确定所述待处理文本的事件抽取结果,包括:
获取所述事件元素在所述待处理文本中的索引值;
基于所述索引值,将与所述事件类型对应的事件元素进行整理,得到所述待处理文本的事件抽取结果。
8.根据权利要求1所述的事件抽取方法,其特征在于,所述事件检测模型通过如下步骤构建:
获取历史文本数据,将所述历史文本数据分为训练集和验证集;
利用所述训练集对待构建的第一语义提取模型和第一输出模型进行训练,得到待验证的第一语义提取模型和第一输出模型;
利用所述验证集对所述待验证的第一语义提取模型和第一输出模型,按照第一损失函数最小化对所述待验证的第一语义提取模型和第一输出模型进行优化处理,得到第一语义提取模型和第一输出模型;
基于所述第一语义提取模型和所述第一输出模型,得到所述事件检测模型。
9.根据权利要求1所述的事件抽取方法,其特征在于,所述阅读理解模型通过如下步骤构建:
获取历史文本数据,将所述历史文本数据分为训练集和验证集;
利用所述训练集对待构建的第一模型和第二模型进行训练,得到待验证的第一模型和第二模型;
利用所述验证集中对所述待验证的第一模型和第二模型,按照第二损失函数最小化对所述待验证的第一模型和第二模型进行优化处理,得到第一模型和第二模型;
基于所述第一模型和所述第二模型,得到所述阅读理解模型。
10.一种事件抽取装置,其特征在于,所述装置包括:
获取模块,用于获取待处理文本;
类型确定模块,用于将所述待处理文本输入到事件检测模型进行检测处理,确定所述待处理文本中的事件类型;
语料构建模块,用于基于所述事件类型构建第一问询语料;
元素确定模块,用于将所述待处理文本和所述第一问询语料输入到阅读理解模型中,确定所述待处理文本中的事件元素;
结果确定模块,用于基于所述事件类型和所述事件元素,确定所述待处理文本的事件抽取结果。
11.一种终端设备,其特征在于,所述终端设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器用于执行所述程序时实现如权利要求1-9任一项所述的事件抽取方法。
12.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于实现如权利要求1-9任一项所述的事件抽取方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110301630.2A CN112905868A (zh) | 2021-03-22 | 2021-03-22 | 事件抽取方法、装置、设备及存储介质 |
US17/514,576 US20220300546A1 (en) | 2021-03-22 | 2021-10-29 | Event extraction method, device and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110301630.2A CN112905868A (zh) | 2021-03-22 | 2021-03-22 | 事件抽取方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112905868A true CN112905868A (zh) | 2021-06-04 |
Family
ID=76105850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110301630.2A Pending CN112905868A (zh) | 2021-03-22 | 2021-03-22 | 事件抽取方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220300546A1 (zh) |
CN (1) | CN112905868A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113535963A (zh) * | 2021-09-13 | 2021-10-22 | 深圳前海环融联易信息科技服务有限公司 | 一种长文本事件抽取方法、装置、计算机设备及存储介质 |
CN113626553A (zh) * | 2021-07-15 | 2021-11-09 | 人民网股份有限公司 | 一种基于预训练模型的级联二进制中文实体关系提取方法 |
CN113704476A (zh) * | 2021-09-02 | 2021-11-26 | 中科雨辰科技有限公司 | 目标事件抽取数据处理系统 |
CN114936559A (zh) * | 2022-01-05 | 2022-08-23 | 华能贵诚信托有限公司 | 一种基于多模型融合的多级事件抽取方法和抽取系统 |
CN115701862A (zh) * | 2023-01-10 | 2023-02-14 | 中国电子信息产业集团有限公司第六研究所 | 一种事件要素的确定方法、装置、电子设备及存储介质 |
CN115964471A (zh) * | 2023-03-16 | 2023-04-14 | 成都安哲斯生物医药科技有限公司 | 医疗数据近似查询方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401033B (zh) * | 2020-03-19 | 2023-07-25 | 北京百度网讯科技有限公司 | 事件抽取方法、事件抽取装置和电子设备 |
CN111325020B (zh) * | 2020-03-20 | 2023-03-31 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
CN112507700A (zh) * | 2020-11-26 | 2021-03-16 | 北京百度网讯科技有限公司 | 事件抽取方法、装置、电子设备及存储介质 |
-
2021
- 2021-03-22 CN CN202110301630.2A patent/CN112905868A/zh active Pending
- 2021-10-29 US US17/514,576 patent/US20220300546A1/en active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626553A (zh) * | 2021-07-15 | 2021-11-09 | 人民网股份有限公司 | 一种基于预训练模型的级联二进制中文实体关系提取方法 |
CN113626553B (zh) * | 2021-07-15 | 2024-02-20 | 人民网股份有限公司 | 一种基于预训练模型的级联二进制中文实体关系提取方法 |
CN113704476A (zh) * | 2021-09-02 | 2021-11-26 | 中科雨辰科技有限公司 | 目标事件抽取数据处理系统 |
CN113704476B (zh) * | 2021-09-02 | 2022-03-04 | 中科雨辰科技有限公司 | 目标事件抽取数据处理系统 |
CN113535963A (zh) * | 2021-09-13 | 2021-10-22 | 深圳前海环融联易信息科技服务有限公司 | 一种长文本事件抽取方法、装置、计算机设备及存储介质 |
CN113535963B (zh) * | 2021-09-13 | 2021-12-21 | 深圳前海环融联易信息科技服务有限公司 | 一种长文本事件抽取方法、装置、计算机设备及存储介质 |
WO2023035330A1 (zh) * | 2021-09-13 | 2023-03-16 | 深圳前海环融联易信息科技服务有限公司 | 一种长文本事件抽取方法、装置、计算机设备及存储介质 |
CN114936559A (zh) * | 2022-01-05 | 2022-08-23 | 华能贵诚信托有限公司 | 一种基于多模型融合的多级事件抽取方法和抽取系统 |
CN115701862A (zh) * | 2023-01-10 | 2023-02-14 | 中国电子信息产业集团有限公司第六研究所 | 一种事件要素的确定方法、装置、电子设备及存储介质 |
CN115964471A (zh) * | 2023-03-16 | 2023-04-14 | 成都安哲斯生物医药科技有限公司 | 医疗数据近似查询方法 |
Also Published As
Publication number | Publication date |
---|---|
US20220300546A1 (en) | 2022-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113822494B (zh) | 风险预测方法、装置、设备及存储介质 | |
CN112905868A (zh) | 事件抽取方法、装置、设备及存储介质 | |
CN111444340A (zh) | 文本分类和推荐方法、装置、设备及存储介质 | |
CN112434535B (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
CN111222305A (zh) | 一种信息结构化方法和装置 | |
CN111639291A (zh) | 内容分发方法、装置、电子设备以及存储介质 | |
CN111723569A (zh) | 一种事件抽取方法、装置和计算机可读存储介质 | |
CN115422944A (zh) | 语义识别方法、装置、设备及存储介质 | |
CN111709225B (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
CN116402630B (zh) | 一种基于表征学习的财务风险预测方法及系统 | |
CN115018656B (zh) | 风险识别方法、风险识别模型的训练方法、装置和设备 | |
CN113706291A (zh) | 欺诈风险预测方法、装置、设备及存储介质 | |
CN116737922A (zh) | 一种游客在线评论细粒度情感分析方法和系统 | |
CN113902569A (zh) | 数字资产中的绿色资产的占比的识别方法及相关产品 | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN115146653B (zh) | 对话剧本构建方法、装置、设备及存储介质 | |
CN112434889A (zh) | 一种专家行业分析方法、装置、设备及存储介质 | |
CN116796723B (zh) | 文本集匹配方法、装置、电子设备及存储介质 | |
CN117573809B (zh) | 一种基于事件图谱的舆情推演方法以及相关装置 | |
CN117034870A (zh) | 文本纠错模型的训练方法、装置、设备以及存储介质 | |
Jagdish et al. | Research Article Identification of End-User Economical Relationship Graph Using Lightweight Blockchain-Based BERT Model | |
CN115587800A (zh) | 公证文书纠错方法、装置、电子设备及存储介质 | |
CN113537372A (zh) | 一种地址识别方法、装置、设备及存储介质 | |
CN115577065A (zh) | 一种地址解析的方法及装置 | |
CN118095274A (zh) | 对象画像构建方法及装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |