CN112183030A - 基于预设神经网络的事件抽取方法、装置、计算机设备及存储介质 - Google Patents

基于预设神经网络的事件抽取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112183030A
CN112183030A CN202011079139.1A CN202011079139A CN112183030A CN 112183030 A CN112183030 A CN 112183030A CN 202011079139 A CN202011079139 A CN 202011079139A CN 112183030 A CN112183030 A CN 112183030A
Authority
CN
China
Prior art keywords
argument
text
event
input text
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011079139.1A
Other languages
English (en)
Inventor
胡晓辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202011079139.1A priority Critical patent/CN112183030A/zh
Publication of CN112183030A publication Critical patent/CN112183030A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于预设神经网络的事件抽取方法、装置、计算机设备及存储介质,所述方法包括:采集文本数据生成输入文本;向量转换层将输入文本转换为向量矩阵;特征提取层对向量矩阵进行编码,以提取出输入文本的序列特征;论元首字符预测输出层基于序列特征预测输入文本中论元的首字符位置和论元类型标识并输出;论元尾字符预测输出层基于序列特征预测输入文本中论元的尾字符位置和论元类型标识并输出;在预设的论元类型标识与事件类型的对应关系表中查找输出的论元类型标识对应的事件类型,并根据输出的论元的首字符位置和尾字符位置,从输入文本中抽取出论元作为事件类型的事件要素。因此,采用本申请实施例,可以提高论元抽取的准确率。

Description

基于预设神经网络的事件抽取方法、装置、计算机设备及存储 介质
技术领域
本发明涉及计算机技术领域,特别涉及一种基于预设神经网络的事件抽取方法、装置、计算机设备及存储介质。
背景技术
目前互联网上每天都会发布大量的非结构化文本信息,这些信息包含新闻,财报,快讯等等。如何从这些非结构的文本中进行事件抽取,即抽取出相关的事件类信息为舆情监控、风险控制和智能投研提供数据支持,便显得尤为重要。事件抽取是自然语言处理领域一项基本研究方向。它一般分为事件类型分类与论元识别两大任务。
在现有的技术方案中,早期人们利用预先构建的一些触发词,来判断事件类型,然后依据定义好的事件角色,从文本中抽取出相应的论元,由于这种方法依赖大量的人工构建特征,且移植性很差,不适合大规模的工业应用。目前随着深度学习的发展,人们开始利用深度学习技术来抽取文本中相关事件,其方法为先利用分类模型确定事件类型,再利用序列标注模型识别出文本中的论元,由于序列标注模型的好坏直接依赖于分类模型的好坏,当分类模型出现问题时可导致一些不必要的出错,从而降低了论元抽取的准确率。
发明内容
基于此,有必要针对当分类模型出现问题时可导致一些不必要的出错,从而降低了论元抽取的准确率的问题,提供一种基于预设神经网络的事件抽取方法、装置、计算机设备及存储介质。
一种基于预设神经网络的事件抽取方法,所述预设神经网络包括向量转换层、特征提取层、论元首字符预测输出层和论元尾字符预测输出层,所述方法包括:采集文本数据生成输入文本;向量转换层将所述输入文本转换为向量矩阵;特征提取层对所述向量矩阵进行编码,以提取出所述输入文本的序列特征;论元首字符预测输出层基于所述序列特征预测所述输入文本中论元的首字符位置和论元类型标识并输出;论元尾字符预测输出层基于所述序列特征预测所述输入文本中论元的尾字符位置和论元类型标识并输出;在预设的论元类型标识与事件类型的对应关系表中查找输出的论元类型标识对应的事件类型,并根据输出的论元的首字符位置和尾字符位置,从输入文本中抽取出论元作为所述事件类型的事件要素。
在其中一个实施例中,所述向量转换层包括文本数字化层和文本嵌入层;所述特征提取层对所述向量矩阵进行编码,以提取出所述输入文本的序列特征,包括:文本数字化层利用bert词表将所述输入文本转化为相应数字ID形式;文本嵌入层根据所述输入文本中各字符对应的数字ID,获取各字符的向量值得到向量矩阵。
在其中一个实施例中,还包括按照如下方式生成所述预设神经网络:采集各种事件类型的文本样本生成文本样本集合;针对所述文本样本集合中各样本标注论元类型标识,生成标注后的文本样本集合;创建神经网络模型;将所述标注后的文本样本集合输入神经网络模型进行优化训练,生成预设神经网络。
在其中一个实施例中,所述预设神经网络中的论元首字符预测输出层利用一个损失函数进行优化,论元尾字符预测输出层利用一个损失函数进行优化。
在其中一个实施例中,所述从输入文本中抽取出论元作为所述事件类型的事件要素之后,还包括:采用数据融合技术将所述事件类型和事件要素融合至预先构建的知识库。
在其中一个实施例中,所述采集文本数据生成输入文本之前,还包括:从数据库中读取文本数据生成第一数据样本;利用网络爬虫获取网络开源信息生成第二样本数据;根据所述第一样本数据和第二样本数据构建知识库,生成预先构建的知识库。
在其中一个实施例中,所述特征提取层为双向长短时记忆网络。
一种基于预设神经网络的事件抽取装置,所述装置包括:文本获取模块,用于采集文本数据生成输入文本;文本转换模块,用于向量转换层将输入文本转换为向量矩阵;特征提取模块,用于特征提取层对所述向量矩阵进行编码,以提取出所述输入文本的序列特征;第一数据输出模块,用于论元首字符预测输出层基于所述序列特征预测输入文本中论元的首字符位置和论元类型标识并输出;第二数据输出模块,用于论元尾字符预测输出层基于所述序列特征预测输入文本中论元的尾字符位置和论元类型标识并输出;第三数据输出模块,用于在预设的论元类型标识与事件类型的对应关系表中查找输出的论元类型标识对应的事件类型,并根据输出的论元的首字符位置和尾字符位置,从输入文本中抽取出论元作为所述事件类型的事件要素。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述基于预设神经网络的事件抽取方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述基于预设神经网络的事件抽取方法的步骤。
上述所述基于预设神经网络的事件抽取方法、装置、计算机设备和存储介质,基于预设神经网络的事件抽取装置首先采集文本数据生成输入文本,向量转换层再将输入文本转换为向量矩阵,特征提取层再对向量矩阵进行编码,以提取出输入文本的序列特征,论元首字符然后预测输出层基于序列特征预测输入文本中论元的首字符位置和论元类型标识并输出,论元尾字符预测输出层再基于序列特征预测输入文本中论元的尾字符位置和论元类型标识并输出,最后在预设的论元类型标识与事件类型的对应关系表中查找输出的论元类型标识对应的事件类型,并根据输出的论元的首字符位置和尾字符位置,从输入文本中抽取出论元作为事件类型的事件要素。由于本申请中只使用一个神经网络模型预测论元的首字符位置和尾字符位置,不需要关注中间字符的论元类型,从而降低了模型的复杂度,提高了论元抽取的准确率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本申请一个实施例中提供的基于预设神经网络的事件抽取方法的实施环境图;
图2为本申请一个实施例中计算机设备的内部结构示意图;
图3为本申请一个实施例中提供的基于预设神经网络的事件抽取方法的方法示意图;
图4为本申请一个实施例中提供的另一种基于预设神经网络的事件抽取方法的方法示意图;
图5为本申请一个实施例中提供的基于预设神经网络的事件抽取过程的过程示意图;
图6是本申请实施例提供的一种基于预设神经网络的事件抽取装置的装置示意图;
图7是本申请实施例提供的另一种基于预设神经网络的事件抽取装置的装置示意图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一数据样本成为第二数据样本,且类似地,可将第二数据样本成为第一数据样本。
图1为一个实施例中提供的基于预设神经网络的事件抽取方法的实施环境图,如图1所示,在该实施环境中,包括计算机设备110以及用户终端120。
计算机设备110可以为服务器设备,例如为保存知识库中数据的服务器设备。客户端120上安装有需要针对输入文本进行事件抽取等操作的应用,当需要数据抽取时,客户端120利用网络爬虫程序在网上爬取开源数据生成输入文本,客户端120然后将输入文本输入预设神经网络模型中预测输入文本中论元的首尾字符位置和论元类型标识并输出,客户端120再在预设的论元类型标识与事件类型的对应关系表中查找输出的论元类型标识对应的事件类型,并根据输出的论元的首字符位置和尾字符位置,从输入文本中抽取出论元作为所述事件类型的事件要素。客户端120采用数据融合技术将事件类型和事件要素融合发送至计算机设备110中预先构建的知识库进行保存。
需要说明的是,客户端120可为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。服务器110以及客户端120可以通过蓝牙、USB(Universal Serial Bus,通用串行总线)或者其他通讯连接方式进行连接,本发明在此不做限制。
图2为一个实施例中计算机设备的内部结构示意图。如图2所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种基于预设神经网络的事件抽取方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种基于预设神经网络的事件抽取方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
下面将结合附图3-附图5,对本申请实施例提供的基于预设神经网络的事件抽取方法进行详细介绍。该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的基于预设神经网络的事件抽取装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。
请参见图3,为本申请实施例提供了一种基于预设神经网络的事件抽取方法的流程示意图。如图3所示,本申请实施例的所述方法可以包括以下步骤:
S101,采集文本数据生成输入文本;
其中,文本是指书面语言的表现形式,通常是具有完整、系统含义的一个句子或多个句子的组合,一个文本可以是一个句子、一个段落或者一个篇章。文本数据是在设定的时间内通过爬虫技术在互联网上爬取的开源的数据信息,该数据信息可报考字符、句子、段落以及文章。
通常,开源的数据信息是互联网上每天发布的大量非结构化文本信息,该信息包括新闻、财报、快讯等中包含的字符、句子、段落以及文章。也可以包括对语音信息进行文本转化后的文本数据信息。
在一种可能的实现方式中,在利用基于预设神经网络的事件抽取装置进行事件抽取时,用户终端首先通过爬虫技术生成的爬虫程序在预设时间段中采集互联网中的开源信息,然后将获取的开源信息进行预处理后生成输入文本。
进一步地,在进行数据预处理时,由于直接从互联网获取的开源信息中可能存在错别字、语句残缺以及属于敏感词等特征,需要进行数据清洗等操作,操作结束后生成完整语义的文本信息,最后将完整语义的文本信息确定为输入文本。
S102,向量转换层将所述输入文本转换为向量矩阵;
其中,向量转换层是神经网络中第一层网络,该网络的任务是将输入文本转化为向量矩阵。向量矩阵是将输入文本利用bert词表转化成相应数字ID形式,最后利用各字符对应的数字ID,获取各字符的向量值得到向量矩阵。
在本申请实施例中,在将输入文本转换为向量矩阵时,需要将输入文本输入到预设神经网络中进行处理。预设神经网络是预先训练并优化的一个处理输入文本的数学模型,该数学模型包括向量转换层、特征提取层、论元首字符预测输出层和论元尾字符预测输出层。
具体的,预设神经网络的生成过程包括:首先采集各类事件类型的文本样本生成训练样本,在创建神经网络模型,再针对训练的数据样本标注论元类型标识,然后将标注后的训练样本输入到创建的神经网络模型中进行训练,并采用损失函数针对论元首字符预测输出层和论元尾字符预测输出层进行优化,优化结束后生成预设神经网络模型。
在一种可能的实现方式中,向量转换层包括文本数字化层和文本嵌入层。当输入文本输入到预设神经网络中进行处理时,向量转换层通过文本数字化层利用bert词表将输入文本转化为相应数字ID形式。再通过文本嵌入层根据输入文本中各字符对应的数字ID,获取各字符的向量值得到向量矩阵。
例如,当输入文本为“金融壹账通”时,首先文本数字化层利用bert词表查找“金融壹账通”中各字符的数字ID,然后查找结束后确定出“金融壹账通”中各字符的数字ID。将“金融壹账通”中各字符转化为数字ID形式后为[7032,6084,1902,6572,6858,754,123,121,122,130,2399,677,2356],文本嵌入(embedding)层根据输入文本中每一字符对应的数字ID,获取每一字符的向量值得到一形如(batch_size,seq_len,embedding_size)的向量矩阵。其中,batch_size表示输入几条文本,如只输入金融壹账通于2019年上市这一句话,则batch_size为1,seq_len为输入文本的长度,即一句话中有多少个字符,embedding_size代表每个字符的向量维度(Bert_base固定为768)。
S103,特征提取层对所述向量矩阵进行编码,以提取出所述输入文本的序列特征;
其中,特征提取层是预设神经网络中提取输入文本序列特征的网络层。特征提取层为Bi-LSTM(Bi-directional Long-Short Term Memory,双向长短时记忆网络)。
通常,Bi-LSTM模型是一种特殊的RNN模型,是为了解决RNN模型梯度弥散的问题而提出的;在传统的RNN中,训练算法使用的是BPTT,当时间比较长时,需要回传的残差会指数下降,导致网络权重更新缓慢,无法体现出RNN的长期记忆的效果,因此需要一个存储单元来存储记忆,因此Bi-LSTM模型被提出。
在一种可能的实现方式中,用户终端利用预先设定的爬虫程序从互联网中采集开源的数据信息,然后将开源的数据信息输入预设神经网络中,预设神经网络通过向量转换层将输入文本转换为向量矩阵,输入文本转换为向量矩阵的详细内容请参见步骤S102,此处不再赘述。当转换成向量矩阵后,通过Bi-LSTM网络建立的特征提取层对向量矩阵进行编码操作,编码完成后得到输入文本的序列特征值。
S104,论元首字符预测输出层基于所述序列特征预测所述输入文本中论元的首字符位置和论元类型标识并输出;
其中,论元就是指一个句子中带有名词性的词。
在本申请实施例中,本申请预设神经网络采用预测论元首尾位置的方法,将任务转化为对每一个字符的多分类问题,不再依赖传统采用CRF算法关注序列的整体性,同时考虑到分类结果中会出现大量的0标记,即该位置对应的字符既不属于首位置也不属于结束位置(是首尾位置的字符在整个序列中毕竟是少数),这样就会造成类别不均衡问题,如果使用传统log似然损失函数,便无法解决这个问题,因此在本申请中,在传统的对数似然损失函数中,增加了样本权重,即针对首尾位置的字符,对其在损失函数中增大其权重,让模型更关注于首尾位置的学习。论元首字符预测输出层和论元尾字符预测输出层采用的损失函数公式如下:
Figure BDA0002718085180000081
其中,当i为论元首尾位置时,α增大为2,否则α为1,ai表示预测得到的标签,yi表示标注的标签。
在一种可能的实现方式中,在基于步骤S103得到输入文本的序列特征值后,预设神经网络通过论元首字符预测输出层网络以及论元尾字符预测输出层网络对序列特征值进行预测,生成首字符论元类型标识和尾字符论元类型标识,最后将首字符论元类型标识和尾字符论元类型标识进行输出。
S105,论元尾字符预测输出层基于所述序列特征预测所述输入文本中论元的尾字符位置和论元类型标识并输出;
在本申请实施例中,例如对于舆情监控,利用本申请实施例可以随时的从系统中获取某个公司某时间段以来的所有事件信息,从而可以对该公司做出准确的判断与定位。在股票预测领域,我们可以基于我们抽取的事件类型,对某公司未来的股价走势进行预测。
S106,在预设的论元类型标识与事件类型的对应关系表中查找输出的论元类型标识对应的事件类型,并根据输出的论元的首字符位置和尾字符位置,从输入文本中抽取出论元作为所述事件类型的事件要素。
其中,事件类型的对应关系表是通过论元类型标识可进行查询事件类型的结构表。
在一种可能的实现方式中,基于步骤S105可得到首字符论元类型标识和尾字符论元类型标识,用户终端当检测到首字符论元类型标识和尾字符论元类型标识时,加载预先创建的事件类型的对应关系表,在加载到事件类型的对应关系表后,通过保存在用户终端的内部程序根据首字符论元类型标识和尾字符论元类型标识在事件类型的对应关系表中查找以及获取首字符论元类型标识和尾字符论元类型标识对应的事件类型,最后通过事件类型从输入文本中抽取出论元作为事件类型的事件要素。
进一步地,将首字符论元类型标识和尾字符论元类型标识对应的事件类型,以及从输入文本中抽取出论元作为事件类型的事件要素进行数据处理,处理生成json字符串的形式。
进一步地,将json字符串形式的事件类型以及事件要素采用数据融合技术,融合到已构建的知识库中,以供用户调取查看。如果事件类型均是以公司为主体的相关事件,用户可以从知识库中调取某个公司某时间段以来的所有事件,从而对该公司做出准确的判断和定位。
具体的,在知识库的构建中,首先从内部数据库中读取文本数据生成一部分数据,然后通过网络爬虫技术从互联网中爬取开源的数据信息作为另一部分数据,将这两部分数据进行合并之后保存,生成一个基础的知识库。
例如,输入文本为“金融壹账通于2019年上市”,使用事件分类模型+序列标注模型的传统方案,预测结果为{事件类型:上市,上市时间:2019,上市公司:金融},使用本案,预测结果为{事件类型:上市,上市时间:2019,上市公司:金融壹账通}。
在本申请实施例中,基于预设神经网络的事件抽取装置首先采集文本数据生成输入文本,向量转换层再将输入文本转换为向量矩阵,特征提取层再对向量矩阵进行编码,以提取出输入文本的序列特征,论元首字符然后预测输出层基于序列特征预测输入文本中论元的首字符位置和论元类型标识并输出,论元尾字符预测输出层再基于序列特征预测输入文本中论元的尾字符位置和论元类型标识并输出,最后在预设的论元类型标识与事件类型的对应关系表中查找输出的论元类型标识对应的事件类型,并根据输出的论元的首字符位置和尾字符位置,从输入文本中抽取出论元作为事件类型的事件要素。由于本申请中只使用一个神经网络模型预测论元的首字符位置和尾字符位置,不需要关注中间字符的论元类型,从而降低了模型的复杂度,提高了论元抽取的准确率。
为了便于理解本申请实施例提供的基于预设神经网络的事件抽取方法,下面结合附图4进行说明。如图4所示,一种基于预设神经网络的事件抽取方法,包括:
S201,从数据库中读取文本数据生成第一数据样本;
S202,利用网络爬虫获取网络开源信息生成第二样本数据;
S203,根据所述第一样本数据和第二样本数据构建知识库,生成预先构建的知识库;
S204,采集各种事件类型的文本样本生成文本样本集合;
S205,针对所述文本样本集合中各样本标注论元类型标识,生成标注后的文本样本集合;
S206,创建神经网络模型;
S207,将所述标注后的文本样本集合输入神经网络模型进行优化训练,生成预设神经网络;
S208,采集文本数据生成输入文本;
S209,将所述输入文本输入预设神经网络模型中,生成所述输入文本对应的事件类型和事件要素;
S210,采用数据融合技术将所述事件类型和事件要素融合至预先构建的知识库。
在本申请实施例中,基于预设神经网络的事件抽取装置首先采集文本数据生成输入文本,向量转换层再将输入文本转换为向量矩阵,特征提取层再对向量矩阵进行编码,以提取出输入文本的序列特征,论元首字符然后预测输出层基于序列特征预测输入文本中论元的首字符位置和论元类型标识并输出,论元尾字符预测输出层再基于序列特征预测输入文本中论元的尾字符位置和论元类型标识并输出,最后在预设的论元类型标识与事件类型的对应关系表中查找输出的论元类型标识对应的事件类型,并根据输出的论元的首字符位置和尾字符位置,从输入文本中抽取出论元作为事件类型的事件要素。由于本申请中只使用一个神经网络模型预测论元的首字符位置和尾字符位置,不需要关注中间字符的论元类型,从而降低了模型的复杂度,提高了论元抽取的准确率。
为了便于理解本申请实施例提供的基于预设神经网络的事件抽取方法,下面结合附图5进行说明。如图5所示,一种基于预设神经网络的事件抽取方法,采用不同层的方式,包括:
数据获取层,数据获取层主要分为两部分获取数据,一部分为内部数据,即直接从数据库中读取文本数据。另一部分为爬取网上相关开源信息,即一些新闻,年报和快讯等,具体获取每个公司类的相关信息。
进一步地,数据获取层主要依靠现有数据生成一个预先构建的知识库,后期将每天定期的从互联网上爬取公开的数据,进行事件抽取,将抽取的事件类型和事件要素融合至预先构建的知识库。
事件抽取层,通过神经网络模型首先预测论元首字符与结尾字符,在预设的论元类型标识与事件类型的对应关系表中查找输出的论元类型标识对应的事件类型,并根据输出的论元的首字符位置和尾字符位置,从输入文本中抽取出论元作为所述事件类型的事件要素;
知识库构建层,利用抽取到公司事件信息,采用数据融合技术,对其中相同公司的事件进行融合补充整理,从而构建出一套实时更新的公司知识库系统。
系统应用层,本系统构建的系统主要面向金融领域。例如对于舆情监控,利用我们构建好的系统,我们可以随时的从系统中获取某个公司某时间段以来的所有事件信息,从而可以对该公司做出准确的判断与定位。在股票预测领域,我们可以基于我们抽取的事件类型,对某公司未来的股价走势进行预测。
在本申请实施例中,基于预设神经网络的事件抽取装置首先采集文本数据生成输入文本,向量转换层再将输入文本转换为向量矩阵,特征提取层再对向量矩阵进行编码,以提取出输入文本的序列特征,论元首字符然后预测输出层基于序列特征预测输入文本中论元的首字符位置和论元类型标识并输出,论元尾字符预测输出层再基于序列特征预测输入文本中论元的尾字符位置和论元类型标识并输出,最后在预设的论元类型标识与事件类型的对应关系表中查找输出的论元类型标识对应的事件类型,并根据输出的论元的首字符位置和尾字符位置,从输入文本中抽取出论元作为事件类型的事件要素。由于本申请中只使用一个神经网络模型预测论元的首字符位置和尾字符位置,不需要关注中间字符的论元类型,从而降低了模型的复杂度,提高了论元抽取的准确率。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
请参见图6,其示出了本发明一个示例性实施例提供的基于预设神经网络的事件抽取装置的结构示意图,应用于服务器。该基于预设神经网络的事件抽取系统可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分。该装置1包括文本获取模块10、文本转换模块20、特征提取模块30、第一数据输出模块40、第二数据输出模块50、第三数据输出模块60。
文本获取模块10,用于采集文本数据生成输入文本;
文本转换模块20,用于向量转换层将输入文本转换为向量矩阵;
特征提取模块30,用于特征提取层对所述向量矩阵进行编码,以提取出所述输入文本的序列特征;
第一数据输出模块40,用于论元首字符预测输出层基于所述序列特征预测输入文本中论元的首字符位置和论元类型标识并输出;
第二数据输出模块50,用于论元尾字符预测输出层基于所述序列特征预测输入文本中论元的尾字符位置和论元类型标识并输出;
第三数据输出模块60,用于在预设的论元类型标识与事件类型的对应关系表中查找输出的论元类型标识对应的事件类型,并根据输出的论元的首字符位置和尾字符位置,从输入文本中抽取出论元作为所述事件类型的事件要素。
请参见图7,所述装置1还包括:
样本采集模块70,用于采集各种事件类型的文本样本生成文本样本集合;
集合生成模块80,用于针对所述文本样本集合中各样本标注论元类型标识,生成标注后的文本样本集合;
模型创建模块90,用于创建神经网络模型;
模型优化训练模块100,用于将所述标注后的文本样本集合输入神经网络模型进行优化训练,生成预设神经网络。
需要说明的是,上述实施例提供的基于预设神经网络的事件抽取系统在执行基于预设神经网络的事件抽取方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于预设神经网络的事件抽取系统与基于预设神经网络的事件抽取方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请实施例中,基于预设神经网络的事件抽取装置首先采集文本数据生成输入文本,向量转换层再将输入文本转换为向量矩阵,特征提取层再对向量矩阵进行编码,以提取出输入文本的序列特征,论元首字符然后预测输出层基于序列特征预测输入文本中论元的首字符位置和论元类型标识并输出,论元尾字符预测输出层再基于序列特征预测输入文本中论元的尾字符位置和论元类型标识并输出,最后在预设的论元类型标识与事件类型的对应关系表中查找输出的论元类型标识对应的事件类型,并根据输出的论元的首字符位置和尾字符位置,从输入文本中抽取出论元作为事件类型的事件要素。由于本申请中只使用一个神经网络模型预测论元的首字符位置和尾字符位置,不需要关注中间字符的论元类型,从而降低了模型的复杂度,提高了论元抽取的准确率。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:采集文本数据生成输入文本;向量转换层将所述输入文本转换为向量矩阵;特征提取层对所述向量矩阵进行编码,以提取出所述输入文本的序列特征;论元首字符预测输出层基于所述序列特征预测所述输入文本中论元的首字符位置和论元类型标识并输出;论元尾字符预测输出层基于所述序列特征预测所述输入文本中论元的尾字符位置和论元类型标识并输出;在预设的论元类型标识与事件类型的对应关系表中查找输出的论元类型标识对应的事件类型,并根据输出的论元的首字符位置和尾字符位置,从输入文本中抽取出论元作为所述事件类型的事件要素。
在一个实施例中,所述处理器所执行的计算机设备根据所述特征提取层对所述向量矩阵进行编码,以提取出所述输入文本的序列特征时,包括:文本数字化层利用bert词表将所述输入文本转化为相应数字ID形式;文本嵌入层根据所述输入文本中各字符对应的数字ID,获取各字符的向量值得到向量矩阵。
在一个实施例中,所述处理器所执行的计算机设备还按照如下方式生成所述预设神经网络,包括:采集各种事件类型的文本样本生成文本样本集合;针对所述文本样本集合中各样本标注论元类型标识,生成标注后的文本样本集合;创建神经网络模型;将所述标注后的文本样本集合输入神经网络模型进行优化训练,生成预设神经网络。
在一个实施例中,所述处理器所执行的计算机设备根据所述从输入文本中抽取出论元作为所述事件类型的事件要素之后,包括:采用数据融合技术将所述事件类型和事件要素融合至预先构建的知识库。
在一个实施例中,所述处理器所执行的计算机设备在执行所述采集文本数据生成输入文本之前时,还执行以下操作:从数据库中读取文本数据生成第一数据样本;利用网络爬虫获取网络开源信息生成第二样本数据;根据所述第一样本数据和第二样本数据构建知识库,生成预先构建的知识库。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:采集文本数据生成输入文本;向量转换层将所述输入文本转换为向量矩阵;特征提取层对所述向量矩阵进行编码,以提取出所述输入文本的序列特征;论元首字符预测输出层基于所述序列特征预测所述输入文本中论元的首字符位置和论元类型标识并输出;论元尾字符预测输出层基于所述序列特征预测所述输入文本中论元的尾字符位置和论元类型标识并输出;在预设的论元类型标识与事件类型的对应关系表中查找输出的论元类型标识对应的事件类型,并根据输出的论元的首字符位置和尾字符位置,从输入文本中抽取出论元作为所述事件类型的事件要素。
在一个实施例中,所述处理器所执行的计算机设备根据所述特征提取层对所述向量矩阵进行编码,以提取出所述输入文本的序列特征时,包括:文本数字化层利用bert词表将所述输入文本转化为相应数字ID形式;文本嵌入层根据所述输入文本中各字符对应的数字ID,获取各字符的向量值得到向量矩阵。
在一个实施例中,所述处理器所执行的计算机设备还按照如下方式生成所述预设神经网络,包括:采集各种事件类型的文本样本生成文本样本集合;针对所述文本样本集合中各样本标注论元类型标识,生成标注后的文本样本集合;创建神经网络模型;将所述标注后的文本样本集合输入神经网络模型进行优化训练,生成预设神经网络。
在一个实施例中,所述处理器所执行的计算机设备根据所述从输入文本中抽取出论元作为所述事件类型的事件要素之后,包括:采用数据融合技术将所述事件类型和事件要素融合至预先构建的知识库。
在一个实施例中,所述处理器所执行的计算机设备在执行所述采集文本数据生成输入文本之前时,还执行以下操作:从数据库中读取文本数据生成第一数据样本;利用网络爬虫获取网络开源信息生成第二样本数据;根据所述第一样本数据和第二样本数据构建知识库,生成预先构建的知识库。
在本申请实施例中,基于预设神经网络的事件抽取装置首先采集文本数据生成输入文本,向量转换层再将输入文本转换为向量矩阵,特征提取层再对向量矩阵进行编码,以提取出输入文本的序列特征,论元首字符然后预测输出层基于序列特征预测输入文本中论元的首字符位置和论元类型标识并输出,论元尾字符预测输出层再基于序列特征预测输入文本中论元的尾字符位置和论元类型标识并输出,最后在预设的论元类型标识与事件类型的对应关系表中查找输出的论元类型标识对应的事件类型,并根据输出的论元的首字符位置和尾字符位置,从输入文本中抽取出论元作为事件类型的事件要素。由于本申请中只使用一个神经网络模型预测论元的首字符位置和尾字符位置,不需要关注中间字符的论元类型,从而降低了模型的复杂度,提高了论元抽取的准确率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于预设神经网络的事件抽取方法,其特征在于,所述预设神经网络包括向量转换层、特征提取层、论元首字符预测输出层和论元尾字符预测输出层,所述方法包括:
采集文本数据生成输入文本;
向量转换层将所述输入文本转换为向量矩阵;
特征提取层对所述向量矩阵进行编码,以提取出所述输入文本的序列特征;
论元首字符预测输出层基于所述序列特征预测所述输入文本中论元的首字符位置和论元类型标识并输出;
论元尾字符预测输出层基于所述序列特征预测所述输入文本中论元的尾字符位置和论元类型标识并输出;
在预设的论元类型标识与事件类型的对应关系表中查找输出的论元类型标识对应的事件类型,并根据输出的论元的首字符位置和尾字符位置,从输入文本中抽取出论元作为所述事件类型的事件要素。
2.根据权利要求1所述的方法,其特征在于,所述向量转换层包括文本数字化层和文本嵌入层;
所述特征提取层对所述向量矩阵进行编码,以提取出所述输入文本的序列特征,包括:
文本数字化层利用bert词表将所述输入文本转化为相应数字ID形式;
文本嵌入层根据所述输入文本中各字符对应的数字ID,获取各字符的向量值得到向量矩阵。
3.根据权利要求1所述的方法,其特征在于,还包括按照如下方式生成所述预设神经网络:
采集各种事件类型的文本样本生成文本样本集合;
针对所述文本样本集合中各样本标注论元类型标识,生成标注后的文本样本集合;
创建神经网络模型;
将所述标注后的文本样本集合输入神经网络模型进行优化训练,生成预设神经网络。
4.根据权利要求3所述的方法,其特征在于,所述预设神经网络中的论元首字符预测输出层利用一个损失函数进行优化,论元尾字符预测输出层利用一个损失函数进行优化。
5.根据权利要求1所述的方法,其特征在于,所述从输入文本中抽取出论元作为所述事件类型的事件要素之后,还包括:
采用数据融合技术将所述事件类型和事件要素融合至预先构建的知识库。
6.根据权利要求1所述的方法,其特征在于,所述采集文本数据生成输入文本之前,还包括:
从数据库中读取文本数据生成第一数据样本;
利用网络爬虫获取网络开源信息生成第二样本数据;
根据所述第一样本数据和第二样本数据构建知识库,生成预先构建的知识库。
7.根据权利要求1所述的方法,其特征在于,所述特征提取层为双向长短时记忆网络。
8.一种基于预设神经网络的事件抽取装置,所述装置包括:
文本获取模块,用于采集文本数据生成输入文本;
文本转换模块,用于向量转换层将输入文本转换为向量矩阵;
特征提取模块,用于特征提取层对所述向量矩阵进行编码,以提取出所述输入文本的序列特征;
第一数据输出模块,用于论元首字符预测输出层基于所述序列特征预测输入文本中论元的首字符位置和论元类型标识并输出;
第二数据输出模块,用于论元尾字符预测输出层基于所述序列特征预测输入文本中论元的尾字符位置和论元类型标识并输出;
第三数据输出模块,用于在预设的论元类型标识与事件类型的对应关系表中查找输出的论元类型标识对应的事件类型,并根据输出的论元的首字符位置和尾字符位置,从输入文本中抽取出论元作为所述事件类型的事件要素。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述基于预设神经网络的事件抽取方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述基于预设神经网络的事件抽取的步骤。
CN202011079139.1A 2020-10-10 2020-10-10 基于预设神经网络的事件抽取方法、装置、计算机设备及存储介质 Pending CN112183030A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011079139.1A CN112183030A (zh) 2020-10-10 2020-10-10 基于预设神经网络的事件抽取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011079139.1A CN112183030A (zh) 2020-10-10 2020-10-10 基于预设神经网络的事件抽取方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN112183030A true CN112183030A (zh) 2021-01-05

Family

ID=73947577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011079139.1A Pending CN112183030A (zh) 2020-10-10 2020-10-10 基于预设神经网络的事件抽取方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112183030A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836504A (zh) * 2021-01-08 2021-05-25 中国人民解放军国防科技大学 一种基于分层策略网络的事件抽取方法及设备
CN113704478A (zh) * 2021-09-07 2021-11-26 平安银行股份有限公司 文本要素提取方法、装置、电子设备及介质
CN114741516A (zh) * 2021-12-08 2022-07-12 商汤国际私人有限公司 一种事件抽取方法和装置、电子设备及存储介质
CN115238685A (zh) * 2022-09-23 2022-10-25 华南理工大学 一种基于位置感知的建筑工程变更事件联合抽取方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836504A (zh) * 2021-01-08 2021-05-25 中国人民解放军国防科技大学 一种基于分层策略网络的事件抽取方法及设备
CN112836504B (zh) * 2021-01-08 2024-02-02 中国人民解放军国防科技大学 一种基于分层策略网络的事件抽取方法及设备
CN113704478A (zh) * 2021-09-07 2021-11-26 平安银行股份有限公司 文本要素提取方法、装置、电子设备及介质
CN113704478B (zh) * 2021-09-07 2023-08-22 平安银行股份有限公司 文本要素提取方法、装置、电子设备及介质
CN114741516A (zh) * 2021-12-08 2022-07-12 商汤国际私人有限公司 一种事件抽取方法和装置、电子设备及存储介质
CN115238685A (zh) * 2022-09-23 2022-10-25 华南理工大学 一种基于位置感知的建筑工程变更事件联合抽取方法

Similar Documents

Publication Publication Date Title
JP7112536B2 (ja) テキストにおける実体注目点のマイニング方法および装置、電子機器、コンピュータ読取可能な記憶媒体並びにコンピュータプログラム
CN109493977B (zh) 文本数据处理方法、装置、电子设备及计算机可读介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN112183030A (zh) 基于预设神经网络的事件抽取方法、装置、计算机设备及存储介质
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
CN110197284B (zh) 一种虚假地址识别方法、装置及设备
CN112925995B (zh) 获取poi状态信息的方法及装置
CN110852106A (zh) 基于人工智能的命名实体处理方法、装置及电子设备
CN111898636B (zh) 一种数据处理方法及装置
CN112614559A (zh) 病历文本处理方法、装置、计算机设备和存储介质
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN113282762A (zh) 知识图谱构建方法、装置、电子设备和存储介质
CN112860919A (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN116258137A (zh) 文本纠错方法、装置、设备和存储介质
CN113704420A (zh) 文本中的角色识别方法、装置、电子设备及存储介质
CN108875024B (zh) 文本分类方法、系统、可读存储介质及电子设备
CN113779994B (zh) 一种要素抽取方法、装置、计算机设备和存储介质
CN113569578B (zh) 一种用户意图识别方法、装置和计算机设备
CN113807102B (zh) 建立语义表示模型的方法、装置、设备和计算机存储介质
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
CN114911940A (zh) 文本情感识别方法及装置、电子设备、存储介质
CN112364649B (zh) 命名实体的识别方法、装置、计算机设备及存储介质
CN115169333A (zh) 文本的实体识别方法、装置、设备、存储介质及程序产品
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
Zahra et al. Bidirectional long-short term memory and conditional random field for tourism named entity recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination