CN112052682A - 事件实体联合抽取方法、装置、计算机设备及存储介质 - Google Patents
事件实体联合抽取方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112052682A CN112052682A CN202010908002.6A CN202010908002A CN112052682A CN 112052682 A CN112052682 A CN 112052682A CN 202010908002 A CN202010908002 A CN 202010908002A CN 112052682 A CN112052682 A CN 112052682A
- Authority
- CN
- China
- Prior art keywords
- sample
- data
- event
- entity
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Security & Cryptography (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了事件实体联合抽取方法、装置、计算机设备及可读存储介质,涉及人工智能技术领域,包括获取待处理数据,采用预测模型对所述待处理数据进行事件信息预测,获得至少一个事件信息;根据各个所述事件信息采用提取模型对所述待处理数据进行实体识别,获得与各个所述事件信息对应的实体信息;基于所述事件信息和与各个所述事件信息对应的实体信息获得目标数据,通过预测模型对待处理文本进行事件预测,并基于获得的各个事件信息采用提取模型对待处理文本进行实体识别,解决了现有技术常用实体事件联合提取器通过将实体识别和事件提取进行串联,获得两个提取结果的交集,但无法将实体和事件进行匹配的问题。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种事件实体联合抽取方法、装置、计算机设备及存储介质。
背景技术
信息抽取是自然语言处理当中十分重要的领域,常用的信息抽取技术主要包含了两个领域,实体识别和事件提取,事件提取是识别描述事件信息的文本,从中抽取出事件元素并以结构化的形式呈现出来,实体提取是指识别具有可描述意义的单词或短语,实体与实体之间并不是相互独立的,往往存在一定的关联。
实体识别的典型处理方式是命名实体识别(即NER),事件提取主要采用深度神经网络语言模型获取句子语义,传统的实体事件联合提取器是将实体识别和事件提取进行串联,获得两个提取结果的交集,但由于命名实体识别会识别出句子中的所有实体,事件的预测获取的是整个句子的语义,无法将实体和事件进行匹配,特别是在一个句子中有多个事件,或是句子中有多个主体,且主体归属事件不同的情况,因此提取获得的事件与实体准确率较低。
发明内容
本发明的目的是提供一种事件实体联合抽取方法、装置、计算机设备及可读存储介质,用于解决现有技术常用实体事件联合提取器将实体识别和事件提取进行串联,获得两个提取结果的交集,无法将实体和事件进行匹配的问题。
为实现上述目的,本发明提供一种事件实体联合抽取方法,包括:
获取待处理数据,采用预测模型对所述待处理数据进行事件信息预测,获得至少一个事件信息;
根据各个所述事件信息采用提取模型对所述待处理数据进行实体识别,获得与各个所述事件信息对应的实体信息;
基于所述事件信息和与各个所述事件信息对应的实体信息获得目标数据。
进一步的,在采用预测模型对所述待处理数据进行处理前,还包括对所述预测模型和所述提取模型的训练,所述训练包括以下:
获取目标训练样本,其中,所述训练样本包括多条样本数据,每一样本数据包括至少一个样本事件标签和至少一个样本实体标签;
获取任一样本数据,采用预测模型对样本数据进行处理,获得与所述样本数据对应的样本事件数据;
将所述样本事件数与所述样本事件标签进行比对获得第一比对结果;
同步基于所述样本数据对应的样本事件标签采用提取模型对所述样本数据进行实体识别,获得各个样本事件标记对应的样本实体数据;
将各个样本事件标记对应的样本实体数据与样本实体标签进行比对获得第二比对结果;
基于第一比对结果和第二比对结果调整所述预测模型和所述提取模型的损失函数,获取另一样本数据,直至完成训练过程,获得训练好的预测模型和提取模型。
进一步的,同步基于所述样本数据对应的样本事件标签采用提取模型对所述样本数据进行实体识别,获得各个样本事件标签对应的样本实体数据,包括以下;
基于所述样本数据获取至少一个样本事件标签;
将各个所述样本事件标签逐个与所述样本数据拼接获得各个样本事件标签对应的样本处理数据;
采用问答网络对各个样本处理数据进行实体标记,获得与各个样本事件标签对应的样本实体数据。
进一步的,在获取目标训练样本前,包括以下:
获取初始训练样本,基于所述初始训练样本获取各个样本事件数据和与各个样本事件数据关联的样本实体数据;
基于预设数据库对所述样本实体数据进行替换,获得替换后的样本数据;
将所述替换后的样本数据添加到所述初始训练样本中生成目标训练样本。
进一步的,基于预设数据库对所述样本实体数据进行替换,获得替换后的样本数据,包括以下:
从预设数据库获取一个待替换的实体数据;
计算所述待替换的实体数据与所述样本实体数据之间的语义相似度;
当所述语义相似度超出预设阈值,则采用所述待替换的实体数据对所述样本实体数据进行替换,获得替换后的样本数据;
从预设数据库中获取另一个待替换的实体数据,直至获得预设数量的替换后的样本数据。
进一步的,获取初始训练样本,包括以下:
获取多个样本数据,对各个样本数据中的事件数据进行预测获得带有样本事件标签的样本数据;
对各个所述带有样本事件标签的样本数据中的实体数据进行BIO标记,获得初始训练样本。
进一步的,根据各个所述事件信息采用提取模型获取与各个所述事件信息对应的实体信息,包括:
获取各个事件信息,将各个事件信息与所述待处理文本进行分别拼接获得与各个事件信息对应的待处理数据;
采用问答网络对各个所述待处理数据进行实体识别,获得与各个事件信息对应的实体信息。
为实现上述目的,本发明还提供一种事件实体联合抽取装置,包括:
事件确定模块,用于获取待处理数据,采用预测模型对所述待处理数据进行事件信息预测,获得至少一个事件信息;
实体确定模块,用于根据各个所述事件信息采用提取模型对所述待处理数据进行实体信息提取,获得与各个所述事件信息对应的实体信息;
处理模块,基于所述事件信息和与各个所述事件信息对应的实体信息获得目标数据。
为实现上述目的,本发明还提供一种计算机设备,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述事件实体联合抽取方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,其包括多个存储介质,各存储介质上存储有计算机程序,所述多个存储介质存储的所述计算机程序被处理器执行时共同实现上述事件实体联合抽取方法的步骤。
本发明提供的事件实体联合抽取方法、装置、计算机设备及可读存储介质,通过预测模型对待处理文本进行事件预测,获得事件信息,基于各个事件信息采用提取模型对待处理文本进行实体识别,最后集合与各个事件信息对应的实体信息获得目标数据,解决了现有技术常用实体事件联合提取器通过将实体识别和事件提取进行串联,获得两个提取结果的交集,但无法将实体和事件进行匹配的问题。
附图说明
图1为本发明所述事件实体联合抽取方法实施例一的流程图;
图2为本发明所述事件实体联合抽取方法实施例一中在采用预测模型对所述待处理数据进行处理前,还包括对所述预测模型和所述提取模型的训练,训练过程的流程图;
图3为本发明所述事件实体联合抽取方法实施例一中在获取目标训练样本前的流程图;
图4为本发明所述事件实体联合抽取方法实施例一中获取初始训练样本的流程图;
图5为本发明所述事件实体联合抽取方法实施例一中基于预设数据库对所述样本实体数据进行替换,获得替换后的样本数据的流程图;
图6为本发明所述事件实体联合抽取方法实施例一中所述同步基于所述样本数据对应的样本事件标签采用提取模型对所述样本数据进行实体识别,获得各个样本事件标签对应的样本实体数据的流程图;
图7为本发明所述事件实体联合抽取方法实施例一中所述根据各个所述事件信息采用提取模型获取与各个所述事件信息对应的实体信息的流程图;
图8为本发明所述事件实体联合抽取装置实施例二的程序模块示意图;
图9为本发明计算机设备实施例三中计算机设备的硬件结构示意图。
附图标记:
4、事件实体联合抽取装置 41、事件确定模块 42、实体确定模块
421、拼接单元 422、识别单元 43、处理模块
5、计算机设备 51、存储器 52、处理器
53、网络接口
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的事件实体联合抽取方法、装置、计算机设备及可读存储介质,适用于人工智能的数据分析领域,为提供一种基于事件确定模块、实体确定模块、处理模块的事件实体联合抽取方法。本发明通过事件确定模块中的预测模型对待处理文本进行事件预测,获得事件信息,而后采用实体确定模块基于各个事件信息采用提取模型对待处理文本进行实体识别,在实体识别过程中,将各个事件信息与待处理文本拼接后输入问答网络处理,获得与各个事件信息对应的实体信息,解决了现有技术常用实体事件联合提取器将实体识别和事件提取进行串联,获得两个提取结果的交集,无法将实体和事件进行匹配的问题。除此之外,在预测模型和提取模型的训练过程中,使用计算实体信息相似度的方式在预设数据库中挑选替换实体,确保实体替换时保持语义上的相似性,实现数据的增强,预测模型与提取模型同步执行,损失函数同时关注了事件以及事件对应的实体,可以减少提取出无关实体的错误情况。
实施例一
请参阅图1,本实施例的一种的事件实体联合抽取方法,应用于服务器端,在金融领域可用于监测具体公司的动态,如股权变动、司法拍卖、监管处罚等信息的场景下,包括以下步骤:
S100:获取待处理数据,采用预测模型对所述待处理数据进行事件信息预测,获得至少一个事件信息;
在本方案中,待处理文本可以为行业或专业领域的文章,在一些实施例中,待处理文本可以包括新闻资讯、官方通知/公告等类型的文章,采用使用开源预训练模型(如bert-large)的多分类模型作为预测模型,同时上述多分类模型多基于注意力机制,用于在训练过程中如下述步骤S140同步执行实体识别时关注实体信息并对预测模型进行调整,以提高获得的事件信息与实体信息的关联性,进一步提高该预测模型的准确性。
在采用预测模型对所述待处理数据进行处理前,还包括对所述预测模型和所述提取模型的训练,参阅图2,所述训练包括以下:
S110:获取目标训练样本,其中,所述训练样本包括多条样本数据,每一样本数据包括至少一个样本事件标签和至少一个样本实体标签;
事件信息可以包括字、词、词组、数值等一种或多种组成的,事件要素类型可以反映实体在事件中的信息类型,作为举例的,事件要素类型可以反映实体是属于事件中的名称、或公告时间、或受理法院、或标的金额等。仅作为示例,预先确定的事件信息可以包括“股权质押”,其又可以具有“质押人”、“质押股份”、“质权人”等事件要素类型。
更具体的,在获取目标训练样本前,参阅图3,还包括以下步骤:
S111:获取初始训练样本,基于所述初始训练样本获取各个样本事件数据和与各个样本事件数据关联的样本实体数据;
具体的,上述步骤S111中获取初始训练样本,参阅图4,包括以下:
S111-1:获取多个样本数据,对各个样本数据中的事件数据进行预测获得带有样本事件标签的样本数据;
在上述步骤中,对于事件数据标签的确定一般通过预设事件要素类型触发词来实现,在后续预测模型训练过程中,也是采用触发词预测的方式,需要说明的是,本方案中的预测模型为现有技术中常用的多分类模型,现有技术中其他可用于事件预测的模型均可用于此,在此不作详述。
S111-2:对各个所述带有样本事件标签的样本数据中的实体数据进行BIO标记,获得初始训练样本。
具体的,本方案中采用BIO的标注体系对样本数据中的实体数据进行标记,后续在步骤S220采用问答网络进行实体识别过程中使用BIO的标注体系用NER的方式对整个句子进行标注,实体信息所在起始位置标B,中间和结束位置标I,非实体位置标O,通过BIO的标注体系可以充分解决一个事件数据对应多个实体数据的问题。需要解释的,本方案中实体数据、实体信息均代表某一语句中的实体,事件数据、时间信息均代表某一语句中的事件,仅仅为了区分训练过程和处理过程。
S112:基于预设数据库对所述样本实体数据进行替换,获得替换后的样本数据;
由于上述标注过程可以通过人工实现,也可以通过预训练模型产生标注语料自动实现,但是数据的标注十分繁杂,因此为了进一步降低上述步骤S111-1和S111-2的工作量,因此本方案中如下述步骤S112-1至S112-4中所述提出一种自动通过替换类似实体生成标注语料的方式,通过为了避免生成语料语义偏离,通过相似度判断生成标注语料的质量。具体的,上述步骤S112中基于预设数据库对所述样本实体数据进行替换,获得替换后的样本数据,参阅图5,包括以下步骤:
S112-1:从预设数据库获取一个与所述样本实体数据匹配的待替换的实体数据;
上述预设数据库使用公开的实体字典,预存有各个实体数据的多个同义词。
S112-2:计算所述待替换的实体数据与所述样本实体数据之间的语义相似度;
具体的,本方案中计算语义相似度的实现方式用cosine相似度来计算待替换的实体数据与样本实体数据的word embedding相似度,embedding使用GloVe embedding,Global Vector模型(GloVe模型)是一种对“词-词”矩阵进行分解从而得到词表示的方法,属于基于矩阵的分布表示,基于语料库构建词的共现矩阵,然后基于共现矩阵和GloVe模型对词汇进行向量化表示,在上述方案中,获得待替换的实体数据与样本实体数据各自对应的词向量,而后会根据余弦相似度公式计算待替换的实体数据与样本实体数据的相似度。
S112-3:当所述语义相似度超出预设阈值,则采用所述待替换的实体数据对所述样本实体数据进行替换,获得替换后的样本数据;
在上述方案中,当待替换的实体数据与样本实体数据之间的语义相似度超出预设阈值,则使用该待替换的实体数据替换样本实体数据不会导致语义漂移过多,该预设阈值可根据实际使用场景或现有参考数据进行设置。
S112-4:从预设数据库中获取另一个待替换的实体数据,直至获得预设数量的替换后的样本数据。
具体的,所述预设数量可以根据实际场景以及模型训练需要来调整。
S113:将所述替换后的样本数据添加到所述初始训练样本中生成目标训练样本。
根据上述步骤S112-1至S112-4实现与样本实体数据语义上相似,且与上下文相一致的可替换的实体数据,替换后可以使用相同的事件标签和实体标签,实体在替换后实现数据增强,同时通过相似度计算还可以确保替换后的实体数据不会导致该样本数据语义漂移过多,进一步提高数据增强的可靠性,通过上述方式实现训练样本的增强和丰富,减少由于训练样本数量较少导致模型精准度不够的情况。
S120:获取任一样本数据,采用预测模型对样本数据进行处理,获得与所述样本数据对应的样本事件数据;
需要说明的是,本方案中的预测模型为现有技术中常用的多分类模型。
S130:将所述样本事件数与所述样本事件标签进行比对获得第一比对结果;
S140:同步基于所述样本数据对应的样本事件标签采用提取模型对所述样本数据进行实体识别,获得各个样本事件标记对应的样本实体数据;
上述多分类模型多基于注意力机制,同步执行实体识别可便于预测模型用于在训练过程时关注实体信息并对预测模型,用于提高获得的事件信息与实体信息的关联性,进一步提高该预测模型的准确性。
具体的,所述同步基于所述样本数据对应的样本事件标签采用提取模型对所述样本数据进行实体识别,获得各个样本事件标签对应的样本实体数据,参阅图6,包括以下;
S141:基于所述样本数据获取至少一个样本事件标签;
需要说明的是,每一样本数据中可包含一个事件数据也可能包含多个事件数据,如“语料1”同时包含“A事件”和“B事件”仅作为举例的,“A公司按股票市值的50%抵押给B公司换取资金,到某年某日进行回购,在某年某日前A公司投资失败,B公司向XX法院提出A公司进入破产清算程序”,该数据中包含“质押股份”、“破产清算”两个事件。
S142:将各个所述样本事件标签逐个与所述样本数据拼接获得各个样本事件标签对应的样本处理数据;
作为举例的,“语料1”同时包含“A事件”和“B事件”,则分别将“A事件”与“语料1”拼接,将“B事件”与“语料1”拼接。
S143:采用问答网络对各个样本处理数据进行实体标记,获得与各个样本事件标签对应的样本实体数据。
具体的,在本实施方式中,将上述的拼接了事件数据(即问答网络中的问题)的句子(即样本处理数据)输入基于开源预训练模型(如bert-large)的问答网络(QA-net)进行处理,问答网络(QA-net)输入的数据有Context(即所述样本数据)和Question(即事件信息)两部分组成。QA-net包括Embedding层,用于将所述样本处理数据转化为Embedding向量,分为word embedding和char embedding;Highway network包含在embedding层中;Encoder Block层,Encoder Block层包括四个部分:Position Encoding、Conv卷积层、Selfattention和Feedword层,每个部分开头做layernorm处理,结尾做残差连接;上述Context(即所述样本数据)和Questio(即事件信息)n的encoder向量,通过Context QueryAttention计算相关性,接着通过三层Encoder Block层,第一层和第二层输出连接后,通过一层全链接层作为起始位置的概率;第一层和第三层输出连接后,通过一层全链接层作为结束位置的概率,采用BIPO标记体系对实体数据进行标记,即可获得与各个样本事件标签对应的样本实体数据。
S150:将各个样本事件标记对应的样本实体数据与样本实体标签进行比对获得第二比对结果;
S160:基于第一比对结果和第二比对结果调整所述预测模型和所述提取模型的损失函数,获取另一样本数据,直至完成训练过程,获得训练好的预测模型和提取模型。
在本方案中,如上述步骤S130和S140,事件预测过程与实体识别过程同步进行,所述损失函数包括预测模型和提取模型两个模型的loss,这样可以同时关注到事件数据和对应的实体数据,进一步提高事件数据和实体数据之间的关联性。
S200:根据各个所述事件信息采用提取模型对所述待处理数据进行实体识别,获得与各个所述事件信息对应的实体信息;
具体的,所述根据各个所述事件信息采用提取模型获取与各个所述事件信息对应的实体信息,参阅图7,包括:
S210:获取各个事件信息,将各个事件信息与所述待处理文本进行分别拼接获得与各个事件信息对应的待处理数据;
S220:采用问答网络对各个所述待处理数据进行实体识别,获得与各个事件信息对应的实体信息。
作为举例的,获取“语料1”在“A事件”中对应的实体,具体是将“A事件”作为问题与“语料1”进行拼接,用基于预训练语言模型的“问答网络”方式提取对应实体,该问答网络使用BIO的标注体系对整个所述待处理数据进行标注,实体起始位置标B,中间和结束位置标I,非实体位置标O,获得每一事件信息对应多个实体信息。
S300:基于所述事件信息和与各个所述事件信息对应的实体信息获得目标数据。
具体的,所述目标数据为各个事件信息及其对应的各个实体信息的集合。
上述方案中还可将所述待处理数据即对应的目标数据上传至区块链,可用于后续作为参考样本或训练样本,可保证其安全性和对用户的公正透明性,用户设备可以从区块链中下载得该摘要信息,以便查证优先级列表是否被篡改,后续也可以从区块链中下载获得对应金额数据的语音文件用于语音播报,无需生成过程,有效提高语音处理效率。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本方案中提出的预测模型和提取模型可用于提取句子中实体和事件的对应关系,解决了现有技术常用实体事件联合提取器将实体识别和事件提取进行串联,获得两个提取结果的交集,无法将实体和事件进行匹配的问题,相较于传统的信息抽取器,本发明还可以解决提取不同事件对应的实体不同的问题和重叠问题(通过步骤S100中提前训练出事件的多分类模型预测获得事件信息,再根据每个事件信息提取与各个事件对应的实体信息),还可以解决同一事件存在多个实体的问题。
本方案中的提取模型首先确定待处理文本对应的事件信息,然后将待处理文本命中的各个不同事件作为问题,与待处理文本连接后整体输入问答网络进行识别,识别该事件对应的实体,再通过实体识别获得对应的事件,训练过程中时为了与预测模型同步执行,损失函数包含提取模型和预测模型两个模型的loss,损失函数同时关注了事件以及事件对应的实体,可以减少提取出无关实体的错误情况。
除上述外,本方案还在训练样本的处理上,使用计算实体信息相似度的方式在预设数据库中挑选替换实体,确保实体替换时保持语义上的相似性,通过实体替换可以增强数据,进一步提高提取模型和预测模型效果。
实施例二:
请参阅图8,本实施例的一种事件实体联合抽取装置4,包括:
事件确定模块41,用于获取待处理数据,采用预测模型对所述待处理数据进行事件信息预测,获得至少一个事件信息;
具体的,采用使用开源预训练(如bert-large)的多分类模型作为预测模型,上述多分类模型多基于注意力机制,在训练过程中同步执行实体识别时关注实体信息并对预测模型进行调整,以提高获得的事件信息与实体信息的关联性,减少提取出无关实体的错误情况,进一步提高该预测模型的准确性。
实体确定模块42,用于根据各个所述事件信息采用提取模型对所述待处理数据进行实体信息提取,获得与各个所述事件信息对应的实体信息;
需要说明的是,在训练过程中,采用相似度计算同义词替换样本实体标签,增加训练样本中的数据,通过增强数据提高提取模型的效果,上述事件确定模块与实体确定模块同步执行,损失函数同时关注了事件以及事件对应的实体,提高预测模型与提取模型的精准度,进一步减少提取出无关实体的错误情况。
作为优选的,所述实体确定模块42包括以下:
拼接单元421,用于获取各个事件信息,将各个事件信息与所述待处理文本进行分别拼接获得与各个事件信息对应的待处理数据;
识别单元422,采用问答网络对各个所述待处理数据进行实体识别,获得与各个事件信息对应的实体信息。
具体的,在拼接单元中,将待处理文本命中的各个不同事件信息作为问题,与待处理文本连接后用于整体输入后述识别单元中问答网络进行实体识别,而后使用BIO的标注体系对整个所述待处理数据进行实体标注,实体起始位置标B,中间和结束位置标I,非实体位置标O,获得每一事件信息对应多个实体信息。
处理模块43,基于所述事件信息和与各个所述事件信息对应的实体信息获得目标数据。
所述目标数据为各个事件信息及其对应的各个实体信息的集合。
本技术方案基于人工智能中的自然语言处理,通过事件确定模块中的预测模型对待处理文本进行事件预测,获得事件信息,而后采用实体确定模块基于各个事件信息采用提取模型对待处理文本进行实体识别,在实体识别过程中,基于前述事件确定模块处理获得的事件信息,采用实体确定模块中的拼接单元将各个事件信息与待处理文本进行拼接,拼接后输入识别单元采用问答网络对该输入进行处理,获得与各个时间信息对应的实体信息,最后基于处理模块集合与各个事件信息对应的实体信息获得目标数据,解决了现有技术常用实体事件联合提取器将实体识别和事件提取进行串联,获得两个提取结果的交集,无法将实体和事件进行匹配的问题,同时基于各个事件信息逐个提取实体信息,还可以解决提取不同事件对应的实体不同的问题和重叠问题以及同一事件存在多个实体的问题。
实施例三:
为实现上述目的,本发明还提供一种计算机设备5,该计算机设备可包括多个计算机设备,实施例二的事件实体联合抽取装置4的组成部分可分散于不同的计算机设备中,计算机设备可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过系统总线相互通信连接的存储器51、处理器52、网络接口53以及事件实体联合抽取装置4,如图9所示。需要指出的是,图9仅示出了具有组件-的计算机设备,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器51(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器51可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,存储器51也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器51还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,存储器51通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例一的事件实体联合抽取装置4的程序代码等。此外,存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器52在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制计算机设备的总体操作。本实施例中,处理器52用于运行存储器51中存储的程序代码或者处理数据,例如运行事件实体联合抽取装置,以实现实施例一的事件实体联合抽取方法。
所述网络接口53可包括无线网络接口或有线网络接口,该网络接口53通常用于在所述计算机设备5与其他计算机设备5之间建立通信连接。例如,所述网络接口53用于通过网络将所述计算机设备5与外部终端相连,在所述计算机设备5与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图9仅示出了具有部件51-53的计算机设备5,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器51中的所述事件实体联合抽取装置4还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器51中,并由一个或多个处理器(本实施例为处理器52)所执行,以完成本发明。
实施例四:
为实现上述目的,本发明还提供一种计算机可读存储系统,其包括多个存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器52执行时实现相应功能。本实施例的计算机可读存储介质用于存储事件实体联合抽取装置,被处理器52执行时实现实施例一的事件实体联合抽取方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种事件实体联合抽取方法,其特征在于,包括:
获取待处理数据,采用预测模型对所述待处理数据进行事件信息预测,获得至少一个事件信息;
根据各个所述事件信息采用提取模型对所述待处理数据进行实体识别,获得与各个所述事件信息对应的实体信息;
基于所述事件信息和与各个所述事件信息对应的实体信息获得目标数据。
2.根据权利要求1所述的事件实体联合抽取方法,其特征在于,在采用预测模型对所述待处理数据进行处理前,还包括对所述预测模型和所述提取模型的训练,所述训练包括以下:
获取目标训练样本,其中,所述训练样本包括多条样本数据,每一样本数据包括至少一个样本事件标签和至少一个样本实体标签;
获取任一样本数据,采用预测模型对样本数据进行处理,获得与所述样本数据对应的样本事件数据;
将所述样本事件数与所述样本事件标签进行比对获得第一比对结果;
同步基于所述样本数据对应的样本事件标签采用提取模型对所述样本数据进行实体识别,获得各个样本事件标签对应的样本实体数据;
将各个样本事件标记对应的样本实体数据与样本实体标签进行比对获得第二比对结果;
基于第一比对结果和第二比对结果调整所述预测模型和所述提取模型的损失函数,获取另一样本数据,直至完成训练过程,获得训练好的预测模型和提取模型。
3.根据权利要求2所述的事件实体联合抽取方法,其特征在于,同步基于所述样本数据对应的样本事件标签采用提取模型对所述样本数据进行实体识别,获得各个样本事件标签对应的样本实体数据,包括以下;
基于所述样本数据获取至少一个样本事件标签;
将各个所述样本事件标签逐个与所述样本数据拼接获得各个样本事件标签对应的样本处理数据;
采用问答网络对各个样本处理数据进行实体标记,获得与各个样本事件标签对应的样本实体数据。
4.根据权利要求2所述的事件实体联合抽取方法,其特征在于,在获取目标训练样本前,包括以下:
获取初始训练样本,基于所述初始训练样本获取各个样本事件数据和与各个样本事件数据关联的样本实体数据;
基于预设数据库对所述样本实体数据进行替换,获得替换后的样本数据;
将所述替换后的样本数据添加到所述初始训练样本中生成目标训练样本。
5.根据权利要求4所述的事件实体联合抽取方法,其特征在于,基于预设数据库对所述样本实体数据进行替换,获得替换后的样本数据,包括以下:
从预设数据库获取一个待替换的实体数据;
计算所述待替换的实体数据与所述样本实体数据之间的语义相似度;
当所述语义相似度超出预设阈值,则采用所述待替换的实体数据对所述样本实体数据进行替换,获得替换后的样本数据;
从预设数据库中获取另一个待替换的实体数据,直至获得预设数量的替换后的样本数据。
6.根据权利要求4所述的事件实体联合抽取方法,其特征在于,获取初始训练样本,包括以下:
获取多个样本数据,对各个样本数据中的事件数据进行预测获得带有样本事件标签的样本数据;
对各个所述带有样本事件标签的样本数据中的实体数据进行BIO标记,获得初始训练样本。
7.根据权利要求1所述的事件实体联合抽取方法,其特征在于,根据各个所述事件信息采用提取模型获取与各个所述事件信息对应的实体信息,包括:
获取各个事件信息,将各个事件信息与所述待处理文本进行分别拼接获得与各个事件信息对应的待处理数据;
采用问答网络对各个所述待处理数据进行实体识别,获得与各个事件信息对应的实体信息。
8.一种事件实体联合抽取装置,其特征在于,包括:
事件确定模块,用于获取待处理数据,采用预测模型对所述待处理数据进行事件信息预测,获得至少一个事件信息;
实体确定模块,用于根据各个所述事件信息采用提取模型对所述待处理数据进行实体信息提取,获得与各个所述事件信息对应的实体信息;
处理模块,基于所述事件信息和与各个所述事件信息对应的实体信息获得目标数据。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述事件实体联合抽取方法的步骤。
10.一种计算机可读存储介质,其包括多个存储介质,各存储介质上存储有计算机程序,其特征在于,所述多个存储介质存储的所述计算机程序被处理器执行时共同实现权利要求1至7任一项所述事件实体联合抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010908002.6A CN112052682A (zh) | 2020-09-02 | 2020-09-02 | 事件实体联合抽取方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010908002.6A CN112052682A (zh) | 2020-09-02 | 2020-09-02 | 事件实体联合抽取方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112052682A true CN112052682A (zh) | 2020-12-08 |
Family
ID=73606818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010908002.6A Pending CN112052682A (zh) | 2020-09-02 | 2020-09-02 | 事件实体联合抽取方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052682A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989165A (zh) * | 2021-03-26 | 2021-06-18 | 杭州有数金融信息服务有限公司 | 一种计算舆情实体关联度的方法 |
CN113190602A (zh) * | 2021-04-09 | 2021-07-30 | 桂林电子科技大学 | 融合字词特征与深度学习的事件联合抽取方法 |
CN113377844A (zh) * | 2021-06-29 | 2021-09-10 | 哈尔滨工业大学 | 面向大型关系型数据库的对话式数据模糊检索方法及装置 |
CN113378570A (zh) * | 2021-06-01 | 2021-09-10 | 车智互联(北京)科技有限公司 | 一种实体识别模型的生成方法、计算设备及可读存储介质 |
CN113569554A (zh) * | 2021-09-24 | 2021-10-29 | 北京明略软件系统有限公司 | 一种数据库中实体对匹配方法、装置、电子设备及存储介质 |
CN114328687A (zh) * | 2021-12-23 | 2022-04-12 | 北京百度网讯科技有限公司 | 事件抽取模型训练方法及装置、事件抽取方法及装置 |
CN115169350A (zh) * | 2022-07-14 | 2022-10-11 | 中国电信股份有限公司 | 情报信息的处理方法、装置、设备、介质及程序 |
-
2020
- 2020-09-02 CN CN202010908002.6A patent/CN112052682A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989165A (zh) * | 2021-03-26 | 2021-06-18 | 杭州有数金融信息服务有限公司 | 一种计算舆情实体关联度的方法 |
CN112989165B (zh) * | 2021-03-26 | 2022-07-01 | 浙江有数数智科技有限公司 | 一种计算舆情实体关联度的方法 |
CN113190602A (zh) * | 2021-04-09 | 2021-07-30 | 桂林电子科技大学 | 融合字词特征与深度学习的事件联合抽取方法 |
CN113190602B (zh) * | 2021-04-09 | 2022-03-25 | 桂林电子科技大学 | 融合字词特征与深度学习的事件联合抽取方法 |
CN113378570A (zh) * | 2021-06-01 | 2021-09-10 | 车智互联(北京)科技有限公司 | 一种实体识别模型的生成方法、计算设备及可读存储介质 |
CN113378570B (zh) * | 2021-06-01 | 2023-12-12 | 车智互联(北京)科技有限公司 | 一种实体识别模型的生成方法、计算设备及可读存储介质 |
CN113377844A (zh) * | 2021-06-29 | 2021-09-10 | 哈尔滨工业大学 | 面向大型关系型数据库的对话式数据模糊检索方法及装置 |
CN113569554A (zh) * | 2021-09-24 | 2021-10-29 | 北京明略软件系统有限公司 | 一种数据库中实体对匹配方法、装置、电子设备及存储介质 |
CN114328687A (zh) * | 2021-12-23 | 2022-04-12 | 北京百度网讯科技有限公司 | 事件抽取模型训练方法及装置、事件抽取方法及装置 |
CN115169350A (zh) * | 2022-07-14 | 2022-10-11 | 中国电信股份有限公司 | 情报信息的处理方法、装置、设备、介质及程序 |
CN115169350B (zh) * | 2022-07-14 | 2024-03-12 | 中国电信股份有限公司 | 情报信息的处理方法、装置、设备、介质及程序 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112052682A (zh) | 事件实体联合抽取方法、装置、计算机设备及存储介质 | |
CN110704633B (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
CN110502608B (zh) | 基于知识图谱的人机对话方法及人机对话装置 | |
CN111859960B (zh) | 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质 | |
CN109992664B (zh) | 争议焦点的标注分类方法、装置、计算机设备和存储介质 | |
CN106649612B (zh) | 一种自动问答模板匹配的方法及装置 | |
CN113707300A (zh) | 基于人工智能的搜索意图识别方法、装置、设备及介质 | |
CN113821622B (zh) | 基于人工智能的答案检索方法、装置、电子设备及介质 | |
CN112052305A (zh) | 信息提取方法、装置、计算机设备及可读存储介质 | |
CN112347226A (zh) | 文档知识抽取方法、装置、计算机设备及可读存储介质 | |
CN109033427B (zh) | 股票的筛选方法及装置、计算机设备及可读存储介质 | |
CN111814482B (zh) | 文本关键数据的提取方法、系统和计算机设备 | |
CN111401065A (zh) | 实体识别方法、装置、设备及存储介质 | |
CN109461016B (zh) | 数据评分方法、装置、计算机设备及存储介质 | |
CN112131351B (zh) | 一种基于多答案损失函数的片段信息抽取模型训练方法 | |
CN114840684A (zh) | 基于医疗实体的图谱构建方法、装置、设备及存储介质 | |
CN114756669A (zh) | 问题意图的智能分析方法、装置、电子设备及存储介质 | |
CN112581297B (zh) | 基于人工智能的信息推送方法、装置及计算机设备 | |
CN112667878A (zh) | 网页的文本内容提取方法、装置、电子设备及存储介质 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN111754352A (zh) | 一种观点语句正确性的判断方法、装置、设备和存储介质 | |
CN111723870A (zh) | 基于人工智能的数据集获取方法、装置、设备和介质 | |
CN116186223A (zh) | 一种金融文本处理方法、装置、设备和存储介质 | |
US11481389B2 (en) | Generating an executable code based on a document | |
CN112988996B (zh) | 知识库生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |