CN115545030A - 实体抽取模型的训练方法、实体关系抽取方法及装置 - Google Patents
实体抽取模型的训练方法、实体关系抽取方法及装置 Download PDFInfo
- Publication number
- CN115545030A CN115545030A CN202211247349.6A CN202211247349A CN115545030A CN 115545030 A CN115545030 A CN 115545030A CN 202211247349 A CN202211247349 A CN 202211247349A CN 115545030 A CN115545030 A CN 115545030A
- Authority
- CN
- China
- Prior art keywords
- entity
- sample
- extraction model
- training
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种实体抽取模型的训练方法、实体关系抽取方法及装置,其中实体抽取模型的训练方法包括:确定训练样本集的实体特征和词性特征,将训练样本集输入至初始抽取模型,通过特征抽取层获取到训练样本集的字符特征后,融合训练样本集的字符特征、实体特征和词性特征等不同的底层特征,共同对初始抽取模型进行训练,丰富了初始抽取模型在学习训练样本集中的样本文本时的依赖信息,减少了训练样本集的误差积累,增强训练完成的实体抽取模型的迁移能力,并且融合不同的底层特征,扩大了特征表示的差异性,提高了训练完成的实体抽取模型的抽取能力。
Description
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种实体抽取模型的训练方法,一种实体关系抽取方法,一种实体抽取模型的训练装置,一种实体关系抽取装置,一种计算设备,以及一种计算机存储介质。
背景技术
命名实体识别(NER)是指从输入文本中抽取出具有特定意义的或指代性强的实体,是自然语言处理中一个非常重要的任务,其在文本信息理解、知识问答、检索、图谱构建等诸多场景中有着广泛的应用。目前,在进行命名实体识别时,除了需要从输入文本中抽取出具有特定意义的或指代性强的实体,以及该实体的实体类型外,还可能需要抽取各个实体之间的实体关系。
现有技术中,往往是通过预训练语言模型的编码层获取输入文本的语义信息,将该语义信息直接作为词嵌入特征,输入线性网络得到输入文本中的实体信息,然后再对实体信息进行语义编码,基于语义信息和实体信息两两联合判断实体之间的关系。
然而,上述实体关系抽取方法中,仅仅是基于输入文本的语义信息和实体信息联合判断实体之间的关系,抽取实体关系中依赖的底层信息较少,导致实体关系抽取的准确性较差。因此,如何提供更准确的实体关系抽取方法就成为技术人员亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供了一种实体抽取模型的训练方法、实体关系抽取方法及装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种实体抽取模型的训练方法,包括:
获取训练样本集,并确定训练样本集的实体特征和词性特征,其中,训练样本集包括至少一个样本文本;
将训练样本集输入初始实体抽取模型中的特征抽取层,获得训练样本集中各个样本文本对应的字符特征;
根据字符特征、实体特征和词性特征,调整初始实体抽取模型的模型参数,并返回执行获取训练样本集的操作步骤,直至达到训练停止条件,获得训练完成的实体抽取模型。
根据本申请实施例的第二方面,提供了一种实体关系抽取方法,包括:
将待抽取文本输入实体抽取模型,获得待抽取文本包括的各个目标实体以及对应的实体标注信息,其中,实体抽取模型为通过上述第一方面的实体抽取模型的训练方法训练得到;
将各个目标实体以及对应的实体标注信息输入关系抽取模型,获得各个目标实体之间的目标实体关系。
根据本申请实施例的第三方面,提供了一种实体抽取模型的训练装置,包括:
获取模块,被配置为获取训练样本集,并确定训练样本集的实体特征和词性特征,其中,训练样本集包括至少一个样本文本;
第一获得模块,被配置为将训练样本集输入初始实体抽取模型中的特征抽取层,获得训练样本集中各个样本文本对应的字符特征;
第一训练模块,被配置为根据字符特征、实体特征和词性特征,调整初始实体抽取模型的模型参数,并返回执行获取训练样本集的操作步骤,直至达到训练停止条件,获得训练完成的实体抽取模型。
根据本申请实施例的第四方面,提供了一种实体关系抽取装置,包括:
第二获得模块,被配置为将待抽取文本输入实体抽取模型,获得待抽取文本包括的各个目标实体以及对应的实体标注信息,其中,实体抽取模型为通过上述第一方面的实体抽取模型的训练方法训练得到;
第三获得模块,被配置为将各个目标实体以及对应的实体标注信息输入关系抽取模型,获得各个目标实体之间的目标实体关系。
根据本申请实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,处理器执行指令时实现实体抽取模型的训练方法或者实体关系抽取方法的步骤。
根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现实体抽取模型的训练方法或者实体关系抽取方法的步骤。
根据本申请实施例的第七方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现实体抽取模型的训练方法或者实体关系抽取方法的步骤。
本申请实施例中提供了一种实体抽取模型的训练方法,在训练实体抽取模型时,可以确定训练样本集的实体特征和词性特征,将训练样本集输入至初始抽取模型,通过特征抽取层获取到训练样本集的字符特征后,可以融合训练样本集的字符特征、实体特征和词性特征等不同的底层特征,共同对初始抽取模型进行训练,丰富了初始抽取模型在学习训练样本集中的样本文本时的依赖信息,减少了训练样本集的误差积累,增强训练完成的实体抽取模型的迁移能力,并且融合不同的底层特征,扩大了特征表示的差异性,提高了训练完成的实体抽取模型的抽取能力,使得训练完成的实体抽取模型可以更为准确地确定出输入文本包括的各个目标实体以及对应的实体标注信息,提高了模型抽取实体的准确性。
本申请实施例中提供了一种实体关系抽取方法,实体抽取模型为通过上述实体抽取模型的训练方法训练得到,因而实体抽取模型可以准确地确定出待抽取文本包括的各个目标实体以及对应的实体标注信息,之后可以将各个目标实体以及对应的实体标注信息输入至关系抽取模型,通过关系抽取模型对目标实体以及对应的实体标注信息进行融合分析,确定出各个目标实体之间的目标实体关系。如此,待抽取文本的目标实体关系抽取划分为两个阶段,先识别各个目标实体对应的实体标注信息,再抽取各个目标实体之间的实体关系,在对各个目标实体之间的关系进行抽取类时,融合了目标实体的本身实体信息以及实体标注信息等不同的特征信息,提高了实体关系抽取结果的准确性。
附图说明
图1是本申请一实施例提供的一种实体关系抽取过程的处理流程图;
图2是本申请一实施例提供的一种实体抽取模型的训练方法的流程图;
图3是本申请一实施例提供的一种实体特征和词性特征的确定过程的流程图;
图4是本申请一实施例提供的一种实体特征的确定过程流程图;
图5是本申请一实施例提供的一种词性特征的确定过程流程图;
图6是本申请一实施例提供的一种字符特征的获得过程流程图;
图7是本申请一实施例提供的一种初始实体抽取模型的模型参数调整方法的流程图;
图8是本申请一实施例提供的一种融合特征的获得方法的流程图;
图9是本申请一实施例提供的一种预测实体类型的确定方法的流程图;
图10是本申请一实施例提供的一种实体关系抽取方法的流程图;
图11是本申请一实施例提供的一种实体标注信息的确定方法的流程图;
图12是本申请一实施例提供的一种目标实体关系的确定方法的流程图;
图13是本申请一实施例提供的一种融合语义向量的确定方法的流程图;
图14是本申请一实施例提供的另一种融合语义向量的确定方法的流程图;
图15是本申请一实施例提供的一种关系抽取模型的训练方法的流程图;
图16是本申请一实施例提供的一种预测实体关系的确定方法的流程图;
图17是本申请一实施例提供的另一种实体关系抽取方法的流程图;
图18是本申请一实施例提供的一种实体抽取模型的训练装置的结构示意图;
图19是本申请一实施例提供的一种实体关系抽取装置的结构示意图;
图20是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
LSTM(Long Short-Term Memory,长短期记忆网络):是一种时间递归神经网络,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。LSTM区别于RNN的地方,主要在于它在算法中加入了一个判断信息有用与否的“处理器”,这个处理器作用的结构被称为cell,一个cell当中被放置了三扇门,分别叫做输入门、遗忘门和输出门,一个信息进入LSTM的网络当中,可以根据规则来判断是否有用,只有符合算法认证的信息才会留下,不符的信息则通过遗忘门被遗忘。相比于普通的RNN,LSTM能够在更长的序列中有更好的表现。
CNN(Convolutional Neural Network,卷积神经网络):是一种前馈神经网络,由若干卷积层和池化层组成,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。
BERT(Bidirectional Encoder Representations from Transformers)模型:是一种语言表示模型,代表来自Transformer的双向编码器表示,其中双向的意思表示它在处理一个词语的时候,能考虑到该词语前面和后面词语的信息,从而获取上下文的语义。网络架构使用的是多层Transformer结构,其最大的特点是抛弃了传统的RNN和CNN,通过Attention机制将句子中任意位置的两个词语的距离转换成1。BERT通过左、右两侧上下文来预测当前词和通过当前句子预测下一个句子,BERT旨在通过联合调节所有层中的左右上下文来预训练深度双向表示,预训练的BERT表征可以仅用一个额外的输出层进行微调,在不对任务特定架构做出大量修改条件下,就可以为很多任务创建模型。
条件随机场(conditional random field,简称CRF):是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。条件随机场(CRF)结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。
命名实体识别(Named Entity Recognition,NER):描述的是自然语言处理(Natural Language Processing,NLP)中的一项基础任务,在一段文本中识别出各类命名实体,需要识别的命名实体通常包括人名、地名、组织机构名、药物、时间等。命名实体识别是问答系统、信息检索、知识图谱等NLP应用的重要基础工具,它的识别结果会作为前期基础数据输入到下游任务中,可以说命名实体识别的准确性一定程度上决定了NLP应用的最终效果,在NLP应用中起着基石作用。
关系抽取:从自由文本中判断其中的两个Entity(实体)是哪种关系,进而得到其结构化三元组信息,即(主体,关系,客体),例如:(XX地区,首都,YY城市)。
Entity:实体,指文本中具有特定意义的实体词汇或者短语描述,如人名、地名、机构名等一句话中对应的字、词和短语。
Pipeline关系抽取:先对输入的句子进行实体抽取,将识别出的实体分别组合,然后再进行关系分类,这两个子过程是前后串联的,完全分离。
Glove词向量:Global Vectors for Word Representation,全局词向量,它是一个基于全局词频统计(count-based&overall statistics)的词表征(wordrepresentation)工具。它可以把一个词语表示成一个由实数组成的向量,向量可以捕捉词语之间的一些语义特性,如相似性(similarity)、类比性(analogy)。也即Glove词向量是基于词与词之间的共现(co-occurrence)信息。
LAC:Lexical Analysis of Chinese,是NLP(自然语言处理部)的一款词法分析工具,可实现中文分词、词性标注、专名识别等功能。
在本申请中,提供了一种实体抽取模型的训练方法。本申请同时涉及一种实体关系抽取方法,一种实体抽取模型的训练装置,一种实体关系抽取装置,一种计算设备,以及一种计算机存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例提供的一种实体关系抽取过程的处理流程图,如图1所示,服务器获取应用端提供的训练样本集,并确定训练样本集的实体特征和词性特征,将训练样本集输入初始实体抽取模型中的特征抽取层,获得训练样本集中各个样本文本对应的字符特征,然后将各个样本文本对应的字符特征与实体特征、词性特征进行融合,获得训练样本集中各个样本文本的融合特征表示。之后,将融合特征表示输入初始实体抽取模型中的实体识别层,基于实体识别层输出的预测实体类型,对初始实体抽取模型进行训练,生成训练后的实体抽取模型。
另外,服务器还可以获取应用端提供的训练样本,将训练样本输入至初始关系抽取模型的特征抽取层,获得样本字符语义向量和样本标注语义向量;然后,融合样本字符语义向量和样本标注语义向量,获得样本融合语义向量,并将样本融合语义向量输入初始关系抽取模型的分类层,基于分类层输出的预测实体关系对初始关系抽取模型进行训练,生成训练后的关系抽取模型。
训练后的实体抽取模型和训练后的关系抽取模型可以发送至应用端,对待抽取文本进行实体关系抽取。
将待抽取文本输入至训练后的实体抽取模型的特征抽取层,获得待抽取文本的文本特征表示,将该文本特征表示输入至训练后的实体抽取模型的实体识别层,获得待抽取文本包括的各个目标实体以及对应的实体标注信息。之后,将获得的各个目标实体以及对应的实体标注信息输入至训练后的关系抽取模型的特征抽取层,获得各个目标实体中各个字符的字符语义向量,以及各个字符对应的实体标注信息的标注语义向量;然后,根据各个目标实体的字符语义向量和标注语义向量,确定各个目标实体的融合语义向量,将各个目标实体的融合语义向量输入至训练后的关系抽取模型的分类层,获得各个目标实体之间的目标实体关系。
图2示出了根据本申请一实施例提供的一种实体抽取模型的训练方法的流程图,具体包括如下步骤。
步骤202:获取训练样本集,并确定训练样本集的实体特征和词性特征,其中,训练样本集包括至少一个样本文本。
具体的,训练样本集是预先获取到的大量训练数据,该训练样本集包括至少一个样本文本,用于对初始实体抽取模型进行训练。实际应用中,可以预先从其它设备、服务器或本地存储中获取不同语言、不同领域、不同长度的句子作为样本文本,将获取到的各个样本文本组成训练样本集。另外,该样本文本可以为文字或图片,若样本文本为图片,可以先通过光学字符识别(Optical Character Recognition,OCR)将图片格式的样本文本转换为文字格式,再进行后续处理。
需要说明的是,训练样本集的实体特征是指训练样本集中各个样本文本的样本实体的特征表示,词性特征是指训练样本集中各个样本文本的词语的词语特征表示,确定出的训练样本集的实体特征和词性特征,为后续训练初始抽取模型提供了丰富的依赖信息。
本实施例一个可选的实施方式中,可以基于训练样本集中的各个样本文本构建预设实体词典,以获得对应的实体特征,并基于训练样本集中的各个样本文本的词性,确定对应的词性特征。图3示出了根据本申请一实施例提供的一种实体特征和词性特征的确定过程的流程图,如图3所示,确定训练样本集的实体特征和词性特征,具体包括如下步骤:
步骤302:根据训练样本集中各个样本文本包括的第一样本实体,构建预设实体词典,并确定预设实体词典对应的实体特征。
步骤304:对训练样本集中各个样本文本进行词性标注,并根据词性标注确定训练样本集的词性特征。
具体的,第一样本实体为训练样本集的样本文本包括的实体,预设实体词典是指基于各个样本文本包括的各个实体确定出的、多个实体的集合,其中,实体是指样本文本中具有特定意义的实体词汇或者短语描述。另外,词性标注是指确定各个样本文本中各个词语的词性,该词性可以指示词语的特点,该词性可以为动词、名词、形容词、代词、介词、连词、助词或其他之类的词性。
需要说明的是,训练样本集中包括至少一个样本文本,该样本文本可以为字、词或句子。具体实现时,可以根据训练样本集中各个样本文本包括的第一样本实体,构建预设实体词典,并确定预设实体词典对应的实体特征,该实体特征即为训练样本集的实体特征。
另外,可以对各个样本文本包括的字或词语进行词性标注,也即确定各个样本文本包括的字或词语的词性,从而获得训练样本集的词性特征。
本申请实施例中,预设实体词典中包括的实体是训练样本集中各个样本文本出现的实体,词性特征是训练样本集中各个样本文本的各个词语的词性,也即训练样本集的实体特征和词性特征是训练样本集不同维度的底层信息,后续在基于训练样本集对初始实体抽取模型进行训练时,可以融合确定出的实体特征和词性特征,为后续训练初始抽取模型提供了丰富的依赖信息。
本实施例一个可选的实施方式中,可以统计训练样本集的各个样本文本中各个样本实体的出现频数,选取超过频数阈值的目标样本实体构建预设实体词典,然后基于预设实体词典中各个目标样本实体的词向量,确定预设实体词典对应的实体特征。图4示出了根据本申请一实施例提供的一种实体特征的确定过程流程图,如图4所示,根据训练样本集中各个样本文本包括的第一样本实体,构建预设实体词典,并确定预设实体词典对应的实体特征,具体包括如下步骤:
步骤402:抽取训练样本集中各个样本文本包括的第一样本实体,并统计各个第一样本实体出现的频数,选择频数大于频数阈值的目标样本实体构建预设实体词典。
步骤404:针对预设实体词典中的每个目标样本实体,查询预设词向量表,获取目标样本实体对应的词向量。
步骤406:通过特征融合网络融合各个目标样本实体对应的词向量,获得预设实体词典对应的实体特征。
具体的,频数阈值是指预先设置的、用于判断第一样本实体出现的次数是否较高的数值,如频数阈值可以为3、20、48……100等,基于需求自定义设置。目标样本实体是各个第一样本实体中出现频数大于频数阈值的样本实体。预设词向量表是指包括大量常见的实体对应的词向量的集合,如预设词向量表可以为Glove词向量表。另外,特征融合网络为预先训练完成、能够融合输入的多个词向量的网络模型,如特征融合网络可以为CNN网络中的池化层。
实际应用中,抽取训练样本集中各个样本文本包括的第一样本实体时,可以人工进行抽取,也可以基于现有的抽取规则自动进行抽取。抽取训练样本集中各个样本文本包括的第一样本实体,并选择频数大于频数阈值的目标样本实体构建预设实体词典之后,可以查询预设词向量表,确定预设实体词典中各个目标样本实体对应的词向量,然后将各个目标样本实体对应的词向量输入至特征融合网络,特征融合网络可以融合各个输入的词向量,输出预设实体词典对应的实体特征。
示例的,训练样本集包括3个样本文本,样本文本1为“张三向往XY大学”、样本文本2为“赵五喜欢Z地区”、样本文本3为“张三和赵五来自Z地区,是XY大学的同学”。抽取样本文本1中包括的样本实体为:张三、XY大学,抽取样本文本2中包括的样本实体为:赵五、Z地区,抽取样本文本3中包括的样本实体为:张三、赵五、Z地区、XY大学。假设频数阈值为1,那么可以构建得到预设实体词典,该预设实体词典包括张三、赵五、Z地区、XY大学。然后通过Glove词向量表,分别查询张三、赵五、Z地区、XY大学对应的词向量,将张三、赵五、Z地区、XY大学对应的词向量输入CNN网络中的池化层,获得预设实体词典整体对应的实体特征。
本申请实施例中,可以统计训练样本集的各个样本文本中各个样本实体的出现频数,选取超过频数阈值的目标样本实体,即出现次数较多的目标样本实体构建预设实体词典,然后融合预设实体词典中各个目标样本实体的词向量,确定预设实体词典对应的实体特征。如此,可以基于训练样本集中高频出现的样本实体构建预设实体词典,进而确定出训练样本集对应的实体特征,为后续训练初始实体抽取模型时提供高频样本实体的依赖信息,提高模型训练效果。
本实施例一个可选的实施方式中,可以对训练样本集中各个样本文本的词语的词性进行编码,获得词性向量,从而获得对应的词性特征。图5示出了根据本申请一实施例提供的一种词性特征的确定过程流程图,如图5所示,对训练样本集中各个样本文本进行词性标注,并根据词性标注确定训练样本集的词性特征,具体包括如下步骤:
步骤502:通过词性标注工具对训练样本集中各个样本文本进行词性标注,获得训练样本集中各个样本文本包括的各个词语的词性。
步骤504:基于预设编码规则对各个词语的词性进行编码,获得各个词语的词性向量。
步骤506:将各个词语的词性向量作为训练样本集的词性特征。
具体的,词性标注工具可以为能够确定样本文本中各个词语的词性的工具,如词性标注工具可以为LAC词性标注工具,LAC是一款词法分析工具,可实现中文分词、词性标注、专名识别(又称命名实体识别)等功能。词性标注可以是指确定词语的词性的过程,该词性可以为动词、名词、形容词、代词、介词、连词、助词、其他之类的词性。预设编码规则可以是指预先设置的对词性进行编码的规则,如将动词编码为000,将名词编码为001,将形容词编码为010,将代词编码为011,将介词编码为100,将连词编码为101,将助词编码为110,将其他编码为111等。
一种可能的实现方式中,对样本文本中的各个词语的词性进行编码,可以获得各个词语的词性向量,按照样本文本中各个词语的顺序,对各个词语的词性向量进行拼接,可以获得该样本文本的词性向量,训练样本集中各个样本文本的词性向量的集合即为该训练样本集的词性特征。
沿用上例,通过LAC词性标注工具对样本文本1进行词性标注,获得样本文本1包括的各个词语的词性为“张三-名词”、“向往-动词”、“XY大学-名词”,对样本文本1中的各个词语进行编码,获得样本文本1中“张三”的词性向量为001、“向往”的词性向量为000、“XY大学”的词性向量为001,按照各个词语的顺序进行拼接,获得样本文本1的词性向量为“001000 001”。
通过LAC词性标注工具对样本文本2进行词性标注,获得样本文本2包括的各个词语的词性为“赵五-名词”、“喜欢-动词”、“Z地区-名词,对样本文本2中的各个词语进行编码,获得样本文本2中“赵五”的词性向量为001、“喜欢”的词性向量为000、“Z地区”的词性向量为001,按照各个词语的顺序进行拼接,获得样本文本2的词性向量为“001 000 001”。
通过LAC词性标注工具对样本文本3进行词性标注,获得样本文本3包括的各个词语的词性为“张三-名词”、“和-连词”、“赵五-名词”、“来自-介词”、“Z地区-名词”、“是-其他”、“XY大学-名词”、“的-助词”、“同学-名词”,对样本文本3中的各个词语进行编码,获得样本文本3中“张三”的词性向量为001、“和”的词性向量为101、“赵五”的词性向量为001、“来自”的词性向量为100、“Z地区”的词性向量为001、“是”的词性向量为111、“XY大学”的词性向量为001、“的”的词性向量为110、“同学”的词性向量为001,按照各个词语的顺序进行拼接,获得样本文本3的词性向量为“001 101 001 100 001 111 001 110 001”。
将上述样本文本1的词性向量“001 000 001”、样本文本2的词性向量“001 000001”、样本文本3的词性向量“001 101 001 100 001 111 001 110 001”的集合作为训练样本集的词性特征。
另一种可能的实现方式中,对训练样本集中的各个样本文本中词语的词性进行编码,可以获得各个词语的词性向量,然后直接将各个词语与对应的词性向量的集合作为训练样本集的词性特征,即训练样本集的词性特征为词语-词性向量对的集合。并且,在将各个词语与对应的词性向量的集合作为训练样本集的词性特征时,可以对相同词语进行去重。
沿用上例,训练样本集的词性特征可以为“张三-001;向往-000;XY大学-001;赵五-001;喜欢-000;Z地区-001;和-101;来自-100;是-111;的-110;同学-001”。
本申请实施例中,可以对训练样本集中各个样本文本进行词性标注,获得训练样本集中各个样本文本包括的各个词语的词性,对各个词语的词性进行编码,获得训练样本集的词性特征。如此,可以基于训练样本集中各个词语的词性确定训练样本集的词性特征,为后续训练初始实体抽取模型时提供词语词性的依赖信息,提高模型训练效果。
继续参阅图2,步骤204:将训练样本集输入初始实体抽取模型中的特征抽取层,获得训练样本集中各个样本文本对应的字符特征。
具体的,初始实体抽取模型是指未经训练的实体抽取模型,可以基于训练样本集对该初始实体抽取模型进行训练,优化模型参数,以获得训练完成的实体抽取模型,训练完成的实体抽取模型能够对输入的数据进行命名实体识别。另外,字符特征是指初始实体抽取模型中的特征抽取层对训练样本集中各个样本文本进行分析识别,抽取出的特征。
其中,初始实体抽取模型中的特征抽取层可以将训练样本集中各个样本文本的字符,通过字符的分布表征矩阵转化为特征表示向量,即字符特征,初始实体抽取模型可以为预训练的Bert模型结构,将训练样本集输入预训练的Bert模型中,可以从预训练的Bert模型的编码层获取输出的各个样本文本对应的字符特征。
本实施例一个可选的实施方式中,还可以先对训练样本集中的字符进行编码,将编码后的特征输入至初始实体抽取模型中的特征抽取层。图6示出了根据本申请一实施例提供的一种字符特征的获得过程流程图,如图6所示,将训练样本集输入初始实体抽取模型中的特征抽取层,获得训练样本集中各个样本文本对应的字符特征,具体包括如下步骤:
步骤602:将第一样本文本中的字符映射至预设字符库中对应的位置,获得第一样本文本的编码特征,其中,第一样本文本是训练样本集包括的任一样本文本。
步骤604:将编码特征输入初始实体抽取模型中的特征抽取层,获得第一样本文本对应的字符特征。
具体的,预设字符库是包括大量常见字符的数据库,类似于字典。
需要说明的是,训练样本集中的样本文本是字符形式,而初始实体抽取模型中的特征抽取层接收的输入需要为编码向量形式,因而可以将第一样本文本中的字符映射至预设字符库中对应的位置,获得第一样本文本的编码特征,然后将编码特征输入初始实体抽取模型中的特征抽取层,获得第一样本文本对应的字符特征。训练样本集中的各个样本文本均可以作为上述第一样本文本,通过初始实体抽取模型中的特征抽取层,获得对应的字符特征。
实际应用中,将第一样本文本中的字符映射至预设字符库中对应的位置,获得第一样本文本的编码特征时,可以直接将映射出的位置作为第一样本文本的编码特征。
沿用上例,假设样本文本1中“张三向往XY大学”的各个字符在预设字符库中对应的位置分别为3、5、7、8、12、15、19、27,此时获得的样本文本1对应的编码特征为“3 5 7 812 15 19 27”。将样本文本1的编码特征输入Bert模型,可以从Bert模型的编码层获得样本文本1对应的字符特征,即8*256维度的特征向量(其中256为Bert模型预设的输出维度)。
假设样本文本2中“赵五喜欢Z地区”的各个字符在预设字符库中对应的位置分别为4、6、13、16、24、32、35,此时获得的样本文本2对应的编码特征为“461316243235”。将样本文本2的编码特征输入Bert模型,可以从Bert模型的编码层获得样本文本2对应的字符特征,即7*256维度的特征向量。
假设样本文本3中“张三和赵五来自Z地区,是XY大学的同学”的各个字符在预设字符库中对应的位置分别为3、5、41、4、6、47、52、24、32、35、54、12、15、19、27、71、87、98,此时获得的样本文本3对应的编码特征为“3 5 41 4 6 47 52 24 32 35 54 12 15 19 27 7187 98”。将样本文本3的编码特征输入Bert模型,可以从Bert模型的编码层获得样本文本3对应的字符特征,即18*256维度的特征向量。
另一种可能的实现方式中,将第一样本文本中的字符映射至预设字符库中对应的位置后,还可以通过预设编码方法对映射出的位置进行编码,获得第一样本文本的编码特征。其中,预设编码方法可以为常见的对文本内容进行编码的方法,如二进制编码、one-hot编码(独热编码)、留一法编码等。
示例的,假设样本文本1中“张三向往XY大学”的各个字符映射在预设字符库中对应的位置分别为3、5、7、8、12、15、19、27,预设编码方法为二进制编码方法,将映射出的位置转换为二进制向量表示,获得第一样本文本的编码特征为:11 101 111 1000 1100 111110011 11011。依次类推,可以确定出训练样本集中各个样本文本的编码特征。
本申请实施例中,可以通过预设编码方法将第一样本文本中的字符映射至预设字符库中对应的位置,获得第一样本文本的编码特征,满足初始实体抽取模型中的特征抽取层对输入数据的形式要求,从而通过初始实体抽取模型中的特征抽取层获得各个样本文本对应的字符特征,确定训练样本集中各个样本文本的编码特征的过程,不涉及复杂的编码算法,简单易行,提高了确定编码特征的效率,且节省了算力。
继续参阅图2,步骤206:根据字符特征、实体特征和词性特征,调整初始实体抽取模型的模型参数。
其中,执行步骤206之后可以返回执行步骤202的操作步骤,直至达到训练停止条件,获得训练完成的实体抽取模型。具体的,训练停止条件是指初始实体抽取模型完成训练所需满足的条件,如迭代次数满足预设次数阈值。
需要说明的是,根据字符特征、实体特征和词性特征,调整初始实体抽取模型的模型参数之后,可以确定当前是否达到训练停止条件,若未达到,则说明初始实体抽取模型的识别精度并未达到要求,此时可以返回继续执行步骤202的操作步骤,直至达到训练停止条件,获得训练完成的实体抽取模型。
本申请实施例中,实体特征可以提供高频样本实体的依赖信息,词性特征可以提供词语词性的依赖信息,因而可以结合字符特征、实体特征和词性特征,调整初始实体抽取模型的模型参数,以对初始实体抽取模型进行训练,在训练初始实体抽取模型时依赖不同维度的底层信息,减少了训练样本集的误差积累,增强训练完成的实体抽取模型的迁移能力,并且融合不同的底层特征,扩大了特征表示的差异性,提高了训练完成的实体抽取模型的抽取能力,使得训练完成的实体抽取模型可以更为准确地确定出输入文本包括的各个目标实体以及对应的实体标注信息,提高了模型抽取实体的准确性。
本实施例一个可选的实施方式中,为了调整初始实体抽取模型的模型参数,以对初始实体抽取模型进行训练,训练样本集中的每个样本文本可以携带第一样本实体对应的实体类型标签,图7示出了根据本申请一实施例提供的一种初始实体抽取模型的模型参数调整方法的流程图,如图7所示,根据字符特征、实体特征和词性特征,调整初始实体抽取模型的模型参数,具体包括如下步骤:
步骤702:将各个样本文本对应的字符特征与实体特征、词性特征进行融合,获得训练样本集中各个样本文本的融合特征表示。
步骤704:将融合特征表示输入初始实体抽取模型中的实体识别层,获得初始实体抽取模型输出的预测实体类型。
步骤706:基于预测实体类型和实体类型标签,计算初始实体抽取模型的第一损失值,基于第一损失值,反向调整初始实体抽取模型的模型参数。
具体的,训练样本集中的每个样本文本携带第一样本实体对应的实体类型标签,该实体类型标签可以是人工标注得到的,是第一样本实体的真实实体情况。其中,该实体类型标签可以包括字符类型标签和序列类型标签,字符类型标签可以为单个实体字的类型标签,即字符类型标签可以表示单个实体字的位置,如,B,即Begin,表示开始;I,即Intermediate,表示中间;E,即End,表示结尾;S,即Single,表示单个字符;O,即Other,表示其他,用于标记无关字符,该字符类型标签可以简称为:BIESO;序列类型标签可以为实体词的类型标签,序列类型标签可以表示实体词的类型,如“LOC”代表地名,“PER”代表人名,“ORG”代表组织机构。
沿用上例,样本文本1对应的实体类型标签(以实体类型标签为字符类型标签和序列类型标签组合为例)可以为:“张,B-PER”、“三,E-PER”、“向,O”、“往,O”、“X,B-ORG”、“Y,I-ORG”、“大,I-ORG”、“学,E-ORG”;样本文本2对应的实体类型标签可以为:“赵,B-PER”、“五,E-PER”、“喜,O”、“欢,O”、“Z,B-LOC”、“地,I-LOC”、“区,E-LOC”;样本文本3对应的实体类型标签可以为:“张,B-PER”、“三,E-PER”、“和,O”、“赵,B-PER”、“五,E-PER”、“来,O”、“自,O”、“Z,B-LOC”、“地,I-LOC”、“区,E-LOC”、“是,O”、“X,B-ORG”、“Y,I-ORG”、“大,I-ORG”、“学,E-ORG”、“的,O”、“同,O”、“学,O”。
需要说明的是,初始实体抽取模型中的实体识别层可以为能够对输入特征进行分析,预测输入特征的实体类型的结构,如实体识别层可以为CRF模型结构,CRF模型对输入内容采用“BIESO”字符类型标签的标注方式进行实体类型预测。
实际应用中,可以将各个样本文本对应的字符特征与实体特征、词性特征进行融合,获得训练样本集中各个样本文本的融合特征表示,然后将融合特征表示输入至初始实体抽取模型中的实体识别层,该实体识别层可以对输入的融合特征进行识别分析,输出各个样本文本的第一样本实体对应的预测实体标签,基于各个样本文本的第一样本实体对应的预测实体类型和实体类型标签,可以计算初始实体抽取模型的第一损失值,基于第一损失值,反向调整初始实体抽取模型的模型参数,并返回执行步骤202的操作步骤,直至达到训练停止条件,获得训练完成的实体抽取模型。
其中,该预测实体类型也可以包括预测字符类型和预测序列类型。
一种可能的实现方式中,可以仅基于第一损失值和损失阈值之间的关系,确定是否达到训练停止条件。具体的,若第一损失值大于等于损失值阈值,则说明各个样本文本的第一样本实体对应的预测实体类型和实体类型标签的差异较大,初始实体抽取模型的抽取能力较差,此时可以确定未达到训练停止条件,调整初始实体抽取模型的模型参数,并返回执行步骤202的操作步骤,继续对初始实体抽取模型进行训练,直至第一损失值小于损失值阈值,说明各个样本文本的第一样本实体对应的预测实体类型和实体类型标签之间的差异较小,初始实体抽取模型的抽取精度满足需求,此时可以确定达到训练停止条件,停止训练,获得训练后的实体抽取模型。
需要说明的是,可以基于各个样本文本的第一样本实体对应的预测实体类型和实体类型标签计算第一损失值,实体类型标签即真实想要初始实体抽取模型输出的结果,也即实体类型标签为真实结果,而预测实体类型是初始实体抽取模型的预测结果,在预测结果和真实结果之间的差值足够小时,说明预测结果足够接近真实结果,此时初始实体抽取模型训练完成,得到训练后的实体抽取模型。
其中,损失值阈值为损失值的临界值,在第一损失值大于或等于损失值阈值的情况下,说明初始实体抽取模型的预测结果与真实结果之间仍存在一定偏差,仍需调整初始检测模型的模型参数,此时确定未达到训练停止条件;在第一损失值小于损失值阈值的情况下,说明初始实体抽取模型的预测结果与真实结果的接近程度已经足够,可以停止训练,此时可以确定达到训练停止条件。其中,损失值阈值的数值具体根据实际情况进行选择,本申请实施例对此不做任何限定。
实际应用中,计算损失值的损失函数有很多,如交叉熵损失函数、L1范数损失函数、最大损失函数、均方误差损失函数、对数损失函数等。损失函数可以用来评价模型的预测结果和真实结果之间不一样的程度,损失函数越好,通常模型的性能越好,不同类型的模型优先使用的损失函数一般也不一样。
交叉熵损失函数本质上也是一种对数似然函数,可用于二分类和多分类任务中,当计算得到的损失值较大的时候,表示真实结果与预测结果之间的误差较大,此时模型的权重可以更新的快,当计算得到的损失值小的时候,表示真实结果与预测结果之间的误差较小,此时模型的权重可以更新的慢,使用交叉熵损失函数在进行梯度计算的时候可以避免出现梯度弥散。
实际应用中,模型一般分为2类,分类模型和回归模型,对于分类模型而言,一般优先使用交叉熵损失函数,从而避免出现梯度弥散。本申请中的初始实体抽取模型实际是要识别样本文本中各个第一样本实体的类型,即实际上为一种分类模型,因而本申请实施例中优先使用交叉熵损失函数,对初始实体抽取模型进行训练。
具体实现时,基于预测实体类型和实体类型标签,计算初始实体抽取模型的第一损失值可以通过如下公式(1)计算得到:
其中,LOSS表示初始实体抽取模型的第一损失值,N表示需要初始实体抽取模型分类的类别数(即预设的实体类别的数目),y(i)表示第i个样本文本中各个样本实体的实体类型标签,即真实结果,f(x(i))表示初始实体抽取模型中的分类函数输出的第i个样本文本中各个样本实体的预测实体类型,即预测结果。
一种可能的实现方式中,初始实体抽取模型是一种神经网络模型,在基于计算得到的第一损失值调整初始实体抽取模型的模型参数时,可以通过第一损失值反向梯度传播调整初始实体抽取模型的权重。具体的,在计算得到初始实体抽取模型的第一损失值之后,可以将该第一损失值传递给初始实体抽取模型的最后一层,该第一损失值可以表示当前误差的大小,因而最后一层可以自动根据接收到的第一损失值调整自身权重,之后最后一层可以将第一损失值反向传递给前一层,前一层接收到第一损失值后,也可以自动根据接收到的第一损失值调整自身权重,以此类推,直至第一损失值传递至初始实体抽取模型的第一层,完成一次模型参数调整。
在本申请实施例中,通过计算第一损失值可以直观的示出初始实体抽取模型的预测结果与真实结果之间的差异,后续可以基于该差异对初始实体抽取模型进行针对性训练,调整初始实体抽取模型的模型参数,从而有效提高初始实体抽取模型的训练速率及训练效果。
另一种可能的实现方式中,除了比较第一损失值和损失值阈值的关系之外,还可以结合迭代次数,确定是否达到训练停止条件。具体的,若第一损失值大于或等于损失值阈值,则可以进一步判断此刻的迭代次数是否达到预设迭代次数,若此刻的迭代次数并未达到预设迭代次数,则可以确定未达到训练停止条件,可以调整初始实体抽取模型的模型参数,并返回执行步骤202的操作步骤,继续对初始实体抽取模型进行训练,直至达到预设迭代次数的情况下,确定达到训练停止条件,停止迭代,得到训练后的实体抽取模型。
其中,预设迭代次数根据实际情况进行设置,本申请实施例对此不做任何限定,在训练次数达到预设迭代次数时,说明初始实体抽取模型的训练次数已经足够,此时初始实体抽取模型的预测结果已经极力接近真实结果,可以停止训练。
在本申请实施例中,可以根据第一损失值判断初始实体抽取模型的具体训练情况,并在训练未合格的情况下根据第一损失值反向调整初始实体抽取模型的模型参数,以提高该初始实体抽取模型的实体抽取能力,训练速率高,且训练效果好。
本实施例一个可选的实施方式中,针对某样本文本的每个字符,可以对该字符的字符特征、训练样本集的实体特征以及该字符的词性特征进行融合,获得该字符的融合特征表示,进而获得该样本文本的融合特征表示。图8示出了根据本申请一实施例提供的一种融合特征的获得方法的流程图,如图8所示,将各个样本文本对应的字符特征与实体特征、词性特征进行融合,获得训练样本集中各个样本文本的融合特征表示,具体包括如下步骤:
步骤802:针对第一样本文本包括的第一字符的字符特征,将第一字符的字符特征与实体特征、第一字符的词性特征进行融合,获得第一字符的融合特征表示。
步骤804:将第一样本文本包括的各个字符的融合特征表示作为第一样本文本的融合特征表示。
其中,第一样本文本为训练样本集中的任一样本文本,第一字符为第一样本文本包括的任一字符。
需要说明的是,可以针对第一样本文本包括的第一字符的字符特征,将该第一字符的字符特征与训练样本集的实体特征、第一字符的词性特征进行融合,获得该第一字符的融合特征表示。依次类推,第一样本文本中的各个字符均可以作为上述第一字符,获得字符对应的融合特征表示,然后可以将第一样本文本包括的各个字符的融合特征表示作为第一样本文本的融合特征表示。依次类推,训练样本集中的各个样本文本均可以作为上述第一样本文本,获得样本文本对应的融合特征表示,即获得训练样本集中各个样本文本的融合特征表示。
实际应用中,将第一字符的字符特征与实体特征、第一字符的词性特征进行融合时,可以对字符特征、实体特征和词性特征中的每个元素相加,获得该维度的融合特征;或者,还可以将字符特征、实体特征和词性特征依次拼接,获得对应的融合特征,该融合特征的维度是字符特征、实体特征和词性特征的维度之和。如,若每个字符的字符特征是256维度的、训练样本集的实体特征是256维度的、词性特征也是256维度的,那么直接相加可以获得256维度的融合向量,若将该三个特征依次拼接可以获得768维度的融合特征。
沿用上例,样本文本1的字符特征为8*256维度的特征向量,每个字符对应一个256维度的特征向量,在确定样本文本1中第一个字符“张”对应的特征向量后依次拼接预设实体词典整体对应的实体特征、张三的词性向量“001”,获得第一个字符“张”的融合特征表示;在确定样本文本1中第二个字符“三”对应的特征向量后依次拼接预设实体词典整体对应的实体特征、张三的词性向量“001”,获得第二个字符“三”的融合特征表示;在确定样本文本1中第三个字符“向”对应的特征向量后依次拼接预设实体词典整体对应的实体特征、向往的词性向量“000”,获得第三个字符“向”的融合特征表示,依次类推,直至获得样本文本1中各个字符的融合特征表示,然后将样本文本1包括的各个字符的融合特征表示拼接为样本文本1的融合特征表示。
本申请实施例中,可以针对第一样本文本包括的每个字符,将该字符的字符特征与训练样本集的实体特征、该字符的词性特征进行融合,获得该字符的融合特征表示,从而基于第一样本文本中各个字符的融合特征表示,获得第一样本文本的融合特征表示,以字符的单位,逐字符进行融合,保证了样本文本的融合特征的准确性,为训练初始实体抽取模型提供准确的、不同维度的依赖信息,提高模型训练的准确率。
本实施例一个可选的实施方式中,初始实体抽取模型还包括特征分析层,还可以预先通过该特征分析层,获得各个样本文本的融合特征的隐层表示。图9示出了根据本申请一实施例提供的一种预测实体类型的确定方法的流程图,如图9所示,将融合特征表示输入初始实体抽取模型中的实体识别层,获得初始实体抽取模型输出的预测实体类型,具体包括如下步骤:
步骤902:将融合特征表示输入初始实体抽取模型中的特征分析层,获得各个样本文本对应的隐层表示。
步骤904:将隐层表示输入初始实体抽取模型中的实体识别层,获得初始实体抽取模型输出的预测实体类型。
其中,特征分析层是指能够对输入的融合特征进行降维、获得隐层表示的结构,该隐层表示为融合特征降维后的向量表示,如特征分析层可以为LSTM网络结构。另外,该预测实体类型也可以包括预测字符类型和预测序列类型。
需要说明的是,获取到训练样本集中各个样本文本的融合特征表示后,可以先将各个样本文本的融合特征表示输入至LSTM网络,LSTM网络可以对输入的融合特征表示进行降维,获得各个样本文本对应的隐层表示,LSTM网络在降维的过程中可以考虑融合特征的前后依赖关系,保留对实体类型预测作用较大的特征信息。之后,可以将获得的隐层表示输入至初始实体抽取模型中的实体识别层(即CRF模型)中,获得各个样本文本对应的预测实体类型。
沿用上例,假设样本文本1的融合特征表示为8*256维度的特征向量,将样本文本1的融合特征表示输入至LSTM网络,可以获得样本文本1对应的隐层表示,该隐层表示可以为8*128维度的特征向量。将该8*128维度的特征向量输入至CRF模型中,可以获得样本文本1对应的预测实体类型。
由上可知,将样本文本1、样本文本2和样本文本3的融合特征表示分别输入至LSTM网络,可以分别获得样本文本1、样本文本2和样本文本3对应的隐层表示,之后,分别将样本文本1、样本文本2和样本文本3对应的隐层表示输入至CRF模型,CRF模型可以分别输出样本文本1、样本文本2和样本文本3中各个实体的预测实体类型。
沿用上例,将样本文本1的隐层表示输入CRF模型,CRF模型可以输出样本文本1中各个实体的预测实体类型为:“张,B-PER”、“三,I-PER”、“向,I-PER”、“往,E-PER”、“X,B-ORG”、“Y,I-ORG”、“大,I-ORG”、“学,E-ORG”。
将样本文本2的隐层特征表示输入CRF模型,CRF模型可以输出样本文本2中各个实体的预测实体类型为:“赵,B-PER”、“五,E-PER”、“喜,O”、“欢,O”、“Z,O”、“地,B-LOC”、“区,E-LOC”。
将样本文本3的隐层特征表示输入CRF模型,CRF模型可以输出样本文本3中各个实体的预测实体类型为:“张,B-PER”、“三,E-PER”、“和,B-PER”、“赵,I-PER”、“五,E-PER”、“来,O”、“自,O”、“Z,O”、“地,I-LOC”、“区,E-LOC”、“是,O”、“X,O”、“Y,O”、“大,B-ORG”、“学,E-ORG”、“的,O”、“同,O”、“学,O”。
由上可知,样本文本1的实体类型标签为:“张,B-PER”、“三,E-PER”、“向,O”、“往,O”、“X,B-ORG”、“Y,I-ORG”、“大,I-ORG”、“学,E-ORG”,样本文本2的实体类型标签为:“赵,B-PER”、“五,E-PER”、“喜,O”、“欢,O”、“Z,B-LOC”、“地,I-LOC”、“区,E-LOC”,样本文本3对应的实体类型标签可以为:“张,B-PER”、“三,E-PER”、“和,O”、“赵,B-PER”、“五,E-PER”、“来,O”、“自,O”、“Z,B-LOC”、“地,I-LOC”、“区,E-LOC”、“是,O”、“X,B-ORG”、“Y,I-ORG”、“大,I-ORG”、“学,E-ORG”、“的,O”、“同,O”、“学,O”。
样本文本1中的“三”、“向”和“往”,样本文本2中的“Z”和“地”,样本文本3中的“和”、“赵”、“Z”、“X”、“Y”和“大”,预测实体类型与对应的实体类型标签不同,存在误差,说明目前初始实体抽取模型的抽取能力较差,可以基于预测实体类型和实体类型标签,计算初始实体抽取模型的第一损失值,基于第一损失值,反向调整初始实体抽取模型的模型参数。
需要说明的是,将各个样本文本对应的字符特征与实体特征、词性特征进行融合,获得训练样本集中各个样本文本的融合特征表示之后,可以先将各个样本文本的融合特征表示输入至初始实体抽取模型中的特征分析层,对各个样本文本的融合特征进行降维,获得各个样本文本对应的隐层表示,然后将各个样本文本的隐层表示输入初始实体抽取模型中的实体识别层,获得初始实体抽取模型输出的预测实体类型。如此,初始实体抽取模型中还包括有特征分析层,通过特征分析层可以考虑融合特征的前后依赖关系,保留对实体类型预测作用较大的特征信息,去除对实体类型预测作用较小的特征信息,以对各个样本文本的融合特征进行降维,减少样本文本的融合特征中的无用信息,降低实体识别层需要分析的数据量,提高预测实体类型的预测效率。
本申请实施例中提供了一种实体抽取模型的训练方法,在训练实体抽取模型时,可以确定训练样本集的实体特征和词性特征,将训练样本集输入至初始抽取模型,通过特征抽取层获取到训练样本集的字符特征后,可以融合训练样本集的字符特征、实体特征和词性特征等不同的底层特征,共同对初始抽取模型进行训练,丰富了初始抽取模型在学习训练样本集中的样本文本时的依赖信息,减少了训练样本集的误差积累,增强训练完成的实体抽取模型的迁移能力,并且融合不同的底层特征,扩大了特征表示的差异性,提高了训练完成的实体抽取模型的抽取能力,使得训练完成的实体抽取模型可以更为准确地确定出输入文本包括的各个目标实体以及对应的实体标注信息,提高了模型抽取实体的准确性。
图10示出了根据本申请一实施例提供的一种实体关系抽取方法的流程图,具体包括如下步骤。
步骤1002:将待抽取文本输入实体抽取模型,获得待抽取文本包括的各个目标实体以及对应的实体标注信息,其中,实体抽取模型为通过上述实体抽取模型的训练方法训练得到。
具体的,待抽取文本可以是指需要抽取其中包括的实体,以及各个实体之间的关系的文本。
需要说明的是,过上述实体抽取模型的训练方法训练得到的实体抽取模型可以准确识别输入文本对应的实体类型,因而可以将待抽取文本输入实体抽取模型,即可获得待抽取文本包括的各个目标实体以及对应的实体标注信息。其中,该实体标注信息即为各个目标实体对应的实体类型,该实体类型可以包括包括实体的字符类型和序列类型。
示例的,待抽取文本为“我要去A国家的首都P地区上学”,将待抽取文本输入至预先训练好的实体抽取模型中,可以获得待抽取文本包括的各个目标实体以及对应的实体标注信息为:“A,B-LOC”、“国,I-LOC”、“家,E-LOC”、“P,B-LOC”、“地,I-LOC”、“区,E-LOC”。
本申请实施例中,可以将待抽取文本输入实体抽取模型,获得待抽取文本包括的各个目标实体以及对应的实体标注信息,后续再基于各个目标实体的实体标注信息,分析各个目标实体之间的实体关系,待抽取文本的目标实体关系抽取划分为两个阶段,先识别各个目标实体对应的实体标注信息,再抽取各个目标实体之间的实体关系,在对各个目标实体之间的关系进行抽取时,融合了目标实体的本身信息以及实体标注信息等不同的特征信息,提高了实体关系抽取结果的准确性。
本实施例一个可选的实施方式中,实体抽取模型包括特征抽取层和实体识别层,图11示出了根据本申请一实施例提供的一种实体标注信息的确定方法的流程图,如图11所示,将待抽取文本输入实体抽取模型,获得待抽取文本包括的各个目标实体以及对应的实体标注信息,具体包括如下步骤:
步骤1102:将待抽取文本输入实体抽取模型的特征抽取层,获得待抽取文本的文本特征表示。
步骤1104:将文本特征表示输入实体抽取模型的实体识别层,获得待抽取文本包括的各个目标实体以及对应的实体标注信息。
需要说明的是,可以将待抽取文本输入实体抽取模型的特征抽取层,获得待抽取文本的文本特征表示,该文本特征表示即为特征抽取层通过预设的字符分布表征矩阵转化获得的特征表示向量。然后,将该文本特征表示输入实体抽取模型的实体识别层,实体识别层可以对文本特征进行分析,即可获得待抽取文本包括的各个目标实体以及对应的实体标注信息。
本申请实施例中,实体抽取模型的训练过程,融合了训练样本集的字符特征、实体特征和词性特征等不同的底层特征,丰富了初始抽取模型在学习训练样本集中的样本文本时的依赖信息,减少了训练样本集的误差积累,提高了训练完成的实体抽取模型的抽取能力,因而基于实体抽取模型的特征抽取层和实体识别层,可以准确抽取出待抽取文本中各个目标实体以及对应的实体标注信息,为后续待抽取文本中实体关系的抽取提供了准确的数据基础。
进一步地,在训练实体抽取模型时,构建了预设实体词典,该预设实体词典中包括训练样本集中各个样本文本的第一样本实体,也即预设实体词典中包括有大量实体,且该实体的实体标注信息是确定的,因而可以基于预设实体词典设定修正规则,对实体抽取模型抽取出的各个目标实体以及对应的实体标注信息中,明显错误的实体和实体标注信息进行修正,后续再基于修正后的各个目标实体以及对应的实体标注信息,进行实体关系抽取,从而提高实体关系抽取的准确性。
继续参阅图10,步骤1004:将各个目标实体以及对应的实体标注信息输入关系抽取模型,获得各个目标实体之间的目标实体关系。
其中,目标实体关系可以表示关系抽取模型最终预测出的待抽取文本中各个目标实体之间的关系,目标实体关系可以通过多元组的形式表示。
示例的,以待抽取文本包括两个目标实体为例,实体关系标签可以为三元组形式,如(A国家,首都,P地区)。以待抽取文本包括三个目标实体为例,目标实体关系可以为五元组形式,如(张XX;同学,赵YY;老师,李ZZ);或者,目标实体关系还可以为四元组形式,如(张XX,同学,赵YY,王WW)。
需要说明的是,关系抽取模型是预先训练好的、能够基于各个实体以及对应的实体标注信息,抽取各个实体之间的实体关系的模型。将各个目标实体以及对应的实体标注信息输入关系抽取模型,即可获得各个目标实体之间的目标实体关系,抽取实体关系的准确度和效率较高。
本实施例一个可选的实施方式中,关系抽取模型包括特征抽取层和分类层,图12示出了根据本申请一实施例提供的一种目标实体关系的确定方法的流程图,如图12所示,将各个目标实体以及对应的实体标注信息输入关系抽取模型,获得各个目标实体之间的目标实体关系,具体包括如下步骤:
步骤1202:将各个目标实体以及对应的实体标注信息输入关系抽取模型的特征抽取层,获得各个目标实体中各个字符的字符语义向量,以及各个字符对应的实体标注信息的标注语义向量。
步骤1204:根据各个目标实体的字符语义向量和标注语义向量,确定各个目标实体的融合语义向量。
步骤1206:将各个目标实体的融合语义向量输入关系抽取模型的分类层,获得各个目标实体之间的目标实体关系。
其中,关系抽取模型包括特征抽取层和分类层,特征抽取层可以是指能够对输入的特征进行语义分析,获得对应的语义向量的结构,分类层可以是指能够对语义向量进行分析,识别实体之间的关系的结构,关系抽取模型的特征抽取层可以为Bert模型结构,关系抽取模型的分类层可以为softmax函数结构。
需要说明的是,将各个目标实体以及对应的实体标注信息输入关系抽取模型的特征抽取层(Bert模型),可以获得各个目标实体包括的各个字符的字符语义向量,以及各个字符对应的标注信息的标注语义向量;然后,可以根据各个目标实体的字符语义向量和标注语义向量,确定各个目标实体的融合语义向量,将各个目标实体的融合语义向量输入关系抽取模型的分类层(softmax函数),获得各个目标实体之间的目标实体关系。
本申请实施例中,可以结合目标实体的本身语义信息和对应的实体标注信息的语义信息,对各个目标实体之间的关系进行抽取,提高了实体关系抽取结果的准确性。
本实施例一个可选的实施方式中,图13示出了根据本申请一实施例提供的一种融合语义向量的确定方法的流程图,如图13所示,根据各个目标实体的字符语义向量和标注语义向量,确定各个目标实体的融合语义向量,具体包括如下步骤:
步骤1302:将第一目标实体的第一个字符的字符语义向量作为第一融合子向量,并将第一个字符对应的实体标注信息的标注语义向量作为第二融合子向量,其中,第一目标实体为待抽取文本包括的各个目标实体中的任一目标实体。
步骤1304:将第一目标实体的各个字符的平均字符语义向量作为第三融合子向量,并将各个字符对应的各个实体标注信息的平均标注语义向量作为第四融合子向量。
步骤1306:将第一目标实体的最后一个字符的字符语义向量作为第五融合子向量,并将最后一个字符的标注语义向量作为第六融合子向量。
步骤1308:对第一融合子向量、第二融合子向量、第三融合子向量、第四融合子向量、第五融合子向量和第六融合子向量,进行加权融合,获得第一目标实体的融合语义向量。
需要说明的是,可以分别取第一目标实体的第一个字符的字符语义向量、第一个字符对应的实体标注信息的标注语义向量、各个字符的平均字符语义向量、各个字符对应的各个实体标注信息的平均标注语义向量、最后一个字符的字符语义向量以及最后一个字符的标注语义向量,进行加权融合,获得第一目标实体的融合语义向量。依次类推,待抽取文本包括的各个目标实体均可以作为第一目标实体,通过上述方法,获得对应的融合语义向量。
本申请实施例中,可以以字符为单位,融合目标实体的本身信息以及对应的实体标注信息等不同的特征信息,提高了实体关系抽取结果的准确性。
本实施例一个可选的实施方式中,可以对目标实体的字符信息先进行融合,并对实体标注信息进行融合,然后再对融合后的字符信息和实体标注信息进行融合。图14示出了根据本申请一实施例提供的另一种融合语义向量的确定方法的流程图,如图14所示,对第一融合子向量、第二融合子向量、第三融合子向量、第四融合子向量、第五融合子向量和第六融合子向量,进行加权融合,获得第一目标实体的融合语义向量,具体包括如下步骤:
步骤1402:对第一融合子向量、第三融合子向量和第五融合子向量,进行加权融合,获得第一目标实体的字符融合向量。
步骤1404:对第二融合子向量、第四融合子向量和第六融合子向量,进行加权融合,获得第一目标实体的标注融合向量。
步骤1406:对字符融合向量和标注融合向量进行融合,获得第一目标实体的融合语义向量。
实际应用中,对第一融合子向量、第三融合子向量和第五融合子向量,进行加权融合,获得第一目标实体的字符融合向量时,可以分别将第一融合子向量中的各个元素乘以对应的权重系数,将第三融合子向量中的各个元素乘以对应的权重系数,将第五融合子向量中的各个元素乘以对应的权重系数,然后再将获得的三个子向量中的各个元素对应相加,获得第一目标实体的字符融合向量。
另外,对第二融合子向量、第四融合子向量和第六融合子向量,进行加权融合,获得第一目标实体的标注融合向量时,可以分别将第二融合子向量中的各个元素乘以对应的权重系数,将第四融合子向量中的各个元素乘以对应的权重系数,将第六融合子向量中的各个元素乘以对应的权重系数,然后再将获得的三个子向量中的各个元素对应相加,获得第一目标实体的标注融合向量。
具体实现时,在对字符融合向量和标注融合向量进行融合,获得第一目标实体的融合语义向量时,可以将字符融合向量和标注融合向量中对应元素相加,获得第一目标实体的融合语义向量,或根据实际需要对字符融合向量和标注融合向量对应的元素设置权重后再相加;还可以将字符融合向量和标注融合向量按序拼接,获得第一目标实体的融合语义向量。
另外,关系抽取模型的分类层还可以包括全连接层和softmax函数。此时,可以先将待抽取文本的各个目标实体的融合语义向量输入全连接层进行连接,获得待抽取文本的整体语义向量,之后将该待抽取文本的整体语义向量输入softmax函数,可以获得该待抽取文本中各个目标实体之间的目标实体关系。
沿用上例,将“A,B-LOC”、“国,I-LOC”、“家,E-LOC”、“P,B-LOC”、“地,I-LOC”、“区,E-LOC”输入Bert模型,可以分别获得“A”的语义向量和对应的标注信息“B-LOC”的语义向量、“国”的语义向量和对应的标注信息“I-LOC”的语义向量、“家”的语义向量和对应的标注信息“E-LOC”的语义向量、“P”的语义向量和对应的标注信息“B-LOC”的语义向量、“地”的语义向量和对应的标注信息“I-LOC”的语义向量、“区”的语义向量和对应的标注信息“E-LOC”的语义向量。
对“A”的语义向量、“国”的语义向量、“家”的语义向量进行加权平均,获得“A国家”各个字符的平均语义向量,对“A”对应的标注信息“B-LOC”的语义向量、“国”对应的标注信息“I-LOC”的语义向量、“家”对应的标注信息“E-LOC”的语义向量,进行加权平均,获得“A国家”各个字符对应的各个标注信息的平均语义向量。
对“P”的语义向量、“地”的语义向量、“区”的语义向量进行加权平均,获得“P地区”各个字符的平均语义向量,对“P”对应的标注信息“B-LOC”的语义向量、“地”对应的标注信息“I-LOC”的语义向量、“区”对应的标注信息“E-LOC”的语义向量,进行加权平均,获得“P地区”各个字符对应的各个标注信息的平均语义向量。
将“A”的语义向量、“A国家”各个字符的平均语义向量和“家”的语义向量进行加权融合,获得“A国家”的字符融合向量;将“A”对应的标注信息“B-LOC”的语义向量、“A国家”各个字符对应的各个标注信息的平均语义向量和“家”对应的标注信息“E-LOC”的语义向量进行加权融合,获得“A国家”的标注信息融合向量。之后,将“A国家”的字符融合向量和“A国家”的标注信息融合向量进行拼接,作为“A国家”的融合语义向量。以此类推,可以获得“P地区”的融合语义向量。
之后,可以将“A国家”的融合语义向量和“P地区”的融合语义向量,共同输入全连接层,获得待抽取文本的完整语义向量,将该待抽取文本的完整语义向量输入softmax函数,获得最终输出的目标实体关系。
本申请实施例中,在对各个目标实体之间的关系进行抽取时,以字符为单位,融合了目标实体的本身实体信息以及对应的实体标注信息等不同的特征信息,提高了实体关系抽取结果的准确性。
本实施例一个可选的实施方式中,提供了一种关系抽取模型的训练方法,图15示出了根据本申请一实施例提供的一种关系抽取模型的训练方法的流程图,如图15所示,关系抽取模型通过如下训练方法包括的步骤训练获得:
步骤1502:获取训练样本,其中,训练样本包括至少两个第二样本实体以及各个第二样本实体的样本标注信息,训练样本携带实体关系标签。
步骤1504:将各个第二样本实体以及对应的样本标注信息输入初始关系抽取模型,获得各个第二样本实体之间的预测实体关系。
步骤1506:基于预测实体关系和实体关系标签,计算初始关系抽取模型的第二损失值,基于第二损失值,反向调整初始关系抽取模型的模型参数,直至达到训练停止条件,获得训练完成的关系抽取模型。
需要说明的是,此处的训练样本可以由训练完成的实体抽取模型获得,具体的,可以将训练语料输入训练完成的实体抽取模型中,获得训练语料包括的各个实体以及对应的实体类型,其中,该实体即为训练样本中的第二样本实体,各个实体对应的实体类型即为训练样本中的各个第二样本实体的样本标注信息。
其中,训练语料可以为训练实体抽取模型所使用的训练样本集,也可以为另外获取到的训练语料,该样本标注信息也可以包括字符类型和序列类型。另外,该训练样本也可以为另外获取到的、人工标注有第二样本实体以及各个第二样本实体的样本标注信息的数据。
再者,训练样本可以携带实体关系标签,该实体关系标签用于指示训练样本中各个第二样本实体之间的关系,如训练样本包括的第二样本实体为X国家和Y地区,训练样本携带的实体关系标签为首都,即X国家和Y地区之间的实体关系为“Y地区为X国家的首都”。
实际应用中,初始关系抽取模型是未经训练的初始模型,可以基于训练样本对初始关系抽取模型进行训练,优化初始关系抽取模型中的模型参数,获得训练后的关系抽取模型。
需要说明的是,基于预测实体关系和实体关系标签,计算初始关系抽取模型的第二损失值,基于第二损失值对初始关系抽取模型进行训练的具体实现过程与上述对初始实体抽取模型的训练过程相类似,本申请在此不再赘述。
本申请实施例中,通过计算损失值可以直观的示出初始关系抽取模型的预测结果与真实结果之间的差异,后续可以基于该差异对初始关系抽取模型进行针对性训练,调整初始关系抽取模型的模型参数,从而有效提高初始关系抽取模型的训练速率及训练效果。
另外,将至少两个第二样本实体以及各个第二样本实体的样本标注信息作为训练样本,结合携带的实体关系标签对初始关系抽取模型进行训练,使得训练得到的关系抽取模型可以准确识别输入的实体信息和标注信息,分析输入的实体信息中各个实体之间的实体关系,提供了关系抽取模型抽取实体关系的准确性。
本实施例一个可选的实施方式中,初始关系抽取模型包括特征抽取层和分类层,图16示出了根据本申请一实施例提供的一种预测实体关系的确定方法的流程图,如图16所示,将各个第二样本实体以及对应的样本标注信息输入初始关系抽取模型,获得各个第二样本实体之间的预测实体关系,具体包括如下步骤:
步骤1602:将各个第二样本实体以及对应的样本标注信息输入初始关系抽取模型的特征抽取层,获得各个第二样本实体中各个样本字符的样本字符语义向量,以及各个样本字符对应的样本标注信息的样本标注语义向量。
步骤1604:根据各个样本字符的样本字符语义向量和样本标注语义向量,确定各个第二样本实体的样本融合语义向量。
步骤1606:将各个第二样本实体的样本融合语义向量输入初始关系抽取模型的分类层,获得各个第二样本实体之间的预测实体关系。
实际应用中,融合第二样本实体的样本字符语义向量和样本标注语义向量,以获得第二样本实体的样本融合语义向量的具体实现过程,可以参见上述融合目标实体的字符语义向量和标注语义向量,获得目标实体的融合语义向量的具体实现过程。也即是,将各个第二样本实体以及对应的样本标注信息输入初始关系抽取模型,获得各个第二样本实体之间的预测实体关系的具体实现过程,与上述将各个目标实体以及对应的实体标注信息输入关系抽取模型,获得各个目标实体之间的目标实体关系的具体实现过程相类似,本申请在此不再赘述。
需要说明的是,在训练初始关系抽取模型时,以字符为单位,融合了第二样本实体的本身实体信息以及对应的样本标注信息等不同的特征信息,提高了初始关系抽取模型的训练准确率。
本申请实施例中提供了一种实体关系抽取方法,实体抽取模型为通过上述实体抽取模型的训练方法训练得到,因而实体抽取模型可以准确地确定出待抽取文本包括的各个目标实体以及对应的实体标注信息,之后可以将各个目标实体以及对应的实体标注信息输入至关系抽取模型,通过关系抽取模型对目标实体以及对应的实体标注信息进行融合分析,确定出各个目标实体之间的目标实体关系。如此,待抽取文本的目标实体关系抽取划分为两个阶段,先识别各个目标实体对应的实体标注信息,再抽取各个目标实体之间的实体关系,也即采用Pipeline关系抽取方法,且在对各个目标实体之间的关系进行抽取类时,融合了目标实体的本身实体信息以及实体标注信息等不同的特征信息,提高了实体关系抽取结果的准确性。
图17示出了根据本申请一实施例提供的另一种实体关系抽取方法的流程图,具体包括如下步骤。
步骤1702:获取训练样本集,其中,训练样本集包括至少一个样本文本。
步骤1704:抽取训练样本集中各个样本文本包括的第一样本实体,并统计各个第一样本实体出现的频数,选择频数大于频数阈值的目标样本实体构建预设实体词典;针对预设实体词典中的每个目标样本实体,查询预设词向量表,获取目标样本实体对应的词向量;然后通过CNN网络中的池化层融合各个目标样本实体对应的词向量,获得预设实体词典对应的实体特征。
步骤1706:通过LAC词性标注工具对训练样本集中各个样本文本进行词性标注,获得训练样本集中各个样本文本包括的各个词语的词性;然后,基于预设编码规则对各个词语的词性进行编码,获得各个词语的词性向量,将各个词语的词性向量作为训练样本集的词性特征。
步骤1708:将训练样本集中各样本文本的字符映射至预设字符库中对应的位置,获得各样本文本的编码特征,将各样本文本的编码特征输入初始实体抽取模型中的特征抽取层,获得各样本文本对应的字符特征。
其中,初始实体抽取模型中的特征抽取层可以为预训练的Bert模型结构,Bert模型已使用相同任务进行预训练过,因而Bert模型的编码层的输出可以更好地适应特征抽取任务。
步骤1710:将各个样本文本对应的字符特征与实体特征、词性特征进行融合,获得训练样本集中各个样本文本的融合特征表示,将融合特征表示输入初始实体抽取模型中的特征分析层,获得各个样本文本对应的隐层表示。
其中,特征分析层是指能够对输入的融合特征进行降维、获得隐层表示的结构,该隐层表示为融合特征降维后的向量表示,如特征分析层可以为LSTM网络结构。
步骤1712:将各个样本文本的隐层表示输入初始实体抽取模型中的实体识别层,获得输出的各个样本文本对应的预测实体类型,基于各个样本文本对应的预测实体类型和实体类型标签,计算初始实体抽取模型的第一损失值,基于第一损失值,反向调整初始实体抽取模型的模型参数,直至达到训练停止条件,获得训练完成的实体抽取模型。
其中,实体识别层可以为CRF模型结构,CRF模型对输入内容采用“BIESO”字符类型标签的标注方式进行实体类型预测,从而进行模型训练。
步骤1714:将待抽取文本输入训练完成的实体抽取模型,获得待抽取文本包括的各个目标实体以及对应的实体标注信息。
步骤1716:将各个目标实体以及对应的实体标注信息输入训练好的Bert模型中,获得各个目标实体中各个字符的字符语义向量,以及各个字符对应的实体标注信息的标注语义向量。
步骤1718:根据各个目标实体的字符语义向量和标注语义向量,确定各个目标实体的融合语义向量,将各个目标实体的融合语义向量输入softmax函数,获得各个目标实体之间的目标实体关系。
本申请实施例中,融合训练样本集的字符特征、实体特征和词性特征等不同的底层特征,共同对初始抽取模型进行训练,丰富了初始抽取模型在学习训练样本集中的样本文本时的依赖信息,减少了训练样本集的误差积累,增强训练完成的实体抽取模型的迁移能力,并且融合不同的底层特征,扩大了特征表示的差异性,提高了训练完成的实体抽取模型的抽取能力,使得训练完成的实体抽取模型可以更为准确地确定出输入文本包括的各个目标实体以及对应的实体标注信息,提高了模型抽取实体的准确性。并且,在对各个目标实体之间的关系进行抽取时,以字符为单位,融合了目标实体的本身实体信息以及对应的实体标注信息等不同的特征信息,提高了实体关系抽取结果的准确性。
与上述方法实施例相对应,本申请还提供了实体抽取模型的训练装置实施例,图18示出了本申请一实施例提供的一种实体抽取模型的训练装置的结构示意图。如图18所示,该装置包括:
获取模块1802,被配置为获取训练样本集,并确定训练样本集的实体特征和词性特征,其中,训练样本集包括至少一个样本文本;
第一获得模块1804,被配置为将训练样本集输入初始实体抽取模型中的特征抽取层,获得训练样本集中各个样本文本对应的字符特征;
第一训练模块1806,被配置为根据字符特征、实体特征和词性特征,调整初始实体抽取模型的模型参数,并返回执行获取训练样本集的操作步骤,直至达到训练停止条件,获得训练完成的实体抽取模型。
可选地,获取模块1802进一步被配置为:
根据训练样本集中各个样本文本包括的第一样本实体,构建预设实体词典,并确定预设实体词典对应的实体特征;
对训练样本集中各个样本文本进行词性标注,并根据词性标注确定训练样本集的词性特征。
可选地,获取模块1802进一步被配置为:
抽取训练样本集中各个样本文本包括的第一样本实体,并统计各个第一样本实体出现的频数,选择频数大于频数阈值的目标样本实体构建预设实体词典;
针对预设实体词典中的每个目标样本实体,查询预设词向量表,获取目标样本实体对应的词向量;
通过特征融合网络融合各个目标样本实体对应的词向量,获得预设实体词典对应的实体特征。
可选地,获取模块1802进一步被配置为:
通过词性标注工具对训练样本集中各个样本文本进行词性标注,获得训练样本集中各个样本文本包括的各个词语的词性;
基于预设编码规则对各个词语的词性进行编码,获得各个词语的词性向量;
将各个词语的词性向量作为训练样本集的词性特征。
可选地,第一获得模块1804进一步被配置为:
将第一样本文本中的字符映射至预设字符库中对应的位置,获得第一样本文本的编码特征,其中,第一样本文本是训练样本集包括的任一样本文本;
将编码特征输入初始实体抽取模型中的特征抽取层,获得第一样本文本对应的字符特征。
可选地,每个样本文本携带第一样本实体对应的实体类型标签;第一训练模块1806进一步被配置为:
将各个样本文本对应的字符特征与实体特征、词性特征进行融合,获得训练样本集中各个样本文本的融合特征表示;
将融合特征表示输入初始实体抽取模型中的实体识别层,获得初始实体抽取模型输出的预测实体类型;
基于预测实体类型和实体类型标签,计算初始实体抽取模型的第一损失值,基于第一损失值,反向调整初始实体抽取模型的模型参数。
可选地,第一训练模块1806进一步被配置为:
针对第一样本文本包括的第一字符的字符特征,将第一字符的字符特征与实体特征、第一字符的词性特征进行融合,获得第一字符的融合特征表示,其中,第一样本文本为训练样本集中的任一样本文本,第一字符为第一样本文本包括的任一字符;
将第一样本文本包括的各个字符的融合特征表示作为第一样本文本的融合特征表示。
可选地,初始实体抽取模型还包括特征分析层;第一训练模块1806进一步被配置为:
将融合特征表示输入初始实体抽取模型中的特征分析层,获得各个样本文本对应的隐层表示;
将隐层表示输入初始实体抽取模型中的实体识别层,获得初始实体抽取模型输出的预测实体类型。
本申请实施例中提供了一种实体抽取模型的训练装置,在训练实体抽取模型时,可以确定训练样本集的实体特征和词性特征,将训练样本集输入至初始抽取模型,通过特征抽取层获取到训练样本集的字符特征后,可以融合训练样本集的字符特征、实体特征和词性特征等不同的底层特征,共同对初始抽取模型进行训练,丰富了初始抽取模型在学习训练样本集中的样本文本时的依赖信息,减少了训练样本集的误差积累,增强训练完成的实体抽取模型的迁移能力,并且融合不同的底层特征,扩大了特征表示的差异性,提高了训练完成的实体抽取模型的抽取能力,使得训练完成的实体抽取模型可以更为准确地确定出输入文本包括的各个目标实体以及对应的实体标注信息,提高了模型抽取实体的准确性。
上述为本实施例的一种实体抽取模型的训练装置的示意性方案。需要说明的是,该实体抽取模型的训练装置的技术方案与上述的实体抽取模型的训练方法的技术方案属于同一构思,实体抽取模型的训练装置的技术方案未详细描述的细节内容,均可以参见上述实体抽取模型的训练方法的技术方案的描述。
与上述方法实施例相对应,本申请还提供了实体关系抽取装置实施例,图19示出了本申请一实施例提供的一种实体关系抽取装置的结构示意图。如图19所示,该装置包括:
第二获得模块1902,被配置为将待抽取文本输入实体抽取模型,获得待抽取文本包括的各个目标实体以及对应的实体标注信息,其中,实体抽取模型为通过上述实体抽取模型的训练方法训练得到;
第三获得模块1904,被配置为将各个目标实体以及对应的实体标注信息输入关系抽取模型,获得各个目标实体之间的目标实体关系。
可选地,第三获得模块1904进一步被配置为:
将各个目标实体以及对应的实体标注信息输入关系抽取模型的特征抽取层,获得各个目标实体中各个字符的字符语义向量,以及各个字符对应的实体标注信息的标注语义向量;
根据各个目标实体的字符语义向量和标注语义向量,确定各个目标实体的融合语义向量;
将各个目标实体的融合语义向量输入关系抽取模型的分类层,获得各个目标实体之间的目标实体关系。
可选地,第三获得模块1904进一步被配置为:
将第一目标实体的第一个字符的字符语义向量作为第一融合子向量,并将第一个字符对应的实体标注信息的标注语义向量作为第二融合子向量,其中,第一目标实体为待抽取文本包括的各个目标实体中的任一目标实体;
将第一目标实体的各个字符的平均字符语义向量作为第三融合子向量,并将各个字符对应的各个实体标注信息的平均标注语义向量作为第四融合子向量;
将第一目标实体的最后一个字符的字符语义向量作为第五融合子向量,并将最后一个字符的标注语义向量作为第六融合子向量;
对第一融合子向量、第二融合子向量、第三融合子向量、第四融合子向量、第五融合子向量和第六融合子向量,进行加权融合,获得第一目标实体的融合语义向量。
可选地,第三获得模块1904进一步被配置为:
对第一融合子向量、第三融合子向量和第五融合子向量,进行加权融合,获得第一目标实体的字符融合向量;
对第二融合子向量、第四融合子向量和第六融合子向量,进行加权融合,获得第一目标实体的标注融合向量;
对字符融合向量和标注融合向量进行融合,获得第一目标实体的融合语义向量。
可选地,实体抽取模型包括特征抽取层和实体识别层;第二获得模块1902进一步被配置为:
将待抽取文本输入实体抽取模型的特征抽取层,获得待抽取文本的文本特征表示;
将文本特征表示输入实体抽取模型的实体识别层,获得待抽取文本包括的各个目标实体以及对应的实体标注信息。
可选地,该装置还包括第二训练模块,被配置为:
获取训练样本,其中,训练样本包括至少两个第二样本实体以及各个第二样本实体的样本标注信息,训练样本携带实体关系标签;
将各个第二样本实体以及对应的样本标注信息输入初始关系抽取模型,获得各个第二样本实体之间的预测实体关系;
基于预测实体关系和实体关系标签,计算初始关系抽取模型的第二损失值,基于第二损失值,反向调整初始关系抽取模型的模型参数,直至达到训练停止条件,获得训练完成的关系抽取模型。
可选地,第二训练模块进一步被配置为:
将各个第二样本实体以及对应的样本标注信息输入初始关系抽取模型的特征抽取层,获得各个第二样本实体中各个样本字符的样本字符语义向量,以及各个样本字符对应的样本标注信息的样本标注语义向量;
根据各个样本字符的样本字符语义向量和样本标注语义向量,确定各个第二样本实体的样本融合语义向量;
将各个第二样本实体的样本融合语义向量输入初始关系抽取模型的分类层,获得各个第二样本实体之间的预测实体关系。
本申请实施例中提供了一种实体关系抽取装置,实体抽取模型为通过上述实体抽取模型的训练方法训练得到,因而实体抽取模型可以准确地确定出待抽取文本包括的各个目标实体以及对应的实体标注信息,之后可以将各个目标实体以及对应的实体标注信息输入至关系抽取模型,通过关系抽取模型对目标实体以及对应的实体标注信息进行融合分析,确定出各个目标实体之间的目标实体关系。如此,待抽取文本的目标实体关系抽取划分为两个阶段,先识别各个目标实体对应的实体标注信息,再抽取各个目标实体之间的实体关系,在对各个目标实体之间的关系进行抽取类时,融合了目标实体的本身实体信息以及实体标注信息等不同的特征信息,提高了实体关系抽取结果的准确性。
上述为本实施例的一种实体关系抽取装置的示意性方案。需要说明的是,该实体关系抽取装置的技术方案与上述的实体关系抽取方法的技术方案属于同一构思,实体关系抽取装置的技术方案未详细描述的细节内容,均可以参见上述实体关系抽取方法的技术方案的描述。
需要说明的是,装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
图20示出了根据本申请一实施例提供的一种计算设备的结构框图。该计算设备2000的部件包括但不限于存储器2010和处理器2020。处理器2020与存储器2010通过总线2030相连接,数据库2050用于保存数据。
计算设备2000还包括接入设备2040,接入设备2040使得计算设备2000能够经由一个或多个网络2060通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备2040可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,NetworkInterface Card))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,Wireless LocalArea Networks)无线接口、全球微波互联接入(Wi-MAX,World Interoperability forMicrowave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near Field Communication)接口,等等。
在本申请的一个实施例中,计算设备2000的上述部件以及图20中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图20所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备2000可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备2000还可以是移动式或静止式的服务器。
其中,处理器2020执行指令时实现的实体抽取模型的训练方法或者实体关系抽取方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的实体抽取模型的训练方法或者实体关系抽取方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述实体抽取模型的训练方法或者实体关系抽取方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前实体抽取模型的训练方法或者实体关系抽取方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的实体抽取模型的训练方法或者实体关系抽取方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述实体抽取模型的训练方法或者实体关系抽取方法的技术方案的描述。
本申请实施例公开了一种芯片,其存储有计算机指令,该指令被处理器执行时实现如前实体抽取模型的训练方法或者实体关系抽取方法的步骤。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
计算机指令包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (19)
1.一种实体抽取模型的训练方法,其特征在于,包括:
获取训练样本集,并确定所述训练样本集的实体特征和词性特征,其中,所述训练样本集包括至少一个样本文本;
将所述训练样本集输入初始实体抽取模型中的特征抽取层,获得所述训练样本集中各个样本文本对应的字符特征;
根据所述字符特征、所述实体特征和所述词性特征,调整所述初始实体抽取模型的模型参数,并返回执行所述获取训练样本集的操作步骤,直至达到训练停止条件,获得训练完成的实体抽取模型。
2.根据权利要求1所述的实体抽取模型的训练方法,其特征在于,所述确定所述训练样本集的实体特征和词性特征,包括:
根据所述训练样本集中各个样本文本包括的第一样本实体,构建预设实体词典,并确定所述预设实体词典对应的实体特征;
对所述训练样本集中各个样本文本进行词性标注,并根据所述词性标注确定所述训练样本集的词性特征。
3.根据权利要求2所述的实体抽取模型的训练方法,其特征在于,所述根据所述训练样本集中各个样本文本包括的第一样本实体,构建预设实体词典,并确定所述预设实体词典对应的实体特征,包括:
抽取所述训练样本集中各个样本文本包括的第一样本实体,并统计各个第一样本实体出现的频数,选择频数大于频数阈值的目标样本实体构建所述预设实体词典;
针对所述预设实体词典中的每个目标样本实体,查询预设词向量表,获取所述目标样本实体对应的词向量;
通过特征融合网络融合所述各个目标样本实体对应的词向量,获得所述预设实体词典对应的实体特征。
4.根据权利要求2所述的实体抽取模型的训练方法,其特征在于,所述对所述训练样本集中各个样本文本进行词性标注,并根据所述词性标注确定所述训练样本集的词性特征,包括:
通过词性标注工具对所述训练样本集中各个样本文本进行词性标注,获得所述训练样本集中各个样本文本包括的各个词语的词性;
基于预设编码规则对所述各个词语的词性进行编码,获得所述各个词语的词性向量;
将所述各个词语的词性向量作为所述训练样本集的词性特征。
5.根据权利要求1-4任一项所述的实体抽取模型的训练方法,其特征在于,所述将所述训练样本集输入初始实体抽取模型中的特征抽取层,获得所述训练样本集中各个样本文本对应的字符特征,包括:
将第一样本文本中的字符映射至预设字符库中对应的位置,获得所述第一样本文本的编码特征,其中,所述第一样本文本是所述训练样本集包括的任一样本文本;
将所述编码特征输入初始实体抽取模型中的特征抽取层,获得所述第一样本文本对应的字符特征。
6.根据权利要求1-4任一项所述的实体抽取模型的训练方法,其特征在于,每个所述样本文本携带第一样本实体对应的实体类型标签;
所述根据所述字符特征、所述实体特征和所述词性特征,调整所述初始实体抽取模型的模型参数,包括:
将所述各个样本文本对应的字符特征与所述实体特征、所述词性特征进行融合,获得所述训练样本集中各个样本文本的融合特征表示;
将所述融合特征表示输入所述初始实体抽取模型中的实体识别层,获得所述初始实体抽取模型输出的预测实体类型;
基于所述预测实体类型和所述实体类型标签,计算所述初始实体抽取模型的第一损失值,基于所述第一损失值,反向调整所述初始实体抽取模型的模型参数。
7.根据权利要求6所述的实体抽取模型的训练方法,其特征在于,所述将所述各个样本文本对应的字符特征与所述实体特征、所述词性特征进行融合,获得所述训练样本集中各个样本文本的融合特征表示,包括:
针对第一样本文本包括的第一字符的字符特征,将所述第一字符的字符特征与所述实体特征、所述第一字符的词性特征进行融合,获得所述第一字符的融合特征表示,其中,所述第一样本文本为所述训练样本集中的任一样本文本,所述第一字符为所述第一样本文本包括的任一字符;
将第一样本文本包括的各个字符的融合特征表示作为所述第一样本文本的融合特征表示。
8.根据权利要求6所述的实体抽取模型的训练方法,其特征在于,所述初始实体抽取模型还包括特征分析层;
所述将所述融合特征表示输入所述初始实体抽取模型中的实体识别层,获得所述初始实体抽取模型输出的预测实体类型之前,还包括:
将所述融合特征表示输入所述初始实体抽取模型中的特征分析层,获得所述各个样本文本对应的隐层表示;
所述将所述融合特征表示输入所述初始实体抽取模型中的实体识别层,获得所述初始实体抽取模型输出的预测实体类型,包括:
将所述隐层表示输入所述初始实体抽取模型中的实体识别层,获得所述初始实体抽取模型输出的预测实体类型。
9.一种实体关系抽取方法,其特征在于,包括:
将待抽取文本输入实体抽取模型,获得所述待抽取文本包括的各个目标实体以及对应的实体标注信息,其中,所述实体抽取模型为通过上述权利要求1-8任一项所述的实体抽取模型的训练方法训练得到;
将所述各个目标实体以及对应的实体标注信息输入关系抽取模型,获得所述各个目标实体之间的目标实体关系。
10.根据权利要求9所述的实体关系抽取方法,其特征在于,所述将所述各个目标实体以及对应的实体标注信息输入关系抽取模型,获得所述各个目标实体之间的目标实体关系,包括:
将所述各个目标实体以及对应的实体标注信息输入关系抽取模型的特征抽取层,获得所述各个目标实体中各个字符的字符语义向量,以及各个字符对应的实体标注信息的标注语义向量;
根据所述各个目标实体的所述字符语义向量和所述标注语义向量,确定所述各个目标实体的融合语义向量;
将所述各个目标实体的融合语义向量输入所述关系抽取模型的分类层,获得所述各个目标实体之间的目标实体关系。
11.根据权利要求10所述的实体关系抽取方法,其特征在于,所述根据所述各个目标实体的字符语义向量和所述标注语义向量,确定所述各个目标实体的融合语义向量,包括:
将第一目标实体的第一个字符的字符语义向量作为第一融合子向量,并将所述第一个字符对应的实体标注信息的标注语义向量作为第二融合子向量,其中,所述第一目标实体为所述待抽取文本包括的各个目标实体中的任一目标实体;
将所述第一目标实体的各个字符的平均字符语义向量作为第三融合子向量,并将所述各个字符对应的各个实体标注信息的平均标注语义向量作为第四融合子向量;
将所述第一目标实体的最后一个字符的字符语义向量作为第五融合子向量,并将所述最后一个字符的标注语义向量作为第六融合子向量;
对所述第一融合子向量、所述第二融合子向量、所述第三融合子向量、所述第四融合子向量、所述第五融合子向量和所述第六融合子向量,进行加权融合,获得所述第一目标实体的融合语义向量。
12.根据权利要求11所述的实体关系抽取方法,其特征在于,所述对所述第一融合子向量、所述第二融合子向量、所述第三融合子向量、所述第四融合子向量、所述第五融合子向量和所述第六融合子向量,进行加权融合,获得所述第一目标实体的融合语义向量,包括:
对所述第一融合子向量、所述第三融合子向量和所述第五融合子向量,进行加权融合,获得所述第一目标实体的字符融合向量;
对所述第二融合子向量、所述第四融合子向量和所述第六融合子向量,进行加权融合,获得所述第一目标实体的标注融合向量;
对所述字符融合向量和所述标注融合向量进行融合,获得所述第一目标实体的融合语义向量。
13.根据权利要求9-12任一项所述的实体关系抽取方法,其特征在于,所述实体抽取模型包括特征抽取层和实体识别层;
所述将待抽取文本输入实体抽取模型,获得所述待抽取文本包括的各个目标实体以及对应的实体标注信息,包括:
将所述待抽取文本输入所述实体抽取模型的特征抽取层,获得所述待抽取文本的文本特征表示;
将所述文本特征表示输入所述实体抽取模型的实体识别层,获得所述待抽取文本包括的各个目标实体以及对应的实体标注信息。
14.根据权利要求9-12任一项所述的实体关系抽取方法,其特征在于,所述关系抽取模型通过如下训练方法训练获得:
获取训练样本,其中,所述训练样本包括至少两个第二样本实体以及各个第二样本实体的样本标注信息,所述训练样本携带实体关系标签;
将各个第二样本实体以及对应的样本标注信息输入初始关系抽取模型,获得所述各个第二样本实体之间的预测实体关系;
基于所述预测实体关系和所述实体关系标签,计算所述初始关系抽取模型的第二损失值,基于所述第二损失值,反向调整所述初始关系抽取模型的模型参数,直至达到训练停止条件,获得训练完成的关系抽取模型。
15.根据权利要求14所述的实体关系抽取方法,其特征在于,所述将各个第二样本实体以及对应的样本标注信息输入初始关系抽取模型,获得所述各个第二样本实体之间的预测实体关系,包括:
将所述各个第二样本实体以及对应的样本标注信息输入初始关系抽取模型的特征抽取层,获得所述各个第二样本实体中各个样本字符的样本字符语义向量,以及各个样本字符对应的样本标注信息的样本标注语义向量;
根据所述各个样本字符的样本字符语义向量和所述样本标注语义向量,确定所述各个第二样本实体的样本融合语义向量;
将所述各个第二样本实体的样本融合语义向量输入所述初始关系抽取模型的分类层,获得所述各个第二样本实体之间的预测实体关系。
16.一种实体抽取模型的训练装置,其特征在于,包括:
获取模块,被配置为获取训练样本集,并确定所述训练样本集的实体特征和词性特征,其中,所述训练样本集包括至少一个样本文本;
第一获得模块,被配置为将所述训练样本集输入初始实体抽取模型中的特征抽取层,获得所述训练样本集中各个样本文本对应的字符特征;
第一训练模块,被配置为根据所述字符特征、所述实体特征和所述词性特征,调整所述初始实体抽取模型的模型参数,并返回执行所述获取训练样本集的操作步骤,直至达到训练停止条件,获得训练完成的实体抽取模型。
17.一种实体关系抽取装置,其特征在于,包括:
第二获得模块,被配置为将待抽取文本输入实体抽取模型,获得所述待抽取文本包括的各个目标实体以及对应的实体标注信息,其中,所述实体抽取模型为通过上述权利要求1-8任一项所述的实体抽取模型的训练方法训练得到;
第三获得模块,被配置为将所述各个目标实体以及对应的实体标注信息输入关系抽取模型,获得所述各个目标实体之间的目标实体关系。
18.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-8任一项所述实体抽取模型的训练方法的步骤,或者权利要求9-15任一项所述实体关系抽取方法的步骤。
19.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-8任一项所述实体抽取模型的训练方法的步骤,或者权利要求9-15任一项所述实体关系抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211247349.6A CN115545030A (zh) | 2022-10-12 | 2022-10-12 | 实体抽取模型的训练方法、实体关系抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211247349.6A CN115545030A (zh) | 2022-10-12 | 2022-10-12 | 实体抽取模型的训练方法、实体关系抽取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115545030A true CN115545030A (zh) | 2022-12-30 |
Family
ID=84732850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211247349.6A Pending CN115545030A (zh) | 2022-10-12 | 2022-10-12 | 实体抽取模型的训练方法、实体关系抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115545030A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522935A (zh) * | 2023-03-29 | 2023-08-01 | 北京德风新征程科技股份有限公司 | 文本数据处理方法、处理装置和电子设备 |
-
2022
- 2022-10-12 CN CN202211247349.6A patent/CN115545030A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522935A (zh) * | 2023-03-29 | 2023-08-01 | 北京德风新征程科技股份有限公司 | 文本数据处理方法、处理装置和电子设备 |
CN116522935B (zh) * | 2023-03-29 | 2024-03-29 | 北京德风新征程科技股份有限公司 | 文本数据处理方法、处理装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528672B (zh) | 一种基于图卷积神经网络的方面级情感分析方法及装置 | |
CN107798140B (zh) | 一种对话系统构建方法、语义受控应答方法及装置 | |
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
CN111291195B (zh) | 一种数据处理方法、装置、终端及可读存储介质 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN113704416B (zh) | 词义消歧方法、装置、电子设备及计算机可读存储介质 | |
CN109214006A (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN114153971B (zh) | 一种含错中文文本纠错识别分类设备 | |
CN113177412A (zh) | 基于bert的命名实体识别方法、系统、电子设备及存储介质 | |
CN114429132A (zh) | 一种基于混合格自注意力网络的命名实体识别方法和装置 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
CN115357719A (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
CN112434166A (zh) | 基于时效性的文本分类方法、装置、设备及存储介质 | |
CN116050425A (zh) | 建立预训练语言模型的方法、文本预测方法及装置 | |
CN115545030A (zh) | 实体抽取模型的训练方法、实体关系抽取方法及装置 | |
KR20210125449A (ko) | 업계 텍스트를 증분하는 방법, 관련 장치 및 매체에 저장된 컴퓨터 프로그램 | |
CN112633007A (zh) | 一种语义理解模型构建方法及装置、语义理解方法及装置 | |
WO2023087935A1 (zh) | 指代消解方法、指代消解模型的训练方法及装置 | |
Cai et al. | Multi-view and attention-based bi-lstm for weibo emotion recognition | |
CN114692610A (zh) | 关键词确定方法及装置 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN114626367A (zh) | 基于新闻文章内容的情感分析方法、系统、设备及介质 | |
CN114417891A (zh) | 基于粗糙语义的回复语句确定方法、装置及电子设备 | |
Sathyanarayanan et al. | Kannada named entity recognition and classification using bidirectional long short-term memory networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |