CN112446216A - 一种融合中心词信息的嵌套命名实体识别方法与装置 - Google Patents
一种融合中心词信息的嵌套命名实体识别方法与装置 Download PDFInfo
- Publication number
- CN112446216A CN112446216A CN202110134242.XA CN202110134242A CN112446216A CN 112446216 A CN112446216 A CN 112446216A CN 202110134242 A CN202110134242 A CN 202110134242A CN 112446216 A CN112446216 A CN 112446216A
- Authority
- CN
- China
- Prior art keywords
- word
- entity
- information
- prediction
- prediction result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种融合中心词信息的嵌套命名实体识别方法与装置,该方法包括:以标注了嵌套实体信息以及中心词信息的语句作为训练语句;构建基于多任务学习的边界检测神经网络模型,引入中心词预测任务作为辅助任务,基于训练语句中的每个词在上下文中的向量表示,分别进行预测;根据首词预测结果以及尾词预测结果,筛选出候选文本片段集;构建中心词增强的类别预测神经网络模型,以候选文本片段集以及中心词预测结果作为输入,计算得到每个候选文本片段本身的向量表示及在上下文中的向量表示,进而计算得到类别预测结果。本发明提出的实体识别方法,具有更好的识别性能,满足了应用需求。
Description
技术领域
本发明涉及计算机语句识别技术领域,特别涉及一种融合中心词信息的嵌套命名实体识别方法与装置。
背景技术
命名实体识别是自然语言处理中的一项基本任务,其目的是从无结构的文本中找出代表实体的文本片段并判断其类别。例如,人物、机构以及地点等。命名实体识别性能的提高有利于众多下游的自然语言处理应用。例如,事件抽取、关系抽取和机器阅读理解等。
现有研究工作主要是针对无嵌套的命名实体识别,即认为文本中的每个词只能属于某个实体,各实体的文本片段之间没有重叠。针对无嵌套的命名实体识别提出的序列标注模型,虽然能够取得较好的识别性能,但这类方法给文本中的每个词预测一个类别标记,不能用于嵌套命名实体的识别。如图1所示,在句子“交通 大学 校长 发言”中,存在一个机构实体“交通 大学”和一个人物实体“交通 大学 校长”,且机构实体嵌套在人物实体中。据统计,常用数据集ACE2004和ACE 2005中嵌套的命名实体占比分别约为43%和37%,占比非常高。因此,嵌套命名实体识别方法是当前研究的热点之一。
现有的嵌套命名实体识别方法可大致分为以下两大类:(1)层叠多个序列标注模型的方法。此类方法通常使用第一个序列标注模型识别最低层的实体,层叠多个序列标注模型用于对应层实体的识别,前一层识别的结果用于当前层模型的输入。上述层叠的方法能够利用嵌套实体之间的依赖关系,但性能受错误传播的影响比较大,计算效率也较低。(2)文本片段分类的方法。这类方法把嵌套命名实体识别分解成两个子任务。首先,使用一个神经网络预测句子中的词是否是实体的首词(开始词)或尾词(结尾词),找出可能是实体的文本片段,称为边界检测神经网络;然后,使用另一个神经网络预测文本片段对应的实体类别,称为类别预测神经网络。然而,现有的方法都忽略了中心词信息的利用,识别性能较差。
发明内容
鉴于上述状况,有必要解决现有的方法都忽略了中心词信息的利用,识别性能较差的问题。
本发明实施例提供了一种融合中心词信息的嵌套命名实体识别方法,其中,用于通过融合了中心词信息的基于多任务学习的边界检测神经网络模型以及中心词增强的类别预测神经网络模型实现,所述方法包括如下步骤:
步骤一:以标注了嵌套实体信息以及中心词信息的语句作为训练语句,其中所述嵌套实体信息为所述训练语句中各实体的位置及类别,所述中心词信息为各所述实体中的核心词;
步骤二:构建基于多任务学习的边界检测神经网络模型,引入中心词预测任务作为辅助任务,基于所述训练语句中的每个词在上下文中的向量表示,分别进行首词预测、尾词预测以及中心词预测以分别得到首词预测结果、尾词预测结果以及中心词预测结果;
步骤三:根据所述首词预测结果以及所述尾词预测结果,以筛选出存在实体概率的候选文本片段集;
步骤四:构建中心词增强的类别预测神经网络模型,以所述候选文本片段集以及所述中心词预测结果作为输入,计算得到每个候选文本片段本身的向量表示以及每个所述候选文本片段在上下文中的向量表示,进而计算得到每个所述候选文本片段对应的类别预测结果。
本发明提出的融合中心词信息的嵌套命名实体识别方法,利用中心词信息,通过构建基于多任务学习的边界检测神经网络模型和中心词增强的类别预测神经网络模型实现;首先通过基于多任务学习的边界检测神经网络模型中的输入层,在基于预训练好的词向量矩阵的基础上,将训练语句中的每个词转换成对应的词向量表示;然后通过上下文信息建模层,基于双向长短时记忆网络,根据上述的词向量表示,计算得到每个词在上下文中的向量表示;再通过多个不同的分类子层进行预测以分别得到首词预测结果、尾词预测结果以及中心词预测结果,并根据首词预测结果以及尾词预测结果确定可能为实体的候选文本片段集;进一步的,通过类别预测神经网络模型,基于双向长短时记忆网络以及注意力机制,计算每个候选文本片段在上下文中的向量表示,基于卷积神经网络计算每个候选文本片段本身的向量表示,最后计算得到每个候选文本片段对应的类别预测结果。其中,类别预测结果用于表明候选文本片段属于何种命名实体或不是命名实体的概率,从而对命名实体进行良好的预测,以提高识别效果。
所述融合中心词信息的嵌套命名实体识别方法,其中,在所述步骤一中,所述训练语句表示为:
所述融合中心词信息的嵌套命名实体识别方法,其中,在所述步骤二中,所述首词预测结果表示为:
所述尾词预测结果表示为:
所述中心词预测结果表示为:
其中,为第个词在上下文中的向量表示,为sigmoid函数,为首词预测任务中分类子层的参数,为第个词是实体首词的概率,为第个词不是实体首词的概率;为尾词预测任务中分类子层的参数,为第个词是实体尾词的概率,为第个词不是实体尾词的概率;
为中心词预测结果,softmax为计算概率的归一化指数函数,为用于中心词预测任务的分类子层的参数,向量中的第维为第个词是实体类别的中心词的概率,最后1维为该词不是实体中心词的概率,指代的为维的实数向量。
所述融合中心词信息的嵌套命名实体识别方法,其中,所述基于多任务学习的边界检测神经网络模型训练时的总代价函数为:
其中,首词预测任务对应的代价函数表示为:
尾词预测任务对应的代价函数表示为:
中心词预测任务对应的代价函数为:
所述融合中心词信息的嵌套命名实体识别方法,其中,在所述步骤三中:
所述融合中心词信息的嵌套命名实体识别方法,其中,在所述步骤四中,以所述候选文本片段集以及所述中心词预测结果作为输入表示为:
所述融合中心词信息的嵌套命名实体识别方法,其中,在所述步骤四中,所述候选文本片段对应的类别预测结果表示为:
其中,表示从左至右建模词的上文信息,表示从右至左建模词的下文信息, 以及用于计算个方向的信息以用作词在上下文中的表示,表示两个向量的拼装操作,与中的起始向量和可初始化为零向量,和分别为融合了上文信息的第个词的向量表示和融合了下文信息的第个词的向量表示,LSTM为长短时记忆网络。
本发明提出一种融合中心词信息的嵌套命名实体识别装置,其特征在于,用于通过融合了中心词信息的基于多任务学习的边界检测神经网络模型以及中心词增强的类别预测神经网络模型,所述装置包括:
第一处理模块,用于以标注了嵌套实体信息以及中心词信息的语句作为训练语句,其中所述嵌套实体信息为所述训练语句中各实体的位置及类别,所述中心词信息为各所述实体中的核心词;
第一计算模块,用于构建基于多任务学习的边界检测神经网络模型,引入中心词预测任务作为辅助任务,基于所述训练语句中的每个词在上下文中的向量表示,分别进行首词预测、尾词预测以及中心词预测以分别得到首词预测结果、尾词预测结果以及中心词预测结果;
第二处理模块,用于根据所述首词预测结果以及所述尾词预测结果,以筛选出存在实体概率的候选文本片段集;
第二计算模块,用于构建中心词增强的类别预测神经网络模型,以所述候选文本片段集以及所述中心词预测结果作为输入,计算得到每个候选文本片段本身的向量表示以及每个所述候选文本片段在上下文中的向量表示,进而计算得到每个所述候选文本片段对应的类别预测结果。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明中嵌套命名实体的示意图;
图2为本发明提出的融合中心词信息的嵌套命名实体识别方法的流程图;
图3为本发明中基于多任务学习的边界检测神经网络模型的结构示意图;
图4为本发明中中心词增强的类别预测神经网络模型的结构示意图;
图5为本发明提出的融合中心词信息的嵌套命名实体识别装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
中心词指的是一个实体或短语中最核心的词,这个词在很大程度上能反映该实体的类型或者短语的语义。对于嵌套命名实体而言,虽然实体之间可能存在嵌套的结构,但嵌套的多个实体的中心词绝大部分情况下是不相同的。例如,“大学”是机构实体“交通 大学”的中心词,“校长”是人物实体“交通 大学 校长”的中心词。
其中,融入了中心词信息对嵌套命名实体识别是非常有用的。具体的,一方面,融入中心词信息有利于实体边界的预测,从而更准确地找出可能是实体的文本片段。例如,汉语中实体的中心词通常位于一个实体的尾部。另一方面,融入中心词信息有利于实体类别的预测。例如,在预测“交通 大学”文本片段的类别时,通过给中心词“大学”相对高的权重、词“交通”相对低的权重,可以较容易地识别出其该文本片段为机构实体。
基于以上分析,本发明提出一种融合中心词信息的嵌套命名实体识别方法,通过融合了中心词信息的基于多任务学习的边界检测神经网络模型以及融合了中心词信息的中心词增强的类别预测神经网络模型进行实现。
在本发明中,首先定义三个分类任务。第一个是首词预测任务,是一个2分类问题,即针对句子中的每一个词,预测其是否是实体首词的概率。第二个是尾词预测任务,也是一个2分类问题,即针对句子中的每一个词,预测其是否是实体尾词的概率。第三个是中心词预测任务,是一个分类问题,其中是预定义的实体的类别数,即针对句子中的每一个词,预测其分别是实体类别1的中心词、实体类别2的中心词、……、实体类别的中心词以及不是中心词对应的概率。
需要说明的是,首词预测任务、尾词预测任务以及中心词预测任务虽然是三个不同的分类任务,但它们之间具有较强的相关性。具体表现在以下两个方面:(1)在确定了实体首尾词的情况下,中心词预测显然会更容易;(2)在明确了中心词的情况下,首尾词的预测也会更准确。大量的研究证实:在多个具有相关性的任务之间共享信息,可以达到相互促进、共同提高的目的。
如图3所示,融合中心词信息的基于多任务学习的边界检测神经网络模型包括三个神经网络层:(1)输入层,其作用是把句子中的每个词转换成语义向量表示,为句子中第个词的向量表示;(2)上下文信息建模层,其作用是把词所在句子的上下文信息融入到词的语义向量表示中,也即学习词在上下文中的表示;(3)分类层,其作用是使用三个不同的分类子层,基于词在上下文中的表示分别计算首词预测、尾词预测以及中心词预测三个任务的结果(图3中以第3个词为例进行说明)。
本质上,融合中心词信息的边界检测神经网络是一个多任务学习模型。其中,用于三个分类任务的神经网络共享输入层和上下文信息建模层,而使用不同的分类层。在多任务学习策略下,通过同时训练这三个分类任务,可以基于共享的参数在它们之间实现信息的共享,从而达到共同提高预测性能的目的。
下面详细介绍使用的输入层、上下文信息建模层以及分类层的使用方法。请参阅图1至图4,对于本发明提出的融合中心词信息的嵌套命名实体识别方法,所述方法包括如下步骤:
S101,以标注了嵌套实体信息以及中心词信息的语句作为训练语句,其中所述嵌套实体信息为所述训练语句中各实体的位置及类别,所述中心词信息为各所述实体中的核心词。
在本步骤中,训练语句表示为:
S102,构建基于多任务学习的边界检测神经网络模型,引入中心词预测任务作为辅助任务,基于所述训练语句中的每个词在上下文中的向量表示,分别进行首词预测、尾词预测以及中心词预测以分别得到首词预测结果、尾词预测结果以及中心词预测结果。
其中,为预训练好的词向量矩阵,表示一个行、列的二维实数矩阵,表示词表中词的个数,表示词向量的维度,中的每一行对应一个词。词向量矩阵可以使用Word2Vec或GloVe等开源工具在大规模无标注的文本上训练获得。
上下文信息建模层基于双向长短时记忆网络(Bi-directional Long Short Term Memory,BiLSTM)将词所在训练语句的上下文信息融入词的语义向量表示中。BiLSTM是一种常用于句子中上下文信息建模的神经网络,在众多自然语言处理任务上取得了较好的效果。具体地,给定词向量表示,双向长短时记忆网络按如下公式计算词在上下文中的向量表示。
其中, 为网络参数,为sigmoid函数;分别为输入门、遗忘门和输出门,用于控制信息的流动;为第个词对应的记忆状态,为融合了上文信息(句子中当前词前面的词)的第个词的向量表示,为第个词在上下文中的表示与第个词的向量表示融合后的结果。的计算公式与类似,只是网络参数的值不同,在此不再赘述。
在分类层中,使用三个独立的分类子层分别用于首词预测任务、尾词预测任务以及中心词预测任务。其中,首词预测任务和尾词预测任务均为2分类任务,分别按如下公式计算预测结果:
其中,首词预测结果表示为:
尾词预测结果表示为:
其中,为sigmoid函数,为首词预测任务中分类子层的参数,为第个词是实体首词的概率,为第个词不是实体首词的概率;为尾词预测任务中分类子层的参数,为第个词是实体尾词的概率,为第个词不是实体尾词的概率。
中心词预测结果表示为:
其中,为中心词预测结果,softmax为用于计算概率的归一化指数函数,为用于中心词预测任务的分类子层的参数,向量中的第维为第个词是实体类别的中心词的概率,最后1维为该词不是实体中心词的概率,指代的为维的实数向量。
与此同时,定义尾词预测任务的交叉熵代价函数(二分类)表示如下:
进一步的,定义中心词预测任务的交叉熵代价函数(多分类)表示如下:
其中,为句子中词的个数,为第个词对应于中心词预测任务的真实标记向量,为中心词预测的结果向量,与分别为和的第个分量;是一个维的一维有效编码向量,即如果第个词是某一实体类别的中心词,那么中对应于该类别的那一维为1,其他维均为0;如果第个词不是中心词,则中最后一维为1,其他维均为0。
基于多任务学习策略同时训练上述三个任务,即可以在它们之间实现信息共享,从而达到同时提高性能的目的。因此,总体的代价函数定义为上述三个分类任务的代价函数之和:
在此需要指出的是,训练好的边界检测神经网络模型可用于计算语句中每个词对应的首词预测结果、尾词预测结果以及中心词预测结果。
S103,根据所述首词预测结果以及所述尾词预测结果,以筛选出存在实体概率的候选文本片段集。
S104,构建中心词增强的类别预测神经网络模型,以所述候选文本片段集以及所述中心词预测结果作为输入,计算得到每个候选文本片段本身的向量表示以及每个所述候选文本片段在上下文中的向量表示,进而计算得到每个所述候选文本片段对应的类别预测结果。
在本步骤中,需要指出的是,在类别预测神经网络中融合中心词信息主要有以下三个方面的作用:(1)对仅包含非嵌套命名实体的文本片段而言,如果知道中心词信息,则实体类别的识别会更加容易。例如,在文本片段“交通 大学”中,唯一的中心词“大学”非常明确地表明了该实体应为机构实体;若文本片段中的每个词是中心词的概率都比较小,则该文本片段是命名实体的可能性就比较小。(2)对包含多个嵌套的命名实体的文本片段而言,虽然含有多个中心词,但知道这些中心词信息有利于模型学到嵌套的多种命名实体之间的关系。例如,在文本“交通 大学 校长”中,“大学”是机构实体的中心词,“校长”是人物实体的中心词,那么模型就可能学到“机构实体通常与人物实体嵌套在一起”这样一种实体之间的关系。(3)在建模上下文信息或文本片段本身的信息时,可以给实体中心词分配更高的权重。
如图4所示,融合中心词信息的类别预测神经网络建模了以下三个方面的信息:(1)基于双向长短时记忆网络和注意力机制学习侯选文本片段在上下文中的向量表示(图4中以文本片段为例),因为上下文信息对实体类别的识别是有帮助的;(2)基于卷积神经网络(Convolutional Neural Network,CNN)和注意力机制学习侯选文本片段本身的表示,因为相当一部分情况下,仅根据命名实体本身就能准确地推导出其类别,加入上下文信息反而可能造成干扰;(3)在上述网络和的输入中,不仅包括常用的词向量信息,还包括中心词的预测结果向量。其中,给出了句子中的第个词属于何种实体的中心词的概率以及不是中心词的概率。
下面对融合中心词信息的类别预测神经网络模型的工作原理进行详细介绍。
在步骤S104中,候选文本片段在上下文中的向量表示的计算方法包括:
(1)基于双向长短时记忆网络,学习候选文本片段中的词在上下文中的向量表示。
其输入是该文本片段所在的整个句子,对应的计算公式如下:
其中,是句子中第个词的词向量,指代的是维的实数向量,为词向量的维度,为对应的中心词预测结果,指代的为维的实数向量,表示向量的拼接操作;表示从左至右建模词的上文信息,表示从右至左建模词的下文信息,为句子中第个词在上下文中的向量表示。和的计算分别与上一节中和的计算类似,在此不再赘述。
(2)基于注意力机制,根据所述候选文本片段中的词在上下文中的向量表示计算候选文本片段在上下文中的向量表示。
其中,表示由向量构成的二维矩阵,矩阵的第一列为,最后一列为;为注意力机制中的参数矩阵,为计算得到的权重向量, 为中对应于片段第 个词的权重值;加权求和的结果向量即为融合了中心词信息的侯选文本片段在上下文中的向量表示。
进一步的,候选文本片段对应的本身信息表示的计算方法包括:
(1)基于卷积神经网络,学习候选文本片段中的词本身的向量表示。
(2)基于注意力机制,根据所述候选文本片段中的词本身的向量表示计算得到候选文本片段本身的向量表示。
其中,表示由向量构成的二维矩阵,矩阵的第一列为,最后一列为;为注意力机制中的参数矩阵,为计算得到的权重向量, 为中对应片段第 个词的权重值;加权求和的结果向量即为融合了中心词信息的侯选文本片段本身的向量表示。
类别预测结果的计算公式为:
请参阅图5,对于本发明提出的一种融合中心词信息的嵌套命名实体识别装置,其中,用于通过融合了中心词信息的基于多任务学习的边界检测神经网络模型以及中心词增强的类别预测神经网络模型,所述装置包括依次连接的第一处理模块11、第一计算模块12、第二处理模块13以及第二计算模块14;
第一处理模块11,用于以标注了嵌套实体信息以及中心词信息的语句作为训练语句,其中所述嵌套实体信息为所述训练语句中各实体的位置及类别,所述中心词信息为各所述实体中的核心词;
第一计算模块12,用于构建基于多任务学习的边界检测神经网络模型,引入中心词预测任务作为辅助任务,基于所述训练语句中的每个词在上下文中的向量表示,分别进行首词预测、尾词预测以及中心词预测以分别得到首词预测结果、尾词预测结果以及中心词预测结果;
第二处理模块13,用于根据所述首词预测结果以及所述尾词预测结果,以筛选出存在实体概率的候选文本片段集;
第二计算模块14,用于构建中心词增强的类别预测神经网络模型,以所述候选文本片段集以及所述中心词预测结果作为输入,计算得到每个候选文本片段本身的向量表示以及每个所述候选文本片段在上下文中的向量表示,进而计算得到每个所述候选文本片段对应的类别预测结果。
本发明提出的融合中心词信息的嵌套命名实体识别方法,通过融合中心词信息的边界检测神经网络模型以及类别预测神经网络模型实现,首先通过边界检测神经网络模型中的输入层,在基于预训练好的词向量矩阵的基础上,将训练语句中的每个词转换成对应的词向量表示;然后通过上下文信息建模层,基于双向长短时记忆网络,根据上述的词向量表示,计算得到每个词在上下文中的向量表示;再通过多个分类子层进行预测以分别得到首词预测结果、尾词预测结果以及中心词预测结果,并根据首词预测结果以及尾词预测结果确定实体的候选文本片段集;进一步的,通过类别预测神经网络模型,基于双向长短时记忆网络以及注意力机制,计算每个候选文本片段在上下文中的向量表示,基于卷积神经网络计算每个候选文本片段本身的向量表示,最后计算得到每个候选文本片段对应的类别预测结果。其中,类别预测结果用于表明候选文本片段属于何种命名实体或不是命名实体的概率,从而对命名实体进行良好的预测,以提高识别效果。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种融合中心词信息的嵌套命名实体识别方法,其特征在于,用于通过融合了中心词信息的基于多任务学习的边界检测神经网络模型以及中心词增强的类别预测神经网络模型实现,所述方法包括如下步骤:
步骤一:以标注了嵌套实体信息以及中心词信息的语句作为训练语句,其中所述嵌套实体信息为所述训练语句中各实体的位置及类别,所述中心词信息为各所述实体中的核心词;
步骤二:构建基于多任务学习的边界检测神经网络模型,引入中心词预测任务作为辅助任务,基于所述训练语句中的每个词在上下文中的向量表示,分别进行首词预测、尾词预测以及中心词预测以分别得到首词预测结果、尾词预测结果以及中心词预测结果;
步骤三:根据所述首词预测结果以及所述尾词预测结果,以筛选出存在实体概率的候选文本片段集;
步骤四:构建中心词增强的类别预测神经网络模型,以所述候选文本片段集以及所述中心词预测结果作为输入,计算得到每个候选文本片段本身的向量表示以及每个所述候选文本片段在上下文中的向量表示,进而计算得到每个所述候选文本片段对应的类别预测结果。
3.根据权利要求2所述的融合中心词信息的嵌套命名实体识别方法,其特征在于,在所述步骤二中,所述首词预测结果表示为:
所述尾词预测结果表示为:
所述中心词预测结果表示为:
其中,为第个词在上下文中的向量表示,为sigmoid函数,为首词预测任务中分类子层的参数,为第个词是实体首词的概率,为第个词不是实体首词的概率;为尾词预测任务中分类子层的参数,为第个词是实体尾词的概率,为第个词不是实体尾词的概率;
10.一种融合中心词信息的嵌套命名实体识别装置,其特征在于,用于通过融合了中心词信息的基于多任务学习的边界检测神经网络模型以及中心词增强的类别预测神经网络模型,所述装置包括:
第一处理模块,用于以标注了嵌套实体信息以及中心词信息的语句作为训练语句,其中所述嵌套实体信息为所述训练语句中各实体的位置及类别,所述中心词信息为各所述实体中的核心词;
第一计算模块,用于构建基于多任务学习的边界检测神经网络模型,引入中心词预测任务作为辅助任务,基于所述训练语句中的每个词在上下文中的向量表示,分别进行首词预测、尾词预测以及中心词预测以分别得到首词预测结果、尾词预测结果以及中心词预测结果;
第二处理模块,用于根据所述首词预测结果以及所述尾词预测结果,以筛选出存在实体概率的候选文本片段集;
第二计算模块,用于构建中心词增强的类别预测神经网络模型,以所述候选文本片段集以及所述中心词预测结果作为输入,计算得到每个候选文本片段本身的向量表示以及每个所述候选文本片段在上下文中的向量表示,进而计算得到每个所述候选文本片段对应的类别预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110134242.XA CN112446216B (zh) | 2021-02-01 | 2021-02-01 | 一种融合中心词信息的嵌套命名实体识别方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110134242.XA CN112446216B (zh) | 2021-02-01 | 2021-02-01 | 一种融合中心词信息的嵌套命名实体识别方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112446216A true CN112446216A (zh) | 2021-03-05 |
CN112446216B CN112446216B (zh) | 2021-05-04 |
Family
ID=74739492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110134242.XA Active CN112446216B (zh) | 2021-02-01 | 2021-02-01 | 一种融合中心词信息的嵌套命名实体识别方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112446216B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221539A (zh) * | 2021-07-08 | 2021-08-06 | 华东交通大学 | 一种集成句法信息的嵌套命名实体识别方法与系统 |
CN113468333A (zh) * | 2021-09-02 | 2021-10-01 | 华东交通大学 | 一种融合层次类别信息的事件检测方法与系统 |
CN113722436A (zh) * | 2021-08-30 | 2021-11-30 | 平安科技(深圳)有限公司 | 文本信息提取方法、装置、计算机设备及存储介质 |
CN114118093A (zh) * | 2022-01-27 | 2022-03-01 | 华东交通大学 | 一种扁平化标记增强的嵌套命名实体识别方法与系统 |
CN114154504A (zh) * | 2021-12-06 | 2022-03-08 | 重庆邮电大学 | 一种基于多信息增强的中文命名实体识别算法 |
CN114372470A (zh) * | 2022-03-22 | 2022-04-19 | 中南大学 | 基于边界检测和提示学习的中文法律文本实体识别方法 |
CN114611517A (zh) * | 2022-03-15 | 2022-06-10 | 平安科技(深圳)有限公司 | 基于深度学习的命名实体识别方法、装置、设备和介质 |
CN115879474A (zh) * | 2023-02-14 | 2023-03-31 | 华东交通大学 | 基于机器阅读理解的故障嵌套命名实体识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133220A (zh) * | 2017-06-07 | 2017-09-05 | 东南大学 | 一种地理学科领域命名实体识别方法 |
CN109977229A (zh) * | 2019-03-27 | 2019-07-05 | 中南大学 | 一种基于通用语言特征的生物医学命名实体识别方法 |
CN110472237A (zh) * | 2019-07-25 | 2019-11-19 | 中国科学院软件研究所 | 一种基于锚点区域网络的命名实体识别方法和装置 |
US20200073939A1 (en) * | 2018-08-30 | 2020-03-05 | Roman Levchenko | Artificial Intelligence Process Automation for Enterprise Business Communication |
WO2020068945A1 (en) * | 2018-09-26 | 2020-04-02 | Leverton Holding Llc | Named entity recognition with convolutional networks |
-
2021
- 2021-02-01 CN CN202110134242.XA patent/CN112446216B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133220A (zh) * | 2017-06-07 | 2017-09-05 | 东南大学 | 一种地理学科领域命名实体识别方法 |
US20200073939A1 (en) * | 2018-08-30 | 2020-03-05 | Roman Levchenko | Artificial Intelligence Process Automation for Enterprise Business Communication |
WO2020068945A1 (en) * | 2018-09-26 | 2020-04-02 | Leverton Holding Llc | Named entity recognition with convolutional networks |
CN109977229A (zh) * | 2019-03-27 | 2019-07-05 | 中南大学 | 一种基于通用语言特征的生物医学命名实体识别方法 |
CN110472237A (zh) * | 2019-07-25 | 2019-11-19 | 中国科学院软件研究所 | 一种基于锚点区域网络的命名实体识别方法和装置 |
Non-Patent Citations (2)
Title |
---|
MEIZHI JU .ETC: "A Neural Layered Model for Nested Named Entity Recognition", 《PROCEEDINGS OF NAACL-HLT 2018》 * |
丁志远: "基于证据匹配的案件质量评估方法设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221539A (zh) * | 2021-07-08 | 2021-08-06 | 华东交通大学 | 一种集成句法信息的嵌套命名实体识别方法与系统 |
CN113722436A (zh) * | 2021-08-30 | 2021-11-30 | 平安科技(深圳)有限公司 | 文本信息提取方法、装置、计算机设备及存储介质 |
CN113468333A (zh) * | 2021-09-02 | 2021-10-01 | 华东交通大学 | 一种融合层次类别信息的事件检测方法与系统 |
CN113468333B (zh) * | 2021-09-02 | 2021-11-19 | 华东交通大学 | 一种融合层次类别信息的事件检测方法与系统 |
CN114154504A (zh) * | 2021-12-06 | 2022-03-08 | 重庆邮电大学 | 一种基于多信息增强的中文命名实体识别算法 |
CN114118093A (zh) * | 2022-01-27 | 2022-03-01 | 华东交通大学 | 一种扁平化标记增强的嵌套命名实体识别方法与系统 |
CN114118093B (zh) * | 2022-01-27 | 2022-04-15 | 华东交通大学 | 一种扁平化标记增强的嵌套命名实体识别方法与系统 |
CN114611517A (zh) * | 2022-03-15 | 2022-06-10 | 平安科技(深圳)有限公司 | 基于深度学习的命名实体识别方法、装置、设备和介质 |
CN114611517B (zh) * | 2022-03-15 | 2023-07-25 | 平安科技(深圳)有限公司 | 基于深度学习的命名实体识别方法、装置、设备和介质 |
CN114372470A (zh) * | 2022-03-22 | 2022-04-19 | 中南大学 | 基于边界检测和提示学习的中文法律文本实体识别方法 |
CN114372470B (zh) * | 2022-03-22 | 2022-07-29 | 中南大学 | 基于边界检测和提示学习的中文法律文本实体识别方法 |
CN115879474A (zh) * | 2023-02-14 | 2023-03-31 | 华东交通大学 | 基于机器阅读理解的故障嵌套命名实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112446216B (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112446216B (zh) | 一种融合中心词信息的嵌套命名实体识别方法与装置 | |
Teng et al. | Context-sensitive lexicon features for neural sentiment analysis | |
Liu et al. | Recognizing implicit discourse relations via repeated reading: Neural networks with multi-level attention | |
Rei et al. | Zero-shot sequence labeling: Transferring knowledge from sentences to tokens | |
CN111428525B (zh) | 隐式篇章关系识别方法、系统及可读存储介质 | |
Ansari et al. | Ensemble hybrid learning methods for automated depression detection | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN112926324B (zh) | 融合词典与对抗迁移的越南语事件实体识别方法 | |
CN112668319B (zh) | 基于中文信息和越南语句法指导的越南语新闻事件检测方法 | |
Ramaswamy et al. | RecogNet-LSTM+ CNN: a hybrid network with attention mechanism for aspect categorization and sentiment classification | |
Chakravarthi et al. | Offensive language identification in dravidian languages using mpnet and cnn | |
CN112818698B (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN112256866A (zh) | 一种基于深度学习的文本细粒度情感分析方法 | |
Singh et al. | HINDIA: a deep-learning-based model for spell-checking of Hindi language | |
Le et al. | Requirement text detection from contract packages to support project definition determination | |
Liu et al. | Semantic neural network ensemble for automated dependency relation extraction from bridge inspection reports | |
CN111259147B (zh) | 基于自适应注意力机制的句子级情感预测方法及系统 | |
CN115796182A (zh) | 一种基于实体级跨模态交互的多模态命名实体识别方法 | |
Obaid et al. | Cyberbullying detection and severity determination model | |
Liu et al. | Handling negative samples problems in span-based nested named entity recognition | |
Wei et al. | Sentiment classification of tourism reviews based on visual and textual multifeature fusion | |
Lee et al. | Detecting suicidality with a contextual graph neural network | |
CN116562291A (zh) | 一种基于边界检测的中文嵌套命名实体识别方法 | |
Ouamour et al. | A comparative survey of authorship attribution on short Arabic texts | |
CN115964497A (zh) | 一种融合注意力机制与卷积神经网络的事件抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |