CN111159407B - 训练实体识别和关系分类模型的方法、装置、设备及介质 - Google Patents

训练实体识别和关系分类模型的方法、装置、设备及介质 Download PDF

Info

Publication number
CN111159407B
CN111159407B CN201911400682.4A CN201911400682A CN111159407B CN 111159407 B CN111159407 B CN 111159407B CN 201911400682 A CN201911400682 A CN 201911400682A CN 111159407 B CN111159407 B CN 111159407B
Authority
CN
China
Prior art keywords
named entity
sample
relation
corpus
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911400682.4A
Other languages
English (en)
Other versions
CN111159407A (zh
Inventor
刘嘉庆
喻波
王志海
魏力
谢福进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wondersoft Technology Co Ltd
Original Assignee
Beijing Wondersoft Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wondersoft Technology Co Ltd filed Critical Beijing Wondersoft Technology Co Ltd
Priority to CN201911400682.4A priority Critical patent/CN111159407B/zh
Publication of CN111159407A publication Critical patent/CN111159407A/zh
Application granted granted Critical
Publication of CN111159407B publication Critical patent/CN111159407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请提供了一种训练命名实体识别和关系分类模型的方法、装置、电子设备及存储介质,该方法包括:获得多个样本语料,每个样本语料携带命名实体标签和关系标签;将多个样本语料输入单词嵌入层,得到关系矩阵;将每个样本语料携带的命名实体标签的词向量输入LSTM编码层,得到每个样本语料携带的命名实体标签的上下文编码向量;将得到的上下文编码向量输入命名实体识别模块,对命名实体识别模块进行多次训练;将得到的上下文编码向量和词向量输入关系分类模块,对关系分类模块进行多次训练。通过训练得到的模型,可一次性提取命名实体和实体关系,有效整合命名实体和实体关系的信息,可实现命名实体之间的多关系重叠抽取,解决多对多关系抽取问题。

Description

训练实体识别和关系分类模型的方法、装置、设备及介质
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种训练命名实体识别和关系分类模型的方法、装置、电子设备及存储介质。
背景技术
自然语言处理是一门多学科融合的科学,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。近年来随着网络信息量的增大,对海量数据命名实体关系识别变得越来越难,而如何利用海量数据来挖掘出更多的业务需求所需要的实体关系是目前亟待解决的技术难题,也是目前自然语言研究的一个重要方向。
实体识别和关系识别是自然语言处理中的关键任务。传统的信息抽取采用串行模式处理,即:首先识别出实体,然后再识别出实体之间的关系。然而,该方法是建立在实体和实体关系相互独立的基础上的,具体地,将整体任务分离成子任务独立运行,虽然能实现实体和实体间关系的提取,但在本质上忽略了实体和实体关系之间的关联性,导致命名实体识别过程中会生成大量冗余信息,并产生误差累积,进而降低实体识别的准确率以及实体关系抽取的准确率。
发明内容
本申请实施例提供了一种训练命名实体识别和关系分类模型的方法、装置、电子设备及存储介质,旨在将实体和实体关系一次性抽取出来,有效整合实体和实体关系的信息,克服上述提到的问题。
本申请实施例第一方面提供了一种训练命名实体识别和关系分类模型的方法,包括:
获得多个样本语料,每个样本语料携带命名实体标签和关系标签;
将所述多个样本语料输入所述命名实体识别和关系分类模型的单词嵌入层,得到关系矩阵,所述关系矩阵表征所述多个样本语料中每个样本语料携带的命名实体标签的词向量和关系标签;
将所述多个样本语料中每个样本语料携带的命名实体标签的词向量输入LSTM编码层,得到所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量;
将所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量输入命名实体识别模块,根据所述多个样本语料中每个样本语料携带的命名实体标签,对所述命名实体识别模块进行多次训练;
将所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量和词向量输入关系分类模块,根据所述多个样本语料中每个样本语料携带的关系标签,对所述关系分类模块进行多次训练;
经过多次训练后,得到命名实体识别和关系分类模型,所述命名实体识别和关系分类模型用于识别待识别语料包含的命名实体和命名实体之间的关系。
可选地,在将所述多个样本语料输入所述命名实体识别和关系分类模型的单词嵌入层,得到关系矩阵之后,所述方法还包括:
采用基于SVD的降维算法,对所述关系矩阵进行奇异值分解,得到低维的关系矩阵。
可选地,所述LSTM编码层包括前向LSTM编码层、后向LSTM编码层和连接层;将所述多个样本语料中每个样本语料携带的命名实体标签的词向量输入LSTM编码层,得到所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量,包括:
将所述多个样本语料中每个样本语料携带的命名实体标签的词向量输入所述前向LSTM编码层,得到所述多个样本语料中每个样本语料携带的命名实体标签的上文编码向量;
将所述多个样本语料中每个样本语料携带的命名实体标签的词向量输入所述后向LSTM编码层,得到所述多个样本语料中每个样本语料携带的命名实体标签的下文编码向量;
将所述多个样本语料中每个样本语料携带的命名实体标签的上文编码向量和下文编码向量输入所述连接层,得到所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量。
可选地,所述命名实体识别模块包括LSTM解码层和第一softmax层;将所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量输入命名实体识别模块,根据所述多个样本语料中每个样本语料携带的命名实体标签,对所述命名实体识别模块进行多次训练,包括:
将所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量输入所述LSTM解码层,得到所述多个样本语料中每个样本语料携带的命名实体标签的上下文解码向量;
采用条件随机场CRF中的特征函数,对所述多个样本语料中每个样本语料携带的命名实体标签的上下文解码向量进行处理,并将处理后得到的结果输入所述第一sofmax层,获得所述第一sofmax层输出的结果;
根据所述第一sofmax层输出的结果和所述多个样本语料中每个样本语料携带的命名实体标签,对所述命名实体识别模块进行多次训练。
可选地,所述关系分类模块包括CNN层和第二softmax层;将所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量和词向量输入关系分类模块,根据所述多个样本语料中每个样本语料携带的关系标签,对所述关系分类模块进行多次训练,包括:
将所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量和词向量输入所述CNN层,通过所述CNN层进行卷积操作,得到CNN卷积结果;
将所述CNN卷积结果输入所述第二sofmax层,得到所述第二sofmax层输出的结果;
根据所述第二sofmax层输出的结果和所述多个样本语料中每个样本语料携带的关系标签,对所述关系分类模块进行多次训练。
可选地,在得到命名实体识别和关系分类模型之后,所述方法还包括:
获得待识别语料;
将所述待识别语料输入所述命名实体识别和关系分类模型,得到所述待识别语料包含的命名实体和命名实体之间的关系。
本申请实施例第二方面提供了一种训练命名实体识别和关系分类模型的装置,包括:
第一获得模块,用于获得多个样本语料,每个样本语料携带命名实体标签和关系标签;
第一输入模块,用于将所述多个样本语料输入所述命名实体识别和关系分类模型的单词嵌入层,得到关系矩阵,所述关系矩阵表征所述多个样本语料中每个样本语料携带的命名实体标签的词向量和关系标签;
第二输入模块,用于将所述多个样本语料中每个样本语料携带的命名实体标签的词向量输入LSTM编码层,得到所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量;
第三输入模块,用于将所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量输入命名实体识别模块,根据所述多个样本语料中每个样本语料携带的命名实体标签,对所述命名实体识别模块进行多次训练;
第四输入模块,用于将所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量和词向量输入关系分类模块,根据所述多个样本语料中每个样本语料携带的关系标签,对所述关系分类模块进行多次训练;
第二获得模块,用于经过多次训练后,得到命名实体识别和关系分类模型,所述命名实体识别和关系分类模型用于识别待识别语料包含的命名实体和命名实体之间的关系。
本申请实施例第三方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请第一方面所述的方法的步骤。
本申请实施例第四方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请第一方面所述的方法中的步骤。
本申请实施例提供了一种训练命名实体识别和关系分类模型的方法,首先获得多个样本语料(其中每个样本语料携带命名实体标签和关系标签);然后将多个样本语料输入单词嵌入层,得到关系矩阵,该关系矩阵中包含了每个样本语料携带的命名实体标签的词向量和关系标签;接着将每个样本语料携带的命名实体标签的词向量输入LSTM编码层,得到每个样本语料携带的命名实体标签的上下文编码向量,在得到命名实体标签的上下文编码向量后,将命名实体标签的上下文编码向量一方面输入命名实体识别模块,根据每个样本语料携带的命名实体标签,对命名实体识别模块进行训练,另一方面将命名实体标签的上下文编码向量输入关系分类模块,同时将命名实体标签的词向量输入关系分类模块,根据每个样本语料携带的关系标签,对关系分类模块进行训练;通过对命名实体识别模块和关系分类模块的联合训练,最终获得命名实体识别和关系分类模型。
本申请实施例中使用的命名实体识别和关系分类模型使用混合编码方式,通过对命名实体识别模块和关系分类模块进行联合训练,获得命名实体识别和关系分类模型,可以一次性将命名实体和实体关系提取出来,有效整合命名实体和实体关系的信息。
此外,本申请中通过LSTM编码层对命名实体标签的词向量进行编码,得到命名实体标签的上下文编码向量,可用于表征多个命名实体之间的关系,通过这种构建复合关系特征的方式,可实现命名实体之间的多关系重叠抽取,解决多对多关系抽取问题,相对于传统的串行模式处理方式,能大幅度减少冗余信息,降低误差的累积,进而提高命名实体识别的准确率和实体关系抽取的准确率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例示出的一种神经网络模型的结构示意图;
图2是本申请一实施例示出的一种训练命名实体识别和关系分类模型的方法的流程图;
图3是本申请一实施例示出的一种识别命名实体和实体关系的方法的流程图;
图4是本申请一实施例示出的一种编码获得上下文编码向量的方法的流程图;
图5是本申请一实施例示出的一种训练命名实体识别模块的流程图;
图6是本申请一实施例示出的一种训练命名实体识别模块的流程图;
图6A是本申请一实施例示出的一种卷积网络的结构示意图;
图7是本申请一实施例示出的一种训练结果示意图;
图8是本申请一实施例示出的一种训练命名实体识别和关系分类模型的装置的结构框图;
图9是本申请一实施例示出的一种电子设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,实体关系识别方法主要包括:基于规则库的算法和基于机器学习与深度学习算法。基于规则库的算法是通过建立一些规则来识别实体之间的关系,该方法虽然效率较高,但由于不同的业务具有不同的特点,规则确定很难,因此移植性不好;基于机器学习算法的方法是通过采用不同的模型,配合人工标注得到训练集,进而学习,然后利用模型预测出相关概率;基于深度学习算法的方法代价较小,且移植性较好,且将深度学习应用到NLP中是当下的研究热点,该方法依赖语料库来进行训练,因而本申请的实体关系识别的方法是基于深度学习算法。
采用上述深度学习算法,本申请首先提出了一种神经网络模型,利用本申请提供的训练命名实体识别和关系分类模型的方法,对该模型进行训练即可得到命名实体识别和关系分类模型,该神经网络模型如图1所示。图1是本申请一实施例示出的一种神经网络模型的结构示意图。
在图1中,神经网络模型的结构包括:输入层、单次嵌入层、LSTM编码层、LSTM解码层、NER模块(即:命名实体识别模块)、以及RC模块(即:关系分类模块)。其中,LSTM编码层的层数可以为2层(例如:前向LSTM编码层和后向LSTM编码层),也可以为1层(图1中仅示出了为1层的情况)。
基于图1中的神经网络模型,本申请提供了一种训练命名实体识别和关系分类模型的方法,如图2所示。图2是本申请一实施例示出的一种训练命名实体识别和关系分类模型的方法的流程图。参照图2,本申请提供的训练命名实体识别和关系分类模型的方法可以包括如下步骤:
步骤S11:获得多个样本语料,每个样本语料携带命名实体标签和关系标签。
在本实施例中,命名实体主要是指文本中的人名、地名、组织机构名、时间以及数字等专有名词。
在本实施例中,在获得原始语料后,可以对原始语料进行数据预处理。预处理后的数据为非结构化的数据,因此,还需要使用标注工具将非结构化的数据(非结构化数据是指不规则、不完整、没有预定义数据类型的数据,非结构化数据通常不易检索和存储。)的处理为结构化的数据,标注工具例如可以是:brat标注工具,也可以是其它类型的标注工具,本申请对此不作具体限制。
标注工具在对非结构化的数据进行标注时,可以以标签的形式标注出语料中的命名实体,以及实体之间的关系。示例地,对于一个语料“我叫涂小艾,我现在武汉新梦想科技有限公司的人事部工作,我的上级是王福生”,通过标注工具标注后得到的命名实体包括:涂小艾、王福生、武汉新梦想科技有限公司、人事部,实体之间的关系包括:work(涂小艾-人事部)、Higher(涂小艾-王福生)、Higher(涂小艾-武汉新梦想科技有限公司),其中,Higher是一种上下级关系,通常应用于实例中的关系类型。
通过标注工具,可以在识别出的命名实体上添加命名实体标签,和/或添加该命名实体与其它命名实体之间的关系标签。示例地,对于人事部这一命名实体,其标签包括:命名实体标签,和与涂小艾这一命名实体之间的关系标签,即:work(涂小艾-人事部)。
通过标注工具对获得的多个样本语料进行标注,可以使得每个样本语料都携带命名实体标签和关系标签。
步骤S12:将所述多个样本语料输入所述命名实体识别和关系分类模型的单词嵌入层,得到关系矩阵,所述关系矩阵表征所述多个样本语料中每个样本语料携带的命名实体标签的词向量和关系标签。
在本实施例中,单词嵌入层可以将通过标注工具得到的结构化数据(即:标注了命名实体标签和关系标签的数据)中的命名实体标签和关系标签处理成特征矩阵,以便于模型的计算。
具体地,在步骤S12中,输入层在将携带命名实体标签和关系标签的多个样本语料输入单词嵌入层后,单词嵌入层提取出所有的命名实体标签和关系标签,根据命名实体标签和关系标签,得到关系矩阵,示例地,若关系的标签用数字3表示,则一个关系向量是[0,0,0,1,0,0,0],多个向量可组成一个关系矩阵。
在本实施例中,命名实体标签,或关系标签均以词向量的形式表示,因而,在关系矩阵中的命名实体标签和关系标签实际上是以词向量的形式存储的(为便于实施例的陈述,上述关系矩阵中的命名实体标签仅做示例),即:上述关系矩阵中的命名实体标签涂小艾、人事部、王福生以及武汉新梦想科技有限公司均是以词向量的形式存储的。因而,在得到关系矩阵后,通过关系矩阵,可以查看到多个样本语料中每个样本语料携带的命名实体标签的词向量和关系标签。
步骤S13:将所述多个样本语料中每个样本语料携带的命名实体标签的词向量输入LSTM编码层,得到所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量。
在本实施例中,由于每个样本语料中的每一个命名实体均已标注了命名实体标签,因此,可以依次将多个样本语料中每个样本语料携带的命名实体标签的词向量输入到LSTM编码层,通过LSTM编码层编码获得每一个命名实体标签的词向量与相邻的两个命名实体标签的词向量之间的关系,即:命名实体标签的上下文编码向量,其中,相邻是指命名实体标签的词向量两两之间编码得到上下文编码向量。
示例地,依次向LSTM编码层输入命名实体分别为“涂小艾”、“武汉新梦想科技有限公司”、“人事部”、“王福生”对应的命名实体标签的词向量,对于“武汉新梦想科技有限公司”这一命名实体标签的词向量,LSTM编码层既可以编码得到其与“涂小艾”的命名实体标签的上下文编码向量,也可以编码得到其与“人事部”的命名实体标签的上下文编码向量,同理,可以为“涂小艾”、“武汉新梦想科技有限公司”、“人事部”、“王福生”中的每一个命名实体编码得到命名实体标签的上下文编码向量。
因此,通过LSTM编码层,可以编码得到多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量。
步骤S14:将所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量输入命名实体识别模块,根据所述多个样本语料中每个样本语料携带的命名实体标签,对所述命名实体识别模块进行多次训练。
在本实施例中,命名实体识别模块在接收到LSTM编码层输出的命名实体标签的上下文编码向量后,首先通过解码层对命名实体标签的上下文编码向量进行解码,然后根据解码结果中的命名实体标签,对NER模块进行训练,得到可用于提取语料中的命名实体的命名实体识别模块。
步骤S15:将所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量和词向量输入关系分类模块,根据所述多个样本语料中每个样本语料携带的关系标签,对所述关系分类模块进行多次训练。
在本实施例中,关系分类模块一方面获得LSTM编码层输出的命名实体标签的上下文编码向量,另一方面获得关系矩阵中的命名实体标签的词向量和关系标签,然后根据命名实体标签的上下文编码向量、命名实体标签的词向量以及关系标签对RC模块进行训练,得到可用于提取语料中的命名实体之间关系的关系分类模块。
步骤S16:经过多次训练后,得到命名实体识别和关系分类模型,所述命名实体识别和关系分类模型用于识别待识别语料包含的命名实体和命名实体之间的关系。
在本实施例中,利用LSTM编码层对单词嵌入层输出的结果进行编码,然后一方面将LSTM编码层输出的结果输入NER模块,并对NER模块进行训练,另一方面将LSTM编码层输出的结果和嵌入层输出的结果输入RC模块,并对RC模块进行训练。通过对NER模块和RC模块的联合训练,获得命名实体识别和关系分类模型,该命名实体识别和关系分类模型可用于一次性识别出待识别语料中包含的命名实体和命名实体之间的关系。
具体地,在训练过程中,可以使用深度学习框架TensorFlow框架进行训练,以提高模型训练的速度。当然,本申请也可以使用其他类型的深度学习框架对模型进行训练,本申请对此不作具体限制。
在本实施例中,首先获得多个样本语料(其中每个样本语料携带命名实体标签和关系标签);然后将多个样本语料输入单词嵌入层,得到关系矩阵,该关系矩阵中包含了每个样本语料携带的命名实体标签的词向量和关系标签;接着将每个样本语料携带的命名实体标签的词向量输入LSTM编码层,得到每个样本语料携带的命名实体标签的上下文编码向量,在得到命名实体标签的上下文编码向量后,将命名实体标签的上下文编码向量一方面输入命名实体识别模块,根据每个样本语料携带的命名实体标签,对命名实体识别模块进行训练,另一方面将命名实体标签的上下文编码向量输入关系分类模块,同时将命名实体标签的词向量输入关系分类模块,根据每个样本语料携带的关系标签,对关系分类模块进行训练;通过对命名实体识别模块和关系分类模块的联合训练,最终获得命名实体识别和关系分类模型。
本申请实施例中使用的命名实体识别和关系分类模型使用混合编码方式,通过对命名实体识别模块和关系分类模块进行联合训练,获得命名实体识别和关系分类模型,可以一次性将命名实体和实体关系提取出来,有效整合命名实体和实体关系的信息。
此外,本申请中通过LSTM编码层对命名实体标签的词向量进行编码,得到命名实体标签的上下文编码向量,可用于表征多个命名实体之间的关系,通过这种构建复合关系特征的方式,可实现命名实体之间的多关系重叠抽取,解决多对多关系抽取问题,相对于传统的串行模式处理方式,能大幅度减少冗余信息,降低误差的累积,进而提高命名实体识别的准确率和实体关系抽取的准确率。
结合以上实施例,在一种实施方式中,单词嵌入层采用混合编码方式对样本语料进行编码,具体编码方式如下:
步骤1:获得样本语料的所有字符的全集char、命名实体标签的全集bio以及关系标签的全集relation;
步骤2:遍历样本语料,将每个语料(一个语料即一个句子)中字编号、字符、字符标签、关系标签,作为列表封装到该语料中;遍历当前语料将样本语料id化,将语料中字列表embedding_ids内的所有字符id的列表char、命名实体标签的列表bio,关系矩阵的列表封装到句子中;
其中关系矩阵的获得方式如下:
1)获取关系标签的全集relation的id,ids从关系列表全集里对应,关系在relation中所对应的下标即表示关系列表对应的ids;
2)遍历字对应关系relation的列表,将(句子长度*关系列表)的长度,再加上该字符所对应的关系即可得到表示该字符关系的向量。
步骤3:处理样本语料id化的数据,使其在一个批量数据内每个语料的维度相等,以最长语料的维度作为最大维度,不足该最大维度的填充为0。其中关系矩阵的处理过程是:先初始化一个[语料长度,语料长度*关系列表的长度]的0关系矩阵,遍历关系矩阵,将每个字的通过步骤2计算出来的id作为关系矩阵的列向量填充为1,用1来表示字与字之间的关系。
其中,上述提到的字符的全集char、命名实体标签的全集bio、关系标签的全集relation、字编号、字符、字符标签、关系标签、字列表embedding_ids、所有字符id的列表char、命名实体标签的列表bio、关系矩阵的列表、关系列表全集、字对应关系relation等均是在实例中用到的名词集合。在本实施例中,语料会预先标注,编码是指根据标注之后的语料进行编码,每一个标签(命名实体标签或关系标签)对应一个数字,将标签对应的数字嵌入到一个初始化为全零的矩阵中,例如,矩阵中某一行初始全为零,3号位对应的命名实体标签是8,则该行向量可表示为[0,0,0,8,0,0………],对关系标签的编码原理与此类似。
结合以上实施例,在一种实施方式中,在将所述多个样本语料输入所述命名实体识别和关系分类模型的单词嵌入层,得到关系矩阵之后,本申请的训练命名实体识别和关系分类模型的方法还可以包括:
采用基于SVD的降维算法,对所述关系矩阵进行奇异值分解,得到低维的关系矩阵。
在本实施例中,为了实现可提取命名实体之间多对多的关系,采用混合编码方式,然而,混合编码方式的使用导致关系矩阵中包含过多的相同元素(例如:非命名实体的字符、非实体之间的关系用字符0表示,使得关系矩阵中存在过多的字符0),导致关系矩阵稀疏化。
因而,考虑到上述问题,本实施例采用基于SVD的降维算法,将获得的原始关系矩阵进行奇异值分解,使用C=UΣVT,通过压缩至低维空间中,有效降低训练过程中模型噪声干扰和模型计算复杂度。
结合以上实施例,在一种实施方式中,在得到命名实体识别和关系分类模型之后,可以通过该命名实体识别和关系分类模型识别出任意语料中的命名实体和实体关系,具体地,如图3所示。图3是本申请一实施例示出的一种识别命名实体和实体关系的方法的流程图。参照图3,该识别命名实体和实体关系的方法可以包括以下步骤:
步骤S21:获得待识别语料;
步骤S22:将所述待识别语料输入所述命名实体识别和关系分类模型,得到所述待识别语料包含的命名实体和命名实体之间的关系。
在本实施例中,在训练得到命名实体识别和关系分类模型后,可以获得待识别语料,将待识别语料输入该命名实体识别和关系分类模型,识别出该待识别语料中的命名实体和各个命名实体之间的关系。
示例地,以待识别语料为“我叫涂小艾,我现在武汉新梦想科技有限公司的人事部工作,我的上级是王福生”为例,将该待识别语料输入命名实体识别和关系分类模型,输出的命名实体包括:“涂小艾”、“武汉新梦想科技有限公司”、“人事部”、“王福生”,输出的各个命名实体之间的关系包括:涂小艾-人事部-关系类型work、涂小艾-王福生-关系类型Higher、涂小艾-武汉新梦想科技有限公司-关系类型Higher。
结合以上实施例,在一种实施方式中,LSTM编码层可以包括前向LSTM编码层、后向LSTM编码层和连接层,其中,前向LSTM编码层用于对命名实体标签的词向量进行前向编码,后向LSTM编码层用于对命名实体标签的词向量进行后向编码,从而实现对命名实体标签的词向量的混合编码,以便于后续提取出命名实体之间的多对多的关系。具体过程如图4所示。
图4是本申请一实施例示出的一种编码获得上下文编码向量的方法的流程图。参照图4,上述步骤S13可以包括如下步骤:
步骤S131:将所述多个样本语料中每个样本语料携带的命名实体标签的词向量输入所述前向LSTM编码层,得到所述多个样本语料中每个样本语料携带的命名实体标签的上文编码向量。
在本实施例中,前向LSTM编码层在获得每个样本语料携带的命名实体标签的词向量后,对命名实体标签的词向量进行前向编码,即:按照输入的时间先后顺序,编码得到当前时刻输入的命名实体标签的词向量与当前时刻之前的命名实体标签的词向量之间的关系,用上文编码向量表示该关系。
示例地,假设按照时间先后顺序输入前向LSTM编码层的命名实体标签的词向量依次为00004、00003、00002、00001,那么在输入00003时,对00003进行前向编码即:编码00003与00002之间的关系,编码00003与00001之间的关系,从而获得00003的多个上文编码向量;同理,在输入00004时,对00004进行前向编码即:编码00004与00003之间的关系,编码00004与00002之间的关系,编码00004与00001之间的关系,从而获得00004的多个上文编码向量。
因而,按照上述方式,对于每一个当前输入的命名实体标签的词向量,均可以获得其对应的命名实体标签的上文编码向量。
步骤S132:将所述多个样本语料中每个样本语料携带的命名实体标签的词向量输入所述后向LSTM编码层,得到所述多个样本语料中每个样本语料携带的命名实体标签的下文编码向量。
在本实施例中,后向LSTM编码层在获得每个样本语料携带的命名实体标签的词向量后,对命名实体标签的词向量进行后向编码,即:按照输入的时间先后的反向顺序,编码得到某时刻输入的命名实体标签的词向量与该时刻之后输入的命名实体标签的词向量之间的关系,用下文编码向量表示该关系。
示例地,假设按照时间先后顺序输入前向LSTM编码层的命名实体标签的词向量依次为00004、00003、00002、00001,那么在进行后向编码时,对00001进行后向编码即:编码00001与00002之间的关系,编码00001与00003之间的关系,编码00001与00004之间的关系,从而获得00001的多个下文编码向量;同理,对00002进行后向编码即:编码00002与00003之间的关系,编码00002与00004之间的关系,从而获得00002的多个下文编码向量。
因而,按照上述方式,对于每一个命名实体标签的词向量,均可以获得其对应的命名实体标签的下文编码向量。
步骤S133:将所述多个样本语料中每个样本语料携带的命名实体标签的上文编码向量和下文编码向量输入所述连接层,得到所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量。
在本实施例中,在获得命名实体标签的上文编码向量和下文编码向量后,将该命名实体标签的上文编码向量和下文编码向量输入连接层(参照图1中的后向LSTM编码层与LSTM解码层之间的网络层),得到各个命名实体标签的上下文编码向量。
示例地,在图1中,将命名实体标签1的词向量输入前向LSTM编码层,可以得到命名实体标签1的上文编码向量h1,将命名实体标签1的词向量输入后向LSTM编码层,可以得到命名实体标签1的下文编码向量h1,将上文编码向量h1和下文编码向量h1输入连接层,进行整理,获得命名实体标签1的上下文编码向量h1。
在本实施例中,LSTM编码层包括:前向LSTM编码层、后向LSTM编码层和连接层。前向LSTM编码层和后向LSTM编码层是两个平行的LSTM编码层。对于每个词向量的编码,前向LSTM编码层通过从前至后的方式提取信息中的特征,类似地,后向LSTM编码层从后至前提取信息中的特征。LSTM编码层的架构还包括:一组循环连接的子网,称为内存块(或LSTM存储块);前向隐藏层和后向隐藏层中的每个时间步长是LSTM存储块,LSTM存储块包括:一个或多个自连接存储器单元、三个乘法单元、输入、输出及遗忘门,为神经单元提供连续的写、读以及复位操作模拟。在每个时间步骤内,使用LSTM存储块来基于先前隐态向量、前一时刻输入神经单元的词向量和当前时刻输入神经单元的词向量来计算当前隐态向量。
在本实施例中,通过底层编码时实现混合编码,具体地,在LSTM编码层中设置前向LSTM编码层和后向LSTM编码层,分别实现对命名实体标签的词向量的前向编码和后向编码,通过这种混合编码的方式,获得命名实体之间的多对多的关系,进而可以实现命名实体的多关系的重叠抽取,并解决命名实体之间多对多关系抽取问题,相对于传统的串行模式处理方式,能大幅度减少冗余信息,降低误差的累积,进而提高命名实体识别的准确率和实体关系抽取的准确率。
结合以上实施例,在一种实施方式中,所述命名实体识别模块包括LSTM解码层和第一softmax层。对命名实体识别模块进行训练的过程可如图5所示。图5是本申请一实施例示出的一种训练命名实体识别模块的流程图。参照图5,上述步骤S14包括:
步骤S141:将所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量输入所述LSTM解码层,得到所述多个样本语料中每个样本语料携带的命名实体标签的上下文解码向量。
在本实施例中,命名实体识别模块首先通过LSTM解码层接收LSTM编码层输出的命名实体标签的上下文编码向量,对该命名实体标签的上下文编码向量进行解码,得到命名实体标签的上下文解码向量。
步骤S142:采用条件随机场CRF中的特征函数,对所述多个样本语料中每个样本语料携带的命名实体标签的上下文解码向量进行处理,并将处理后得到的结果输入所述第一sofmax层,获得所述第一sofmax层输出的结果。
在本实施例中,命名实体识别模块采用条件随机场CRF中的特征函数,对得到的命名实体标签的上下文解码向量进行处理,然后将处理后得到的结果输入第一sofmax层,以对得到的结果进行分类整理,得到分类结果。
步骤S143:根据所述第一sofmax层输出的结果和所述多个样本语料中每个样本语料携带的命名实体标签,对所述命名实体识别模块进行多次训练。
在本实施例中,在得到第一sofmax层输出的分类结果后,重复使用分类结果和每个样本语料携带的命名实体标签对命名实体识别模块进行训练,得到满足预设条件的命名实体识别模块。
在本实施例中,针对命名实体的抽取,采用条件随机场CRF中的特征函数进行命名实体的选择,该特征函数主要接收四个参数,包括:句子s(即:表示待标注词性的句子);单词i(即:表示句子s中第i个单词);词性li(表示要评分的标注序列给第i个单词标注的词性);li-1(表示要评分的标注序列给第i-1个单词标注的词性)。该特征函数的输出值是0或1,其中,0表示要评分的标注序列不符合这个特征,1表示要评分的标注序列符合这个特征。定义好一组特征函数后,需要给每个特征函数fj赋予一个权重λj。定义好一组特征函数后,只要有一个句子s,有一个标注序列l,就可以利用该特征函数集来对l评分。通过如下公式得到分数score:
Figure GDA0003308539850000161
在该公式中有两次求和计算,外层求和用来计算每一个特征函数fj评分值的和,内层求和用来计算句子中每个位置的词向量的特征值的和。
对这个分数score进行指数化和标准化,可以得到标注序列l的概率值P(l|s),P(l|s)的公式如下所示:
Figure GDA0003308539850000162
通过该公式,最后得到的后验概率最大的标签类别即为所预测的命名实体标签。
结合以上实施例,在一种实施方式中,所述关系分类模块包括CNN层和第二softmax层。对关系分类模块进行训练的过程可如图6所示。图6是本申请一实施例示出的一种训练命名实体识别模块的流程图。参照图6,上述步骤S15包括:
步骤S151:将所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量和词向量输入所述CNN层,通过所述CNN层进行卷积操作,得到CNN卷积结果。
在本实施例中,关系分类模块一方面将LSTM编码层输出的命名实体标签的上下文编码向量作为输入,另一方面将单词嵌入层输出的命名实体标签的词向量作为输入,通过CNN层对命名实体标签的上下文编码向量和词向量进行卷积操作,得到卷积结果。
步骤S152:将所述CNN卷积结果输入所述第二sofmax层,得到所述第二sofmax层输出的结果。
在本实施例中,在得到CNN卷积结果后,关系分类模块通过第二sofmax层对CNN卷积结果进行分类整理,得到分类结果。
步骤S153:根据所述第二sofmax层输出的结果和所述多个样本语料中每个样本语料携带的关系标签,对所述关系分类模块进行多次训练。
在本实施例中,在得到第二sofmax层输出的分类结果后,重复使用分类结果和每个样本语料携带的关系标签对关系分类模块进行训练,得到满足预设条件的关系分类模块。
在本实施例中,在识别命名实体之间的语义关系时,本文合并命名实体的编码信息和命名实体之间的子句,然后将它们提供给CNN模型。它可以表示为:
R=CNN([he1,we1,we1+1,...we2,he2])
其中R是关系标签,he是命名实体的编码信息,w是单词,即:命名实体标签的词向量。特别的,命名实体可以包含多个单词,总结这些单词的编码信息以表示整个实体信息,CNN表示卷积操作,如图6A所示,图6A是本申请一实施例示出的一种卷积网络的结构示意图。
在卷积层中,使用Wc(i)∈Rk×d来表示第i个卷积滤波器并且使用br (i)∈R来相应地表示偏置项,其中k是滤波器的上下文窗口大小。滤波器滑过输入序列获得输入数据的特征,进而进行矩阵计算得到分类结果。最后通过softmax层计算基于标签预测向量Tt计算归一化的命名实体标签概率,公式如下所示:
yt=WtTt+by
Figure GDA0003308539850000181
其中Wt是softmax矩阵,Nt是标签数量,by为偏置量,关系预测结果经过softmax层归一化之后得到关系标签,最后得到的先验概率最大值即是所预测的关系标签。
本申请提供的训练命名实体识别和关系分类模型的方法可应用于公安笔录中实体关系的识别。公安笔录中的人物关系的识别主要包括人物与人物、人物与组织、组织与组织之间的关系,与一般的语料具有较大的区别,公安笔录中的命名实体的类别较多,同一个命名实体可能表示不同的含义,导致模型识别实体关系的难度增大,而当前实体关系抽取的准确度将会影响到下一步实体关系的识别的准确度。而现有方法在预测命名实体时只能存在多个缺点:一是只能抽取单一命名实体之间一对一的关系,无法解决命名实体之间的关系重叠问题和误差累积问题;二是在处理文本标注编码时,出现稀疏矩阵,如果直接利用稀疏矩阵进行计算,将会增大时间和空间复杂度,且易受噪声干扰。
因此,基于上述公安笔录中实体关系的识别问题,本申请提出了一种混合编码的联合抽取模型(即:命名实体识别和关系分类模型)来解决这个问题。
以识别公安笔录中的命名实体和实体关系为例,整个训练过程大致包括:采集预设数量的公安笔录数据;对采集的数据进行预处理;对预处理后的数据进行训练,将其所包含的字符映射成100维实数词向量Word2vec(该矩阵能够捕捉到公安领域词汇所潜在的特征关联信息);将已标注命名实体和实体关系的数据(原始语料数据)划分为训练集、测试集以及验证集,分别对模型进行训练与测试;在训练过程中使用TensorFlow作为框架,使用参数正则化防止参数过拟合;训练完成后得到实体间类别的准确率后,对照某一类准确率最高的实体关系类型进行调优;对每一类的关系类型进行迭代调优,最后提高模型识别的准确率;对模型进行评估,采用标准的准确率(Accuracy)、精确率(Precision)和召回率(Recall)以及F1值对保存的模型进行评估,当语料中的两个命名实体,以及该两个命名实体之间的关系抽取均正确才可记为正确,利用总样本数据的10%作为评估数据集,且进行多次实验,取多次评估结果的平均值和标准差,对模型进行综合评估。
下面将以识别公安笔录中的命名实体和实体关系为例,给出具体实施步骤:
第一步,标注原始语料:利用brat标注工具,将非结构化数据处理为结构化数据;
第二步,将第一步得到的结构化数据处理成模型可计算的特征矩阵;
第三步,将得到的特征矩阵利用SVD进行降维处理;
第四步,使用神经网络前向传播算法和反向传播算法更新模型参数;
第五步,根据设定阈值与训练轮数判断训练状态,利用滑动平均算法得到最优模型;
第六步,保存最优模型。
基于上述步骤实现联合抽取模型的训练,进而得到可用于对新数据进行预测的训练命名实体识别和关系分类模型。
例如,采集362篇公安案件的讯问笔录,标注笔录中所包含的人物的姓名、组织机构名,将人物的姓名、组织机构名以及人物的姓名、组织机构名之间的上下级关系作为样本数据集,将样本数据集分为训练集、测试集以及验证集三个数据集,对模型进行训练;训练模型时的训练迭代次数为15303次,训练过程中根据每次前向传播的loss值进行反向传播和滑动平均算法得到最优模型,在得到训练模型后,对新数据进行预测,如图7所示,图7是本申请一实施例示出的一种训练结果示意图。
在上述过程中,只采用362篇讯问笔录作为训练数据量,针对相同数量笔录下,需要很多数据才能达到相同的训练准确率,本申请中只需要较少的数据量便能达到较好的识别效果,因此能在达到较高的准确率和召回率的情况下,省去大量人工标注训练数据集的时间和提高工作效率。
利用本申请提供的训练命名实体识别和关系分类模型的方法可以充分地提取和分析公安笔录中的高价值信息,对笔录中的案情和涉案人物关系以及组织结构的关系提取具有很大的帮助,能有效简化民警的工作量和提高破案效率。同时,本申请采用的模型具体如下多个有益效果:
一、模型框架采用混合编码方式,可实现命名实体和实体关系一次性提取,有效整合命名实体和实体关系的信息;
二、模型采用端到端的实体关系标注策略,通过构建复合关系特征,可实现命名实体的多关系重叠抽取,解决多对多关系的抽取问题;
三、针对输入张量的稀疏化,采用奇异值分解(SVD,Singular ValueDecomposition)对数据进行降维处理,可实现特征张量的压缩,简化模型计算,提高模型训练速率;
四、采用Google的深度学习框架TensorFlow进行训练,利用TensorFlow是稳定可靠的特性,可进一步提高模型训练的速度。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
本申请还提供了一种训练命名实体识别和关系分类模型的装置800,如图8所示。图8是本申请一实施例示出的一种训练命名实体识别和关系分类模型的装置的结构框图。参照图8,装置800包括:
第一获得模块801,用于获得多个样本语料,每个样本语料携带命名实体标签和关系标签;
第一输入模块802,用于将所述多个样本语料输入所述命名实体识别和关系分类模型的单词嵌入层,得到关系矩阵,所述关系矩阵表征所述多个样本语料中每个样本语料携带的命名实体标签的词向量和关系标签;
第二输入模块803,用于将所述多个样本语料中每个样本语料携带的命名实体标签的词向量输入LSTM编码层,得到所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量;
第三输入模块804,用于将所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量输入命名实体识别模块,根据所述多个样本语料中每个样本语料携带的命名实体标签,对所述命名实体识别模块进行多次训练;
第四输入模块805,用于将所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量和词向量输入关系分类模块,根据所述多个样本语料中每个样本语料携带的关系标签,对所述关系分类模块进行多次训练;
第二获得模块806,用于经过多次训练后,得到命名实体识别和关系分类模型,所述命名实体识别和关系分类模型用于识别待识别语料包含的命名实体和命名实体之间的关系。
可选地,所述装置800还包括:
分解模块,用于采用基于SVD的降维算法,对所述关系矩阵进行奇异值分解,得到低维的关系矩阵。
可选地,所述LSTM编码层包括前向LSTM编码层、后向LSTM编码层和连接层,所述第二输入模块803包括:
第一输入子模块,用于将所述多个样本语料中每个样本语料携带的命名实体标签的词向量输入所述前向LSTM编码层,得到所述多个样本语料中每个样本语料携带的命名实体标签的上文编码向量;
第二输入子模块,用于将所述多个样本语料中每个样本语料携带的命名实体标签的词向量输入所述后向LSTM编码层,得到所述多个样本语料中每个样本语料携带的命名实体标签的下文编码向量;
第三输入子模块,用于将所述多个样本语料中每个样本语料携带的命名实体标签的上文编码向量和下文编码向量输入所述连接层,得到所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量。
可选地,所述命名实体识别模块包括LSTM解码层和第一softmax层;所述第三输入模块804包括:
第四输入子模块,用于将所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量输入所述LSTM解码层,得到所述多个样本语料中每个样本语料携带的命名实体标签的上下文解码向量;
第五输入子模块,用于采用条件随机场CRF中的特征函数,对所述多个样本语料中每个样本语料携带的命名实体标签的上下文解码向量进行处理,并将处理后得到的结果输入所述第一sofmax层,获得所述第一sofmax层输出的结果;
第一训练子模块,用于根据所述第一sofmax层输出的结果和所述多个样本语料中每个样本语料携带的命名实体标签,对所述命名实体识别模块进行多次训练。
可选地,所述关系分类模块包括CNN层和第二softmax层;所述第四输入模块805包括:
第六输入子模块,用于将所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量和词向量输入所述CNN层,通过所述CNN层进行卷积操作,得到CNN卷积结果;
第七输入子模块,用于将所述CNN卷积结果输入所述第二sofmax层,得到所述第二sofmax层输出的结果;
第二训练子模块,用于根据所述第二sofmax层输出的结果和所述多个样本语料中每个样本语料携带的关系标签,对所述关系分类模块进行多次训练。
可选地,所述装置800还包括:
第三获得模块,用于获得待识别语料;
第五输入模块,用于将所述待识别语料输入所述命名实体识别和关系分类模型,得到所述待识别语料包含的命名实体和命名实体之间的关系。
基于同一发明构思,本申请另一实施例提供一种电子设备900,如图9所示。图9是本申请一实施例示出的一种电子设备的示意图。该电子设备包括存储器902、处理器901及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。
基于同一发明构思,本申请另一实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种训练命名实体识别和关系分类模型的方法、装置、电子设备及存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种训练命名实体识别和关系分类模型的方法,其特征在于,包括:
获得多个样本语料,每个样本语料携带命名实体标签和关系标签;
将所述多个样本语料输入所述命名实体识别和关系分类模型的单词嵌入层,得到关系矩阵,所述关系矩阵表征所述多个样本语料中每个样本语料携带的命名实体标签的词向量和关系标签;
将所述多个样本语料中每个样本语料携带的命名实体标签的词向量输入LSTM编码层,得到所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量;其中,所述命名实体标签的上下文编码向量是通过所述LSTM编码层编码获得每一个所述命名实体标签的词向量与相邻的两个命名实体标签的词向量之间的关系,其中,相邻是指命名实体标签的词向量两两之间编码得到上下文编码向量;
将所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量输入命名实体识别模块,根据所述多个样本语料中每个样本语料携带的命名实体标签,对所述命名实体识别模块进行多次训练;
将所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量和词向量输入关系分类模块,根据所述多个样本语料中每个样本语料携带的关系标签,对所述关系分类模块进行多次训练;
经过多次训练后,得到命名实体识别和关系分类模型,所述命名实体识别和关系分类模型用于识别待识别语料包含的命名实体和命名实体之间的关系;
在将所述多个样本语料输入所述命名实体识别和关系分类模型的单词嵌入层,得到关系矩阵之后,所述方法还包括:采用基于SVD的降维算法,对所述关系矩阵进行奇异值分解,得到低维的关系矩阵。
2.根据权利要求1所述的方法,其特征在于,所述LSTM编码层包括前向LSTM编码层、后向LSTM编码层和连接层;将所述多个样本语料中每个样本语料携带的命名实体标签的词向量输入LSTM编码层,得到所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量,包括:
将所述多个样本语料中每个样本语料携带的命名实体标签的词向量输入所述前向LSTM编码层,得到所述多个样本语料中每个样本语料携带的命名实体标签的上文编码向量;
将所述多个样本语料中每个样本语料携带的命名实体标签的词向量输入所述后向LSTM编码层,得到所述多个样本语料中每个样本语料携带的命名实体标签的下文编码向量;
将所述多个样本语料中每个样本语料携带的命名实体标签的上文编码向量和下文编码向量输入所述连接层,得到所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量。
3.根据权利要求1所述的方法,其特征在于,所述命名实体识别模块包括LSTM解码层和第一softmax层;将所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量输入命名实体识别模块,根据所述多个样本语料中每个样本语料携带的命名实体标签,对所述命名实体识别模块进行多次训练,包括:
将所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量输入所述LSTM解码层,得到所述多个样本语料中每个样本语料携带的命名实体标签的上下文解码向量;
采用条件随机场CRF中的特征函数,对所述多个样本语料中每个样本语料携带的命名实体标签的上下文解码向量进行处理,并将处理后得到的结果输入所述第一sofmax层,获得所述第一sofmax层输出的结果;
根据所述第一sofmax层输出的结果和所述多个样本语料中每个样本语料携带的命名实体标签,对所述命名实体识别模块进行多次训练。
4.根据权利要求1所述的方法,其特征在于,所述关系分类模块包括CNN层和第二softmax层;将所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量和词向量输入关系分类模块,根据所述多个样本语料中每个样本语料携带的关系标签,对所述关系分类模块进行多次训练,包括:
将所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量和词向量输入所述CNN层,通过所述CNN层进行卷积操作,得到CNN卷积结果;
将所述CNN卷积结果输入所述第二sofmax层,得到所述第二sofmax层输出的结果;
根据所述第二sofmax层输出的结果和所述多个样本语料中每个样本语料携带的关系标签,对所述关系分类模块进行多次训练。
5.根据权利要求1-4任一所述的方法,其特征在于,在得到命名实体识别和关系分类模型之后,所述方法还包括:
获得待识别语料;
将所述待识别语料输入所述命名实体识别和关系分类模型,得到所述待识别语料包含的命名实体和命名实体之间的关系。
6.一种训练命名实体识别和关系分类模型的装置,其特征在于,包括:
第一获得模块,用于获得多个样本语料,每个样本语料携带命名实体标签和关系标签;
第一输入模块,用于将所述多个样本语料输入所述命名实体识别和关系分类模型的单词嵌入层,得到关系矩阵,所述关系矩阵表征所述多个样本语料中每个样本语料携带的命名实体标签的词向量和关系标签;
第二输入模块,用于将所述多个样本语料中每个样本语料携带的命名实体标签的词向量输入LSTM编码层,得到所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量;其中,所述命名实体标签的上下文编码向量是通过所述LSTM编码层编码获得每一个所述命名实体标签的词向量与相邻的两个命名实体标签的词向量之间的关系,其中,相邻是指命名实体标签的词向量两两之间编码得到上下文编码向量;
第三输入模块,用于将所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量输入命名实体识别模块,根据所述多个样本语料中每个样本语料携带的命名实体标签,对所述命名实体识别模块进行多次训练;
第四输入模块,用于将所述多个样本语料中每个样本语料携带的命名实体标签的上下文编码向量和词向量输入关系分类模块,根据所述多个样本语料中每个样本语料携带的关系标签,对所述关系分类模块进行多次训练;
第二获得模块,用于经过多次训练后,得到命名实体识别和关系分类模型,所述命名实体识别和关系分类模型用于识别待识别语料包含的命名实体和命名实体之间的关系;
所述装置还包括:分解模块,用于采用基于SVD的降维算法,对所述关系矩阵进行奇异值分解,得到低维的关系矩阵。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行时实现如权利要求1-5任一所述的方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5任一所述的方法中的步骤。
CN201911400682.4A 2019-12-30 2019-12-30 训练实体识别和关系分类模型的方法、装置、设备及介质 Active CN111159407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911400682.4A CN111159407B (zh) 2019-12-30 2019-12-30 训练实体识别和关系分类模型的方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911400682.4A CN111159407B (zh) 2019-12-30 2019-12-30 训练实体识别和关系分类模型的方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN111159407A CN111159407A (zh) 2020-05-15
CN111159407B true CN111159407B (zh) 2022-01-28

Family

ID=70559341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911400682.4A Active CN111159407B (zh) 2019-12-30 2019-12-30 训练实体识别和关系分类模型的方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN111159407B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651575B (zh) * 2020-05-29 2023-09-12 泰康保险集团股份有限公司 会话文本处理方法、装置、介质及电子设备
CN113743117B (zh) * 2020-05-29 2024-04-09 华为技术有限公司 用于实体标注的方法和装置
CN113761921A (zh) * 2020-06-05 2021-12-07 北京金山数字娱乐科技有限公司 一种基于双任务模型的词语处理方法及装置
CN111737416B (zh) * 2020-06-29 2022-08-19 重庆紫光华山智安科技有限公司 案件处理模型的训练方法、案件文本处理方法及相关装置
CN112015913A (zh) * 2020-08-28 2020-12-01 支付宝(杭州)信息技术有限公司 用于训练处罚实体分类模型的方法及装置
CN111931863B (zh) * 2020-09-15 2021-02-19 深圳追一科技有限公司 误标注数据筛选方法、装置及计算机存储介质
CN112183023A (zh) * 2020-09-28 2021-01-05 云知声智能科技股份有限公司 一种多关系抽取方法和终端
CN112364933A (zh) * 2020-11-23 2021-02-12 北京达佳互联信息技术有限公司 图像分类方法、装置、电子设备和存储介质
CN112380867A (zh) * 2020-12-04 2021-02-19 腾讯科技(深圳)有限公司 文本处理、知识库的构建方法、装置和存储介质
CN112560491B (zh) * 2020-12-11 2024-03-19 北京百炼智能科技有限公司 一种基于ai技术的信息抽取方法、装置和存储介质
CN112711949B (zh) * 2021-01-05 2022-04-22 山东众阳健康科技集团有限公司 一种命名实体识别和实体关系抽取的联合方法
CN113361280B (zh) * 2021-06-30 2023-10-31 北京百度网讯科技有限公司 训练模型的方法、预测方法、装置、电子设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829722A (zh) * 2018-05-08 2018-11-16 国家计算机网络与信息安全管理中心 一种远程监督的Dual-Attention关系分类方法及系统
CN109446523A (zh) * 2018-10-23 2019-03-08 重庆誉存大数据科技有限公司 基于BiLSTM和条件随机场的实体属性抽取模型
CN109739983A (zh) * 2018-12-23 2019-05-10 北京明朝万达科技股份有限公司 识别公安笔录人物关系的方法、装置及计算机可读介质
CN109783666A (zh) * 2019-01-11 2019-05-21 中山大学 一种基于迭代精细化的图像场景图谱生成方法
CN110222338A (zh) * 2019-05-28 2019-09-10 浙江邦盛科技有限公司 一种机构名实体识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829722A (zh) * 2018-05-08 2018-11-16 国家计算机网络与信息安全管理中心 一种远程监督的Dual-Attention关系分类方法及系统
CN109446523A (zh) * 2018-10-23 2019-03-08 重庆誉存大数据科技有限公司 基于BiLSTM和条件随机场的实体属性抽取模型
CN109739983A (zh) * 2018-12-23 2019-05-10 北京明朝万达科技股份有限公司 识别公安笔录人物关系的方法、装置及计算机可读介质
CN109783666A (zh) * 2019-01-11 2019-05-21 中山大学 一种基于迭代精细化的图像场景图谱生成方法
CN110222338A (zh) * 2019-05-28 2019-09-10 浙江邦盛科技有限公司 一种机构名实体识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于文本的实体关系抽取以及知识图谱的表示推理方法研究";李忠坤;《万方》;20190926;论文正文第1、3-4章 *

Also Published As

Publication number Publication date
CN111159407A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN111159407B (zh) 训练实体识别和关系分类模型的方法、装置、设备及介质
CN110597735B (zh) 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN112966074B (zh) 一种情感分析方法、装置、电子设备以及存储介质
CN111476023B (zh) 识别实体关系的方法及装置
CN111291188B (zh) 一种智能信息抽取方法及系统
CN111753189A (zh) 一种少样本跨模态哈希检索共同表征学习方法
CN109871452B (zh) 确定犯罪特征的方法、装置以及存储介质
CN111160035A (zh) 文本语料的处理方法和装置
CN111339249B (zh) 一种联合多角度特征的深度智能文本匹配方法和装置
CN112580328A (zh) 事件信息的抽取方法及装置、存储介质、电子设备
CN110765240A (zh) 多相关句子对的语义匹配评估方法
CN111143507B (zh) 一种基于复合式问题的阅读理解方法
CN113806554B (zh) 面向海量会议文本的知识图谱构建方法
CN111274494B (zh) 结合深度学习和协同过滤技术的复合标签推荐方法
CN113761893A (zh) 一种基于模式预训练的关系抽取方法
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN112069825B (zh) 面向警情笔录数据的实体关系联合抽取方法
CN115859989A (zh) 基于远程监督的实体识别方法及系统
CN114298052B (zh) 一种基于概率图的实体联合标注关系抽取方法和系统
CN113821571B (zh) 基于bert和改进pcnn的食品安全关系抽取方法
CN112749530B (zh) 文本编码方法、装置、设备及计算机可读存储介质
CN114036246A (zh) 商品图谱向量化方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant