CN110598210B - 实体识别模型训练、实体识别方法、装置、设备及介质 - Google Patents
实体识别模型训练、实体识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN110598210B CN110598210B CN201910808242.6A CN201910808242A CN110598210B CN 110598210 B CN110598210 B CN 110598210B CN 201910808242 A CN201910808242 A CN 201910808242A CN 110598210 B CN110598210 B CN 110598210B
- Authority
- CN
- China
- Prior art keywords
- entity
- model
- data
- sample data
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000002372 labelling Methods 0.000 claims abstract description 29
- 230000015654 memory Effects 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims description 99
- 238000004590 computer program Methods 0.000 claims description 19
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000003058 natural language processing Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000008520 organization Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 240000003173 Drymaria cordata Species 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种实体识别模型训练方法、装置、计算机设备及存储介质,先获取样本数据集,样本数据集中每一样本数据都包括N个标注数据,N为正整数;再根据样本数据集,对预设的多层识别模型进行训练,得到实体识别模型,其中,多层识别模型包括主模型和N个实体子模型,且每一样本数据的每个标注数据对应一个实体子模型。通过在样本数据中设置多个标注数据,并且在训练多层识别模型时,通过设置主模型和N个实体子模型的网络结构,可以减少训练时的内存消耗。并且,一个样本数据设置N个标注数据,可以在不减少样本数据数量的前提下,更好地保证了模型的识别精度。本发明还公开了一种实体识别方法、装置、计算机设备及存储介质。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种实体识别模型训练方法、实体识别方法、装置、设备及介质。
背景技术
随着计算机技术的不断发展,自然语言处理(Natural Language Processing,NLP)技术也日益成熟,对于NLP中关于语义识别的技术应用也越来越多。例如,语音助手、语音智能机器人和语音检索等。在语义识别中一般分为实体识别与意图识别。实体识别通常通过训练一个或者多个实体识别模型来实现。然而,在实体识别中通过单个实体识别模型来识别可能存在识别精度的问题,而通过多个实体模型来识别的话,又会不可避免地占据过多的内存资源,增加了计算机的负担。
发明内容
本发明一实施例提供一种实体识别模型训练方法、装置、计算机设备及存储介质,以解决实体识别模型训练占据过多的内存资源,增加了计算机的负担问题。
本发明一实施例提供一种实体识别方法、装置、计算机设备及存储介质,以解决实体识别模型识别精度不高的问题。
本发明实施例的第一方面,提供了一种实体识别模型训练方法,包括:
获取样本数据集,所述样本数据集中每一样本数据都包括N个标注数据,N为正整数;
根据所述样本数据集,对预设的多层识别模型进行训练,得到实体识别模型,其中,所述多层识别模型包括主模型和N个实体子模型,且每一样本数据的每个标注数据对应一个实体子模型。
本发明实施例的第二方面,提供了一种实体识别方法,包括:
获取待识别实体数据;
将所述待识别实体数据输入到实体识别模型中,得到识别信息,其中,所述实体识别模型是采用上述实体识别模型训练方法训练得到的。
本发明实施例的第三方面,提供了一种实体识别模型训练装置,包括:
样本数据集获取模块,用于获取样本数据集,所述样本数据集中每一样本数据都包括N个标注数据,N为正整数;
实体识别模型训练模块,用于根据所述样本数据集,对预设的多层识别模型进行训练,得到实体识别模型,其中,所述多层识别模型包括主模型和N个实体子模型,且每一样本数据的每个标注数据对应一个实体子模型。
本发明实施例的第四方面,提供了一种实体识别装置,包括:
待识别数据获取模块,用于获取待识别实体数据;
数据识别模块,用于将所述待识别实体数据输入到实体识别模型中,得到识别信息,其中,所述实体识别模型是采用上述实体识别模型训练方法训练得到的。
本发明实施例的第五方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实体识别模型训练方法的步骤,或者,所述处理器执行所述计算机程序时实现上述实体识别方法的步骤。
本发明实施例的第六方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述实体识别模型训练方法的步骤,或者,所述计算机程序被处理器执行时实现上述实体识别方法的步骤。
上述实体识别模型训练方法、装置、计算机设备及存储介质中,服务端先获取样本数据集,所述样本数据集中每一样本数据都包括N个标注数据;再根据所述样本数据集,对预设的多层识别模型进行训练,得到实体识别模型,其中,所述多层识别模型包括主模型和N个实体子模型,且每一样本数据的每个标注数据对应一个实体子模型。通过在样本数据中设置多个标注数据,并且在训练多层识别模型时,通过设置主模型和N个实体子模型的网络结构,可以减少训练时的内存消耗。并且,一个样本数据设置N个标注数据,可以在不减少样本数据数量的前提下,保证模型训练的顺利,更好地保证了模型的识别精度。
上述实体识别方法、装置、计算机设备及存储介质中,服务端在获取待识别实体数据之后,将所述待识别实体数据输入到实体识别模型中,得到识别信息,其中,所述实体识别模型是采用实体识别模型训练方法训练得到的。通过该实体识别模型对待识别实体数据进行识别,可以保证对待识别实体数据的实体识别的准确性,避免对多义实体词汇的识别误差。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中实体识别模型训练方法或者实体识别方法的一应用环境示意图;
图2是本发明一实施例中实体识别模型训练方法的一流程图;
图3是本发明一实施例中实体识别模型训练方法的另一流程图;
图4是本发明一实施例中实体识别模型训练方法的另一流程图;
图5是本发明一实施例中实体识别方法的一流程图;
图6是本发明一实施例中实体识别方法的另一流程图;
图7是本发明一实施例中实体识别模型训练装置的一示意图;
图8是本发明一实施例中实体识别模型训练装置的另一示意图;
图9是本发明一实施例中实体识别装置的一示意图;
图10是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种实体识别模型训练方法,可应用在如图X的应用环境中,其中,客户端(计算机设备)通过网络与服务器进行通信。服务端获取客户端发送的样本数据集,所述样本数据集中每一样本数据都包括N个标注数据,N为正整数;根据所述样本数据集,对预设的多层识别模型进行训练,得到实体识别模型,其中,所述多层识别模型包括主模型和N个实体子模型,且每一样本数据的每个标注数据对应一个实体子模型。其中,客户端(计算机设备)可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种实体识别模型训练方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
S21:获取样本数据集,所述样本数据集中每一样本数据都包括N个标注数据,N为正整数。
其中,所述样本数据集为预先收集或者构造的数据集合,用于进行后续的模型训练。样本数据集中包括了大量的样本数据。可选地,样本数据可以为词汇、句子或者段落等。具体地,每一样本数据都包括了N个标注数据,其中,N为正整数,而且,N的数量和具体需要识别的实体的类型是一致的。优选地,N为大于1的正整数。示例性地,所需要识别的实体类型可以为:人名、地名、机构名、音乐和文章等。示例性地,若需要识别的实体类型为人名、地名和机构名三个,则对应的一个样本数据的标注数据也有三个。
示例性地,样本数据为句子。例如:小明要去北京的天安门。若需要是别的实体类型为人名、地名和机构名三个,则对应的该样本数据的三个标注数据可以为:
A(人名)=(B-per,I-per,O,O,O,O,O,O,O,O);
B(地名)=(O,O,O,O,B-loc,I-loc,O,O,O,O);
C(机构名)=(O,O,O,O,O,O,O,B-org,I-org,I-org);
其中,B代表首字,I代表非首字,per代表人名,loc代表地名,org代表机构名,O代表无意义(仅对对应的实体子模型而言)。
在该步骤中,通过为样本数据设置多个标注数据,可以避免采用一个识别模型进行多实体识别时,部分词汇的多义而造成的训练过程或者识别过程的混乱。例如,对于“白雪公主”这个词,它可以是一个故事、一首歌或者为一个名字。若在一个多实体类型的单识别模型中,在训练过程中会造成训练混乱或者在识别过程中会对识别精度造成影响。而在该步骤中,只需要在对应类型的实体子模型中的标注数据中进行分别体现即可,如此,在模型训练阶段不会造成训练过程中的混乱,而在识别过程中,可以根据该识别结果对不同的场景进行对应的设定或者适配即可。
S22:根据所述样本数据集,对预设的多层识别模型进行训练,得到实体识别模型,其中,所述多层识别模型包括主模型和N个实体子模型,且每一样本数据的每个标注数据对应一个实体子模型。
在该步骤中,多层识别模型为多层网络构成的神经网络识别模型,该多层识别模型包括主模型和N个实体子模型,N为正整数。其中,N的取值和具体需要识别的实体的数量相关。示例性地,若需要识别的实体的类型有3中,则对应的N的取值可以为3。主模型为一个公共模型,通过学习样本数据中的共性特征,再将主模型的输出分别输入到N个实体子模型中再进行每个实体子模型的训练,可以减少不必要的内存消耗。
在一个具体实施方式中,每一实体子模型对应一实体类型,即在训练实体子模型时,每一实体子模型采用样本数据中的一个标注数据。
在本实施例中,服务端先获取样本数据集,所述样本数据集中每一样本数据都包括N个标注数据;再根据所述样本数据集,对预设的多层识别模型进行训练,得到实体识别模型,其中,所述多层识别模型包括主模型和N个实体子模型,且每一样本数据的每个标注数据对应一个实体子模型。通过在样本数据中设置多个标注数据,并且在训练多层识别模型时,通过设置主模型和N个实体子模型的网络结构,可以减少训练时的内存消耗。并且,一个样本数据设置N个标注数据,可以在不减少样本数据数量的前提下,保证模型训练的顺利,更好地保证了模型的识别精度。
在一个实施例中,如图3所示,所述根据所述样本数据集,对预设的多层识别模型进行训练,包括:
S31:对所述样本数据集中的样本数据进行向量转化,得到样本向量。
具体地,将样本数据集中的样本数据进行向量转化,即可得到样本向量,以作为输入数据进行模型的训练。示例性地,可以将所述样本数据集中的样本数据进行字向量或者词向量的转化。在一个具体实施方式中,可以将样本数据集中的样本数据进行one-hot、n-gram或者co-occurrence matrix形式的词向量的转化。或者,对样本数据集中的样本数据采用基于矩阵的分布表示、基于聚类的分布表示或者基于神经网络的分布表示(词嵌入)进行向量转化。优选地,采用基于神经网络的分布中的词嵌入(Word Embedding)模型对所述样本数据集中的样本数据进行向量转化。词嵌入是将自然语言表示的单词转换为计算机能够理解的向量或矩阵形式的技术,词嵌入技术会考虑多种因素比如词的语义(同义词近义词)、语料中词之间的关系(上下文)和向量的维度(处理复杂度)等等。
S32:将所述样本向量输入到主模型中,得到共享向量。
将样本向量输入到主模型中,得到共享向量。具体地,预先选择一神经网络模型,进行初始化设置之后,将样本向量输入到该神经网络模型中,得到共享向量。可选地,可以设置主模型为长短期记忆网络(LSTM,Long Short-Term Memory)模型。长短期记忆网络(LSTM,Long Short-Term Memory)是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。在一个具体实施方式中,对主模型的参数设置可以通过随机初始化的方式来设定。
S33:将所述共享向量分别输入到每一实体子模型中,得到每一实体子模型的输出向量。
其中,每一个实体子模型也为一神经网络模型,可选地,也可以设置实体子模型为长短期记忆网络模型。其中,实体子模型的参数也可以通过随机初始化的方式来设定。在得到主模型输出的共享向量之后,将共享向量分别输入到每一实体子模型中,得到每一实体子模型的输出向量。
S34:根据所述输出向量和对应的标签数据得到每一实体子模型的误差损失。
每一实体子模型对应于一个具体的实体识别类型,在得到每一实体子模型的输出向量之后,根据输出向量和对应的标签数据计算每一实体子模型的误差损失。即计算每一样本数据对应的输出向量和实际的标注数据之间的偏差程度。具体地,可以通过损失函数计算每一实体子模型的误差损失。可选地,可以采用0-1损失函数、平方损失函数、绝对损失函数、对数损失函数或者指数损失函数等计算每一实体子模型的误差损失。
示例性地,若一个实体子模型对应识别的实体类型为A,则将该实体子模型的输出向量和该样本数据中代表实体类型A的标注数据进行计算,得到该实体子模型的误差损失。
S35:根据每一实体子模型的误差损失更新所述多层识别模型。
根据每一各实体子模型的误差损失来更新多层识别模型,以最后得到用于对实体进行识别的实体识别模型。具体地,在通过损失函数计算得到每一实体子模型的误差损失之后,需要将这个误差损失逐层回传给多层识别模型的每一层,让多层识别模型的每一层更新它们的权值,才能获得识别效果更好的实体识别模型。
具体地,可以通过误差反传算法、随机梯度下降算法或者梯度下降算法实现对所述多层识别模型的更新。可以理解地,更新所述多层识别模型包括对实体子模型的更新和对主模型的更新。
进一步地,重复执行上述步骤S32-S35的过程,直至所述多层识别模型收敛或者模型训练达到预设的条件,即得到实体识别模型。该预设的条件可以根据实际需要进行设定,在此不再赘述。
在一个具体实施方式中,若采用词嵌入(Word Embedding)模型对所述样本数据集中的样本数据进行向量转化,则该步骤还包括根据每一实体子模型的误差损失更新所述词嵌入模型。
在本实施例中,先对所述样本数据集中的样本数据进行向量转化,得到样本向量;将所述样本向量输入到主模型中进行训练,得到共享向量;将所述共享向量分别输入到每一实体子模型中,得到每一实体子模型的输出向量;根据所述输出向量和对应的标签数据得到每一实体子模型的误差损失;根据每一实体子模型的误差损失更新所述多层识别模型。通过为每个实体子模型设置共同的主模型,大大减少了模型的容量,在训练过程中可以减少内存的消耗和系统的计算量。
在一个实施例中,如图4所示,所述根据所述输出向量和对应的标签数据得到每一实体子模型的误差损失,包括:
S41:根据每一实体子模型的误差损失更新对应的实体子模型。
通过每一实体子模型的误差损失更新该实体子模型本身,具体地,通过损失函数计算得到每一实体子模型的误差损失之后,将这个误差损失逐层回传给实体子模型的网络中的每一层,让实体子模型的网络中每一层更新它们的权值。可选地,可以通过误差反传算法、随机梯度下降算法或者梯度下降算法实现对所述实体子模型的更新。
S42:根据N个实体子模型的N个误差损失更新所述主模型。
通过N个实体子模型的N个误差损失更新所述主模型,具体地,可以将N个实体子模型的误差损失函数进行汇总,得到所述主模型的误差损失,再将主模型的误差损失逐层回传给主模型的网络中的每一层,让主模型的网络中每一层更新它们的权值。可选地,可以通过误差反传算法、随机梯度下降算法或者梯度下降算法实现对所述主模型的更新。
可选地,可以对N个实体子模型的N个误差损失进行求和得到所述主模型的误差损失,或者,为每一实体子模型设定特定的权值,再根据该权值对N个实体子模型的N个误差损失进行加权求和之后得到所述主模型的误差损失。
在本实施例中,先根据每一实体子模型的误差损失更新对应的实体子模型;根据N个实体子模型的N个误差损失更新所述主模型。保证了模型训练的效率和精度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本发明实施例还提供一种实体识别方法,可应用在如图1的应用环境中,其中,客户端(计算机设备)通过网络与服务端进行通信。服务端获取待识别实体数据;将所述待识别实体数据输入到实体识别模型中,得到识别信息,其中,所述实体识别模型是采用上述实施例所述的实体识别模型训练方法训练得到的。其中,客户端(计算机设备)可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图5所示,提供一种实体识别方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
S51:获取待识别实体数据。
待识别实体数据为需要进行语义实体识别的数据。可选地,该待识别实体数据可以为词汇、句子或者段落等。可以理解地,该待识别实体数据可以是将客户端发送的各种类型或者格式的数据进行处理之后得到的。示例性地,客户端可以将文字数据、图像数据、音频数据或者视频数据发送至服务端。服务端对客户端发送的不同格式的数据进行处理之后得到该待识别实体数据。具体地,若客户端发送至服务端的数据为图像数据、音频数据或者视频数据,则服务端先对客户端发送过来的图像数据、音频数据或者视频数据进行文字识别或者提取,得到对应的文字信息,再对得到的文字信息进行分段、分句或者分词处理,得到待识别实体数据。
可选地,若客户端发送过来的为图像数据,则服务端可以通过光学字符识别(Optical Character Recognition,OCR)技术对图像数据中的文字进行识别,得到文字信息。
可选地,若客户端发送过来的为音频数据或者视频数据,则服务端可以通过语音识别技术技术对音频数据或者视频数据中的语音进行识别,得到文字信息。
在一个具体地实施方式中,上述将客户端发送过来的图像数据、音频数据或者视频数据进行处理,得到待识别实体数据的处理过程也可以直接在客户端中实现,最后客户端再将处理得到的待识别实体数据直接发送至服务端。
S52:将所述待识别实体数据输入到实体识别模型中,得到识别信息,其中,所述实体识别模型是采用实体识别模型训练方法训练得到的。
服务端在获取到待识别实体数据之后,将识别实体数据输入到实体识别模型中,即得到识别信息。其中,识别信息是用于表征待识别实体数据的实体类型的数据。该实体识别模型是采用上述实施例中任一实施例所述的实体识别模型训练方法训练得到的。
示例性地,以上述实施例中步骤S21的示例模型为例,若此时输入的待识别实体数据为“小强去上海了”。则此时对应的三个实体子模型的输出结果分别为:
A(人名)=(B-per,I-per,O,O,O,O);
B(地名)=(O,O,O,B-loc,I-loc,O);
C(机构名)=(O,O,O,O,O,O);
上述三个实体子模型的输出结果即构成了识别信息。
在本实施例中,服务端在获取待识别实体数据之后,将所述待识别实体数据输入到实体识别模型中,得到识别信息,其中,所述实体识别模型是采用实体识别模型训练方法训练得到的。通过该实体识别模型对待识别实体数据进行识别,可以保证对待识别实体数据的实体识别的准确性,避免对多义实体词汇的识别误差。
在一个实施例中,所述识别信息包括每一所述实体子模型的识别向量。
其中,识别向量即为每一实体子模型的输出结果。
在本实施例中,如图6所示,在所述将所述待识别实体数据输入到实体识别模型中,得到识别信息之后,所述实体识别方法还包括:
S61:按照预设的策略将每一所述实体子模型的识别向量进行组合,得到组合向量。
在识别信息中,仅是各个实体子模型的识别向量。因此需要将各个实体子模型的识别向量进行组合,得到体现待识别实体数据整体的信息。该预设的策略为不同实体子模型的识别向量的组合方式。可选地,该预设的策略可以为按照待识别实体数据中的词汇的顺序对各个实体子模型的识别向量进行组合,并且,对其中的向量选择设置优先级。示例性地,对于同一词汇或者同一个字,在识别向量中,有意义的向量信息的优先级高于无意义的向量信息。例如,在步骤S52的示例中,B-per,I-per,B-loc和I-loc的优先级均高于O,如此,得到的组合向量为(B-per,I-per,O,B-loc,I-loc,O)。
进一步地,还可以为不同类型的实体类型设置优先级。例如,在地名和机构名之间设置其中一项的优先级更高,例如将机构名的优先级设置高于地名,如此,若代表机构名和地名两个实体子模型对同一词汇均有实质意义的向量时,最后组合时优选认定为机构名。
在一个具体实施方式中,在同一词汇在不同实体子模型均有实质意义时,进行并行输出。即将不同的向量进行排列组合,将每一组合后的向量均进行输出。示例性地,“白雪公主”可以代表的三种实体类型(一个故事、一首歌或者为一个名字)和其他词汇组合后都进行输出,即此时有多个组合向量。
优选地,在在同一词汇在不同实体子模型均有实质意义时,可以生成提示信息,以进行提醒。可选地,还可以触发特定环节,例如,进行上下文语义的辅助判断,从而进一步确定该词汇实质上代表的实体类型。
S62:对所述组合向量进行转化,得到输出数据。
在该步骤中,对组合向量进行实质数据的转化,得到输出数据。该输出数据可以为文字形式、语音形式或者图像形式的数据,以更直观地对待识别实体数据进行反馈。
在本实施例中,先按照预设的策略将每一所述实体子模型的识别向量进行组合,得到组合向量,再对所述组合向量进行转化,得到输出数据。可以保证该实体识别方法可以更好地对不同应用场景进行适配和兼容,并且更直观地对识别结果进行输出。进一步地,在同一词汇可能代表多个实体类型时,更加准确地进行结果呈现,并且可以根据不同的预设策略进行对应的调整。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在本发明一实施例中,提供一种实体识别模型训练装置,该实体识别模型训练装置与上述实施例中实体识别模型训练方法一一对应。如图7所示,该实体识别模型训练装置包括样本数据集获取模块71和实体识别模型训练模块72。各功能模块详细说明如下:
样本数据集获取模块71,用于获取样本数据集,所述样本数据集中每一样本数据都包括N个标注数据,N为正整数;
实体识别模型训练模块72,用于根据所述样本数据集,对预设的多层识别模型进行训练,得到实体识别模型,其中,所述多层识别模型包括主模型和N个实体子模型,且每一样本数据的每个标注数据对应一个实体子模型。
优选地,如图8所示,所述实体识别模型训练模块72包括向量转化单元81、共享向量获取单元82、输出向量获取单元83、误差损失计算单元84和误差更新单元85。
向量转化单元81,用于对所述样本数据集中的样本数据进行向量转化,得到样本向量;
共享向量获取单元82,用于将所述样本向量输入到主模型中,得到共享向量;
输出向量获取单元83,用于将所述共享向量分别输入到每一实体子模型中,得到每一实体子模型的输出向量;
误差损失计算单元84,用于根据所述输出向量和对应的标签数据得到每一实体子模型的误差损失;
误差更新单元85,用于根据每一实体子模型的误差损失更新所述多层识别模型。
优选地,所述误差损失计算单元84还用于根据每一实体子模型的误差损失更新对应的实体子模型;根据N个实体子模型的N个误差损失更新所述主模型。
关于实体识别模型训练装置的具体限定可以参见上文中对于实体识别模型训练方法的限定,在此不再赘述。上述实体识别模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在本发明一实施例中,提供一种实体识别装置,该实体识别装置与上述实施例中实体识别方法一一对应。如图9所示,该实体识别装置包括待识别数据获取模块91和数据识别模块92。各功能模块详细说明如下:
待识别数据获取模块91,用于获取待识别实体数据;
数据识别模块92,用于将所述待识别实体数据输入到实体识别模型中,得到识别信息,其中,所述实体识别模型是采用实体识别模型训练方法训练得到的。
优选地,所述识别信息包括每一所述实体子模型的识别向量。该实体识别装置还用于按照预设的策略将每一所述实体子模型的识别向量进行组合,得到组合向量;对所述组合向量进行转化,得到输出数据。
关于实体识别装置的具体限定可以参见上文中对于实体识别方法的限定,在此不再赘述。上述实体识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在本发明一实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中实体识别模型训练方法所使用到的数据,或者,该计算机设备的数据库用于存储上述实施例中实体识别方法所使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种实体识别模型训练方法,或者,该计算机程序被处理器执行时以实现一种实体识别方法。
在本发明一实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实体识别模型训练方法的步骤,或者,所述处理器执行所述计算机程序时实现上述实体识别方法的步骤。
在本发明一实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实体识别模型训练方法的步骤,或者,所述计算机程序被处理器执行时实现上述实体识别方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (8)
1.一种实体识别模型训练方法,用于自然语言处理中的语义识别,其特征在于,包括:
获取样本数据集,所述样本数据集中每一样本数据都包括N个标注数据,N为正整数;所述样本数据为词汇、句子或者段落,所述标注数据与实体类型相对应;
根据所述样本数据集,对预设的多层识别模型进行训练,得到实体识别模型,其中,所述多层识别模型包括主模型和N个实体子模型,且每一样本数据的每个标注数据对应一个实体子模型;
其中,所述根据所述样本数据集,对预设的多层识别模型进行训练,包括:
对所述样本数据集中的样本数据进行向量转化,得到样本向量;
将所述样本向量输入到主模型中,得到共享向量;
将所述共享向量分别输入到每一实体子模型中,得到每一实体子模型的输出向量;
根据所述输出向量和对应的标签数据得到每一实体子模型的误差损失;
根据每一实体子模型的误差损失更新所述多层识别模型。
2.如权利要求1所述的实体识别模型训练方法,其特征在于,所述根据所述输出向量和对应的标签数据得到每一实体子模型的误差损失,包括:
根据每一所述实体子模型的误差损失更新对应的实体子模型;
根据N个所述实体子模型的N个误差损失更新所述主模型。
3.一种实体识别方法,其特征在于,包括:
获取待识别实体数据;
将所述待识别实体数据输入到实体识别模型中,得到识别信息,其中,所述实体识别模型是采用如权利要求1或2所述的实体识别模型训练方法训练得到的。
4.如权利要求3所述的实体识别方法,其特征在于,所述识别信息包括每一所述实体子模型的识别向量;
在所述将所述待识别实体数据输入到实体识别模型中,得到识别信息之后,所述实体识别方法还包括:
按照预设的策略将每一所述实体子模型的识别向量进行组合,得到组合向量;
对所述组合向量进行转化,得到输出数据。
5.一种实体识别模型训练装置,用于自然语言处理中的语义识别,其特征在于,包括:
样本数据集获取模块,用于获取样本数据集,所述样本数据集中每一样本数据都包括N个标注数据,N为正整数;所述样本数据为词汇、句子或者段落,所述标注数据与实体类型相对应;
实体识别模型训练模块,用于根据所述样本数据集,对预设的多层识别模型进行训练,得到实体识别模型,其中,所述多层识别模型包括主模型和N个实体子模型,且每一样本数据的每个标注数据对应一个实体子模型;
其中,所述实体识别模型训练模块包括:
向量转化单元,用于对所述样本数据集中的样本数据进行向量转化,得到样本向量;
共享向量获取单元,用于将所述样本向量输入到主模型中,得到共享向量;
输出向量获取单元,用于将所述共享向量分别输入到每一实体子模型中,得到每一实体子模型的输出向量;
误差损失计算单元,用于根据所述输出向量和对应的标签数据得到每一实体子模型的误差损失;
误差更新单元,用于根据每一实体子模型的误差损失更新所述多层识别模型。
6.一种实体识别装置,其特征在于,包括:
待识别数据获取模块,用于获取待识别实体数据;
数据识别模块,用于将所述待识别实体数据输入到实体识别模型中,得到识别信息,其中,所述实体识别模型是采用如权利要求1或2所述的实体识别模型训练方法训练得到的。
7.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1或2所述实体识别模型训练方法的步骤,或者,所述处理器执行所述计算机程序时实现如权利要求3或4所述实体识别方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1或2所述实体识别模型训练方法的步骤,或者,所述计算机程序被处理器执行时实现如权利要求3或4所述实体识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910808242.6A CN110598210B (zh) | 2019-08-29 | 2019-08-29 | 实体识别模型训练、实体识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910808242.6A CN110598210B (zh) | 2019-08-29 | 2019-08-29 | 实体识别模型训练、实体识别方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110598210A CN110598210A (zh) | 2019-12-20 |
CN110598210B true CN110598210B (zh) | 2023-08-04 |
Family
ID=68856246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910808242.6A Active CN110598210B (zh) | 2019-08-29 | 2019-08-29 | 实体识别模型训练、实体识别方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598210B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626098B (zh) * | 2020-04-09 | 2023-04-18 | 北京迈格威科技有限公司 | 模型的参数值更新方法、装置、设备及介质 |
CN111738005A (zh) * | 2020-06-19 | 2020-10-02 | 平安科技(深圳)有限公司 | 命名实体对齐方法、装置、电子设备及可读存储介质 |
CN113791798B (zh) * | 2020-06-28 | 2024-06-18 | 北京沃东天骏信息技术有限公司 | 模型更新方法及装置、计算机存储介质、电子设备 |
CN112037782A (zh) * | 2020-06-30 | 2020-12-04 | 北京来也网络科技有限公司 | 一种结合rpa与ai的早媒体识别方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615589A (zh) * | 2015-02-15 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 训练命名实体识别模型的方法、命名实体识别方法及装置 |
CN106598950A (zh) * | 2016-12-23 | 2017-04-26 | 东北大学 | 一种基于混合层叠模型的命名实体识别方法 |
CN108920460A (zh) * | 2018-06-26 | 2018-11-30 | 武大吉奥信息技术有限公司 | 一种多类型实体识别的多任务深度学习模型的训练方法及装置 |
CN109145303A (zh) * | 2018-09-06 | 2019-01-04 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、介质以及设备 |
CN109299458A (zh) * | 2018-09-12 | 2019-02-01 | 广州多益网络股份有限公司 | 实体识别方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209830B (zh) * | 2018-02-12 | 2023-06-06 | 株式会社理光 | 实体链接方法、装置、设备、计算机可读存储介质 |
-
2019
- 2019-08-29 CN CN201910808242.6A patent/CN110598210B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615589A (zh) * | 2015-02-15 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 训练命名实体识别模型的方法、命名实体识别方法及装置 |
CN106598950A (zh) * | 2016-12-23 | 2017-04-26 | 东北大学 | 一种基于混合层叠模型的命名实体识别方法 |
CN108920460A (zh) * | 2018-06-26 | 2018-11-30 | 武大吉奥信息技术有限公司 | 一种多类型实体识别的多任务深度学习模型的训练方法及装置 |
CN109145303A (zh) * | 2018-09-06 | 2019-01-04 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、介质以及设备 |
CN109299458A (zh) * | 2018-09-12 | 2019-02-01 | 广州多益网络股份有限公司 | 实体识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110598210A (zh) | 2019-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021047286A1 (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
CN110598210B (zh) | 实体识别模型训练、实体识别方法、装置、设备及介质 | |
US20230100376A1 (en) | Text sentence processing method and apparatus, computer device, and storage medium | |
CN110688853B (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
US20240004703A1 (en) | Method, apparatus, and system for multi-modal multi-task processing | |
CN110298019A (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN112084789B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN113157863B (zh) | 问答数据处理方法、装置、计算机设备及存储介质 | |
CN112287089B (zh) | 用于自动问答系统的分类模型训练、自动问答方法及装置 | |
CN111831826B (zh) | 跨领域的文本分类模型的训练方法、分类方法以及装置 | |
CN113297366B (zh) | 多轮对话的情绪识别模型训练方法、装置、设备及介质 | |
CN112380837B (zh) | 基于翻译模型的相似句子匹配方法、装置、设备及介质 | |
CN111142681B (zh) | 一种确定汉字拼音的方法、系统、装置及存储介质 | |
US11036996B2 (en) | Method and apparatus for determining (raw) video materials for news | |
CN113807973B (zh) | 文本纠错方法、装置、电子设备及计算机可读存储介质 | |
CN112766319A (zh) | 对话意图识别模型训练方法、装置、计算机设备及介质 | |
CN113536735A (zh) | 一种基于关键词的文本标记方法、系统和存储介质 | |
CN114881035A (zh) | 训练数据的增广方法、装置、设备和存储介质 | |
CN113836192B (zh) | 平行语料的挖掘方法、装置、计算机设备及存储介质 | |
CN113919363A (zh) | 基于人工智能的句向量生成模型的处理方法、装置及设备 | |
CN113723077A (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
CN115098722B (zh) | 文本和图像的匹配方法、装置、电子设备和存储介质 | |
WO2023178979A1 (zh) | 问题标注方法、装置、电子设备及存储介质 | |
CN111340117A (zh) | Ctc模型的训练方法和数据处理方法、装置及存储介质 | |
CN113435180B (zh) | 文本纠错方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231212 Address after: Room 601, 6th Floor, Building 13, No. 3 Jinghai Fifth Road, Beijing Economic and Technological Development Zone (Tongzhou), Tongzhou District, Beijing, 100176 Patentee after: Beijing Youbixuan Intelligent Robot Co.,Ltd. Address before: 518000 16th and 22nd Floors, C1 Building, Nanshan Zhiyuan, 1001 Xueyuan Avenue, Nanshan District, Shenzhen City, Guangdong Province Patentee before: Shenzhen UBTECH Technology Co.,Ltd. |