CN111859964A - 一种语句中命名实体的识别方法及装置 - Google Patents
一种语句中命名实体的识别方法及装置 Download PDFInfo
- Publication number
- CN111859964A CN111859964A CN201910354890.9A CN201910354890A CN111859964A CN 111859964 A CN111859964 A CN 111859964A CN 201910354890 A CN201910354890 A CN 201910354890A CN 111859964 A CN111859964 A CN 111859964A
- Authority
- CN
- China
- Prior art keywords
- word
- sentence
- character
- vector
- vector corresponding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本发明的实施例公开了一种语句中命名实体的识别方法及装置,在获取到目标语句的字符向量和词向量后,将每一字符对应的字符向量和每一单词对应的词向量输入到预先训练的识别模型中,由识别模型输出每一单词对应的表示单词属性的标签,在根据每一单词对应的标签输出目标语句中的属于命名实体的单词。识别模型通过注意力函数字向量和词向量进行加权结合,各单词相对于整个语句其它单词为命名实体的权重,提取出对命名实体识别的有用信息,弱化语句中不属于命名实体的单词对模型训练过程的影响,不仅提高了训练的识别模型识别命名实体的准确率,也加快了模型训练过程的收敛速度,缩短了训练时间。
Description
技术领域
本发明涉及机器学习和语句处理技术领域,尤其是涉及一种语句中命名实体的识别方法及装置。
背景技术
命名实体识别(NER)是自然语言处理中一些复杂任务(例如信息抽取、问答系统、机器翻译)的基础工作,指从一段自然语言文本中找出命名性指称项,并标注其位置和类型。现有技术是通过基于传统机器学习的方法,利用大规模语料来学习出标注模型,从而对句子的各个位置进行标注。常用的应用到NER任务的模型主要包括生成式模型隐马尔科夫(HMM)、判别式模型条件随机场(CRF)等。目前常用的方法是通过人工定义一些二值特征函数,挖掘命名实体内部以及上下文的构成特点。对于句子中的给定位置,提取的特征是一个位置,即上下文位置。并且不同的特征模板之间可以进行组合来形成一个新的特征模板。然后,对句子进行各个位置提取特征时,将这些特征输入CRF,它的目标函数不仅考虑输入的状态特征函数,而且还包含了标签转移特征函数。在已知模型时,给输入序列求预测输出序列即求使目标函数最大化的最优序列,是一个动态规划问题,使用维特比算法进行解码。
然而,传统的方法主要缺点是训练时间复杂性非常高,收敛速度慢、训练时间长,有时甚至导致训练代价难以承受,虽然考虑到了词语在字符层面的形态特征,但是拼接的方法简单粗暴,难以根据训练数据灵活调整字符特征和词语特征之间的权重;另外,没有考虑到具体的训练数据分布对于字符向量权重的影响,很难学习到字符间的分布规律。
在实际应用过程中,发明人发现现有的识别语句中的命名实体的方法没有考虑各单词相对于整个语句其它单词为命名实体的权重,这种给每一单词赋予相同权重的方法使得模型的训练过程较为复杂,耗时较长。
发明内容
本发明实施例提供一种语句中命名实体的识别方法及装置,用以解决现有技术中识别语句中的命名实体的方法没有考虑各单词相对于整个语句其它单词为命名实体的权重,这种给每一单词赋予相同权重的方法使得模型的训练过程较为复杂,耗时较长的问题。
针对以上技术问题,本发明的实施例提供了一种语句中命名实体的识别方法,包括:
对欲进行命名实体识别的目标语句,获取根据所述目标语句得到的每一字符对应的字符向量和从所述目标语句中划分的每一单词对应的词向量;
将每一字符对应的字符向量和每一单词对应的词向量输入到预先训练的识别模型中,由所述识别模型输出每一单词对应的表示单词属性的标签;
根据每一单词对应的标签输出所述目标语句中的属于命名实体的单词;
其中,所述识别模型根据输入的所述目标语句的字符向量和词向量,通过注意力函数生成每一单词对应的语句特征向量,由每一单词对应的语句特征向量确定每一单词对应的标签;单词属性包括人名词、地名词和机构名词。
本发明的实施例提供了一种语句中命名实体的识别装置,包括:
获取模块,用于对欲进行命名实体识别的目标语句,获取根据所述目标语句得到的每一字符对应的字符向量和从所述目标语句中划分的每一单词对应的词向量;
识别模块,用于将每一字符对应的字符向量和每一单词对应的词向量输入到预先训练的识别模型中,由所述识别模型输出每一单词对应的表示单词属性的标签;
输出模块,用于根据每一单词对应的标签输出所述目标语句中的属于命名实体的单词;
其中,所述识别模型根据输入的所述目标语句的字符向量和词向量,通过注意力函数生成每一单词对应的语句特征向量,由每一单词对应的语句特征向量确定每一单词对应的标签;单词属性包括人名词、地名词和机构名词。
本发明的实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以上所述的语句中命名实体的识别方法的步骤。
本发明的实施例提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以上所述的语句中命名实体的识别方法的步骤。
本发明的实施例提供了一种语句中命名实体的识别方法及装置,在获取到目标语句的字符向量和词向量后,将每一字符对应的字符向量和每一单词对应的词向量输入到预先训练的识别模型中,由识别模型输出每一单词对应的表示单词属性的标签,在根据每一单词对应的标签输出目标语句中的属于命名实体的单词。识别模型通过注意力函数字向量和词向量进行加权结合,各单词相对于整个语句其它单词为命名实体的权重,提取出对命名实体识别的有用信息,弱化语句中不属于命名实体的单词对模型训练过程的影响,不仅提高了训练的识别模型识别命名实体的准确率,也加快了模型训练过程的收敛速度,缩短了训练时间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种语句中命名实体的识别方法的流程示意图;
图2是本发明另一个实施例提供的语句中命名实体的识别的原理示意图;
图3是本发明另一个实施例提供的一种语句中命名实体的识别装置的结构框图;
图4是本发明另一个实施例提供的电子设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本实施例提供的一种语句中命名实体的识别方法的流程示意图,参见图1,该方法包括:
101:对欲进行命名实体识别的目标语句,获取根据所述目标语句得到的每一字符对应的字符向量和从所述目标语句中划分的每一单词对应的词向量;
102:将每一字符对应的字符向量和每一单词对应的词向量输入到预先训练的识别模型中,由所述识别模型输出每一单词对应的表示单词属性的标签;
103:根据每一单词对应的标签输出所述目标语句中的属于命名实体的单词;
其中,所述识别模型根据输入的所述目标语句的字符向量和词向量,通过注意力函数生成每一单词对应的语句特征向量,由每一单词对应的语句特征向量确定每一单词对应的标签;单词属性包括人名词、地名词和机构名词。
本实施例提供的方法由安装了执行上述步骤的软件的设备执行,该设备可以是服务器或者终端,本实施例对此不做具体限制。该设备对输入的目标语句进行处理,或者对输入的文章逐句进行处理,提取命名实体。例如,对谋篇文章,由于各方撰稿人提供的文章标题有可能不能反应文章的关键内容,那么根据通过上述方法提取的命名实体可以重新生成表明各命名实体之间关系的语句,将该语句作为对该文章的描述性语句,在某一搜索引擎的搜索库中建立该描述性语句和该文章的对应关系,以通过该描述性语句或者从该文章提取的命名实体实现对该文章的快速搜索。
进一步地,还包括:通过输出的命名实体生成新的语句,将新的语句作为搜索到所述目标语句的描述性语句,存储所述描述性语句与所述目标语句的对应关系,以通过所述描述性语句或者由所述识别模型输出的命名实体搜索到所述目标语句。
从目标语句中获取每一字符对应的字符向量可以是通过预先训练的模型获取,也可以通过预先存储的字符与字符向量的映射关系生成。从目标语句中获取划分的每一单词对应的词向量,可以是通过预先训练的模型划分出目标语句中的单词,再生成每一单词对应的词向量,也可以是预先以某一设定分词标准将目标语句划分为单词,再根据预先存储的单词与词向量的映射关系生成。识别模型为训练的根据输入的字符向量和词向量输出各单词对应的表示单词属性的标签的模型。单词属性包括人名词、地名词和机构名词,或者动词、形容词等。
本实施例提供了一种语句中命名实体的识别方法,在获取到目标语句的字符向量和词向量后,将每一字符对应的字符向量和每一单词对应的词向量输入到预先训练的识别模型中,由识别模型输出每一单词对应的表示单词属性的标签,在根据每一单词对应的标签输出目标语句中的属于命名实体的单词。识别模型通过注意力函数字向量和词向量进行加权结合,各单词相对于整个语句其它单词为命名实体的权重,提取出对命名实体识别的有用信息,弱化语句中不属于命名实体的单词对模型训练过程的影响,不仅提高了训练的识别模型识别命名实体的准确率,也加快了模型训练过程的收敛速度,缩短了训练时间。
进一步地,在上述实施例的基础上,对所述识别模型的训练包括:
获取若干样本语句,对每一样本语句,预先划分出所述样本语句中的单词,获取所述样本语句中每一字符对应的字符向量和每一单词对应的词向量,并对划分出的每一单词添加表示单词属性的标签,将所述样本语句中每一字符对应的字符向量和每一单词对应的词向量作为循环神经网络的输入参数,将所述样本语句的每一单词对应的标签作为期望输出,对所述循环神经网络进行训练,得到所述识别模型;
其中,在对所述循环神经网络进行训练的过程中,所述循环神经网络根据输入的字符向量和词向量,通过注意力函数生成每一单词对应的语句特征向量,由每一单词对应的语句特征向量确定每一单词对应的标签。
进一步地,在上述各实施例的基础上,所述在对所述循环神经网络进行训练的过程中,所述循环神经网络根据输入的字符向量和词向量,通过注意力函数生成每一单词对应的语句特征向量,由每一单词对应的语句特征向量确定每一单词对应的标签,包括:
在对所述循环神经网络进行训练的过程中,所述循环神经网络通过公式Zt=σ[w3*tanh(w1*Xt+w2*mt)]和X′t=Zt*Xt+(1-Zt)*mt计算每一单词对应的语句特征向量;
由每一单词对应的语句特征向量,通过条件随机场确定所述单词的单词属性为每一预设标签的概率,将所述单词的单词属性为每一预设标签的概率作为所述识别模型的输出;
其中,所述循环神经网络为双向长短时记忆网络,w1、w2和w3为所述注意力函数的参数值,y=σ(x)为sigmoid函数,对于任一单词,Xt为t时刻输入到所述循环神经网络的所述单词的词向量,mt为t时刻输入到所述循环神经网络的所述单词的字符向量,Zt为所述单词对应的权重,X′t为所述单词对应的语句特征向量。
训练识别模型的过程实际上是对双向长短时记忆网络(LSTM)中隐藏层中注意力函数的参数w1、w2和w3进行调整的过程,使得通过注意力函数(即Zt=σ[w3*tanh(w1*Xt+w2*mt)]和X′t=Zt*Xt+(1-Zt)*mt)生成的语句特征向量X′t是对单词的词向量和字符向量进行加权拼接的结果,在训练的过程中能够迅速通过权重调整输出的语句特征向量,快速缩小训练的模型的实际输出与期望输出之间的差异,得到识别准确率较高的识别模型。
在训练的过程中,通过注意力函数生成语句特征向量后,是通过条件随机场(CRF)来确定每一语句特征向量对应的标签的。进一步地,本实施例提供的方法通过贪婪算法计算出每一单词的单词属性为每一预设标签的概率。
本实施例提供了一种语句中命名实体的识别方法,通过注意力函数中的加权拼接生成语句特征向量,加快了模型训练的收敛速度,提高了训练效率。通过贪婪算法确定单词对应的标签,使得在确定单词标签时能够考虑到其为每一预设标签的可能性。
进一步地,在上述各实施例的基础上,所述对每一样本语句,预先划分出所述样本语句中的单词,获取所述样本语句中每一字符对应的字符向量和每一单词对应的词向量,并对划分出的每一单词添加表示单词属性的标签,将所述样本语句中每一字符对应的字符向量和每一单词对应的词向量作为循环神经网络的输入参数,将所述样本语句的每一单词对应的标签作为期望输出,对所述循环神经网络进行训练,包括:
对每一样本语句,将所述样本语句输入到预先训练的分字模型中,得到所述样本语句中每一字符对应字符向量,将所述样本语句输入到预先训练的分词模型中,得到所述样本语句中每一单词对应的词向量,将由所述分字模型得到的字符向量和由所述分词模型得到的词向量作为循环神经网络的输入参数;
预先依照设定分词标准划分出所述样本语句中的单词,对依照所述设定分词标准划分的每一单词添加表示单词属性的标签,将依照所述设定分词标准划分的每一单词和每一单词对应的标签作为期望输出,对所述循环神经网络进行训练。
其中,分字模型为对卷积申请网络CNN进行训练得到的模型,分词模型为对word2vec进行训练得到的模型。设定分词标准为人为确定的划分语句中词语的标准,例如,人为通过该设定分词标准划分出样本语句中的单词,并对每一单词添加标签,作为期望输出。
卷积神经网络中的卷积层能够很好地描述数据的局部特征,通过池化层可以进一步提取出局部特征中最具有代表性的部分。因此,本发明利用CNN抽取出句子中字符级的特征。CNN的结构主要有字符向量表,卷积层,池化层组成。字符向量表将一个字转化成字符向量,传入CNN结构中,提取出字的特征。字符向量表在模型训练的过程中,通过反向传播算法不断更新。卷积层使用一个大小是T的卷积核在单词的字符向量矩阵上进行卷积来提取出局部特征,卷积核大小T决定了可以提取单词周围T个词的特征,最后通过池化层获得字符级特征向量。
图2为本实施例提供的语句中命名实体的识别的原理示意图,参见图2,对于目标语句,将其分别输入到分字模型得到字符向量,输入到分词模型得到词向量,将得到字符向量和词向量输入到训练的识别模型中,识别模型中的双向长短时记忆网络(LSTM)通过注意力函数生成单词对应的语句特征向量,通过CRF生成每一单词对应的标签。
本实施例提供了一种语句中命名实体的识别方法,在训练的过程中通过分字模型和分词模型生成字符向量和词向量,实现了对语句快速向量化。
进一步地,在上述各实施例的基础上,还包括:
在训练次数超过预设训练次数后,若对所述循环神经网络进行训练得到的当前模型的实际输出与所述期望输出的差异大于预设差异,则对所述分词模型和所述分字模型中的参数进行调整,直到将由调整后的分词模型得到的词向量和由分字模型得到的字符向量输入到所述当前模型后,所述当前模型的实际输出与所述期望输出的差异小于或等于所述预设差异,将所述当前模型作为所述识别模型,将由调整后的分词模型输出的词向量和由调整后分字模型输出的字符向量作为所述识别模型的输入参数;
其中,若所述实际输出中存在与所述期望输出中不一致的单词,则所述实际输出与所述期望输出的差异大于所述预设差异。
需要说明的是,有可能存在分词模型输出的词向量或者分字模型输出的字符向量与通过上述设定分词标准得到的词向量和字符向量不同的情况,在这种情况下需要对分词模型和分字模型进行训练,保证当分词模型、分字模型和识别模型配合使用时,能够输出正确的标签。
本实施例提供了一种语句中命名实体的识别方法,通过对对分词模型和分字模型进行训练,保证输入到识别模型的字符向量和词向量能够在通过识别模型后输出正确的标签。在提供快速生成字符向量和词向量的方法的同时,提高了分词模型、分字模型和识别模型配合使用时输出结果的准确性。
进一步地,在上述各实施例的基础上,所述根据每一单词对应的标签输出所述目标语句中的属于命名实体的单词,包括:
对每一单词,获取由所述识别模型输出的所述单词的单词属性为每一预设标签的概率,在每一预设标签中判断是否存在为命名实体,且对应的概率大于预设概率的预设标签,若是,所述单词属于命名实体,输出所述目标语句中属于命名实体的所有单词。
通过上述方法训练的识别模型,对每一单词,均输出了该单词为每一预设标签的概率。当输出属于命名实体的单词时,通过识别模型输出的各标签对应的概率确定。预设概率为设定值,例如,50%。
本实施例提供了一种语句中命名实体的识别方法,对每一单词,若各预设标签中存在为命名实体且概率大于预设概率的预设标签,则该单词属于命名实体。
进一步地,在上述各实施例的基础上,所述根据所述目标语句得到的每一字符对应的字符向量和从所述目标语句中划分的每一单词对应的词向量,包括:
将所述目标语句输入到所述分字模型中得到字符向量,将所述目标语句输入到所述分词模型中得到分词向量,将由所述分字模型输出的字符向量和由所述分词模型输出的分词向量作为输入到所述识别模型中的字符向量和词向量。
通过上述方法训练了分字模型和分词模型,在对目标语句进行命名实体识别时,可以将分字模型、分词模型和识别模型配合使用,不仅能够快速获取目标语句的字符向量和词向量,还能对该目标语句中的命名实体进行快速识别。
具体来说,本实施例提供的方法结合了LSTM和CRF进行中文的命名实体识别,模型训练过程通常包括:(1)对训练数据进行预处理操作,通过字符层级的映射获得句子的字符向量;(2)将步骤(1)中获得的字符向量输入CNN网络,获得每个词语的字向量表征;(3)通过word2vec模型获得词向量表征;(4)通过注意力机制对步骤(3)中获得的词向量表征和步骤(2)中获得的字符向量表征进行拼接,传入双向LSTM神经网络,获得句子的语义特征向量;(5)针对步骤(4)中得到的语义特征向量,利用条件随机场对每个单词进行实体标注,解码出实体标签。
对上述步骤(1),对训练数据进逐个字的拆分,对字和标签进行统计,得到字符表C和标签表L,通过字符层级的Embedding映射获得句子的字符向量表征。令dc为每个字符向量的维度,nc为拆解为字符的句子长度含空格,则获得的句子表达Sc∈Rncxdc。
对于上述步骤(2),将步骤(1)中获得的字符向量表征Sc输入CNN网络。
对于上述步骤(3),初始化预训练词向量为映射矩阵,通过word2vec模型训练词向量,利用中文语料进行训练,先将语料进行分词,分词采用了jieba工具,令dw为每个字符向量的维度,n为拆解为词语的句子长度,通过词语层级的Embedding映射,获得的句子的词向量表征。为了解决词长度不同导致词向量表征不同的问题,以最长的词语为准,在词的空白出补充占位符,使得所有词的词向量表征长度一致。
对于上述步骤(4),令Xt和mt分别表示t时刻输入的词向量表征和字符向量表征,通过构造注意力函数实现字符向量和词向量的加权拼接,得到语句特征向量。将得到的语句特征向量输入一个双向LSTM网络。其中,长短时记忆网络(LSTM)是一种特殊的循环神经网络(RNN)模型,其克服传统RNN模型由于序列过长而产生梯度弥散的问题。采用双向的LSTM网络,分别从第一个词开始,从左到右递归和从最后一个词开始从右向左递归,能够有效利用上下文信息,得到的隐藏层输出H={h1,h2,h3,h4...,hn}(n为输入的句子包含词语的个数)即为句子的语句特征向量。
对于上述步骤(5),将步骤(4)中得到的输出序列H={h1,h2,h3,h4...,hn}作为CRF层的输入。令y={y1,y2,y3,y4...,yn}表示CRF层可能的输出标签。求解CRF参数采用修正的Viterbi算法从学习结果中选取最佳标记序列。在选取序列时,设定选取序列概率值的阈值,通过这个阈值去确定是否为最优结果,若超过则认为是最优结果,若未超过,则采用改进的贪婪算法对其重新标记,重新选取结果。改进的贪婪算法是通过获取权重最大的路径,选择的词越长出现的频率也就不大于比它更短的词,以此来找到切分结果。
需要说明的是,在训练阶段,优化器采用Adam,学习率选用0.001,同时在双向LSTM的输入和输出部分增加Dropout减轻过拟合现象,dropout选取0.7。在测试阶段,通过公式y*=argmaxy∈YHs(H,y’)从所有可能的标签序列中找出条件概率最高的对序列进行标注。
本实施提供的方法使用卷积神经网络提取字向量特征,增加了特征数目。通过注意力机制将字向量和词向量进行加权结合,提取出对NER标注任务有用信息,加快了训练的收敛速度,提高了进行命名实体识别的准确性。
图3示出了本发明的实施例提供的一种语句中命名实体的识别装置的结构框图,参见图3,本实施例提供的一种语句中命名实体的识别装置,包括获取模块301、识别模块302和输出模块303,其中,
获取模块301,用于对欲进行命名实体识别的目标语句,获取根据所述目标语句得到的每一字符对应的字符向量和从所述目标语句中划分的每一单词对应的词向量;
识别模块302,用于将每一字符对应的字符向量和每一单词对应的词向量输入到预先训练的识别模型中,由所述识别模型输出每一单词对应的表示单词属性的标签;
输出模块303,用于根据每一单词对应的标签输出所述目标语句中的属于命名实体的单词;
其中,所述识别模型根据输入的所述目标语句的字符向量和词向量,通过注意力函数生成每一单词对应的语句特征向量,由每一单词对应的语句特征向量确定每一单词对应的标签;单词属性包括人名词、地名词和机构名词。
本实施例提供的语句中命名实体的识别装置适用于上述实施例中提供的语句中命名实体的识别方法,在此不再赘述。
本发明的实施例提供了一种语句中命名实体的识别装置,在获取到目标语句的字符向量和词向量后,将每一字符对应的字符向量和每一单词对应的词向量输入到预先训练的识别模型中,由识别模型输出每一单词对应的表示单词属性的标签,在根据每一单词对应的标签输出目标语句中的属于命名实体的单词。识别模型通过注意力函数字向量和词向量进行加权结合,各单词相对于整个语句其它单词为命名实体的权重,提取出对命名实体识别的有用信息,弱化语句中不属于命名实体的单词对模型训练过程的影响,不仅提高了训练的识别模型识别命名实体的准确率,也加快了模型训练过程的收敛速度,缩短了训练时间。
图4是示出本实施例提供的电子设备的结构框图。
参照图4,所述电子设备包括:处理器(processor)410、通信接口(CommunicationsInterface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行如下方法:对欲进行命名实体识别的目标语句,获取根据所述目标语句得到的每一字符对应的字符向量和从所述目标语句中划分的每一单词对应的词向量;将每一字符对应的字符向量和每一单词对应的词向量输入到预先训练的识别模型中,由所述识别模型输出每一单词对应的表示单词属性的标签;根据每一单词对应的标签输出所述目标语句中的属于命名实体的单词;其中,所述识别模型根据输入的所述目标语句的字符向量和词向量,通过注意力函数生成每一单词对应的语句特征向量,由每一单词对应的语句特征向量确定每一单词对应的标签;单词属性包括人名词、地名词和机构名词。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行如下方法:对欲进行命名实体识别的目标语句,获取根据所述目标语句得到的每一字符对应的字符向量和从所述目标语句中划分的每一单词对应的词向量;将每一字符对应的字符向量和每一单词对应的词向量输入到预先训练的识别模型中,由所述识别模型输出每一单词对应的表示单词属性的标签;根据每一单词对应的标签输出所述目标语句中的属于命名实体的单词;其中,所述识别模型根据输入的所述目标语句的字符向量和词向量,通过注意力函数生成每一单词对应的语句特征向量,由每一单词对应的语句特征向量确定每一单词对应的标签;单词属性包括人名词、地名词和机构名词。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如,包括:对欲进行命名实体识别的目标语句,获取根据所述目标语句得到的每一字符对应的字符向量和从所述目标语句中划分的每一单词对应的词向量;将每一字符对应的字符向量和每一单词对应的词向量输入到预先训练的识别模型中,由所述识别模型输出每一单词对应的表示单词属性的标签;根据每一单词对应的标签输出所述目标语句中的属于命名实体的单词;其中,所述识别模型根据输入的所述目标语句的字符向量和词向量,通过注意力函数生成每一单词对应的语句特征向量,由每一单词对应的语句特征向量确定每一单词对应的标签;单词属性包括人名词、地名词和机构名词。
以上所描述的电子设备等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。
Claims (10)
1.一种语句中命名实体的识别方法,其特征在于,包括:
对欲进行命名实体识别的目标语句,获取根据所述目标语句得到的每一字符对应的字符向量和从所述目标语句中划分的每一单词对应的词向量;
将每一字符对应的字符向量和每一单词对应的词向量输入到预先训练的识别模型中,由所述识别模型输出每一单词对应的表示单词属性的标签;
根据每一单词对应的标签输出所述目标语句中的属于命名实体的单词;
其中,所述识别模型根据输入的所述目标语句的字符向量和词向量,通过注意力函数生成每一单词对应的语句特征向量,由每一单词对应的语句特征向量确定每一单词对应的标签;单词属性包括人名词、地名词和机构名词。
2.根据权利要求1所述的语句中命名实体的识别方法,其特征在于,对所述识别模型的训练包括:
获取若干样本语句,对每一样本语句,预先划分出所述样本语句中的单词,获取所述样本语句中每一字符对应的字符向量和每一单词对应的词向量,并对划分出的每一单词添加表示单词属性的标签,将所述样本语句中每一字符对应的字符向量和每一单词对应的词向量作为循环神经网络的输入参数,将所述样本语句的每一单词对应的标签作为期望输出,对所述循环神经网络进行训练,得到所述识别模型;
其中,在对所述循环神经网络进行训练的过程中,所述循环神经网络根据输入的字符向量和词向量,通过注意力函数生成每一单词对应的语句特征向量,由每一单词对应的语句特征向量确定每一单词对应的标签。
3.根据权利要2所述的语句中命名实体的识别方法,其特征在于,所述在对所述循环神经网络进行训练的过程中,所述循环神经网络根据输入的字符向量和词向量,通过注意力函数生成每一单词对应的语句特征向量,由每一单词对应的语句特征向量确定每一单词对应的标签,包括:
在对所述循环神经网络进行训练的过程中,所述循环神经网络通过公式Zt=σ[w3*tanh(w1*Xt+w2*mt)]和X′t=Zt*Xt+(1-Zt)*mt计算每一单词对应的语句特征向量;
由每一单词对应的语句特征向量,通过条件随机场确定所述单词的单词属性为每一预设标签的概率,将所述单词的单词属性为每一预设标签的概率作为所述识别模型的输出;
其中,所述循环神经网络为双向长短时记忆网络,w1、w2和w3为所述注意力函数的参数值,y=σ(x)为sigmoid函数,对于任一单词,Xt为t时刻输入到所述循环神经网络的所述单词的词向量,mt为t时刻输入到所述循环神经网络的所述单词的字符向量,Zt为所述单词对应的权重,X′t为所述单词对应的语句特征向量。
4.根据权利要2所述的语句中命名实体的识别方法,其特征在于,所述对每一样本语句,预先划分出所述样本语句中的单词,获取所述样本语句中每一字符对应的字符向量和每一单词对应的词向量,并对划分出的每一单词添加表示单词属性的标签,将所述样本语句中每一字符对应的字符向量和每一单词对应的词向量作为循环神经网络的输入参数,将所述样本语句的每一单词对应的标签作为期望输出,对所述循环神经网络进行训练,包括:
对每一样本语句,将所述样本语句输入到预先训练的分字模型中,得到所述样本语句中每一字符对应字符向量,将所述样本语句输入到预先训练的分词模型中,得到所述样本语句中每一单词对应的词向量,将由所述分字模型得到的字符向量和由所述分词模型得到的词向量作为循环神经网络的输入参数;
预先依照设定分词标准划分出所述样本语句中的单词,对依照所述设定分词标准划分的每一单词添加表示单词属性的标签,将依照所述设定分词标准划分的每一单词和每一单词对应的标签作为期望输出,对所述循环神经网络进行训练。
5.根据权利要4所述的语句中命名实体的识别方法,其特征在于,还包括:
在训练次数超过预设训练次数后,若对所述循环神经网络进行训练得到的当前模型的实际输出与所述期望输出的差异大于预设差异,则对所述分词模型和所述分字模型中的参数进行调整,直到将由调整后的分词模型得到的词向量和由分字模型得到的字符向量输入到所述当前模型后,所述当前模型的实际输出与所述期望输出的差异小于或等于所述预设差异,将所述当前模型作为所述识别模型,将由调整后的分词模型输出的词向量和由调整后分字模型输出的字符向量作为所述识别模型的输入参数;
其中,若所述实际输出中存在与所述期望输出中不一致的单词,则所述实际输出与所述期望输出的差异大于所述预设差异。
6.根据权利要3所述的语句中命名实体的识别方法,其特征在于,所述根据每一单词对应的标签输出所述目标语句中的属于命名实体的单词,包括:
对每一单词,获取由所述识别模型输出的所述单词的单词属性为每一预设标签的概率,在每一预设标签中判断是否存在为命名实体,且对应的概率大于预设概率的预设标签,若是,所述单词属于命名实体,输出所述目标语句中属于命名实体的所有单词。
7.根据权利要5所述的语句中命名实体的识别方法,其特征在于,所述根据所述目标语句得到的每一字符对应的字符向量和从所述目标语句中划分的每一单词对应的词向量,包括:
将所述目标语句输入到所述分字模型中得到字符向量,将所述目标语句输入到所述分词模型中得到分词向量,将由所述分字模型输出的字符向量和由所述分词模型输出的分词向量作为输入到所述识别模型中的字符向量和词向量。
8.一种语句中命名实体的识别装置,其特征在于,包括:
获取模块,用于对欲进行命名实体识别的目标语句,获取根据所述目标语句得到的每一字符对应的字符向量和从所述目标语句中划分的每一单词对应的词向量;
识别模块,用于将每一字符对应的字符向量和每一单词对应的词向量输入到预先训练的识别模型中,由所述识别模型输出每一单词对应的表示单词属性的标签;
输出模块,用于根据每一单词对应的标签输出所述目标语句中的属于命名实体的单词;
其中,所述识别模型根据输入的所述目标语句的字符向量和词向量,通过注意力函数生成每一单词对应的语句特征向量,由每一单词对应的语句特征向量确定每一单词对应的标签;单词属性包括人名词、地名词和机构名词。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的语句中命名实体的识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述的语句中命名实体的识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910354890.9A CN111859964A (zh) | 2019-04-29 | 2019-04-29 | 一种语句中命名实体的识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910354890.9A CN111859964A (zh) | 2019-04-29 | 2019-04-29 | 一种语句中命名实体的识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111859964A true CN111859964A (zh) | 2020-10-30 |
Family
ID=72966241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910354890.9A Pending CN111859964A (zh) | 2019-04-29 | 2019-04-29 | 一种语句中命名实体的识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111859964A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487813A (zh) * | 2020-11-24 | 2021-03-12 | 中移(杭州)信息技术有限公司 | 命名实体识别方法及系统、电子设备及存储介质 |
CN112699683A (zh) * | 2020-12-31 | 2021-04-23 | 大唐融合通信股份有限公司 | 一种融合神经网络和规则的命名实体识别方法及装置 |
CN112860867A (zh) * | 2021-02-25 | 2021-05-28 | 电子科技大学 | 一种基于卷积神经网络的中文问答系统的属性选择方法及存储介质 |
CN112949310A (zh) * | 2021-03-01 | 2021-06-11 | 创新奇智(上海)科技有限公司 | 一种模型训练方法、中医药名识别方法、装置及网络模型 |
CN113283240A (zh) * | 2021-06-18 | 2021-08-20 | 竹间智能科技(上海)有限公司 | 共指消解方法及电子设备 |
CN113392651A (zh) * | 2020-11-09 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 训练词权重模型及提取核心词的方法、装置、设备和介质 |
CN113673245A (zh) * | 2021-07-15 | 2021-11-19 | 北京三快在线科技有限公司 | 实体识别方法、装置、电子设备及可读存储介质 |
CN114861667A (zh) * | 2022-05-16 | 2022-08-05 | 中电金信软件有限公司 | 一种命名实体标签识别方法及装置 |
CN112487813B (zh) * | 2020-11-24 | 2024-05-10 | 中移(杭州)信息技术有限公司 | 命名实体识别方法及系统、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
-
2019
- 2019-04-29 CN CN201910354890.9A patent/CN111859964A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392651B (zh) * | 2020-11-09 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 训练词权重模型及提取核心词的方法、装置、设备和介质 |
CN113392651A (zh) * | 2020-11-09 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 训练词权重模型及提取核心词的方法、装置、设备和介质 |
CN112487813A (zh) * | 2020-11-24 | 2021-03-12 | 中移(杭州)信息技术有限公司 | 命名实体识别方法及系统、电子设备及存储介质 |
CN112487813B (zh) * | 2020-11-24 | 2024-05-10 | 中移(杭州)信息技术有限公司 | 命名实体识别方法及系统、电子设备及存储介质 |
CN112699683A (zh) * | 2020-12-31 | 2021-04-23 | 大唐融合通信股份有限公司 | 一种融合神经网络和规则的命名实体识别方法及装置 |
CN112860867A (zh) * | 2021-02-25 | 2021-05-28 | 电子科技大学 | 一种基于卷积神经网络的中文问答系统的属性选择方法及存储介质 |
CN112949310B (zh) * | 2021-03-01 | 2023-06-06 | 创新奇智(上海)科技有限公司 | 一种模型训练方法、中医药名识别方法、装置及网络模型 |
CN112949310A (zh) * | 2021-03-01 | 2021-06-11 | 创新奇智(上海)科技有限公司 | 一种模型训练方法、中医药名识别方法、装置及网络模型 |
CN113283240B (zh) * | 2021-06-18 | 2023-07-07 | 竹间智能科技(上海)有限公司 | 共指消解方法及电子设备 |
CN113283240A (zh) * | 2021-06-18 | 2021-08-20 | 竹间智能科技(上海)有限公司 | 共指消解方法及电子设备 |
CN113673245A (zh) * | 2021-07-15 | 2021-11-19 | 北京三快在线科技有限公司 | 实体识别方法、装置、电子设备及可读存储介质 |
CN114861667A (zh) * | 2022-05-16 | 2022-08-05 | 中电金信软件有限公司 | 一种命名实体标签识别方法及装置 |
CN114861667B (zh) * | 2022-05-16 | 2023-04-28 | 中电金信软件有限公司 | 一种命名实体标签识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108628823B (zh) | 结合注意力机制和多任务协同训练的命名实体识别方法 | |
US20230100376A1 (en) | Text sentence processing method and apparatus, computer device, and storage medium | |
CN109977416B (zh) | 一种多层次自然语言反垃圾文本方法及系统 | |
CN111859964A (zh) | 一种语句中命名实体的识别方法及装置 | |
CN111444320B (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
CN109165291B (zh) | 一种文本匹配方法及电子设备 | |
CN109284397A (zh) | 一种领域词典的构建方法、装置、设备及存储介质 | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN111079418B (zh) | 命名体识别方法、装置、电子设备和存储介质 | |
CN113128203A (zh) | 基于注意力机制的关系抽取方法、系统、设备及存储介质 | |
CN114510570A (zh) | 基于小样本语料的意图分类方法、装置及计算机设备 | |
CN115700515A (zh) | 文本多标签分类方法及装置 | |
Thattinaphanich et al. | Thai named entity recognition using Bi-LSTM-CRF with word and character representation | |
CN111611791A (zh) | 一种文本处理的方法及相关装置 | |
CN107783958B (zh) | 一种目标语句识别方法及装置 | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN112380861A (zh) | 模型训练方法、装置及意图识别方法、装置 | |
CN111428487A (zh) | 模型训练方法、歌词生成方法、装置、电子设备及介质 | |
CN112131879A (zh) | 一种关系抽取系统、方法和装置 | |
CN115796141A (zh) | 文本数据增强方法和装置、电子设备、存储介质 | |
CN115600597A (zh) | 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质 | |
CN112528653B (zh) | 短文本实体识别方法和系统 | |
CN115130475A (zh) | 一种可扩展的通用端到端命名实体识别方法 | |
CN114519353A (zh) | 模型的训练方法、情感消息生成方法和装置、设备、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |