CN110162772A - 命名实体识别方法及装置 - Google Patents
命名实体识别方法及装置 Download PDFInfo
- Publication number
- CN110162772A CN110162772A CN201811526902.3A CN201811526902A CN110162772A CN 110162772 A CN110162772 A CN 110162772A CN 201811526902 A CN201811526902 A CN 201811526902A CN 110162772 A CN110162772 A CN 110162772A
- Authority
- CN
- China
- Prior art keywords
- vector
- entity
- multiple features
- corpus
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种命名实体识别方法及装置,所述方法包括:将待识别语料进行词向量转换,生成预设维度的第一词向量;将所述待识别语料进行多特征向量转换,生成第一多特征向量;将所述预设维度的第一词向量与所述第一多特征向量拼接,生成第一多特征拼接向量;根据所述多特征拼接向量以及预置多特征命名实体识别模型确定所述待识别语料的至少一个命名实体的标签。提高命名实体的识别准确度。
Description
技术领域
本发明实施例涉及信息技术领域,尤其涉及一种命名实体识别方法及装置。
背景技术
在信息技术领域,命名实体识别(Named Entity Recognition,简称 NER)指的是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
现有技术中,如在餐饮领域中,需要对用户评价和用户查询中的实体进行识别。实际环境中会不断的有新菜品出现,并且文本口语化的现象也会导致许多菜品的缩写(如麻小)出现,识别新实体的能力应该作为模型重要的指标之一。而现在主流的神经网络模型(如CNN+CRF,Bi-LSTM+CRF 等)对于新实体的边界的标签不准确,对新实体的识别效果有待提高。
发明内容
本发明提供一种命名实体识别方法及装置,以解决现有技术中的上述问题。
根据本发明的第一方面,提供了一种命名实体识别方法,所述方法包括:
将待识别语料进行词向量转换,生成预设维度的第一词向量;
将所述待识别语料进行多特征向量转换,生成第一多特征向量;
将所述预设维度的第一词向量与所述第一多特征向量拼接,生成第一多特征拼接向量;
根据所述多特征拼接向量以及预置多特征命名实体识别模型确定所述待识别语料的至少一个命名实体的标签。
根据本发明的第一方面,提供了一种多特征命名实体识别模型训练方法,所述方法包括:
通过预置的命名实体训练语料获得实体标注语料;
将所述实体标注语料进行词向量转换,生成预设维度的第二词向量;
将所述实体标注语料进行多特征向量转换,生成第二多特征向量;
将所述第二多特征向量与所述预设维度的第二词向量拼接,生成第二多特征拼接向量;
基于所述第二多特征拼接向量对预设神经网络算法进行训练,得到多特征命名实体识别模型,用于标注待识别语料中的命名实体。
根据本发明的第三方面,提供了一种命名实体识别装置,所述装置包括:
第一词向量生成模块,用于将待识别语料进行词向量转换,生成预设维度的第一词向量;
第一多特征向量生成模块,用于将所述待识别语料进行多特征向量转换,生成第一多特征向量;
第一多特征拼接向量生成模块,用于将所述预设维度的第一词向量与所述第一多特征向量拼接,生成第一多特征拼接向量;
命名实体标签获得模块,用于根据所述多特征拼接向量以及预置多特征命名实体识别模型确定所述待识别语料的至少一个命名实体的标签。
根据本发明的第四方面,提供了一种多特征命名实体识别模型训练装置,所述装置包括:
实体标注语料获得模块,用于通过预置的命名实体训练语料获得实体标注语料;
第二词向量生成模块,用于将所述实体标注语料进行词向量转换,生成预设维度的第二词向量;
第二多特征向量生成模块,用于将所述实体标注语料进行多特征向量转换,生成第二多特征向量;
第二多特征拼接向量生成模块,用于将所述第二多特征向量与所述预设维度的第二词向量拼接,生成第二多特征拼接向量;
模型训练模块,用于基于所述第二多特征拼接向量对预设神经网络算法进行训练,得到多特征命名实体识别模型,用于标注待识别语料中的命名实体。
根据本发明的第五方面,提供了一种电子设备,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现前述的方法。
根据本发明的第六方面,提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述的方法。
本发明实施例提供了一种命名实体识别方法及装置,所述包括:将待识别语料进行词向量转换,生成预设维度的第一词向量;将所述待识别语料进行多特征向量转换,生成第一多特征向量;将所述预设维度的第一词向量与所述第一多特征向量拼接,生成第一多特征拼接向量;根据所述多特征拼接向量以及预置多特征命名实体识别模型确定所述待识别语料的至少一个命名实体的标签。提高命名实体的识别准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种命名实体识别方法的具体步骤流程图;
图2是本发明实施例二提供的一种命名实体识别方法的具体步骤流程图;
图3是本发明实施例三提供的一种多特征命名实体识别模型训练方法的具体步骤流程图;
图4是本发明实施例四提供的一种多特征命名实体识别模型训练方法的具体步骤流程图;
图4A是本发明实施例提供的训练模型结构示意图;
图5是本发明实施例五提供的一种命名实体识别装置的结构图;
图6是本发明实施例六提供的一种命名实体识别装置的结构图;
图7是本发明实施例七提供的一种多特征命名实体识别模型训练装置的结构图;
图8是本发明实施例八提供的一种多特征命名实体识别模型训练装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参照图1,其示出了本发明实施例一提供的一种命名实体识别方法的具体步骤流程图。
步骤101,将待识别语料进行词向量转换,生成预设维度的第一词向量。
本发明实施例中,将待识别语料进行预处理,其中包括分词、特征抽取和词的向量化。
具体地,以餐饮业数据为例,待识别数据为“有水煮鱼吗?”,那么预处理的详细过程为:
1,分词,对待识别句子进行分词,本方法使用公知的jieba(结巴)分词工具对句子进行分词,分词结果为:有水煮鱼吗?
2,词的向量化,本发明中使用gensim工具包提供的word2vec工具把待识别句子中的每个词转化为一个100维的实数向量,即预设维度的第一词向量。
当然,在实际应用中,针对不同场景下获取的待识别语料,都可以使用上述方法进行预处理。
除此之外,上述使用的分词工具和词向量转换工具并不是唯一地,本发明实施例对此不加以限制。
步骤102,将所述待识别语料进行多特征向量转换,生成第一多特征向量。
本发明实施例中,在得到词向量转换后,需要获取词向量中的各种特征向量,生成为第一多特征向量。
其中,特征向量可以包括词性向量、实体边界词向量等。
步骤103,将所述预设维度的第一词向量与所述第一多特征向量拼接,生成第一多特征拼接向量。
本发明实施例中,将得到的多种特征向量与预设维度的第一词向量顺序拼接,生成一个多特征拼接向量。
具体地,将待识别语料中“有水煮鱼吗?”的100维的实数向量与其词性向量[v n uwp]、实体边界词向量[0,1,0];[0,1,0];[0,1,0]; [0,0,1],进行拼接,得到第一多特征拼接向量。
步骤104,根据所述多特征拼接向量以及预置多特征命名实体识别模型确定所述待识别语料的至少一个命名实体的标签。
本发明实施例中,将上述第一多特征拼接向量,输入预先训练好的多特征命名实体识别模型进行命名实体的标签,则可以得到待识别语料中“有水煮鱼吗?”命名实体的标签结果,[O,DISH-B,O,O]。
综上所述,本发明实施例提供了一种命名实体识别方法,所述方法包括:将待识别语料进行词向量转换,生成预设维度的第一词向量;将所述待识别语料进行多特征向量转换,生成第一多特征向量;将所述预设维度的第一词向量与所述第一多特征向量拼接,生成第一多特征拼接向量;根据所述多特征拼接向量以及预置多特征命名实体识别模型确定所述待识别语料的至少一个命名实体的标签。提高命名实体的识别准确度。
实施例二
参照图2,其示出了本发明实施例二提供的一种命名实体识别方法的具体步骤流程图。
步骤201,将待识别语料进行词向量转换,生成预设维度的第一词向量;
此步骤与步骤101相同,再次不再详述。
步骤202,所述第一多特征向量包括第一词性特征向量,将所述待识别语料进行词性标注,获得所述待识别语料中的第一词性特征词;
本发明实施例中,首先,使用语言云LTP(Language Technology Platform,语言技术平台)对分词后的句子进行词性标签化,如待识别语料为“有水煮鱼吗?”,那么词性标签化结果为:
有v
水煮鱼n
吗u
?wp
步骤203,将所述第一词性特征词进行词向量转换,生成第一词性特征向量。
具体地,其次,将每个词对应的词性标签转化为29维的one-hot向量:
[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0];
[0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0];
[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0];
[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0]
上述结果即为待识别语料为“有水煮鱼吗?”的第一词性特征向量。
优选地,还包括:
步骤A1,所述第一多特征向量包括第一实体前边界词特征向量,通过查询预置的实体前边界词词典,获得所述待识别语料中的第一实体前边界词。
步骤A2,将所述第一实体前边界词进行特征词向量转换,生成第一实体前边界词特征向量。
本发明实施例中,通过查询预置的实体前边界词词典得到对应的第一实体前边界词种特征,并转化成one-hot向量,即为第一实体前边界词特征向量,预置的实体前边界词词典是遍历训练语料构建的。
具体地,以“请问水煮鱼多少钱?”和“告诉我椒盐鸡排多少钱?”作为两条训练语料构建词典,则得到实体前边界词词典[“请问”,“我”]。将待识别语料中的所有句子都以上述描述的方法得到实体前边界词,所构成的词典即为预置的实体前边界词词典。
例如,待识别句子“有水煮鱼吗?”中通过查询预置的实体前边界词词典,得到每个词的实体前边界词特征向量为:[0,0,1];[0,1,0];[0, 1,0];[0,1,0]。
优选地,还包括:
步骤B1,所述第一多特征向量包括第一实体后边界词特征向量,通过查询预置的实体后边界词词典,获得所述待识别语料中的第一实体后边界词;
步骤B2,将所述第一实体后边界词进行特征词向量转换,生成第一实体后边界词特征向量。
本发明实施例中,通过查询预置的实体后边界词词典得到对应的第一实体后边界词种特征,并转化成one-hot向量,即为第一实体后边界词特征向量,预置的实体后边界词词典是遍历训练语料构建的。
具体地,以“请问水煮鱼多少钱?”和“告诉我椒盐鸡排多少钱?”作为两条训练语料构建词典,则得到实体后边界词词典[“多少”]。将待识别语料中的所有句子都以上述描述的方法得到实体后边界词,所构成的词典即为预置的实体后边界词词典。
例如,待识别句子“有水煮鱼吗?”中通过查询预置的实体后边界词词典,得到每个词的实体后边界词特征向量为:[0,1,0];[0,1,0];[0, 1,0];[0,0,1]。
优选地,还包括:
步骤C1,所述第一多特征向量包括第一实体常见词特征向量,通过查询预置的实体常见词词典,获得到所述待识别语料中的第一实体常见词;
步骤C2,将所述第一实体常见词进行特征词向量转换,生成第一实体常见词特征向量。
本发明实施例中,通过查询预置的实体后边界词词典得到对应的第一实体常见词种特征,并转化成one-hot向量,即为第一实体常见词特征向量,预置的实体常见词词典是遍历训练语料构建的。
具体地,以“请问水煮鱼多少钱?”和“告诉我椒盐鸡排多少钱?”作为两条训练语料构建词典,则得到实体常见词[“水煮鱼”,“椒盐”,“鸡排”]。将待识别语料中的所有句子都以上述描述的方法得到实体常见词,所构成的词典即为预置的实体常见词词典。
例如,待识别句子“有水煮鱼吗?”中通过查询预置的实体常见词词典,得到每个词的实体常见词特征向量为:[0,1];[1,0];[0,1];[0, 1]。
步骤204,将所述第一词性特征向量、所述第一实体前边界词特征向量、所述第一实体后边界词特征向量、所述第一多特征向量、所述第一实体常见词特征向量中的一项或多项,与所述预设维度的第一词向量进行拼接,生成第一多特征拼接向量。
具体地,将步骤202至C2中为待识别句子中的每个词抽取的第一词性特征向量、第一实体前边界词特征向量、第一实体后边界词特征向量、第一实体常见词特征向量4种特征向量和步骤201中得到的预设维度的第一词向量进行拼接,生成第一多特征拼接向量。
步骤205,根据所述多特征拼接向量以及预置多特征命名实体识别模型确定所述待识别语料的至少一个命名实体的标签。
具体地,将上述拼接成的第一多特征拼接向量输入训练好的预置多特征命名实体识别模型进行命名实体标签化,得到待识别语料的命名实体标签序列。
例如,待识别语料为“有水煮鱼吗?”,模型输出的结果为:
有O
水煮鱼DISH-B
吗O
?O
其中,DISH-B为命名实体的标签。
优选地,在步骤205之前,还包括:
步骤E1,通过预置的命名实体训练语料获得实体标注语料;
步骤E2,将所述实体标注语料进行词向量转换,生成预设维度的第二词向量;
步骤E3,将所述实体标注语料进行多特征向量转换,生成第二多特征向量;
步骤E4,将所述第二多特征向量与所述预设维度的第二词向量拼接,生成第二多特征拼接向量;
步骤E5,基于所述第二多特征拼接向量对预设神经网络算法进行训练,得到预置多特征命名实体识别模型。
步骤E1-E5的详细描述参照实施例三,在此不再详述。
综上所述,本发明实施例提供了一种命名实体识别方法,所述方法包括:将待识别语料进行词向量转换,生成预设维度的第一词向量;将所述待识别语料进行多特征向量转换,生成第一多特征向量;所述第一多特征向量包括第一词性特征向量,将所述待识别语料进行词性标注,获得所述待识别语料中的第一词性特征词;将所述第一词性特征词进行词向量转换,生成第一词性特征向量;根据所述多特征拼接向量以及预置多特征命名实体识别模型确定所述待识别语料的至少一个命名实体的标签,通过加入不同的特征向量生成的多特征拼接向量,进行命名实体识别,有效提高命名实体的识别准确度。
实施例三
参照图3,其示出了本发明实施例三提供的一种多特征命名实体识别模型训练方法的具体步骤流程图。
步骤301,通过预置的命名实体训练语料获得实体标注语料;
本发明实施例中,将待识别语料进行预处理,其中包括分词、实体词标注,即标签化,特征抽取和词的向量化。
其中,实体词标签化得到实体标注语料是训练语料处理的重点,通过对实体词的标签化结果是进行后续模型训练的基础。
步骤302,将所述实体标注语料进行词向量转换,生成预设维度的第二词向量;
具体地,在实体标注语料中的文字转换成实数向量序列才可以输入到模型中,所以需要将文本中的每个词转化成数值向量。
其中,词向量转换方法可以利用word2vector算法,该算法通过无监督训练,将词变成一个多维的向量,这种向量可以捕捉词语(或字符)之间的语义相关性,又称为词向量或者词嵌入。本发明中使用的gensim工具包提供的word2vec工具得到一个字典来将词对应到一个固定维度(本发明中使用 100维)的实数向量,通过查找字典的方式将输入的每个词都转化为一个 100维的实数向量,即预设维度的第二词向量。
步骤303,将所述实体标注语料进行多特征向量转换,生成第二多特征向量;
具体地,对训练语料的每个词抽取了多种显性特征,具体的有词性特征、实体前边界词、实体后边界词、实体常见词4种特征,抽取这4种显性特征后同样要将这些特征通过词向量转换方法转化成数值向量。
步骤304,将所述第二多特征向量与所述预设维度的第二词向量拼接,生成第二多特征拼接向量;
具体地,将上述描述中得到的多种特征向量进行拼接,得到第二多特征拼接向量。
可以理解的,在实际应用中,多种特征向量不限于上述描述范围,本发明实施例对此不加以限制。
步骤305,基于所述第二多特征拼接向量对预设神经网络算法进行训练,得到多特征命名实体识别模型,用于标注待识别语料中的命名实体。
具体地,将得到第二多特征拼接向量通过预设神经网络算法进行训练,在本发明实施例中模型的整体框架是基于Bi-LSTM+CRF神经网络,词性特征向量、实体前边界词特征向量、实体后边界词特征向量、实体常见词特征向量和词向量拼接成一个137维的输入向量,使用梯度下降优化算法mini-batch+Adam训练模型,得到多特征命名实体识别模型,用于标签化待识别语料中的命名实体。
综上所述,本发明实施例提供了一种多特征命名实体识别模型训练方法,所述方法包括:通过预置的命名实体训练语料获得实体标注语料;将所述实体标注语料进行词向量转换,生成预设维度的第二词向量;将所述实体标注语料进行多特征向量转换,生成第二多特征向量;将所述第二多特征向量与所述预设维度的第二词向量拼接,生成第二多特征拼接向量;基于所述第二多特征拼接向量对预设神经网络算法进行训练,得到多特征命名实体识别模型,用于标签化待识别语料中的命名实体。实现了文本多特征命名实体向量训练得到多特征命名实体识别模型,以提高文本命名实体识别的准确性。
实施例四
参照图4,其示出了本发明实施例四提供的一种多特征命名实体识别模型训练方法的具体步骤流程图。
步骤401,将预置的命名实体训练语料进行命名实体标注,形成实体标注语料。
本发明实施例中,在对训练语料进行分词处理后,按照BIO(Begin、 Inside、Other,开始、在内、其他)的方式对训练语料进行标签化。如果一个实体是由一个词构成,则为该词标注××-B(××表示实体的类别,例如菜品实体的标签为DISH-B);如果一个实体是有多个词构成,则实体的第一个词标注为××-B,其余的词的标签为××-I;语料中实体之外的词的标签为 O。单词实体以“请问水煮鱼多少钱?”为例,其分词和语料标签化的结果为:
请问O
水煮鱼DISH-B
多少O
钱O
?O
多词实体以“告诉我椒盐鸡排多少钱?”为例,其分词和语料标签化的结果为:
告诉O
我O
椒盐DISH-B
鸡排DISH-I
多少O
钱O
?O
步骤402,将所述实体标注语料进行词向量转换,生成预设维度的第二词向量;
此步骤与步骤302相同,在此不再详述。
步骤403,获取所述实体标注语料中的标注实体词,构建预置的实体常见词词典;
具体地,在训练语料“请问椒盐鸡排多少钱?”中,实体常见词为“椒盐”和“鸡排”,对初步得到的实体常见词词典进行过滤,将其中低频(例如出现次数少于3次)的常见词过滤掉,生成最终的预置的实体常见词词典。
步骤404,获取所述标注实体词的前后达到预设频率的词,构建预置的实体前边界词词典和预置的实体后边界词词典。
同样地,1)实体前边界词词典的构建,遍历训练语料将实体前面紧挨着的一个词记录到词典中;2)实体后边界词词典的构建,遍历训练语料将实体后面紧挨着的一个词记录到词典中。遍历训练语料,将实体中出现的词记录到词典中,在“请问椒盐鸡排多少钱?”中,实体“椒盐鸡排”的前边界词为“请问”,后边界词为“多少”,常见词为“椒盐”和“鸡排”。对初步得到的实体边界词词典进行过滤,将其中低频(例如出现次数少于3次)的边界词过滤掉,生成预置的实体前边界词词典和预置的实体后边界词词典。
可以理解地,低频设置根据具体情况由相关技术人员设定,本发明实施例对此不加以限制。
步骤405,通过查询所述预置的实体前边界词词典,获得所述实体标注语料中的第二实体前边界词;
具体地,在得到预置的实体前边界词词典后,通过将训练语料中各句中对应查询预置的实体前边界词词典,获得训练语料中的第二实体前边界词。
步骤406,将所述第二实体前边界词进行词向量转换,生成第二前边界词特征向量;
具体地,再通过词向量转换,将已得到的第二实体前边界词转换为第二前边界词特征向量。
其中,将当前词的前一个词在预置的实体前边界词字典中查找得到前边界词特征,实体前边界词特征都被转化成3维的one-hot向量,所以特征值有三种取值:[1,0,0]、[0,1,0]和[0,0,1]。[1,0,0]表示当前词的前(后) 一个词是实体边界词,[0,1,0]表示当前词的前(后)一个词不是实体边界词,[0,0,1]当前词是句首(尾)词。
步骤407,通过查询所述预置的实体后边界词词典,获得所述实体标注语料中的第二实体后边界词;
具体地,在得到预置的实体后边界词词典后,通过将训练语料中各句中对应查询预置的实体后边界词词典,获得训练语料中的第二实体后边界词。
步骤408,将所述第二实体后边界词进行词向量转换,生成第二后边界词特征向量;
具体地,再通过词向量转换,将已得到的第二实体后边界词转换为第二后边界词特征向量。
其中,将当前词的后一个词在预置的实体后边界词字典中查找得到前边界词特征,实体前边界词特征都被转化成3维的one-hot向量,所以特征值有三种取值:[1,0,0]、[0,1,0]和[0,0,1]。[1,0,0]表示当前词的前(后) 一个词是实体边界词,[0,1,0]表示当前词的前(后)一个词不是实体边界词,[0,0,1]当前词是句首(尾)词。
步骤409,将所述实体标注语料进行词性标注,获得所述实体标注语料中的第二词性特征词;
具体地,本发明中使用公知的哈工大语言云语言技术平台LTP提供的词性标签化工具对训练语料进行词性标签化,对文本中的每个词打上词性标签,此处采用的标签集是863词性标签集,其各个词性含义如下表:
根据该表中的词性标签集,将训练语料中的每个词进行词性特征词标签化。
步骤410,将所述第二词性特征词进行词向量转换,生成第二词性特征向量;
具体地,词性特征转换成29维的one-hot向量,例如词性标签a被表示成[1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。
当然,在实际应用中,词性特征转化成向量可以使用另一种替代方案:
类似词的向量化,使用29个固定维度(如5维)的实数向量对应29 个词性标签的向量表示,然后通过查找字典的方式将文本的词性特征转换成向量。
可以理解地,在具体使用中,词向量转换方式不限于上述描述的方法,本发明实施例对此不加以限制。
步骤411,查询所述预置的实体常见词词典,获得所述实体标注语料中的第二实体常见词;
具体地,通过将当前词在预置的实体常见词字典中查找得到实体常见词特征,即第二实体常见词。
步骤412,将所述第二实体常见词进行词向量转换,生成第二实体常见词特征向量;
具体地,实体常见词特征被转化成2维的one-hot向量,所以特征值有三种取值:[1,0,]和[0,1]。[1,0,]表示当前词是实体常见词,[0,1]表示当前词不是实体常见词。
步骤413,将所述第二前边界词特征向量、所述第二后边界词特征向量、所述第二词性特征向量、所述第二实体常见词特征向量进行拼接,得到第二多特征向量。
具体地,对抽取的多特征向量,包括有词性特征向量、实体前边界词向量、实体后边界词向量、实体常见词4种特征,与预设维度的第二词向量进行拼接,生成第二多特征拼接向量。
步骤414,将所述第二多特征向量与所述预设维度的第二词向量拼接,生成第二多特征拼接向量。
此步骤与步骤304相同,在此不再详述。
步骤415,基于所述第二多特征拼接向量对预设神经网络算法进行训练,得到多特征命名实体识别模型,用于标注待识别语料中的命名实体。
具体地,如图4A所示的模型示意图,构建融合多特征的命名实体识别模型,模型的整体框架是基于Bi-LSTM+CRF神经网络,在输入层将步骤3 中抽取的词性特征向量、实体前边界词特征向量、实体后边界词特征向量、实体常见词特征向量和词向量拼接成一个137维的输入向量。然后输入输入向量传入Bi-LSTM层通过前向和后向LSTM进行融合抽象,输出的向量再传入到一个全连接层中计算标签概率P,最后将概率P传入CRF 层,目的是在为一个词进行标签化的时候可以利用此前已经标签化过的标签信息,CRF层为每个词xi计算出标签yi的分数,最终模型为句子 x=(x1,x2,…,xn)和对应的标签序列y=(y1,y2,…,yn)计算出分数:
其中,表示xi的标签为yi的概率,由Bi-LSTM的输出得到。从标签yi-1到标签yi的转移概率,由CRF中的转移矩阵得到。然后使用Softmax对分数进行归一化:
模型训练时的目标是最小化损失函数:
loss=-logP(y|x)=-score(x,y)+log(∑y'exp(score(x,y')))
其中,使用mini-batch+Adam梯度下降优化算法训练模型,在训练参数的过程中,包含有以下的几个关键问题:
A:句子的补齐和截取
其中,由于模型使用mini-batch的方式进行训练需要固定输入的长度,所以训练过程中训练语料中句子长度会被固定为L,长度小于L的句子会在尾部拼接0向量,直到句子的长度补齐为L。长度超过L的句子会进行截取,超过L的部分会被丢弃。
B:mini-batch数据的选取
其中,在mini-batch+Adam梯度下降算法的迭代中每次随机无放回的从训练语料中选取m个句子作为一个mini-batch,使用一个mini-batch的训练数据对模型进行单次迭代的训练。
C:迭代终止的条件
其中,在mini-batch+Adam梯度下降算法中迭代的终止条件为:1)最大的迭代次数;2)损失值迭代变化|lossi-lossi-1|<ε,其中ε表示两次迭代之间损失值差值的阈值。
最后,通过上述训练过程,将训练的到模型结构和参数保存,生成多特征命名实体识别模型,以供命名实体的四种显性特征中的部分特征时,会提高没有加入显性特征的模型对新实体的识别效果,但是提升的效果没有四种显性特征同时使用的效果好。对此本发明实施例不加以限制。
可以理解地,四种显性特征在模型的输入位置,可以图4A中的输入层更改到LSTM输出,词向量通过Bi-LSTM抽取隐性特征后,将LSTM的输出向量和四种显性特征的向量拼接,然后传入到全连接层。这种方案会提高没有加入显性特征的模型对新实体的识别效果,但提升的效果没有将四种显性特征在输入层加入的效果好。对此本发明实施例不加以限制。
可以理解地,本发明实施例中是以Bi-LSTM+CRF神经网络为基础进行描述的,但神经网络的选择是可替换的。如图4A中的神经网络可以使用多层LSTM或多层全连接层。对于可替换的情况,可以将Bi-LSTM+CRF 神经网络替换成CNN+CRF神经网络。对此本发明实施例不加以限制。
综上所述,本发明实施例提供了一种多特征命名实体识别模型训练方法,所述方法包括:将预置的命名实体训练语料进行命名实体标注,形成实体标注语料;将所述实体标注语料进行词向量转换,生成预设维度的第二词向量;获取所述实体标注语料中的标注实体词,构建预置的实体常见词词典;获取所述标注实体词的前后达到预设频率的词,构建预置的实体前边界词词典和预置的实体后边界词词典。过查询所述预置的实体前边界词词典,获得所述实体标注语料中的第二实体前边界词;将所述第二实体前边界词进行词向量转换,生成第二前边界词特征向量;通过查询所述预置的实体后边界词词典,获得所述实体标注语料中的第二实体后边界词;将所述第二实体后边界词进行词向量转换,生成第二后边界词特征向量;将所述实体标注语料进行词性标注,获得所述实体标注语料中的第二词性特征词;将所述第二词性特征词进行词向量转换,生成第二词性特征向量;查询所述预置的实体常见词词典,获得所述实体标注语料中的第二实体常见词;将所述第二实体常见词进行词向量转换,生成第二实体常见词特征向量;将所述第二前边界词特征向量、所述第二后边界词特征向量、所述第二词性特征向量、所述第二实体常见词特征向量进行拼接,得到第二多特征向量;将所述第二多特征向量与所述预设维度的第二词向量拼接,生成第二多特征拼接向量;基于所述第二多特征拼接向量对预设神经网络算法进行训练,得到多特征命名实体识别模型,用于标注待识别语料中的命名实体。实现了文本多特征命名实体向量训练得到多特征命名实体识别模型,以提高文本命名实体识别的准确性。
实施例五
参照图5,其示出了本发明实施例五提供的一种命名实体识别装置的结构图,具体如下。
第一词向量生成模块501,用于将待识别语料进行词向量转换,生成预设维度的第一词向量;
第一多特征向量生成模块502,用于将所述待识别语料进行多特征向量转换,生成第一多特征向量;
第一多特征拼接向量生成模块503,用于将所述预设维度的第一词向量与所述第一多特征向量拼接,生成第一多特征拼接向量;
命名实体标签获得模块504,用于根据所述多特征拼接向量以及预置多特征命名实体识别模型确定所述待识别语料的至少一个命名实体的标签。
综上所述,本发明实施例提供了一种命名实体识别装置,所述装置包括:第一词向量生成模块,用于将待识别语料进行词向量转换,生成预设维度的第一词向量;第一多特征向量生成模块,用于将所述待识别语料进行多特征向量转换,生成第一多特征向量;第一多特征拼接向量生成模块,用于将所述预设维度的第一词向量与所述第一多特征向量拼接,生成第一多特征拼接向量;命名实体标签获得模块,用于根据所述多特征拼接向量以及预置多特征命名实体识别模型确定所述待识别语料的至少一个命名实体的标签。提高命名实体的识别准确度。
实施例五为方法实施例一对应的装置实施例,详细信息可以参照实施例一的详细说明,在此不再赘述。
实施例六
参照图6,其示出了本发明实施例六提供的一种命名实体识别装置的结构图,具体如下。
第一词向量生成模块601,用于将待识别语料进行词向量转换,生成预设维度的第一词向量;
第一多特征向量生成模块602,用于将所述待识别语料进行多特征向量转换,生成第一多特征向量;
优选地,所述第一多特征向量包括第一词性特征向量,所述第一多特征向量生成模块602,包括:
第一词性特征词获得子模块6021,用于将所述待识别语料进行词性标注,获得所述待识别语料中的第一词性特征词;
第一词性特征向量生成子模块6022,用于将所述第一词性特征词进行词向量转换,生成第一词性特征向量。
优选地,所述第一多特征向量包括第一实体前边界词特征向量,所述第一多特征向量生成模块602,包括:
第一实体前边界词获得子模块,用于通过查询预置的实体前边界词词典,获得所述待识别语料中的第一实体前边界词;
第一实体前边界词特征向量生成子模块,用于将所述第一实体前边界词进行特征词向量转换,生成第一实体前边界词特征向量。
优选地,所述第一多特征向量包括第一实体后边界词特征向量,所述第一多特征向量生成模块602,包括:
第一实体后边界词获得子模块,用于通过查询预置的实体后边界词词典,获得所述待识别语料中的第一实体后边界词;
第一实体后边界词特征向量生成子模块,用于将所述第一实体后边界词进行特征词向量转换,生成第一实体后边界词特征向量。
优选地,所述第一多特征向量包括第一实体常见词特征向量,所述第一多特征向量生成模块602,包括:
第一实体常见词获得子模块,用于通过查询预置的实体常见词词典,获得到所述待识别语料中的第一实体常见词;
第一实体常见词特征向量生成子模块,用于将所述第一实体常见词进行特征词向量转换,生成第一实体常见词特征向量。
第一多特征拼接向量生成模块603,用于将所述预设维度的第一词向量与所述第一多特征向量拼接,生成第一多特征拼接向量;
优选地,所述第一多特征拼接向量生成模块603,包括:
拼接子模块6031,用于将所述第一词性特征向量、所述第一实体前边界词特征向量、所述第一实体后边界词特征向量、所述第一多特征向量、所述第一实体常见词特征向量中的一项或多项,与所述预设维度的第一词向量进行拼接,生成第一多特征拼接向量。
命名实体标签获得模块604,用于根据所述多特征拼接向量以及预置多特征命名实体识别模型确定所述待识别语料的至少一个命名实体的标签。
综上所述,本发明实施例提供了一种命名实体识别装置,所述装置包括:第一词向量生成模块,用于将待识别语料进行词向量转换,生成预设维度的第一词向量;第一词性特征词获得子模块,用于将所述待识别语料进行词性标注,获得所述待识别语料中的第一词性特征词;第一词性特征向量生成子模块,用于将所述第一词性特征词进行词向量转换,生成第一词性特征向量。拼接子模块,用于将所述第一词性特征向量、所述第一实体前边界词特征向量、所述第一实体后边界词特征向量、所述第一多特征向量、所述第一实体常见词特征向量中的一项或多项,与所述预设维度的第一词向量进行拼接,生成第一多特征拼接向量。命名实体标签获得模块,用于根据所述多特征拼接向量以及预置多特征命名实体识别模型确定所述待识别语料的至少一个命名实体的标签。根据所述多特征拼接向量以及预置多特征命名实体识别模型确定所述待识别语料的至少一个命名实体的标签,通过加入不同的特征向量生成的多特征拼接向量,进行命名实体识别,有效提高命名实体的识别准确度。
实施例六为方法实施例二对应的装置实施例,详细信息可以参照实施例二的详细说明,在此不再赘述。
实施例七
参照图7,其示出了本发明实施例七提供的一种多特征命名实体识别模型训练装置的结构图,具体如下。
实体标注语料获得模块701,用于通过预置的命名实体训练语料获得实体标注语料;
第二词向量生成模块702,用于将所述实体标注语料进行词向量转换,生成预设维度的第二词向量;
第二多特征向量生成模块703,用于将所述实体标注语料进行多特征向量转换,生成第二多特征向量;
第二多特征拼接向量生成模块704,用于将所述第二多特征向量与所述预设维度的第二词向量拼接,生成第二多特征拼接向量;
模型训练模块705,用于基于所述第二多特征拼接向量对预设神经网络算法进行训练,得到多特征命名实体识别模型,用于标注待识别语料中的命名实体。
综上所述,本发明实施例提供了一种多特征命名实体识别模型训练装置,所述装置包括:实体标注语料获得模块,用于通过预置的命名实体训练语料获得实体标注语料;第二词向量生成模块,用于将所述实体标注语料进行词向量转换,生成预设维度的第二词向量;第二多特征向量生成模块,用于将所述实体标注语料进行多特征向量转换,生成第二多特征向量;第二多特征拼接向量生成模块,用于将所述第二多特征向量与所述预设维度的第二词向量拼接,生成第二多特征拼接向量;模型训练模块,用于基于所述第二多特征拼接向量对预设神经网络算法进行训练,得到多特征命名实体识别模型,用于标注待识别语料中的命名实体。实现了文本多特征命名实体向量训练得到多特征命名实体识别模型,以提高文本命名实体识别的准确性。
实施例七为方法实施例三对应的装置实施例,详细信息可以参照实施例三的详细说明,在此不再赘述。
实施例八
参照图8,其示出了本发明实施例八提供的一种多特征命名实体识别模型训练装置的结构图,具体如下。
实体标注语料获得模块801,用于通过预置的命名实体训练语料获得实体标注语料;
优选地,所述实体标注语料获得模块801,包括:
实体标注语料获得子模块8011,用于将预置的命名实体训练语料进行命名实体标注,形成实体标注语料。
第二词向量生成模块802,用于将所述实体标注语料进行词向量转换,生成预设维度的第二词向量;
优选地,还包括:
实体常见词词典构建模块806,用于获取所述实体标注语料中的标注实体词,构建预置的实体常见词词典;
实体前边界词词典和预置的实体后边界词词典构建模块807,用于获取所述标注实体词的前后达到预设频率的词,构建预置的实体前边界词词典和预置的实体后边界词词典。
第二多特征向量生成模块803,用于将所述实体标注语料进行多特征向量转换,生成第二多特征向量;
优选地,所述第二多特征向量生成模块803,包括:
第二实体前边界词获得子模块,用于通过查询所述预置的实体前边界词词典,获得所述实体标注语料中的第二实体前边界词;
第二前边界词特征向量生成子模块,用于将所述第二实体前边界词进行词向量转换,生成第二前边界词特征向量;
第二实体后边界词获得子模块,用于通过查询所述预置的实体后边界词词典,获得所述实体标注语料中的第二实体后边界词;
第二后边界词特征向量生成子模块,用于将所述第二实体后边界词进行词向量转换,生成第二后边界词特征向量;
第二词性特征词获得子模块,用于将所述实体标注语料进行词性标注,获得所述实体标注语料中的第二词性特征词;
第二词性特征向量生成子模块,用于将所述第二词性特征词进行词向量转换,生成第二词性特征向量;
第二实体常见词获得子模块,用于查询所述预置的实体常见词词典,获得所述实体标注语料中的第二实体常见词;
第二实体常见词特征向量生成子模块,用于将所述第二实体常见词进行词向量转换,生成第二实体常见词特征向量;
第二多特征向量获得子模块,用于将所述第二前边界词特征向量、所述第二后边界词特征向量、所述第二词性特征向量、所述第二实体常见词特征向量进行拼接,得到第二多特征向量。
第二多特征拼接向量生成模块804,用于将所述第二多特征向量与所述预设维度的第二词向量拼接,生成第二多特征拼接向量;
模型训练模块805,用于基于所述第二多特征拼接向量对预设神经网络算法进行训练,得到多特征命名实体识别模型,用于标注待识别语料中的命名实体。
综上所述,本发明实施例提供了一种多特征命名实体识别模型训练装置,所述装置包括:实体标注语料获得模块,用于通过预置的命名实体训练语料获得实体标注语料;优选地,所述实体标注语料获得模块,包括:实体标注语料获得子模块,用于将预置的命名实体训练语料进行命名实体标注,形成实体标注语料。第二词向量生成模块,用于将所述实体标注语料进行词向量转换,生成预设维度的第二词向量;实体常见词词典构建模块,用于获取所述实体标注语料中的标注实体词,构建预置的实体常见词词典;实体前边界词词典和预置的实体后边界词词典构建模块,用于获取所述标注实体词的前后达到预设频率的词,构建预置的实体前边界词词典和预置的实体后边界词词典。第二多特征拼接向量生成模块,用于将所述第二多特征向量与所述预设维度的第二词向量拼接,生成第二多特征拼接向量;模型训练模块,用于基于所述第二多特征拼接向量对预设神经网络算法进行训练,得到多特征命名实体识别模型,用于标注待识别语料中的命名实体。实现了文本多特征命名实体向量训练得到多特征命名实体识别模型,以提高文本命名实体识别的准确性。
实施例八为方法实施例四对应的装置实施例,详细信息可以参照实施例四的详细说明,在此不再赘述。
本发明实施例还提供了一种电子设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现前述的方法。
本发明实施例还提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述的方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书 (包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的应用的资源数据的调度设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (15)
1.一种命名实体识别方法,其特征在于,所述方法包括:
将待识别语料进行词向量转换,生成预设维度的第一词向量;
将所述待识别语料进行多特征向量转换,生成第一多特征向量;
将所述预设维度的第一词向量与所述第一多特征向量拼接,生成第一多特征拼接向量;
根据所述多特征拼接向量以及预置多特征命名实体识别模型确定所述待识别语料的至少一个命名实体的标签。
2.根据权利要求1所述的方法,其特征在于,所述第一多特征向量包括第一词性特征向量,所述将所述待识别语料进行多特征向量转换,生成第一多特征向量的步骤,包括:
将所述待识别语料进行词性标注,获得所述待识别语料中的第一词性特征词;
将所述第一词性特征词进行词向量转换,生成第一词性特征向量。
3.根据权利要求1所述的方法,其特征在于,所述第一多特征向量包括第一实体前边界词特征向量,所述将所述待识别语料进行多特征向量转换,生成第一多特征向量的步骤,包括:
通过查询预置的实体前边界词词典,获得所述待识别语料中的第一实体前边界词;
将所述第一实体前边界词进行特征词向量转换,生成第一实体前边界词特征向量。
4.根据权利要求1所述的方法,其特征在于,所述第一多特征向量包括第一实体后边界词特征向量,所述将所述待识别语料进行多特征向量转换,生成第一多特征向量的步骤,包括:
通过查询预置的实体后边界词词典,获得所述待识别语料中的第一实体后边界词;
将所述第一实体后边界词进行特征词向量转换,生成第一实体后边界词特征向量。
5.根据权利要求1所述的方法,其特征在于,所述第一多特征向量包括第一实体常见词特征向量,所述将所述待识别语料进行多特征向量转换,生成第一多特征向量的步骤,包括:
通过查询预置的实体常见词词典,获得到所述待识别语料中的第一实体常见词;
将所述第一实体常见词进行特征词向量转换,生成第一实体常见词特征向量。
6.根据权利要求2-5其中之一所述的方法,其特征在于,所述将所述预设维度的第一词向量与所述第一多特征向量拼接,生成第一多特征拼接向量的步骤,包括:
将所述第一词性特征向量、所述第一实体前边界词特征向量、所述第一实体后边界词特征向量、所述第一多特征向量、所述第一实体常见词特征向量中的一项或多项,与所述预设维度的第一词向量进行拼接,生成第一多特征拼接向量。
7.根据权利要求1所述的方法,其特征在于,在所述根据所述多特征拼接向量以及预置多特征命名实体识别模型确定所述待识别语料的至少一个命名实体的标签的步骤之前,还包括:
通过预置的命名实体训练语料获得实体标注语料;
将所述实体标注语料进行词向量转换,生成预设维度的第二词向量;
将所述实体标注语料进行多特征向量转换,生成第二多特征向量;
将所述第二多特征向量与所述预设维度的第二词向量拼接,生成第二多特征拼接向量;
基于所述第二多特征拼接向量对预设神经网络算法进行训练,得到预置多特征命名实体识别模型。
8.一种多特征命名实体识别模型训练方法,其特征在于,所述方法包括:
通过预置的命名实体训练语料获得实体标注语料;
将所述实体标注语料进行词向量转换,生成预设维度的第二词向量;
将所述实体标注语料进行多特征向量转换,生成第二多特征向量;
将所述第二多特征向量与所述预设维度的第二词向量拼接,生成第二多特征拼接向量;
基于所述第二多特征拼接向量对预设神经网络算法进行训练,得到多特征命名实体识别模型,用于标注待识别语料中的命名实体。
9.根据权利要求8所述的方法,其特征在于,所述通过预置的命名实体训练语获得实体标注语料的步骤,包括:
将预置的命名实体训练语料进行命名实体标注,形成实体标注语料。
10.根据权利要求8所述的方法,其特征在于,在所述将所述实体标注语料进行多特征向量转换,生成第二多特征向量的步骤之前,还包括:
获取所述实体标注语料中的标注实体词,构建预置的实体常见词词典;
获取所述标注实体词的前后达到预设频率的词,构建预置的实体前边界词词典和预置的实体后边界词词典。
11.根据权利要求8所述的方法,其特征在于,所述将所述实体标注语料进行多特征向量转换,生成第二多特征向量的步骤,包括:
通过查询所述预置的实体前边界词词典,获得所述实体标注语料中的第二实体前边界词;
将所述第二实体前边界词进行词向量转换,生成第二前边界词特征向量;
通过查询所述预置的实体后边界词词典,获得所述实体标注语料中的第二实体后边界词;
将所述第二实体后边界词进行词向量转换,生成第二后边界词特征向量;
将所述实体标注语料进行词性标注,获得所述实体标注语料中的第二词性特征词;
将所述第二词性特征词进行词向量转换,生成第二词性特征向量;
查询所述预置的实体常见词词典,获得所述实体标注语料中的第二实体常见词;
将所述第二实体常见词进行词向量转换,生成第二实体常见词特征向量;
将所述第二前边界词特征向量、所述第二后边界词特征向量、所述第二词性特征向量、所述第二实体常见词特征向量进行拼接,得到第二多特征向量。
12.一种命名实体识别装置,其特征在于,所述装置包括:
第一词向量生成模块,用于将待识别语料进行词向量转换,生成预设维度的第一词向量;
第一多特征向量生成模块,用于将所述待识别语料进行多特征向量转换,生成第一多特征向量;
第一多特征拼接向量生成模块,用于将所述预设维度的第一词向量与所述第一多特征向量拼接,生成第一多特征拼接向量;
命名实体标签获得模块,用于根据所述多特征拼接向量以及预置多特征命名实体识别模型确定所述待识别语料的至少一个命名实体的标签。
13.一种多特征命名实体识别模型训练装置,其特征在于,所述装置包括:
实体标注语料获得模块,用于通过预置的命名实体训练语料获得实体标注语料;
第二词向量生成模块,用于将所述实体标注语料进行词向量转换,生成预设维度的第二词向量;
第二多特征向量生成模块,用于将所述实体标注语料进行多特征向量转换,生成第二多特征向量;
第二多特征拼接向量生成模块,用于将所述第二多特征向量与所述预设维度的第二词向量拼接,生成第二多特征拼接向量;
模型训练模块,用于基于所述第二多特征拼接向量对预设神经网络算法进行训练,得到多特征命名实体识别模型,用于标注待识别语料中的命名实体。
14.一种电子设备,其特征在于,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-11中一个或多个所述的方法。
15.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如方法权利要求1-11中一个或多个所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811526902.3A CN110162772B (zh) | 2018-12-13 | 2018-12-13 | 命名实体识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811526902.3A CN110162772B (zh) | 2018-12-13 | 2018-12-13 | 命名实体识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110162772A true CN110162772A (zh) | 2019-08-23 |
CN110162772B CN110162772B (zh) | 2020-06-26 |
Family
ID=67645217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811526902.3A Active CN110162772B (zh) | 2018-12-13 | 2018-12-13 | 命名实体识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110162772B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852112A (zh) * | 2019-11-08 | 2020-02-28 | 语联网(武汉)信息技术有限公司 | 词向量嵌入方法及装置 |
CN111428502A (zh) * | 2020-02-19 | 2020-07-17 | 中科世通亨奇(北京)科技有限公司 | 一种面向军事语料的命名实体标注方法 |
CN111444720A (zh) * | 2020-03-30 | 2020-07-24 | 华南理工大学 | 一种英文文本的命名实体识别方法 |
CN113051880A (zh) * | 2019-12-26 | 2021-06-29 | 北京沃东天骏信息技术有限公司 | 文本标注方法和装置 |
WO2021139239A1 (zh) * | 2020-07-28 | 2021-07-15 | 平安科技(深圳)有限公司 | 基于多训练目标的机构实体抽取方法、系统及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104899304A (zh) * | 2015-06-12 | 2015-09-09 | 北京京东尚科信息技术有限公司 | 命名实体识别方法及装置 |
CN107168945A (zh) * | 2017-04-13 | 2017-09-15 | 广东工业大学 | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 |
WO2017196807A1 (en) * | 2016-05-13 | 2017-11-16 | General Electric Company | System and method for entity recognition and linking using manual user feedback |
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
CN107832400A (zh) * | 2017-11-01 | 2018-03-23 | 山东大学 | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 |
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
-
2018
- 2018-12-13 CN CN201811526902.3A patent/CN110162772B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104899304A (zh) * | 2015-06-12 | 2015-09-09 | 北京京东尚科信息技术有限公司 | 命名实体识别方法及装置 |
WO2017196807A1 (en) * | 2016-05-13 | 2017-11-16 | General Electric Company | System and method for entity recognition and linking using manual user feedback |
CN107168945A (zh) * | 2017-04-13 | 2017-09-15 | 广东工业大学 | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 |
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN107832400A (zh) * | 2017-11-01 | 2018-03-23 | 山东大学 | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 |
CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
Non-Patent Citations (1)
Title |
---|
黄积杨: "基于双向LSTMN神经网络的中文分词研究分析", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852112A (zh) * | 2019-11-08 | 2020-02-28 | 语联网(武汉)信息技术有限公司 | 词向量嵌入方法及装置 |
CN110852112B (zh) * | 2019-11-08 | 2023-05-05 | 语联网(武汉)信息技术有限公司 | 词向量嵌入方法及装置 |
CN113051880A (zh) * | 2019-12-26 | 2021-06-29 | 北京沃东天骏信息技术有限公司 | 文本标注方法和装置 |
CN111428502A (zh) * | 2020-02-19 | 2020-07-17 | 中科世通亨奇(北京)科技有限公司 | 一种面向军事语料的命名实体标注方法 |
CN111444720A (zh) * | 2020-03-30 | 2020-07-24 | 华南理工大学 | 一种英文文本的命名实体识别方法 |
WO2021139239A1 (zh) * | 2020-07-28 | 2021-07-15 | 平安科技(深圳)有限公司 | 基于多训练目标的机构实体抽取方法、系统及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110162772B (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162772A (zh) | 命名实体识别方法及装置 | |
CN107818085B (zh) | 阅读机器人进行阅读理解的答案选择方法及系统 | |
CN108733837B (zh) | 一种病历文本的自然语言结构化方法及装置 | |
CN110309289B (zh) | 一种句子生成方法、句子生成装置及智能设备 | |
CN108460014A (zh) | 企业实体的识别方法、装置、计算机设备及存储介质 | |
CN105243129A (zh) | 商品属性特征词聚类方法 | |
CN108829893A (zh) | 确定视频标签的方法、装置、存储介质和终端设备 | |
CN110717331A (zh) | 一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质 | |
CN112084381A (zh) | 一种事件抽取方法、系统、存储介质以及设备 | |
CN109726385A (zh) | 词义消歧方法和设备、词义扩展方法和装置 | |
CN108228758A (zh) | 一种文本分类方法及装置 | |
CN104281716B (zh) | 平行语料的对齐方法及装置 | |
CN106844341A (zh) | 基于人工智能的新闻摘要提取方法及装置 | |
CN112800239B (zh) | 意图识别模型训练方法、意图识别方法及装置 | |
CN111368544B (zh) | 命名实体识别方法及装置 | |
GB2555207A (en) | System and method for identifying passages in electronic documents | |
CN111046671A (zh) | 基于图网络融入词典的中文命名实体识别方法 | |
CN111310440A (zh) | 文本的纠错方法、装置和系统 | |
CN106445906A (zh) | 领域词典中中长词词组的生成方法及装置 | |
CN108681541A (zh) | 图片搜索方法、装置及计算机设备 | |
CN110489559A (zh) | 一种文本分类方法、装置及存储介质 | |
CN103678336A (zh) | 实体词识别方法及装置 | |
CN110263122A (zh) | 一种关键词获取方法、装置及计算机可读存储介质 | |
CN110263127A (zh) | 基于用户查询词进行文本搜索方法及装置 | |
Xian et al. | Self-guiding multimodal LSTM—when we do not have a perfect training dataset for image captioning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |