CN111368541A - 命名实体识别方法及装置 - Google Patents
命名实体识别方法及装置 Download PDFInfo
- Publication number
- CN111368541A CN111368541A CN201811485654.2A CN201811485654A CN111368541A CN 111368541 A CN111368541 A CN 111368541A CN 201811485654 A CN201811485654 A CN 201811485654A CN 111368541 A CN111368541 A CN 111368541A
- Authority
- CN
- China
- Prior art keywords
- layer
- speech
- word
- vector
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 118
- 230000011218 segmentation Effects 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims description 40
- 230000002457 bidirectional effect Effects 0.000 claims description 27
- 238000006243 chemical reaction Methods 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 19
- 230000007246 mechanism Effects 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 6
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 235000019227 E-number Nutrition 0.000 description 1
- 239000004243 E-number Substances 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Abstract
本发明公开了一种命名实体识别方法及装置,该方法包括:获取待识别实体的语句;对所述语句进行分词处理,得到各词单元及其多领域词典特征和词性特征;对所述词单元、多领域词典特征和词性特征进行向量化处理,得到各向量;利用所述各向量及预先构建的命名实体识别模型确定所述语句中的实体及实体类型。利用本发明方案,可以提高不同领域中实体识别的准确性。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及一种命名实体识别方法及装置。
背景技术
在中文自然语言处理中,实体识别是研究词法分析、句法分析、语义分析等领域的基础,其是在信息抽取、信息过滤、信息检索、问答系统、机器翻译等领域中起着关键作用。在对文本进行分析时,实体识别是首要任务,也是自然语言处理任务中的研究热点,从早期的基于词典和规则的方法到传统机器学习的方法,再到近年来的深度学习的方法,识别效果不断在提高。
命名实体识别(Name Entity Recognition,NER)是指识别文本中具有特定意义的实体。近几年,用于NER的技术主要有条件随机场(Conditional Random Fields,CRF),是在最大熵模型和隐马尔科夫模型的基础上,提出的一种判别式概率无向图学习模型,是一种用于标注和切分有序数据的条件概率模型。但是CRF对于实体识别具有局限性,整体效果并不理想。
发明内容
本发明实施例提供一种命名实体识别方法及装置,以提高不同领域中实体识别的准确性。
为此,本发明提供如下技术方案:
一种命名实体识别方法,所述方法包括:
获取待识别实体的语句;
对所述语句进行分词处理,得到各词单元及其多领域词典特征和词性特征;
对所述词单元、多领域词典特征和词性特征进行向量化处理,得到各向量;
利用所述各向量及预先构建的命名实体识别模型确定所述语句中的实体及实体类型。
可选地,所述多领域包括以下任意一种或多种:音乐领域、股票领域、地图导航领域、教育领域。
可选地,所述词性特征包括以下任意一种或多种:名词、动词、形容词、副词。
可选地,所述对所述词单元、多领域词典特征和词性特征进行向量化处理,得到各向量包括:
利用Glove模型得到各词单元的向量;
利用正态分布随机数模型得到多领域词典特征的向量和词性特征的向量。
可选地,所述方法还包括:按以下方式构建所述命名实体识别模型:
确定命名实体识别模型的拓扑结构;
收集多领域语料数据作为训练数据,并标注所述训练数据中的实体及其类型;
对所述训练数据进行分词,得到各词单元及其多领域词典特征和词性特征;
对所述词单元、多领域词典特征、词性特征进行向量化处理,得到对应所述训练数据的各向量;
利用对应所述训练数据的各向量及标注信息训练得到所述命名实体识别模型的参数。
可选地,所述命名实体识别模型包括:
特征向量转化层、融合注意力机制的双向长短时记忆层和条件随机场层;所述融合注意力机制的双向长短时记忆层包括:双向LSTM层和词性关注计算层;
所述特征向量转化层,用于对各词单元及其多领域词典特征对应的向量进行拼接,得到下一层的输入;
所述双向LSTM层,用于抽取出所述词单元及其多领域词典特征的高维抽象特征,得到隐含层输出向量;
所述特征注意力计算层,用于将所述隐含层输出向量与所述词性特征的向量进行注意力关注计算,得到词性特征对预测目标的贡献矩阵;
所述条件随机场层,用于利用所述矩阵确定所述训练数据中的实体及实体类型。
一种命名实体识别装置,所述装置包括:
语句获取模块,用于获取待识别实体的语句;
分词处理模块,用于对所述语句进行分词处理,得到各词单元及其多领域词典特征和词性特征;
向量转化模块,用于对所述词单元、多领域词典特征和词性特征进行向量化处理,得到各向量;
识别模块,用于利用所述各向量及预先构建的命名实体识别模型确定所述语句中的实体及实体类型。
可选地,所述词典特征包括以下任意一种或多种:音乐领域、股票领域、地图导航领域、教育领域。
可选地,所述词性特征包括以下任意一种或多种:名词、动词、形容词、副词。
可选地,所述向量转化模块包括:
词向量转化单元,用于利用Glove模型得到各词单元的向量;
特征向量转化单元,用于利用正态分布随机数模型得到多领域词典特征的向量和词性特征的向量。
可选地,所述装置还包括:模型构建模块,用于构建命名实体识别模型;所述模型构建模块包括:
拓扑结构确定单元,用于确定命名实体识别模型的拓扑结构;
数据收集单元,用于收集多领域语料数据作为训练数据,并标注所述训练数据中的实体及其类型;
分词处理单元,用于对所述训练数据进行分词,得到各词单元及其多领域词典特征和词性特征;
向量转化单元,用于对所述词单元、多领域词典特征、词性特征进行向量化处理,得到对应所述训练数据的各向量;
训练单元,用于利用对应所述训练数据的各向量及标注信息训练得到所述命名实体识别模型的参数。
可选地,所述命名实体识别模型包括:
特征向量转化层、融合注意力机制的双向长短时记忆层和条件随机场层;所述融合注意力机制的双向长短时记忆层包括:双向LSTM层和词性关注计算层;
所述特征向量转化层,用于对各词单元及其多领域词典特征对应的向量进行拼接,得到下一层的输入;
所述双向LSTM层,用于抽取出所述词单元及其多领域词典特征的高维抽象特征,得到隐含层输出向量;
所述特征注意力计算层,用于将所述隐含层输出向量与所述词性特征的向量进行注意力关注计算,得到词性特征对预测目标的贡献矩阵;
所述条件随机场层,用于利用所述矩阵确定所述训练数据中的实体及实体类型。
一种电子设备,包括:一个或多个处理器、存储器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现前面所述的方法。
一种可读存储介质,其上存储有指令,所述指令被执行以实现前面所述的方法。
本发明实施例提供的命名实体识别方法及装置,通过融合句子中词语、多领域词典特征并考虑词性特征,多维多角度理解句子语义信息,利用预先构建的命名实体识别模型得到待识别实体的语句中的实体及实体类型。
进一步地,在命名实体识别模型中,巧妙结合词性特征注意力机制,将词性特征向量和双向LSTM的隐含层输出向量进行关注计算,得到词性对预测目标的贡献矩阵,大大提高了对多领域语料中实体及实体类型的识别效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例中构建命名实体识别模型的流程图;
图2是本发明实施例中命名实体识别模型的拓扑结构示意图;
图3是本发明实施例命名实体识别方法的一种流程图;
图4是本发明实施例命名实体识别装置的一种结构示意图;
图5是本发明实施例中模型构建模块的一种结构示意图;
图6是根据一示例性实施例示出的一种用于命名实体识别方法的装置的框图;
图7是本发明实施例中服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
本发明实施例提供一种命名实体识别方法及装置,融合句子中词语、多领域词典组合特征并考虑词性关注特征,多维多角度充分表达句子语义信息。具体地,对待识别实体的语句进行分词,得到各词单元及其多领域词典特征和词性特征;对所述词单元、多领域词典特征和词性特征进行向量化处理,得到各向量;利用所述向量及预先构建的命名实体识别模型得到所述语句中的实体及实体类型。
所述命名实体识别模型可以通过收集多领域语料数据作为训练样本,训练得到。
如图1所示,是本发明实施例中构建命名实体识别模型的流程图,包括以下步骤:
步骤101,确定命名实体识别模型的拓扑结构。
在本发明实施例中,所述命名实体识别模型的拓扑结构如图2所示,该模型包括三层,分别为:
第一层:特征向量转化层
所述特征向量转化层用于将语句中的各词单元及其多领域词典特征对应的向量转换成固定长度的向量表示,并对这些向量进行拼接得到下一层输入。
第二层:融合注意力机制的双向长短时记忆层;所述融合注意力机制的双向长短时记忆层包括:双向长短时记忆LSTM(Bi-LSTM)层和词性关注计算层;其中:
所述Bi-LSTM层能够分别由前向后及由后向前自动将待识别实体的语句中各词单元及其多领域词典特征的高维抽象特征取出,并做向量化拼接后获得隐含层输出向量,即图2中的P1,P2,P3,...,Pn;
所述词性关注计算层将各词单元的词性特征向量(如图2中的w1-POS,w2-POS,w3-POS,...,wn-POS)与Bi-LSTM的隐含层输出向量进行注意力关注计算,得到词性特征对预测目标的贡献矩阵。
第三层:条件随机场(Conditional Random Fields,CRF)层。
CRF层通过维特比解码寻找语句中待识别实体的总体最优路径,计算出语句的总体最优得分,从而标注出语句中的每个词单元的最优标签,输出实体及实体类型。
比如,图2中B-LOC代表语句中首个词单元对应的实体及实体类型标签,I-LOC代表语句中非首个词单元对应的实体及实体类型标签,O代表非实体标签。
步骤102,收集多领域语料数据作为训练数据,并标注所述训练数据中的实体及其类型。
不同领域的划分可以根据应用环境及需求进行划分,比如,划分的领域包括但不限于:音乐领域、地图导航领域、股票领域等。
步骤103,对所述训练数据进行分词,得到各词单元及其多领域词典特征和词性特征。
所述多领域比如包括但不限于:音乐领域、股票领域、地图导航领域、教育领域等。
所述词典特征包括:词单元的类型等信息,比如可以是:数量词、艺人、歌曲、地点、时间、日历、股票等。
所述词性特征包括但不限于:名词、动词、形容词、副词等。
所述分词处理是将一个汉字序列切分成一个一个单独的词。为了描述方便,在本发明实施例中,将分词处理后得到的单独的词称为词单元。
具体的分词处理方法可采用:基于字符串匹配的分词方法、基于统计的分词方法等。
所述基于字符串匹配的分词方法是按照一定的策略将待识别实体的语句与预先建立的多领域词典中的词条进行匹配,得到各词单元。
所述多领域词典可以是将所有不同领域的词条收录在一个词典中,在每个词条中标记其所属领域、词性等信息;或者也可以分别建立针对不同领域的词典,比如:音乐领域、地图导航领域、股票领域等,每个领域的词典只收录该领域的词条,每个词条中标注该词条的词性等信息。
所述基于统计的分词方法是在给定大量已经分词的文本的前提下,利用统计模型学习词语切分的规律,从而实现对未知文本的切分。所述统计模型比如可以是:N元文法模型(N-gram),隐马尔可夫模型(Hidden Markov Model,HMM),最大熵模型(ME),条件随机场模型等。
利用基于统计的分词方法不仅可以建立起多领域词典,利用多领域词典进行字符串匹配分词,而且还可以识别一些新词。
需要说明的是,对于一个词单元,如果不考虑上下文的关系,可能会有多个不同的多领域词典特征和词性特征,在这种情况下,需要将词单元的所有多领域词典特征和词性特征都提取出。
例如,待识别实体的语句为:“我要听个宋冬野的安河桥”。
分词处理后,得到的词单元如下:我|要|听|个|宋冬野|的|安河桥。
其中,“安河桥”的多领域词典特征包括:音乐领域-song、建筑领域-bridge;词性特征包括:名词。
步骤104,对所述词单元、多领域词典特征、词性特征进行向量化处理,得到对应所述训练数据的各向量。
具体地,可以利用Glove模型得到各词单元的向量,利用正态分布随机数模型得到多领域词典特征的向量和词性特征的向量。
所述Glove模型是用来实现对中文词语的分布式向量化表达的一种模型,其融合了矩阵分解(Latent Semantic Analysis,LSA)的全局统计信息和局部上下文窗口(localcontext window)优势,融入全局的先验统计信息。
前面提到,对于一个词单元,可能会有多个不同的多领域词典特征和词性特征。对于这些特征,可以分别获取其对应的向量。
步骤105,利用对应所述训练数据的各向量及标注信息训练得到所述命名实体识别模型的参数。
在上述命名实体识别模型中,巧妙结合词性特征注意力机制,将词性特征向量和双向LSTM的隐含层输出向量进行关注计算,得到词性对预测目标的贡献矩阵,可以大大提高对多领域语料中实体及实体类型的识别效率。
利用上述命名实体识别模型,对待识别实体的语句进行实体识别的过程如图3所示,包括以下步骤:
步骤301,获取待识别实体的语句。
步骤302,对所述语句进行分词处理,得到各词单元及其多领域词典特征和词性特征。
分词处理的过程可参照前面命名实体识别模型构建过程中对训练数据的分词处理过程,以此不再赘述。
步骤303,对所述词单元、多领域词典特征和词性特征进行向量化处理,得到各向量。
具体地,可以利用Glove模型得到各词单元的向量,利用正态分布随机数模型得到多领域词典特征的向量和词性特征的向量。
步骤304,利用所述各向量及预先构建的命名实体识别模型确定所述语句中的实体及实体类型。
具体地,将对应各词单元及其多领域词典特征和词性特征的各向量输入所述命名实体识别模型,根据模型的输出得到所述语句中的各实体及其类型。
结合图2所示命名实体识别模型,上述实体识别过程具体如下:
将所述各向量输入所述特征向量转化层,得到所述特征向量转化层输出的词嵌入向量;所述融合注意力机制的双向长短时记忆层抽取所述语句中的高维抽象特征并进行向量化拼接后得到隐含层输出向量,并将所述隐含层输出向量与所述词嵌入向量进行关注计算,得到词性特征对预测目标的贡献矩阵;然后所述条件随机场层根据所述矩阵输出所述语句中的实体及实体类型。
下面结合具体实例进一步详细说明利用本发明方案进行实体识别的过程。
例如,对于语句“我要听首周杰伦的告白气球”来说,实体识别的具体过程如下:
第一步:对于上述语句进行分词和词性标注,结果为:我r/要v/听v/首m/周杰伦nr/的uj/告白n/气球n;
第二步:为分词后的每个词单元匹配多领域词典特征,比如预先设定了十个领域,如果词语在某领域中出现,则做相应的标记,匹配结果如下:
我Non NonNonNonNonNonNonNonNonNonNonNon
要Non NonNonNonNonNonNonNonNonNonNonNon
听Non NonNonNonNonNonNonNonNonNonNonNon
首Non NonNonNonNonNonNon song-InfNon NonNonNon
周杰伦Non NonNonNonNonNon singer-Ful Non NonNonNonNon
的Non NonNonNonNonNonNonNonNonNonNonNon
告白Non NonNonNonNonNonNonNonNonNonNonNon
气球Non NonNonNonNonNonNonNonNonNonNonNon
第三步:将每个词单元通过Glove模型转化成向量,并利用正态分布随机数模型得到多领域词典特征的向量和词性特征的向量,由图2中的特征向量转化层对词单元向量以及多领域词典特征向量进行拼接,得到向量序列;
第四步:将所述向量序列输入图2中的Bi-LSTM层中获得每个词单元对应的隐层向量,例如词单元“我”对应的隐层向量表征为P1;
第五步:分别将每个词单元对应的隐层输出向量与对应该词单元的词性特征向量做注意力关注计算,得到词性特征对预测目标的贡献矩阵,即图2中的z1、z2、z3、...、zn;
第六步:将所述词性特征对预测目标的贡献矩阵输入CRF层,获得每一个词单元的标注结果,标注结果如下:
[(我:NS)(要:NS)(听:NS)(首:E-number)(周杰伦:U-artist_name)(的:NS)(告白:B-media_name)(气球:E-media_name)];
识别结果为:
“周杰伦”,标记为实体,且实体类型标记为“artist_name”;
“告白气球”,标记为实体,且实体类型标记为“media_name”。
在该示例中,“周杰伦”这个实体可以匹配到多领域词典中音乐领域中的“singer-Ful”这个词典特征,从而可以使命名实体识别模型能够充分利用到该词典特征,提升实体及实体类型的识别准确率。
需要说明的是,即使“周杰伦”这个实体无任何多领域词典信息,但是由于命名实体识别模型设计了实体的词性注意力关注机制,可以获得词性(“周杰伦”的词性是“nr”)对预测目标(实体及实体类型)的贡献矩阵。因此,考虑词性对于实体及实体类型的权衡关注,也可以有效帮助“周杰伦”这个实体被模型判别为artist_name类型。
可见,本发明方案在缺乏上下文信息及领域词典信息的情况下,也可以较好地识别语句中的实体及实体类型。
另外,在相同条件下,利用不同模型进行实体识别,比如CRF模型、Bi-LSTM模型、Bi-LSTM-CRF模型、Bi-LSTM-Attention-CRF模型(本发明方案结合词性特征注意力机制的Bi-LSTM-CRF模型),实验结果也进一步表明了利用本发明实施例的方案,相较于现有技术,可以得到更好的识别效果。
需要说明的是,在开发阶段,还可以收集多领域语料数据作为测试集,调用已训练的命名实体识别模型对测试语料进行命名实体识别,并对命名实体识别的准确度进行判断,比如计算识别的准确率、召回率和F值。其中:
准确率=交集/模型识别出的实体;
召回率=交集/数据集中的所有实体;
F值=2×(准确率×召回率)/(准确率+召回率);
其中,所述交集是指经过模型识别出来的实体,与数据集中的所有实体的交集。
通过对命名实体识别的准确度进行判断,可以反推出命名实体识别模型对哪类实体及实体类型识别较差,从而指导调整训练样本集的分布或优化模型的损失函数,进一步优化命名实体识别模型,提高实体识别的准确率。
本发明实施例提供的命名实体识别方法,通过融合句子中词语、多领域词典特征并考虑词性特征,多维多角度理解句子语义信息,利用预先构建的命名实体识别模型得到待识别实体的语句中的实体及实体类型。
由于在命名实体识别模型中,巧妙结合子词性特征注意力机制,将词性特征向量和双向LSTM的隐含层输出向量进行关注计算,得到词性对预测目标的贡献矩阵,从而大大提高了对多领域语料中实体及实体类型的识别效率。
相应地,本发明实施例还提供一种命名实体识别装置,如图4所示,是该装置的一种结构示意图。
在该实施例中,所述装置包括以下各模块:
语句获取模块401,用于获取待识别实体的语句;
分词处理模块402,用于对所述语句进行分词处理,得到各词单元及其多领域词典特征和词性特征;
向量转化模块403,用于对所述词单元、多领域词典特征和词性特征进行向量化处理,得到各向量;
识别模块404,用于利用所述各向量及预先构建的命名实体识别模型400确定所述语句中的实体及实体类型,具体地,将所述各向量输入所述命名实体识别模型,根据所述命名实体识别模型的输出得到所述语句中的各实体及实体类型。
其中,所述向量转化模块403具体可以包括:词向量转化单元和特征向量转化单元;所述词向量转化单元用于利用Glove模型得到各词单元的向量;所述特征向量转化单元用于利用正态分布随机数模型得到多领域词典特征的向量和词性特征的向量。
所述命名实体识别模型400可以由相应的模型构建模块(未图示)预先利用收集的多领域语料数据训练得到。所述模型构建模块可以作为本发明装置的一部分,也可以独立于本发明装置,对此不做限定。
图5示出了所述模型构建模块的一种结构框图,包括以下各单元:
拓扑结构确定单元501,用于确定命名实体识别模型的拓扑结构;
数据收集单元502,用于收集多领域语料数据作为训练数据,并标注所述训练数据中的实体及其类型;
分词处理单元503,用于对所述训练数据进行分词,得到各词单元及其多领域词典特征和词性特征;
向量转化单元504,用于对所述词单元、多领域词典特征、词性特征进行向量化处理,得到对应所述训练数据的各向量;
训练单元505,用于利用对应所述训练数据的各向量及标注信息训练得到所述命名实体识别模型的参数。
所述命名实体识别模型包括:特征向量转化层、融合注意力机制的双向长短时记忆层和条件随机场层;所述融合注意力机制的双向长短时记忆层包括:双向LSTM层和词性关注计算层,其拓扑结构可参见图2所示。
命名实体识别模型中各层的输入、输出、以及各层的功能在前面已有详细说明,在此不再赘述。
本发明实施例提供的命名实体识别装置,通过融合句子中词语、多领域词典特征并考虑词性特征,多维多角度理解句子语义信息,利用预先构建的命名实体识别模型得到待识别实体的语句中的实体及实体类型。
由于在命名实体识别模型中,巧妙结合子词性特征注意力机制,将词性特征向量和双向LSTM的隐含层输出向量进行关注计算,得到词性对预测目标的贡献矩阵,从而大大提高了对多领域语料中实体及实体类型的识别效率。
本发明实施例提供的命名实体识别方法及装置,可以应用于在信息抽取、信息过滤、信息检索、问答系统、机器翻译等领域。
图6是根据一示例性实施例示出的一种命名实体识别方法的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类别的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类别的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述按键误触纠错方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本发明还提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行上述本发明方法实施例中的全部或部分步骤。
图7是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种命名实体识别方法,其特征在于,所述方法包括:
获取待识别实体的语句;
对所述语句进行分词处理,得到各词单元及其多领域词典特征和词性特征;
对所述词单元、多领域词典特征和词性特征进行向量化处理,得到各向量;
利用所述各向量及预先构建的命名实体识别模型确定所述语句中的实体及实体类型。
2.根据权利要求1所述的方法,其特征在于,所述多领域包括以下任意一种或多种:音乐领域、股票领域、地图导航领域、教育领域。
3.根据权利要求1所述的方法,其特征在于,所述词性特征包括以下任意一种或多种:名词、动词、形容词、副词。
4.根据权利要求1所述的方法,其特征在于,所述对所述词单元、多领域词典特征和词性特征进行向量化处理,得到各向量包括:
利用Glove模型得到各词单元的向量;
利用正态分布随机数模型得到多领域词典特征的向量和词性特征的向量。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:按以下方式构建所述命名实体识别模型:
确定命名实体识别模型的拓扑结构;
收集多领域语料数据作为训练数据,并标注所述训练数据中的实体及其类型;
对所述训练数据进行分词,得到各词单元及其多领域词典特征和词性特征;
对所述词单元、多领域词典特征、词性特征进行向量化处理,得到对应所述训练数据的各向量;
利用对应所述训练数据的各向量及标注信息训练得到所述命名实体识别模型的参数。
6.根据权利要求1所述的方法,其特征在于,所述命名实体识别模型包括:
特征向量转化层、融合注意力机制的双向长短时记忆层和条件随机场层;所述融合注意力机制的双向长短时记忆层包括:双向LSTM层和词性关注计算层;
所述特征向量转化层,用于对各词单元及其多领域词典特征对应的向量进行拼接,得到下一层的输入;
所述双向LSTM层,用于抽取出所述词单元及其多领域词典特征的高维抽象特征,得到隐含层输出向量;
所述特征注意力计算层,用于将所述隐含层输出向量与所述词性特征的向量进行注意力关注计算,得到词性特征对预测目标的贡献矩阵;
所述条件随机场层,用于利用所述矩阵确定所述训练数据中的实体及实体类型。
7.一种命名实体识别装置,其特征在于,所述装置包括:
语句获取模块,用于获取待识别实体的语句;
分词处理模块,用于对所述语句进行分词处理,得到各词单元及其多领域词典特征和词性特征;
向量转化模块,用于对所述词单元、多领域词典特征和词性特征进行向量化处理,得到各向量;
识别模块,用于利用所述各向量及预先构建的命名实体识别模型确定所述语句中的实体及实体类型。
8.根据权利要求7所述的装置,其特征在于,所述命名实体识别模型包括:
特征向量转化层、融合注意力机制的双向长短时记忆层和条件随机场层;所述融合注意力机制的双向长短时记忆层包括:双向LSTM层和词性关注计算层;
所述特征向量转化层,用于对各词单元及其多领域词典特征对应的向量进行拼接,得到下一层的输入;
所述双向LSTM层,用于抽取出所述词单元及其多领域词典特征的高维抽象特征,得到隐含层输出向量;
所述特征注意力计算层,用于将所述隐含层输出向量与所述词性特征的向量进行注意力关注计算,得到词性特征对预测目标的贡献矩阵;
所述条件随机场层,用于利用所述矩阵确定所述训练数据中的实体及实体类型。
9.一种电子设备,其特征在于,包括:一个或多个处理器、存储器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现如权利要求1至6任一项所述的方法。
10.一种可读存储介质,其上存储有指令,所述指令被执行以实现如权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811485654.2A CN111368541A (zh) | 2018-12-06 | 2018-12-06 | 命名实体识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811485654.2A CN111368541A (zh) | 2018-12-06 | 2018-12-06 | 命名实体识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111368541A true CN111368541A (zh) | 2020-07-03 |
Family
ID=71209724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811485654.2A Pending CN111368541A (zh) | 2018-12-06 | 2018-12-06 | 命名实体识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111368541A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112199953A (zh) * | 2020-08-24 | 2021-01-08 | 广州九四智能科技有限公司 | 一种电话通话中信息提取方法、装置及计算机设备 |
CN112417876A (zh) * | 2020-11-23 | 2021-02-26 | 北京乐学帮网络技术有限公司 | 一种文本处理方法、装置、计算机设备及存储介质 |
CN112487820A (zh) * | 2021-02-05 | 2021-03-12 | 南京邮电大学 | 一种中文医疗命名实体识别方法 |
CN112597299A (zh) * | 2020-12-07 | 2021-04-02 | 深圳价值在线信息科技股份有限公司 | 文本的实体分类方法、装置、终端设备和存储介质 |
CN112699683A (zh) * | 2020-12-31 | 2021-04-23 | 大唐融合通信股份有限公司 | 一种融合神经网络和规则的命名实体识别方法及装置 |
CN114048748A (zh) * | 2021-11-17 | 2022-02-15 | 上海勃池信息技术有限公司 | 命名实体识别系统、方法、电子设备及介质 |
WO2022073333A1 (zh) * | 2020-10-10 | 2022-04-14 | 苏州大学 | 基于多级词典的分词方法、装置、设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572625A (zh) * | 2015-01-21 | 2015-04-29 | 北京云知声信息技术有限公司 | 命名实体的识别方法 |
CN107133220A (zh) * | 2017-06-07 | 2017-09-05 | 东南大学 | 一种地理学科领域命名实体识别方法 |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN108829678A (zh) * | 2018-06-20 | 2018-11-16 | 广东外语外贸大学 | 一种汉语国际教育领域命名实体识别方法 |
-
2018
- 2018-12-06 CN CN201811485654.2A patent/CN111368541A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572625A (zh) * | 2015-01-21 | 2015-04-29 | 北京云知声信息技术有限公司 | 命名实体的识别方法 |
CN107133220A (zh) * | 2017-06-07 | 2017-09-05 | 东南大学 | 一种地理学科领域命名实体识别方法 |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN108829678A (zh) * | 2018-06-20 | 2018-11-16 | 广东外语外贸大学 | 一种汉语国际教育领域命名实体识别方法 |
Non-Patent Citations (2)
Title |
---|
CHANDRA PANDEY ET AL.: "Improving RNN with Attention and Embedding for Adverse Drug Reactions", 《DH’17:PROCEEDINGS OF THE 2017 INTERNATIONAL CONFERENCE ON DIGITAL HEALTH》, pages 67 - 71 * |
冯艳红 等: "基于BLSTM的命名实体识别方法", 《计算机科学》, vol. 45, no. 2, pages 261 - 268 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112199953A (zh) * | 2020-08-24 | 2021-01-08 | 广州九四智能科技有限公司 | 一种电话通话中信息提取方法、装置及计算机设备 |
WO2022073333A1 (zh) * | 2020-10-10 | 2022-04-14 | 苏州大学 | 基于多级词典的分词方法、装置、设备及可读存储介质 |
CN112417876A (zh) * | 2020-11-23 | 2021-02-26 | 北京乐学帮网络技术有限公司 | 一种文本处理方法、装置、计算机设备及存储介质 |
CN112597299A (zh) * | 2020-12-07 | 2021-04-02 | 深圳价值在线信息科技股份有限公司 | 文本的实体分类方法、装置、终端设备和存储介质 |
CN112699683A (zh) * | 2020-12-31 | 2021-04-23 | 大唐融合通信股份有限公司 | 一种融合神经网络和规则的命名实体识别方法及装置 |
CN112487820A (zh) * | 2021-02-05 | 2021-03-12 | 南京邮电大学 | 一种中文医疗命名实体识别方法 |
CN114048748A (zh) * | 2021-11-17 | 2022-02-15 | 上海勃池信息技术有限公司 | 命名实体识别系统、方法、电子设备及介质 |
CN114048748B (zh) * | 2021-11-17 | 2024-04-05 | 上海勃池信息技术有限公司 | 命名实体识别系统、方法、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107632980B (zh) | 语音翻译方法和装置、用于语音翻译的装置 | |
CN111368541A (zh) | 命名实体识别方法及装置 | |
CN110781305B (zh) | 基于分类模型的文本分类方法及装置,以及模型训练方法 | |
CN110008401B (zh) | 关键词提取方法、关键词提取装置和计算机可读存储介质 | |
KR102628036B1 (ko) | 음성 신호를 기초로 한 텍스트 편집 장치 및 텍스트 편집 방법 | |
CN107221330B (zh) | 标点添加方法和装置、用于标点添加的装置 | |
CN107291704B (zh) | 处理方法和装置、用于处理的装置 | |
CN111128183B (zh) | 语音识别方法、装置和介质 | |
CN108304412B (zh) | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 | |
KR102544453B1 (ko) | 정보 처리 방법, 장치 및 저장 매체 | |
CN107274903B (zh) | 文本处理方法和装置、用于文本处理的装置 | |
CN108628819B (zh) | 处理方法和装置、用于处理的装置 | |
RU2733816C1 (ru) | Способ обработки речевой информации, устройство и запоминающий носитель информации | |
CN107564526B (zh) | 处理方法、装置和机器可读介质 | |
CN110069624B (zh) | 文本处理方法及装置 | |
CN113792207A (zh) | 一种基于多层次特征表示对齐的跨模态检索方法 | |
KR20090068380A (ko) | 개선된 이동 통신 단말 | |
CN107424612B (zh) | 处理方法、装置和机器可读介质 | |
CN107422872B (zh) | 一种输入方法、装置和用于输入的装置 | |
CN109471919B (zh) | 零代词消解方法及装置 | |
CN114880480A (zh) | 一种基于知识图谱的问答方法及装置 | |
CN113936697B (zh) | 语音处理方法、装置以及用于语音处理的装置 | |
CN116166843B (zh) | 基于细粒度感知的文本视频跨模态检索方法和装置 | |
CN111538998A (zh) | 文本定密方法和装置、电子设备及计算机可读存储介质 | |
CN113033163A (zh) | 一种数据处理方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |