CN109885824A

CN109885824A - 一种层次的中文命名实体识别方法、装置及可读存储介质

Info

Publication number: CN109885824A
Application number: CN201910009530.5A
Authority: CN
Inventors: 李健; 王富田; 张连毅; 武卫东
Original assignee: BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Current assignee: BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Priority date: 2019-01-04
Filing date: 2019-01-04
Publication date: 2019-06-14
Anticipated expiration: 2039-01-04
Also published as: CN109885824B

Abstract

本发明涉及一种层次的中文命名实体识别方法、装置及可读存储介质。所述方法包括：收集包含命名实体的训练语料，对所述训练语料中的非命名实体进行标注，对所述训练语料中的命名实体进行两级信息标注；建立BiLSTM+attention+GatedCNN神经网络模型；使用所述已标注的训练语料对所述神经网络模型进行训练，得到命名实体识别模型；将待分析语句输入所述命名实体识别模型，得到由所述命名实体识别模型标注的两级类别命名实体识别结果。这种层次的神经网络结构解决了一个算法只能进行一级类别命名实体识别的问题，实现了可以在一个算法中对文本进行两级类别命名实体识别的工作，命名实体识别的准确率也得到保证。

Description

一种层次的中文命名实体识别方法、装置及可读存储介质

技术领域

本发明涉及信息处理领域，具体地涉及一种层次的中文命名实体识别方法、装置及可读存储介质。

背景技术

随着互联网技术的飞速发展，网络上的可用信息资源得到了丰富。人们迫切需要从海量非结构化文本中抽取有意义的数据，信息抽取技术应运而生。信息抽取技术在问答系统的构建或知识图谱的构建等领域中有十分广泛的应用。命名实体识别是信息抽取系统的一个重要子任务，其目的是识别和分类文本中的命名实体，例如：人名、地名、组织机构名、专有名词等，为信息抽取做铺垫。

命名实体识别主要有三种方法：基于规则和词典的方法、基于统计的方法、混合方法。基于规则和词典的方法中，多数是人工建立专家知识库，通过知识库中已有的规则模板和知识信息来进行命名体的识别，对人力物力的耗费巨大。基于统计的方法中，利用人工标注的语料对机器进行训练，让机器通过训练形成语言识别模型，通过训练得到的模型来进行命名实体识别，这些模型包括：隐马尔科夫模型(HiddenMarkovMode,HMM)、支持向量机(MixmiumEntropy,ME)、最大熵(SupportVectorMachine,SVM)、条件随机场(ConditionalRandomFields,CRF)等。在混合方法中，借助专家知识提前对语言文本进行修剪过滤，再使用统计学模型来进行命名体识别，这样可以避免统计方法有可能产生的一定程度的边界识别错误和语义分类错误。近年来随着神经网络算法的不断发展和标注数据的积累，基于神经网络的深度学习方法被应用于命名体识别中，深度学习通过组合低层特征来形成更加抽象的高层表示属性类别或特征，以发现数据中隐藏的结构组织信息。基于神经网络的深度学习方法相较于传统的学习方法来说，泛化能力更强，识别效果更好。

目前基于神经网络的命名体识别方法主要包括：LSTM+CRF、BiLSTM+CRF等，其中LSTM和BiLSTM都是非常适合用于文本数据建模的深度神经网络，CRF(条件随机场)算法是被广泛用于命名体识别中的算法。这些方法均使用神经网络算法进行编码工作，利用CRF进行解码工作。目前这些命名体识别的方法都只能进行一级类别命名实体的识别，例如：人名、地名等，不能进行二级类别命名实体的识别，例如：导演名，演员名等。有关的一些研究工作更是将一级类别和二级类别命名实体识别工作分开进行，即先进行一级类别命名体识别之后，再利用专家知识或者分类算法，单独训练相关模型，进行二级类别识别。无法在一个算法中对文本进行两级类别命名实体识别的工作。

发明内容

本发明提供一种层次的中文命名实体识别方法、装置及可读存储介质，以实现在同一个算法中对文本进行两级类别命名实体识别的工作。

本发明实施例第一方面提供了一种层次的中文命名实体识别方法，所述方法包括：

收集训练语料，所述训练语料中包含多个类别命名实体；

对所述训练语料中的非命名实体进行标注；

对所述训练语料中的所述多个类别命名实体分别进行两级信息标注；

建立加入attention机制的BiLSTM神经网络模型，得到BiLSTM+attention神经网络模型；

在所述BiLSTM+attention神经网络模型的基础上加入GatedCNN神经网络模型，得到BiLSTM+attention+GatedCNN神经网络模型；

利用已标注的训练语料对所述BiLSTM+attention+GatedCNN神经网络模型进行训练，得到命名实体识别模型；

将待分析语句输入所述命名实体识别模型中，得到所述命名实体识别模型标注的两级类别命名实体识别结果。

可选的，对训练语料中的非命名实体进行标注，包括：

按预设的标注方式对所述训练语料中的所述非命名实体添加标注符。

可选的，对训练语料中的所述多个类别命名实体分别进行两级信息标注，包括：

按预设的标注方式对所述训练语料中的一级类别命名实体添加区别于所述非命名实体的标注符；

按预设的一级分类对所述训练语料中的一级类别命名实体添加一级类别实体标记；

按预设的二级分类对所述训练语料中的二级类别命名实体添加二级类别实体标记。

可选的，利用所述已标注的训练语料对所述BiLSTM+attention+GatedCNN神经网络模型进行训练，得到命名实体识别模型，包括：

以句为单位，将所述已标注的训练语料输入所述BiLSTM+attention+GatedCNN神经网络模型的embedding层中；

通过所述embedding层将所述已标注的训练语料转换为向量数据；

将所述向量数据从所述embedding层中传入所述BiLSTM+attention+GatedCNN神经网络模型的BiLSTM层中；

通过所述BiLSTM层运算得到预测的一级类别命名实体识别结果；

将所述预测的一级类别命名实体识别结果从所述BiLSTM层传入所述BiLSTM+attention+GatedCNN神经网络模型的attention层中；

通过所述attention层经运算对所述向量数据中预测的一级类别命名实体赋予额外权重；

将所述attention层中带有权重信息的向量数据从所述attention层中传入所述BiLSTM+attention+GatedCNN神经网络模型的GatedCNN层中；

通过所述GatedCNN层结合所述带有权重信息的向量数据和所述权重信息进行运算，得到预测的二级类别命名实体识别结果；

通过所述BiLSTM+attention+GatedCNN神经网络模型计算得到已知标注和预测的两级命名实体结果之间的误差值；

通过所述BiLSTM+attention+GatedCNN神经网络模型得到的所述误差值来修正自身模型参数；

通过所述BiLSTM+attention+GatedCNN神经网络模型不断修正所述模型参数使所述模型参数达到最优，生成命名实体识别模型。

可选的，所述方法还包括：

在通过所述attention层将所述带有权重信息的向量数据入所述GatedCNN层的同时，将所述权重信息传入所述BiLSTM层中；

通过所述BiLSTM层结合所述权重信息对后续输入所述BiLSTM层的所述向量数据进行运算，得到所述预测的一级类别命名实体识别结果。

可选的，在所述BiLSTM+attention神经网络模型的基础上加入GatedCNN神经网络模型，得到BiLSTM+attention+GatedCNN神经网络模型，所述方法还包括：

建立命名实体专家知识系统；

在所述BiLSTM+attention+GatedCNN神经网络模型的基础上加入所述命名实体专家知识系统；

将所述两级类别命名实体识别结果传入所述命名实体专家知识系统；

通过所述命名实体专家知识系统认定不符合所述命名实体专家知识系统的所述两级类别命名实体识别结果为错误结果；

通过所述命名实体专家知识系统输出最终两级类别命名实体识别结果。

可选的，建立命名实体专家知识系统，包括：

收集人名专家知识、地名专家知识、数字专家知识；

用所述人名专家知识、地名专家知识、数字专家知识建立专家知识库；

制定校验规则；

将专家知识库与校验规则结合，得到所述命名实体专家知识系统。

本发明实施例第二方面提供了一种层次的中文命名实体识别装置，所述装置包括：

文本收集模块，用于收集训练语料，所述训练语料中包含多个类别命名实体；

第一标注模块，用于对所述训练语料中的非命名实体进行标注；

第二标注模块，对所述训练语料中的所述多个类别命名实体分别进行两级信息标注；

第一模型建立模块，用于建立加入attention机制的BiLSTM神经网络模型，得到BiLSTM+attention神经网络模型；

第二模型建立模块，用于在所述BiLSTM+attention神经网络模型的基础上加入GatedCNN神经网络模型，得到BiLSTM+attention+GatedCNN神经网络模型；

模型训练模块，用于利用已标注的训练语料对所述BiLSTM+attention+GatedCNN神经网络模型进行训练，得到命名实体识别模型；

命名实体识别模块，用于将待分析语句输入所述命名实体识别模型中，得到所述命名实体识别模型标注的两级命名实体识别结果。

可选的，所述第一标注模块包括：

第一标注子模块，用于按预设的标注方式对所述训练语料中的所述非命名实体添加标注符。

可选的，所述第二标注模块包括：

第二标注子模块，按预设的标注方式对所述训练语料中的一级类别命名实体添加区别于所述非命名实体的标注符；

第三标注子模块，用于按预设的一级分类对所述训练语料中的一级类别命名实体添加一级类别实体标记；

第四标注子模块，用于按预设的二级分类对所述训练语料中的二级类别命名实体添加二级类别实体标记。

可选的，所述模型训练模块包括：

语句输入子模块，用于以句为单位，将所述已标注的训练语料输入所述BiLSTM+attention+GatedCNN神经网络模型的embedding层中；

数据转换子模块，用于通过所述embedding层将所述已标注的训练语料转换为向量数据；

第一传输子模块，用于将所述向量数据从所述embedding层中传入所述BiLSTM+attention+GatedCNN神经网络模型的BiLSTM层中；

第一处理子模块，用于通过所述BiLSTM层运算得到预测的一级类别命名实体识别结果；

第二传输子模块，将所述测的一级类别命名实体识别结果从所述BiLSTM层传入所述BiLSTM+attention+GatedCNN神经网络模型的attention层中；

权重赋值子模块，用于通过所述attention层经计算对所述向量数据中预测的一级类别命名实体赋予额外权重；

第三传输子模块，将所述attention层中带有权重信息的向量数据从所述attention层中传入所述BiLSTM+attention+GatedCNN神经网络模型的GatedCNN层中；

第二处理子模块，用于通过所述GatedCNN神经网络模型结合所述带有权重信息的向量数据和所述权重信息进行运算，得到预测的二级类别命名实体识别结果；

误差计算子模块，用于通过所述BiLSTM+attention+GatedCNN神经网络模型计算得到已知标注和所述预测的两级类别命名实体结果之间的误差值；

参数修正子模块，用于通过所述BiLSTM+attention+GatedCNN神经网络模型得到的所述误差值来修正自身模型参数；

可选的，所述装置还包括：

专家知识系统建立模块，用于建立命名实体专家知识系统；

系统构建模块，用于在所述BiLSTM+attention+GatedCNN神经网络模型的基础上加入所述命名实体专家知识系统；

第四传输模块，用于将所述两级类别命名实体识别结果传入所述命名实体专家知识系统；

结果校验模块，通过所述命名实体专家知识系统认定不符合所述命名实体专家知识系统的所述两级类别命名实体识别结果为错误结果；

结果输出模块，通过所述命名实体专家知识系统输出最终两级命名实体识别结果。

可选的，所述专家知识建立模块包括：

专家知识收集子模块，用于收集人名专家知识、地名专家知识、数字专家知识；

知识库建立子模块，用于利用所述人名专家知识、地名专家知识、数字专家知识建立专家知识库；

规则制定子模块，用于制定校验规则；

系统生成子模块，用于将专家知识库与校验规则结合，得到所述命名实体专家知识系统。

本发明对比现有技术具有以下有益效果：

一、本发明采用了BiLSTM+attention+GatedCNN的神经网络结构，实现了在一个算法中对文本进行两级类别命名实体识别的工作。

二、在一级类别命名实体的识别中，BiLSTM+attention的神经网络结构使模型在分析文本时，能够更加关注文本中的命名实体，识别准确性更好。在二级类别命名体识别时引入了GatedCNN神经网络，此网络在语义分类中有较好的表现。另外专家知识的引入对命名体识别结果进行了修缮，进一步保证了识别的准确性。

附图说明

为了更清楚地说明本申请各个实施例的技术方案，下面将对本申请各个实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提出的一种层次的中文命名实体识别方法流程图；

图2是一种层次的中文命名实体识别模型结构图；

图3是本发明另一实施例提供的一种层次的中文命名实体识别方法流程图；

图4是本发明一实施例提供的一种层次的中文命名实体识别装置的示意图；

图5是本发明另一实施例提供的一种层次的中文命名实体识别装置的示意图。

具体实施方式

下文描述了本发明的具体实施方式，该实施方式为示意性的，旨在揭示本发明的具体工作过程，不能理解为对权利要求的保护范围的进一步限定。

参考图1，图1是本发明实施例提出的一种层次的中文命名实体识别方法的流程图。如图1所示，该方法包括以下步骤：

步骤S11：收集训练语料，所述训练语料中包含多个类别命名实体。

在本发明的各个实施例中，训练语料为包含有多个类别命名实体的文本，训练语料可以是新闻中的语句，书本中的语句，也可以是电影台词等。这些文本均可以从互联网来获得。例如：人名、中文地名、数字。其中人名的二级分类为：演员名、导演名、角色名，中文地名的二级分类为：省市名、道路名、小区名，数字的二级分类为：时间、日期、货币、电话号码。

步骤12：对所述训练语料中的非命名实体进行标注。

为了训练神经网络模型，需要对训练语料中的非命名实体添加区别于命名实体的标注符来使模型认知那些语料属于非命名实体，只要标注符区别于语料中的命名实体即可。

例如：非命名实体标记为o。

步骤S13:对所述训练语料中的所述多个类别命名实体分别进行两级信息标注。

按预设的标注方式对所述训练语料中的一级类别命名实体添加区别于所述非命名实体的标注符。

按预设的一级分类对所述训练语料中的一级类别命名实体添加一级类别实体标记。

例如：人名标记为per，b-per表示中文人名的第一个字，m-per表示中文人名的中间部分字符，e-per表示中文人名的结束字符；地名标记为loc，b-loc表示中文地名的第一个字，m-loc表示中文地名的中间部分字符，e-loc表示中文地名的结束字符；数字信息标记为num，b-num表示数字的第一个字，m-num表示数字的中间部分字符，n-mum表示数字的结束字符。

例如：演员名标记为act，导演名标记为dir，角色名标记为rol；省市名标记为pro，道路名标记为roa，小区名标记为vil；日期标注为dat，货币标注为mon，电话号码标注为pho。

例如输入语句为：成龙在香港拨打了10086。

标记为：

/act/ /pro//pho//成/龙/在/香/港/拨/打/了/1/0/0/8/6//b-per/e-per/o/b-loc/e-loc/o/o/o/b-mum/m-mum/m-mum/m-mum/e-mum/

步骤S14：建立加入attention机制的BiLSTM神经网络模型，得到BiLSTM+attention神经网络模型。

所述BiLSTM神经网络模型是由前向LSTM网络和后向LSTM网络构成的神经网络模型，所述BiLSTM神经网络能够实现双向的序列信息的记忆，适用于处理和预测时间序列中间隔和延迟相对较长的重要事件，可以结合上下文的信息进行文本的预测，在自然语言处理任务中表现优异。加入所述attention机制，可以理解为在所述BiLSTM神经网络模型的后端加入attention层，所述attention机制作用到所述BiLSTM神经网络模型中，得到所述BiLSTM+attention神经网络模型，所述BiLSTM+attention神经网络模型在所述attention机制的作用下会更加关注所述输入数据中的所述命名实体，可以提高命名实体识别的准确度。

S15：在所述BiLSTM+attention神经网络模型的基础上加入GatedCNN神经网络模型，得到BiLSTM+attention+GatedCNN神经网络模型。

所述GatedCNN神经网络是在语义分类任务上表现较好的神经网络模型，在所述BiLSTM+attention神经网络模型的后端加入所述GatedCNN神经网络，完成二级类别命名实体的识别。

S16：利用已标注的训练语料对所述BiLSTM+attention+GatedCNN神经网络模型进行训练，得到命名实体识别模型。

以句为单位，将所述已标注的训练语料输入所述BiLSTM+attention+GatedCNN神经网络模型的embedding层中，通过所述embedding层将所述已标注的训练语料转换为向量数据。

所述神经网络模型的首层是embedding层，embedding层也叫作嵌入层，embedding层可以将句子中的每个字用向量来表达，更确切的说是将每个字替换为用于查找嵌入矩阵中向量的索引。

例如训练语料中包含句子：葛优在跑步。

在embedding层接收到这句话时，会将句子的每个字通过索引进行编码，创建嵌入矩阵，最后使用向量{x0～x4}来表示，{x0～x4}指代句子对应的向量，训练语句中的每个句子都会经过如下过程进行转换。

通过所述BiLSTM层运算得到预测的一级类别命名实体识别结果。

向量数据{x0～x4}传入BiLSTM层之后，BiLSTM层将向量数据{x0～x4}作为输入，输出隐状态序列{h0～h4}，隐状态序列是向量数据中每个元素的隐藏的状态信息所构成的序列，通过隐状态序列得到自动提取的句子特征，计算向量中的元素属于每个命名实体类型的概率，概率最大代表向量数据和命名实体类型的匹配度最高。经过计算发现{x0、x1}为命名实体的概率最大，得到一级命名实体识别结果。

将所述预测的一级类别命名实体识别结果从所述BiLSTM层传入所述BiLSTM+attention+GatedCNN神经网络模型的attention层中。

attention机制又叫做注意力机制，传统的模型不论输入序列长短都会输出一个固定长度的序列，这样在处理长序列问题时往往表现不佳。而加入了attention机制的模型则会让模型在接收序列时更加关注与当前输出有关的序列，避免了在无关序列上浪费资源，使模型识别更加准确。因为在BiLSTM模型中加入了attention机制，当前识别出的一级命名实体结果被attention层所接收，attention层通过计算，对权重进行重新分配，给向量数据中的一级命名实体增加额外的权重。

例如输入语句本来的权重分配为:

{x0/0.2、x1/0.2、x2/0.2、x3/0.2、x4/0.2}，

attention层在所述语句输入前接收到的命名实体识别结果为{x0、x1}，则为输入语句重新分配权重，使权重变为：

{x0/0.5、x1/0.5、x2/0、x3/0、x4/0}。

将所述attention层中带有权重信息的向量数据从所述attention层中传入所述BiLSTM+attention+GatedCNN神经网络模型的GatedCNN层中。

经过attention层的处理之后，输入的向量数据的权重得到了重新分配，一级类别命名实体数据得到了额外的权重，向量数据会通过attention层传输到GatedCNN层中去。

通过所述GatedCNN层结合所述带有权重信息的向量数据和所述权重信息进行运算，得到预测的二级类别命名实体识别结果。

GatedCNN网络是卷积神经网络的一种，这种神经网络在语义分类任务上表现良好。向量数据传入到GatedCNN层之后，GatedCNN层得到句子的隐状态序列{c0～cn}，提取句子特征。因为attention层对向量的权重进行了分配，GatedCNN会根据此权重来直接预测{x0、x1}的命名实体类型。预测出二级类别命名实体结果。

通过所述BiLSTM+attention+GatedCNN神经网络模型计算得到已知标注和预测的两级命名实体结果之间的误差值。

在训练过程中，每当有预测的命名实体识别结果输出时，神经网络会计算预测结果与期望输出之间的差值。

例如预测结果的向量序列为：

{x0/0.1、x1/0.1、x2/0.5、x3/0.2、x4/0.1}

而期望输出对应的向量序列为：

{x0/0.5、x1/0.5、x2/0、x3/0、x4/0}。

通过所述BiLSTM+attention+GatedCNN神经网络模型得到的所述误差值来修正自身模型参数。

神经网络会通过损失函数，例如：L1、L2损失函数、Huber损失函数、Log-Gosh损失函数等，来计算向量误差，所述向量误差会返回所述神经网络模型，神经网络模型根据向量误差修改语句中每个字符的权重。

在训练过程中，神经网络模型每次收到到误差值时都会对自身的权重进行修改，不断修改权重值使误差达到最小，得到命名实体识别模型。

在本实施例中，通过所述attention层将所述带有权重信息的向量数据传入所述GatedCNN层的同时，将所述权重信息传入所述BiLSTM层中，通过所述BiLSTM层结合所述权重信息对后续输入所述BiLSTM层的向量数据进行运算，得到所述预测的一级类别命名实体识别结果。

在通过所述attention层将所述带有权重信息的向量数据传入所述GatedCNN层的同时，将所述权重信息传入所述BiLSTM层中；

训练过程中，输入向量{x0～x4}的经过attention的计算，权重得到改变，向量输入GatedCNN层，而此权重信息会同时作用于后续输入的向量，使后续输入向量中与之前识别出的一级命名实体识别结果相似的数据的权重增加。

例如输入语句为：葛优在拍戏时很快乐。

对应序列为{x0、x1、x2、x3、x4、x5、x6、x7、x8}，出现了与之前相似的数据，其权重被分配为：

{x0/0.5、x1/0.5、x2/0、x3/0、x4/0、x5/0、x6/0、x7/0、x8/0}。

过所述BiLSTM层结合所述权重信息对后续输入所述BiLSTM层的向量数据进行运算，得到所述预测的一级类别命名实体识别结果。

在输入向量的权重信息改变之后，BiLSTM层会根据权重来进行一级命名实体识别结果的预测，计算过程和之前叙述相同。

S17：将待分析语句输入所述命名实体识别模型中，得到所述命名实体识别模型标注的两级命名实体识别结果。

参考图2，图2是一种层次的命名实体识别模型结构图，如图2所示：

将有n个字符的语句分为{s0～sn},将句子输入所述embedding层后，所述embedding层将{s0～sn}转化为低维度的字向量{x0～xn}。

字向量{x0～xn}输入基于attention机制训练的BiLSTM层，BiLSTM模型经过加入attention机制训练后，根据训练时模型中已经设置好的权重信息，对命名实体进行一级类别的识别，得到{x0～xn}的隐状态序列{h0～hn}，提取到句子特征，进而得到一级类别命名实体识别结果。

所述字向量{x0～xn}经过所述BiLSTM层处理之后每个向量有了不同的权值，通过BiLSTM层传入所述GatedCNN层，所述GatedCNN层得到隐状态序列{c0～cn}，经处理得到二级类别命名实体识别结果。

例如输入语句为：

张艺谋在云南旅游。

将所述语句的每个字符标记为{s0～s7}，将句子输入所述embedding层，转换为对应的向量{x0～x7}。

将向量{x0～x7}输入基于attention机制训练的BiLSTM层后，所述BiLSTM层得到对应的隐状态序列{h0～hn}，提取句子特征，计算得到此序列中每个元素属于哪个类型概率的大小，识别出其中的一级类别命名实体为{x0、x1、x2}类型为per(人名)，{x4、x5}类型为loc(地名)。

向量{x0～x7}携带此权重信息进入GatedCNN层之后，GatedCNN层同样得到隐状态序列{c0～c7}，提取到句子特征，进而识别{x0、x1、x2}类型为为dir(导演名)，{x4、x5}类型为pro(省名)，得到二级类别命名实体识别结果。

由所述命名实体识别模型输出的结果为：

(张艺谋)(per/dir)在(云南)(loc/pro)旅游。

结合上述实施例，在本发明的另一个实施例中，通过建立专家知识系统来对所述；两级类别命名实体识别结果进行校验，确定所述两级类别命名实体识别结果的正确性。

参考图3，图3是本发明另一实施例提供的一种层次的中文命名实体识别方法的流程图。如图3所示，该方法除包括步骤S11-步骤S17外，还包括以下步骤：

步骤S18：建立命名实体专家知识系统。

收集人名专家知识、地名专家知识、数字专家知识。

首先，可以通过网络、书本或与专家交流来收集中文人名知识、中文地名知识、数字规则知识。

例如收集的知识有：人名的476种姓氏和姓名在8个字符内的基本约束条件，34个省级行政区域名、334个地级区域名、2853个县级名、40497个乡镇名，电话号码的长度约束条件等。

利用所述人名专家知识、地名专家知识、数字专家知识建立专家知识库。

将收集的专家知识存储起来，可以存储到任意存储介质中，完成知识库的建立。

制定校验规则。

当两级命名实体识别结果传入专家知识库时，要制定相应的规则对两级命名实体识别结果进行校验。

规则可以设置为：

若命名实体识别结果没有在专家知识系统中出现，则视为错误结果。

若人名首字母为英文字母，则视为错误结果。

若电话号码长度超过11位，则视为错误结果。

错误结果不予输出。

将专家知识库与制定的规则编写完成后存储在同一介质中，完成专家知识系统的建立。专家知识库中的内容可以通过不断地收集资料来进行更新，是可以扩充的。

步骤S19：在所述BiLSTM+attention+GatedCNN神经网络模型的基础上加入所述命名实体专家知识系统。

神经网络模型经过训练之后生成了命名实体识别模型，在此基础上引入专家知识系统，可对两级命名实体识别结果做出有效的修缮。

步骤S20：将所述两级类别命名实体识别结果传入所述命名实体专家知识系统。

步骤S21：通过所述命名实体专家知识系统认定不符合所述命名实体专家知识系统的所述两级类别命名实体识别结果为错误结果。

步骤S22：通过所述命名实体专家知识系统输出最终两级类别命名实体识别结果。

例如输入所述专家知识系统的两级类别命类别名实体识别结果为：

(孙悟空)(per/rol)来到(地府)(loc/pro)寻找生死簿。

所述专家知识系统在接收到所述两级类别命名实体识别结果时将所述两级命名实体识别结果与所述专家知识库中的内容进行对比，发现“地府”并没有在所述专家知识库中出现，所以认定(地府)(loc/pro)为错误的识别结果。

所述专家知识系统经修缮后输出的所述最终两级类别命名实体识别结果为：

(孙悟空)(per/rol)来到地府寻找生死簿。

基于同一发明构思，本发明实施例提供了一种层次的中文命名实体识别装置。参考图4，图4是本发明一实施例提供的一种层次的中文命名实体识别装置的示意图。如图4所示，该装置包括：

文本收集模块301，用于收集训练语料，所述训练语料中包含多个类别命名实体；

第一标注模块302，用于对所述训练语料中的非命名实体进行标注；

第二标注模块303，对所述训练语料中的所述多个类别命名实体分别进行两级信息标注；

第一模型建立模块304，用于建立加入attention机制的BiLSTM神经网络模型，得到BiLSTM+attention神经网络模型；

第二模型建立模块305，用于在所述BiLSTM+attention神经网络模型的基础上加入GatedCNN神经网络模型，得到BiLSTM+attention+GatedCNN神经网络模型；

模型训练模块306，用于利用已标注的训练语料对所述BiLSTM+attention+GatedCNN神经网络模型进行训练，得到命名实体识别模型；

命名实体识别模块307，用于将待分析语句输入所述命名实体识别模型中，得到所述命名实体识别模型标注的两级类别命名实体识别结果。

可选的，所述第一标注模块包括：

可选的，所述第二标注模块包括：

可选的，所述模型训练模块包括：

第二传输子模块，将所述预测的一级类别命名实体识别结果从所述BiLSTM层传入所述BiLSTM+attention+GatedCNN神经网络模型的attention层中；

权重赋值子模块，用于通过所述attention层经运算对所述向量数据中预测的一级类别命名实体赋予额外权重；

第二处理子模块，用于通过所述GatedCNN层结合所述带有权重信息的向量数据和所述权重信息进行运算，得到预测的二级类别命名实体识别结果；

误差计算子模块，用于通过所述BiLSTM+attention+GatedCNN神经网络模型计算得到已知标注和预测的两级命名实体结果之间的误差值；

综合上述实例，在本发明的另一个实施例中，通过建立专家知识系统来对所述两级命名实体识别结果进行校验，确定所述两级命名实体识别结果的正确性。参考图5，图5是本发明另一实施例提供的一种层次的中文命名实体识别装置的示意图。如图5所示，该装置除包括上述模块之外，还包括：

专家知识系统建立模块308，用于建立命名实体专家知识系统；

系统构建模块309，用于在所述BiLSTM+attention+GatedCNN神经网络模型的基础上加入所述命名实体专家知识系统；

第四传输模块310，用于将所述两级类别命名实体识别结果传入所述命名实体专家知识系统；

结果校验模块311，通过所述命名实体专家知识系统认定不符合所述命名实体专家知识系统的所述两级类别命名实体识别结果为错误结果；

结果输出模块312，通过所述命名实体专家知识系统输出最终两级类别命名实体识别结果。

可选的，所述专家知识建立模块包括：

规则制定子模块，用于制定校验规则；

基于同一发明构思，本发明另一实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种层次的中文命名实体识别方法，其特征在于，包括：

收集训练语料，所述训练语料中包含多个类别命名实体；

对所述训练语料中的非命名实体进行标注；

2.如权利要求1所述的方法，其特征在于，对训练语料中的非命名实体进行标注，包括：

3.如权利要求1所述的方法，其特征在于，对训练语料中的所述多个类别命名实体分别进行两级信息标注，包括：

4.如权利要求1所述的方法，其特征在于，利用所述已标注的训练语料对所述BiLSTM+attention+GatedCNN神经网络模型进行训练，得到命名实体识别模型，包括：

5.如权利要求4所述的方法，其特征在于，所述方法还包括：

通过所述BiLSTM层结合所述权重信息对后续输入所述BiLSTM层的向量数据进行运算，得到所述预测的一级类别命名实体识别结果。

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

建立命名实体专家知识系统；

7.如权利要求6所述的方法，其特征在于，建立命名实体专家知识系统，包括：

收集人名专家知识、地名专家知识、数字专家知识；

利用所述人名专家知识、地名专家知识、数字专家知识建立专家知识库；

制定校验规则；

8.一种层次的中文命名实体识别装置，其特征在于，所述装置包括：

命名实体识别模块，用于将待分析语句输入所述命名实体识别模型中，得到所述命名实体识别模型标注的两级类别命名实体识别结果。

9.如权利要求8所述的装置，其特征在于，所述第一标注模块包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一所述的方法中的步骤。