CN108829681B

CN108829681B - 一种命名实体提取方法及装置

Info

Publication number: CN108829681B
Application number: CN201810688659.9A
Authority: CN
Inventors: 熊文灿; 廖翔; 周继烈; 张昊; 刘铭; 李俊
Original assignee: Dingfu Intelligent Technology Co ltd
Current assignee: Dinfo Beijing Science Development Co ltd
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2022-11-11
Anticipated expiration: 2038-06-28
Also published as: CN108829681A

Abstract

本申请实施例提供了一种命名实体提取方法及装置。其中，方法包括：对样本语料进行预处理，生成预设长度且带有标注的标准语料；构造标准语料中每个字符的特征向量；根据特征向量训练预设的长短期记忆网络，以获取每个字符的预测标签值；根据预测标签值和和字符的真实标签值优化预设的条件随机场模型；使用由长短期记忆网络和条件随机场模型组成的神经网络模型进行命名实体提取。本申请实施例提供的技术方案，通过控制标准语料的长度，构造能够表征更多语料特征的特征向量，以及，使用条件随机场模型优化神经网络模型的输出序列的方法，实现了在保证命名实体提取效率的同时，提高命名实体提取的准确性。

Description

一种命名实体提取方法及装置

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种命名实体提取方法及装置。

背景技术

命名实体是指人名、机构名、地名以及其他所有以名称为标识的实体，更广泛地说，命名实体还包括数字、日期、货币、地址、数量短语等。命名实体识别(Named EntityRecognition NER)的主要任务就是从文本中提取出命名实体并加以归类。命名实体识别是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。

命名实体识别常用的方法主要有：基于规则的方法、基于统计的方法以及规则和统计相结合的混合方法。其中，基于规则的实体识别方法需要人工制定进行识别规则，这种方法在构建规则的过程中需要大量的语言学知识，费时费力，规则构建成本高，容易出现规则之间的冲突问题。基于统计的方法，主要通过训练一些机器学习模型，并根据训练后的机器学习模型去进行命名实体的识别和提取。常用的机器学习算法有隐马尔可夫模型(Hidden Markov Models)、最大熵模型(Maximum Entropy Models)、条件随机场(Conditional Random Fields)等；但是，这些机器学习模型的识别命名实体准确性依赖于训练语料的规模及其约束条件，因此，为了提高准确性，构建机器学习模型时需要耗费大量的人工特征工程，而特征工程是比较耗费人力和时间资源的，从而导致机器学习模型构架的效率低下，无法满足信息快速更迭的需求。

可见，如何能够同时提高命名实体提取的准确性和效率，成为本领域技术人员亟待解决的技术问题。

发明内容

本申请实施例提供了一种命名实体提取方法及装置，以解决现有技术中的命名实体提取方法准确率低和效率低的问题。

第一方面，申请实施例提供了一种命名实体提取方法，包括：

对样本语料进行预处理，生成预设长度且带有标注的标准语料，所述标注包括对标准语料中每个字符添加的标签和真实标签值；

构造所述标准语料中每个字符的特征向量，所述特征向量由字符的词向量、位置特征向量和上下文特征向量拼接构成；

根据所述特征向量训练预设的长短期记忆网络，以获取每个字符的预测标签值；

根据所述预测标签值和所述真实标签值优化预设的条件随机场模型；

使用由所述长短期记忆网络和所述条件随机场模型组成的神经网络模型进行命名实体提取。

第二方面，申请实施例提供了一种命名实体提取装置，包括：

预处理模块，用于对样本语料进行预处理，生成预设长度且带有标注的标准语料，所述标注包括对标准语料中每个字符添加的标签和真实标签值；

特征向量构造模块，用于构造所述标准语料中每个字符的特征向量，所述特征向量由字符的词向量、位置特征向量和上下文特征向量拼接构成；

长短期记忆网络训练模块，用于根据所述特征向量训练预设的长短期记忆网络，以获取每个字符的预测标签值；

条件随机场模型优化模块，用于根据所述预测标签值和所述真实标签值优化预设的条件随机场模型；

命名实体提取和评测模块，用于使用由所述长短期记忆网络和所述条件随机场模型组成的神经网络模型进行命名实体提取。

由以上技术方案可知，本申请实施例提供了一种命名实体提取方法及装置。其中，该方法包括：首先，对样本语料进行预处理，生成预设长度且带有标注的标准语料，从而，避免了过长的样本语料直接输入到长短期记忆网络中导致长短期记忆网络的隐含层出现梯度消失现象；然后，构造由字符的词向量、位置特征向量和上下文特征向量拼接构成的特征向量，使本申请中的特征向量不仅能够表征字符的词嵌入特征，还能够表征在分词中的距离特征和分词的语义特征，以及，表征字符的上下文特征，从而，能够提高长短期记忆网络的预测精度；然后，根据特征向量训练预设的长短期记忆网络，以获取每个字符的预测标签值，以及，根据预测标签值和真实标签值优化预设的条件随机场模型，以优化神经网络模型的输出序列，从而，获得了可用于进行命名实体提取的精度更高的神经网络模型；最后，使用该神经网络模型进行命名实体提取。本申请实施例提供的技术方案，通过控制标准语料的长度，构造能够表征更多语料特征的特征向量，以及，使用条件随机场模型优化神经网络模型的输出序列的方法，实现了在保证命名实体提取效率的同时，提高命名实体提取的准确性。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一示例性实施例示出的一种命名实体提取方法的流程图；

图2是本申请一示例性实施例示出的一种命名实体提取方法步骤S110的流程图；

图3是本申请一示例性实施例示出的位置特征向量生成方法的示意图；

图4是本申请一示例性实施例示出的上下文特征向量生成方法的示意图；

图5为本申请一示例性实施例示出的上下文特征取样的示意图；

图6为本申请一示例性实施例示出的卷积运算过程的示意图；

图7是本申请一示例性实施例示出的一种命名实体提取方法步骤S140的流程图；

图8是本申请一示例性实施例示出的对神经网络模型进行准确性评测的流程图；

图9是本申请一示例性实施例示出的一种命名实体提取装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

为了解决现有技术中的命名实体提取方法准确率低和效率低的问题，本申请实施例提供了一种命名实体提取方法及装置。

下面是本申请的方法实施例。

图1是本申请一示例性实施例示出的一种命名实体提取方法的流程图。该方法可以应用于PC(个人电脑)、平板电脑、手机和服务器等多种设备。

参见图1所示，该方法可以包括以下步骤：

步骤S110，对样本语料进行预处理，生成预设长度且带有标注的标准语料，所述标注包括对标准语料中每个字符添加的标签和真实标签值。

本申请中的样本语料可以是包含特定类型命名实体的文本片段，这个文本片段可以是一个或多个句子，也可以一个或多个段落。样本语料在本申请中的作用是用来训练神经网络模型，使神经网络模型具备命名实体提取的能力。但是样本语料不能被直接用于训练神经网络模型，这是由于：样本语料的原始的文本格式无法被神经网络模型接受的格式；并且，样本语料中没有对已知的命名实体进行标注，从而神经网络模型无法根据标注值去训练神经网络模型内部的各个神经网络层的权重；此外，发明人发现，样本语料由于来源不同，格式不统一，其长度也不确定，当使用长度过长的样本语料训练神经网络模型时，会影响到神经网络模型中隐含层的权重变化，从而导致神经网络的梯度消失现象的发生。

本申请中，样本语料可以根据应用本申请的实际需求有针对性地采集。示例地，如果应用本申请提取金融行业的机构类命名实体，那么，样本语料可以从各大金融网站所发布的金融类报道中提取，也可以从金融行业内各个机构所发布的公告中提取。本申请对样本语料的来源不做具体限制，本领域普通技术人员可根据自身需求去有针对性地采集样本语料。

为了帮助本领域技术人员充分理解本申请的技术方案和思想，下面结合具体示例，对步骤S110，即对样本语料进行预处理，生成预设长度且带有标注的标准语料，所述标注包括对标准语料中每个字符添加的标签和真实标签值的实现方式作出具体说明。

图2是本申请一示例性实施例示出的一种命名实体提取方法步骤S110的流程图。

如图2所示，在一种可选择的实施方式中，步骤S110可以包括以下步骤：

步骤S111，将所述样本语料切分成多个预设长度区间的语料片段。

本申请中，由于样本语料可以从多种途径获取，呈现出文本格式不统一，文本的长度各异的特点，有的样本语料是长度为几百字符的短文本，而有的样本语料却可能是包含数千个字符的长文本。这种长短不一的文本不适合直接标注并作为训练语料对神经网络模型进行训练，这是因为：例如长短期记忆网络(LSTM)等神经网络模型对训练语料的长度具有一定的要求，如果训练语料的长度过短，无法在神经网络模型的隐含层内形成良好的权重梯度，如果训练语料的长度过长，则会影响到神经网络模型中隐含层的权重变化，从而导致神经网络的梯度消失现象的发生，可见，训练语料的长度过短和过长都不利于得到高质量的神经网络模型。

本申请中，为了提高训练得到的神经网络模型的精度，在步骤S111中，首先将样本语料按照预设的长度区间进行切分，形成多个长度相近的语料片段。这些语料片段的长度均在预设的长度范围内，例如；长度区间可以是200字符～250字符。

需要补充说明的是，本申请通过预设长度区间限定了语料片段的长度范围，而不是通过预设具体长度值限定语料片段的具体长度，这是为了使切分后的每个语料片段保持相对的句子完整度，即：每个语料片段都是一个或几个完整的句子，而不是从样本语料的句子中间被硬性地切分。

示例地，通过在互联网中爬取某企业的新闻报道，本领域技术人员获取了以下样本语料：

5月22日，中国平安(61.96-1.67％,诊股)(以下简称“平安”)宣布将以五年十亿元继续冠名中超联赛。平安此前四年六亿元冠名了2014至2017中超联赛。在此次签约之后，平安先后九年以16亿元的价格冠名中超联赛至2022年底，成为中超联赛历史上冠名时间最长、金额最大的冠名商。

平安相当重视这次与中超的续约。除了集团层面副董事长孙建一、董事会秘书盛瑞生参加了签约仪式，平安四大主要金融业务线：平安人寿、平安产险、平安银行(10.67-1.75％,诊股)、平安证券的高管也都到场。

其实，金融集团支持足球事业国际上早有惯例，如巴克莱银行赞助英超。……

如果通过预设长度区间限定语料片段的长度范围，例如200字符～250字符，那么，上述样本语料将会被切分成：

5月22日，中国平安(61.96-1.67％,诊股)(以下简称“平安”)宣布将以五年十亿元继续冠名中超联赛。平安此前四年六亿元冠名了2014至2017中超联赛。在此次签约之后，平安先后九年以16亿元的价格冠名中超联赛至2022年底，成为中超联赛历史上冠名时间最长、金额最大的冠名商。平安相当重视这次与中超的续约。除了集团层面副董事长孙建一、董事会秘书盛瑞生参加了签约仪式，平安四大主要金融业务线：平安人寿、平安产险、平安银行(10.67-1.75％,诊股)、平安证券的高管也都到场。(208个字符)

以及，

如果通过预设具体长度值限定语料片段的具体长度，例如200个字符，那么，上述样本语料将会被切分成：

5月22日，中国平安(61.96-1.67％,诊股)(以下简称“平安”)宣布将以五年十亿元继续冠名中超联赛。平安此前四年六亿元冠名了2014至2017中超联赛。在此次签约之后，平安先后九年以16亿元的价格冠名中超联赛至2022年底，成为中超联赛历史上冠名时间最长、金额最大的冠名商。平安相当重视这次与中超的续约。除了集团层面副董事长孙建一、董事会秘书盛瑞生参加了签约仪式，平安四大主要金融业务线：平安人寿、平安产险、平安银行(10.67-1.75％,诊股)、平安证券

以及，

的高管也都到场。其实，金融集团支持足球事业国际上早有惯例，如巴克莱银行赞助英超。……

可见，通过预设长度区间限定语料片段的长度范围，使样本语料在切分时能够在不超出长度范围的情况下，合理调节语料片段的长度，从而使拆分出的语料片段包含完整的句子，避免样本语料中的命名实体在切分过程中被破坏。

步骤S112，将切分得到的所述语料片段转换成每行仅包含一个字符的列数据。

本申请中，基本思路是：为了便于对样本语料添加命名标签，以生成标准语料，首先对切分得到的语料片段做行转列处理，从而将语料片段转换成列数据，在转换后的列数据中，每一行仅包含一个字符。

示例地，列数据的格式为：

平

安

证

券

的

高

管

也

都

到

场

步骤S113，对所述列数据中的每个字符添加标签，并对每个标签设置所述真实标签值。

本申请中，基本思路是根据列数据中的字符是否属于命名实体，为列数据中的命名实体字符和非命名实体字符添加不同的标签，以使神经网络模型在训练过程中能够根据标签识别标准语料中的命名实体和非命名实体；此外，本申请还根据字符是否属于命名实体，为每个字符的标签设置不同的真实标签值。

在一种可选择的实施方式中，对标准语料中的字符添加的标签可以包括：

第一类标签，用于标记命名实体的首个字符；

第二类标签，用于标记命名实体的除首个字符以外的其他字符；

第三类标签，用于标记非命名实体字符。

示例地，本申请中，以字母“B”表示第一类标签，以字母“I”表示第二类标签，以字母“O”表示第三类标签。此外，为了进一步标记命名实体的类别，还可以在第一类标签和第二类标签之后添加类别标签，容易理解的是，类别标签根据命名实体的类别不同有多种表示，例如：以字母“COM”表示机构类标签，以“NAME”表示姓名类标签。基于上述示例中示出的标签表示方法，机构类命名实体的首个字符就可以被标记成“B-COM”，姓名类命名实体的第二个字符就可以被标记成“I-NAME”，非命名实体字符就可以被标记为“O”。本申请中，由于通过三种标签(即第一类标签、第二类标签和第三类标签)对列数据中的命名实体和非命名实体进行了标记，与之对应地，真实标签值可设置有三个维度，这三个维度分别代表命名实体的首个字符、命名实体的除首个字符以外的其他字符和非命名实体字符，每个维度可取值为1或0，因此，例如在“平安证券”中“平”的真实标签值为[1,0,0]，“安”的真实标签值为[0,1,0]。

示例地，带有标注的标准语料为以下格式：

需要补充说明的是，使用字母“B”“I”“O”“COM”等表示标签的方式仅作为对列数据进行标注的一种示例，用于帮助本领域技术人员理解本申请。本领域技术人员在本申请的启发下，也可以使用其他形式的能够与本申请实现同样效果的标注方法，这些设计都没有背离本申请的精神和保护范围。

步骤S120，构造所述标准语料中每个字符的特征向量，所述特征向量由字符的词向量、位置特征向量和上下文特征向量拼接构成。

本申请中，字符的特征向量会用于输入到神经网络模型的长短期记忆网络中，以训练长短期记忆网络并获得标准语料中每个字符的预测值。与现有技术中使用词向量训练神经网络模型不同，在本申请中，用于训练神经网络模型的特征向量是由字符的词向量、位置特征向量和上下文特征向量拼接而成，与现有技术相比，特征向量中增加了位置特征向量和上下文特征向量的成分。

本申请中，可以使用Word2vec来生成字符的词向量，Word2vec是一群用来产生词向量的相关模型，这些模型一半是由浅层的神经网络组成。CBOW和Skip-Gram是两种典型的Word2vec模型，其中，CBOW模型是以目标词的上下词作为模型的输入，以目标词本身作为模型的输出，去训练其模型内部隐含层的权重，从而生成目标词的词向量；Skip-Gram模型与CBOW模型相反，Skip-Gram模型是以目标词本身作为模型的输入，以目标词的上下词作为模型的输出，去训练其模型内部隐含层的权重，从而生成目标词的词向量。CBOW模型和Skip-Gram模型可通过调整参数来设置其生成的词向量的维度，作为示例地，本申请中可设置词向量的维度为100维。

具体地，如果使用Skip-Gram模型训练标准语料中每个字符的词向量，需要将每个字符的初始词向量作为词向量训练模型输入端的输入，将每个字符上下词的初始词向量作为词向量训练模型输出端的输入，以训练获得每个字符的所述词向量。如果使用CBOW模型训练标准语料中每个字符的词向量，需要将每个字符上下文的初始词向量作为词向量训练模型输入端的输入，将每个字符的初始词向量作为词向量训练模型输出端的输入，以训练获得每个字符的所述词向量。其中，为了获取字符上下词的初始词向量，可以预设一个取词窗口，然后以选取的目标字符为中心，在取词窗口的范围内选取一个字符作为上下词，并对这个上下词生成初始词向量。此外，需要进一步说明的是，本申请中初始词向量，可以是One-hot型词向量，也可是根据预设的词向量的维度随机生成的词向量，其中，One-hot型词向量是一个高维度的词向量，其维度表示词库中词(本申请中的词表示一个字符)的数量，将词库中的词按照一定顺序排列，每个维度就表示一个词，因此，在One-hot型词向量中，只有一个维度为1，其余维度均为0。

现有技术中的词向量只是实现了对每个字符进行向量化的表示，不能表征出这个字符在分词中的具体位置，也不能表征出字符之间的距离关系，也就是说，词向量中缺乏字符在分词中的距离特征和分词的语义特征，导致使用现有技术的词向量训练的神经网络模型缺乏表征字符的距离特征和分词的语义特征的权重，进而使神经网络模型的进行命名实体提取的准确率受到限制。为了提高本申请训练的神经网络模型的进行命名实体提取的准确率，本申请在特征向量中加入了字符的位置特征向量，以表征字符在分词中的距离特征和分词的语义特征。

图3是本申请一示例性实施例示出的位置特征向量生成方法的示意图。

如图3所示，在一种可选择的实施方式中，位置特征向量可以通过以下方法生成：

步骤S210，对所述标准语料进行分词，并获取分词得到的每个分词的词长。

本申请中，基本思路是使用预设的分词工具(例如：解霸、HowNet等)对样本语料进行分词，然后根据分词结果中每个分词所包含的字符数量确定每个分词的词长，其中，词长等于分词包含的字符数量。

示例地，样本语料：

神农架景区盛开的高山杜鹃

分词后会得到：

神农架景区盛开的高山杜鹃

然后，根据分词所包含的字符数量确定每个分词的词长，得到上述示例中的6个分词的词长分别为：3、2、2、1、2、2。

步骤S220，将分词的词长转换成分词的位置信息。

本申请中，基本思路是：当词长等于1时，位置信息包含一个位置编码；当词长等于2时，位置信息包含一个起始位置编码和一个结束位置编码；当词长等于N，且N大于2时，位置信息包含一个起始位置编码和一个结束位置编码，以及N-2个中间位置编码；从而，最终生成的位置信息中，位置编码的数量等于分词中字符的数量。

示例地：

“的”的位置信息为[0]。

“景区”的位置信息为[1,3]，其中：1表示起始位置编码，3表示结束位置编码。

“神农架”的位置信息为[1,2,3]，其中：1表示起始位置编码，3表示结束位置编码，2表示中间位置编码。

步骤S230，利用词嵌入将分词的所述位置信息映射成标准语料中每个字符的所述位置特征向量。

词嵌入，也称Word Embedding，是一种将自然语言中的文本进行向量化表示的一种技术。通过词嵌入，可以将自然语言作为映射成机器能够识别的预设维度的数值向量。利用词嵌入技术，本申请的基本思路是将分词的位置信息作为映射的输入，从而得到能够表征标准语料中每个字符在分词中位置的位置特征向量，作为一种示例，本申请预设位置特征向量的维度为20维。

如前文所述，现有技术中的词向量只是实现了对每个字符进行向量化的表示，除了不能表征出这个字符在分词中的具体位置，以及字符之间的距离关系之外，还存在着不能表征句子中某个字符的上下文特征的问题，导致使用现有技术的词向量训练的神经网络模型还缺乏表征字符的上下文特征的权重，进而使神经网络模型的进行命名实体提取的准确率受到限制。为了提高本申请训练的神经网络模型的进行命名实体提取的准确率，本申请在特征向量中加入了字符的上下文特征向量，以表征字符的上下文特征。

图4是本申请一示例性实施例示出的上下文特征向量生成方法的示意图。

如图4所示，在一种可选择的实施方式中，下文特征向量可以通过以下方法生成：

步骤S310，以预设字符数量作为取样窗口大小，对样本语料进行上下文特征取样。

图5为本申请一示例性实施例示出的上下文特征取样的示意图。

如图5所示，本申请中，基本思路是使用预设的取样窗口从样本语料中截取包含预设长度的字符样本。为了获取到样本语料中所有字符的上下文特征，取样窗口在每完成对一个中心词的上下文特征取样之后，沿着样本语料的下文方向的移动一个字符，并再次进行取样。在每一次取样中，位于取样窗口中心处的字符为该字符样本的中心词，字符样本所表征出的上下文特征就是该中心词的上下文特征。

步骤S320，使用预设数量的卷积核对取样结果中字符的词向量矩阵进行卷积运算，其中所述卷积核的宽度等于所述词向量的维度。

本申请中，基本思路是使用卷积神经网络模型提取每个取样结果的卷积特征。具体地，是通过使用预设数量的卷积核对取样结果中字符的词向量矩阵进行卷积运算，其中，卷积核的宽度等于字符词向量的维度。需要进一步解释说明的是，本申请中，卷积计算使用的卷积核的数量会决定本申请生成的上下文特征向量的维度，具体来说，当卷积核的宽度等于字符词向量的维度时，卷积核的数量与本申请生成的上下文特征向量的维度相等。

示例地，预设取样窗口的大小为5个字符，预设字符的词向量的维度为100维，那么，如图6所示，取样结果中，字符的词向量会构成一个宽度为100、高度为5的词向量矩阵(图6示出的矩阵中每个维度的数值仅仅是一种示例，不代表字符词向量的真实维度值)。

示例地，预设卷积核的数量为20，使用20个卷积核对取样结果中字符的词向量矩阵进行卷积运算的过程具体包括：每个卷积核对会取样结果中的相邻两个字符进行多次卷积计算，且每个卷积核与词向量矩阵的计算次数等于取样窗口的大小减1；如图6所示，在数学逻辑上，实现上述卷积计算的卷积核是一个宽度为100维，高度为2维，且每个维度取值为0或1的随机矩阵；如图6所示，可以理解的是，本示例中，每一个卷积核与词向量矩阵进行卷积计算后会得到一个宽度为4、高度为1的输出矩阵。

步骤S330，将每个卷积核与所述词向量矩阵的卷积运算结果精简成一个特征值。

本申请中，基本思路是对步骤S320中得到的输出矩阵进行降维，将每个输出矩阵精简成一个特征值。具体地，可以使用最大值精简和平均值精简两种方式得到输出矩阵的特征值。其中，最大值精简是取输出矩阵中数值最大的一个维度值作为特征值，平均值精简是计算输出矩阵中的所有维度值的平均值，将该平均值作为特征值。

示例地，如果预设卷积核的数量为20，那么，在步骤S330中，将会对应地得到20个特征值。

步骤S340，将所有所述特征值进行拼接，以生成字符的所述上下文特征向量。

本申请中，基本思路是按照卷积核与词向量矩阵进行卷积计算的先后顺序，将所有特征值进行拼接，从而生成维度与卷积核的数量相等的上下文特征向量。示例地，如果卷积核的数量为20，那么，在步骤S340中生成的下文特征向量的维度将会是20维。

需要补充说明的是，本申请中，特征向量的维度等于词向量的维度、位置特征向量的维度和上下文特征向量的维度之和，并且，在对上述三种向量拼接成特征向量时，词向量位于最前，位置特征向量位于词向量之后，上下文特征向量位于位置特征向量之后。

步骤S130，根据所述特征向量训练预设的长短期记忆网络，以获取每个字符的预测标签值。

本申请中，基本思路是构建一个双向长短期记忆网络，这个双向长短期记忆网络模型以标准语料中字符的特征向量和真实标签值的序列作为输入，最终会输出标准语料的预测标签值序列，这个预测标签值序列中包含了标准语料中每个字符的预测标签值。本申请中的双向长短期记忆网络的输入侧与预设的条件随机场模型连接，将输出的预测标签值序列输送到条件随机场模型中。

步骤S140，根据所述预测标签值和所述真实标签值优化预设的条件随机场模型。

本申请中，基本思路是，条件随机场模型将双向长短期记忆网络输出的预测标签值序列与步骤S110中对标准语料标注好的每个字符的真实标签值进行比较，并根据比较结果优化预设的条件随机场模型，使优化后的条件随机场模型能够对输入的预测标签值序列进行优化输出，得到更加准确的预测标签值序列。

图7是本申请一示例性实施例示出的一种命名实体提取方法步骤S140的流程图。

如图7所示，在一种可选择的实施方式中，步骤S140可以包括以下步骤：

步骤S141，计算所述预测标签值和所述真实标签值的对数似然损失。

本申请中，基本思路是使用对数损失函数来计算预测标签值和真实标签值的相似程度，即对数似然损失。对数似然损失的函数值越小，说明预测标签值和真实标签值越接近，对数似然损失的函数值越大，说明预测标签值和真实标签值越不同。

具体地，对数损失函数L的标准形式为：

L(Y,P(Y|X))＝-logP(Y|X)

其中，X表示预测标签值序列，Y表示真实标签值序列，P(Y|X)表示从预测标签值序列生成真实标签值序列的概率。

步骤S142，根据所述对数似然损失，优化所述条件随机场模型的转移矩阵。

本申请中，可以根据对数似然损失，使用L2正则函数去优化条件随机场模型的转移矩阵，使条件随机场模型的转移矩阵内的参数能够将长短期记忆网络输出的标准语料的预测标签值序列最大概率地生成真实标签值序列。

具体地，根据对数似然损失，优化条件随机场模型的转移矩阵的内容就是：L2正则函数去优化条件随机场模型的转移矩阵，使对数损失函数L的值“L(Y,P(Y|X))”最小，log函数是单调递增的，所以当“L(Y,P(Y|X))”值最小时，“logP(Y|X)”会达到最大值，也就是从预测标签值序列X生成真实标签值序列Y的概率最大。

步骤S150，使用由所述长短期记忆网络和所述条件随机场模型组成的神经网络模型进行命名实体提取。

本申请中，训练后的长短期记忆网络和优化后的条件随机场模型组成了用于实现命名实体提取的神经网络模型。该神经网络模型以未知语料的特征向量序列作为模型的输入，并输出未知语料中字符的预测标签值序列，从而实现在未知语料中提取命名实体。

需要补充说明的是，为了评估本申请训练得到的神经网络模型进行命名实体提取的准确度。本申请提供的技术方案还包括：对神经网络模型进行准确性评测。

图8是本申请一示例性实施例示出的对神经网络模型进行准确性评测的流程图。

如图8所示，在一种可选择的实施方式中，对神经网络模型进行准确性评测可以包括以下步骤：

步骤S410，使用所述和神经网络模型对已知的评测语料进行命名实体提取；

步骤S420，根据命名实体提取结果，计算所述神经网络模型的准确率、精确率、召回率和F1-Score值。

在机器学习领域，对训练的神经网络模型计算准确率、精确率、召回率和F1-Score值属于本领域的现有技术，本申请中不再赘述。

由以上技术方案可知，本申请实施例提供了一种命名实体提取方法，首先，对样本语料进行预处理，生成预设长度且带有标注的标准语料，从而，避免了过长的样本语料直接输入到长短期记忆网络中导致长短期记忆网络的隐含层出现梯度消失现象；然后，构造由字符的词向量、位置特征向量和上下文特征向量拼接构成的特征向量，使本申请中的特征向量不仅能够表征字符的词嵌入特征，还能够表征在分词中的距离特征和分词的语义特征，以及，表征字符的上下文特征，从而，能够提高长短期记忆网络的预测精度；然后，根据特征向量训练预设的长短期记忆网络，以获取每个字符的预测标签值，以及，根据预测标签值和真实标签值优化预设的条件随机场模型，以优化神经网络模型的输出序列，从而，获得了可用于进行命名实体提取的精度更高的神经网络模型；最后，使用该神经网络模型进行命名实体提取。本申请实施例提供的技术方案，通过控制标准语料的长度，构造能够表征更多语料特征的特征向量，以及，使用条件随机场模型优化神经网络模型的输出序列的方法，实现了在保证命名实体提取效率的同时，提高命名实体提取的准确性。

下面是本申请的装置实施例，可用于执行本申请的方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图9是本申请一示例性实施例示出的一种命名实体提取装置的示意图。该装置可以应用于PC(个人电脑)、平板电脑、手机和服务器等多种设备。

参见图9所示，该装置可以包括：

预处理模块510，用于对样本语料进行预处理，生成预设长度且带有标注的标准语料，所述标注包括对标准语料中每个字符添加的标签和真实标签值；

特征向量构造模块520，用于构造所述标准语料中每个字符的特征向量，所述特征向量由字符的词向量、位置特征向量和上下文特征向量拼接构成；

长短期记忆网络训练模块530，用于根据所述特征向量训练预设的长短期记忆网络，以获取每个字符的预测标签值；

条件随机场模型优化模块540，用于根据所述预测标签值和所述真实标签值优化预设的条件随机场模型；

命名实体提取和评测模块550，用于使用由所述长短期记忆网络和所述条件随机场模型组成的神经网络模型进行命名实体提取。

由以上技术方案可知，本申请实施例提供了一种命名实体提取装置。可用于：首先，对样本语料进行预处理，生成预设长度且带有标注的标准语料，从而，避免了过长的样本语料直接输入到长短期记忆网络中导致长短期记忆网络的隐含层出现梯度消失现象；然后，构造由字符的词向量、位置特征向量和上下文特征向量拼接构成的特征向量，使本申请中的特征向量不仅能够表征字符的词嵌入特征，还能够表征在分词中的距离特征和分词的语义特征，以及，表征字符的上下文特征，从而，能够提高长短期记忆网络的预测精度；然后，根据特征向量训练预设的长短期记忆网络，以获取每个字符的预测标签值，以及，根据预测标签值和真实标签值优化预设的条件随机场模型，以优化神经网络模型的输出序列，从而，获得了可用于进行命名实体提取的精度更高的神经网络模型；最后，使用该神经网络模型进行命名实体提取。本申请实施例提供的技术方案，通过控制标准语料的长度，构造能够表征更多语料特征的特征向量，以及，使用条件随机场模型优化神经网络模型的输出序列的方法，实现了在保证命名实体提取效率的同时，提高命名实体提取的准确性。

本申请可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种命名实体提取方法，其特征在于，包括：

对样本语料进行预处理，生成预设长度区间内且带有标注的标准语料，所述标注包括对标准语料中每个字符添加的标签和真实标签值；

构造所述标准语料中每个字符的特征向量，所述特征向量由字符的词向量、位置特征向量和上下文特征向量拼接构成；所述位置特征向量是利用词嵌入对所述标准语料的分词的位置信息进行映射得到的；

使用由所述长短期记忆网络和所述条件随机场模型组成的神经网络模型进行命名实体提取；

其中，所述上下文特征向量由卷积神经网络通过以下步骤生成：

以预设字符数量作为取样窗口大小，对样本语料进行上下文特征取样；

使用预设数量的卷积核对取样结果中字符的词向量矩阵进行卷积运算，其中，所述卷积核的宽度等于所述词向量的维度，每个所述卷积核对所述取样结果中的相邻两个字符进行多次卷积计算，且每个卷积核与所述词向量矩阵的计算次数等于所述取样窗口大小减1；

将每个卷积核与所述词向量矩阵的卷积运算结果精简成一个特征值；

将所有所述特征值进行拼接，以生成字符的所述上下文特征向量。

2.根据权利要求1所述的方法，其特征在于，所述对样本语料进行预处理，生成预设长度且带有标注的标准语料，所述标注包括对标准语料中每个字符添加的标签和真实标签值，包括：

将所述样本语料切分成多个预设长度区间的语料片段；

将切分得到的所述语料片段转换成每行仅包含一个字符的列数据；

对所述列数据中的每个字符添加标签，并对每个标签设置所述真实标签值。

3.根据权利要求1所述的方法，其特征在于，所述标签包括：

第一类标签，用于标记命名实体的首个字符；

第三类标签，用于标记非命名实体字符。

4.根据权利要求3所述的方法，其特征在于，

所述第一类标签和所述第二类标签之后还包括类别标签，所述类别标签用于标注所述命名实体的类型。

5.根据权利要求1所述的方法，其特征在于，所述词向量通过以下步骤生成：

将每个字符的初始词向量作为词向量训练模型输入端的输入，将每个字符上下词的初始词向量作为词向量训练模型输出端的输入，以训练获得每个字符的所述词向量；

或者，将每个字符上下文的初始词向量作为词向量训练模型输入端的输入，将每个字符的初始词向量作为词向量训练模型输出端的输入，以训练获得每个字符的所述词向量。

6.根据权利要求1所述的方法，其特征在于，所述位置特征向量通过以下步骤生成：

对所述标准语料进行分词，并获取分词得到的每个分词的词长；

将分词的词长转换成分词的位置信息；

利用词嵌入将分词的所述位置信息映射成标准语料中每个字符的所述位置特征向量；

其中，词长等于分词包含的字符数量；当词长等于1时，所述位置信息包含一个位置编码；当词长等于2时，所述位置信息包含一个起始位置编码和一个结束位置编码；当所述词长等于N，且N大于2时，所述位置信息包含一个起始位置编码和一个结束位置编码，以及N-2个中间位置编码。

7.根据权利要求1所述的方法，其特征在于，所述根据所述预测标签值和所述真实标签值优化预设的条件随机场模型，包括：

计算所述预测标签值和所述真实标签值的对数似然损失；

根据所述对数似然损失，优化所述条件随机场模型的转移矩阵。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

使用所述神经网络模型对已知的评测语料进行命名实体提取；

根据命名实体提取结果，计算所述神经网络模型的准确率、精确率、召回率和F1-Score值。

9.一种命名实体提取装置，其特征在于，包括：

预处理模块，用于对样本语料进行预处理，生成预设长度区间内且带有标注的标准语料，所述标注包括对标准语料中每个字符添加的标签和真实标签值；

特征向量构造模块，用于构造所述标准语料中每个字符的特征向量，所述特征向量由字符的词向量、位置特征向量和上下文特征向量拼接构成；所述位置特征向量是利用词嵌入对所述标准语料的分词的位置信息进行映射得到的；

命名实体提取和评测模块，用于使用由所述长短期记忆网络和所述条件随机场模型组成的神经网络模型进行命名实体提取；