CN112036184A

CN112036184A - 基于BiLSTM网络模型及CRF模型的实体识别方法、装置、计算机装置及存储介质

Info

Publication number: CN112036184A
Application number: CN202010901351.5A
Authority: CN
Inventors: 周忠诚; 段炼; 黄九鸣; 张圣栋
Original assignee: Hunan Xinghan Shuzhi Technology Co ltd
Current assignee: Hunan Xinghan Shuzhi Technology Co ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-12-04

Abstract

本发明适用于互联网技术领域，提供了一种基于BiLSTM网络模型及CRF模型的实体识别方法、装置、计算机装置及存储介质，该方法包括：基于设置参数后的BiLSTM网络模型及CRF模型构建命名实体识别模型，并对命名实体识别模型进行训练；基于预先获取的词典与字典，将待识别的文本转换成索引文本；通过训练后的命名实体识别模型接收索引文本，并通过命名实体识别模型输出与索引文本中每个索引文本对应的实体标签索引；从预先获取的实体标签列表中获取与实体标签索引对应的实体标签，基于实体标签生成中文命名实体的识别结果。本发明提供的一种基于BiLSTM网络模型及CRF模型的实体识别方法，能够减少人力成本，提高中文命名实体识别的准确度。

Description

基于BiLSTM网络模型及CRF模型的实体识别方法、装置、计算机装置及存储介质

技术领域

本发明属于自然语言处理领域，尤其涉及一种基于BiLSTM网络模型及 CRF模型的实体识别方法、装置、计算机装置及存储介质。

背景技术

随着信息社会的到来，中文文本信息越来越多，需要进行自然语言处理的中文文本数量也急剧增加。中现有技术中，使用循环神经网络(Recurrent Neural Network，RNN)从大量文本中学习字的特征，并结合CRF、SVM对具有不同特征的字进行分类，进而确定哪些字是命名实体，哪些不是命名实体。现有技术由于采用简单原始的RNN，不能提取出字的长距离上下文中的隐含信息，导致学习到的特征表示不准确，使用人力去查找并定位命名实体不仅效率低，而且准确性差。由此可知，现有技术中，中文命名实体识别的准确率比较低。

发明内容

本发明实施例提供一种基于BiLSTM网络模型及CRF模型的实体识别方法，旨在解决现有技术中由于采用简单原始的RNN，不能提取出字的长距离上下文中的隐含信息，导致学习到的特征表示不准确，中文命名实体识别的准确率比较低的问题。

本发明是这样实现的，一种基于BiLSTM网络模型及CRF模型的实体识别方法，包括：

设置BiLSTM网络模型的神经元数量、字向量的维度、待识别语句长度，基于所述设置后的BiLSTM网络模型及CRF模型构建命名实体识别模型，并对所述命名实体识别模型进行训练，得到训练后的命名实体识别模型；

基于预先获取的词典与字典，将待识别的文本转换成索引文本；

通过所述训练后的命名实体识别模型接收所述索引文本，并通过所述命名实体识别模型输出与所述索引文本中每个索引文本对应的实体标签索引；

从预先获取的实体标签列表中获取与所述实体标签索引对应的实体标签，基于所述实体标签生成中文命名实体的识别结果。

可选的，所述对所述命名实体识别模型进行训练，得到训练后的命名实体识别模型，包括以下过程：

构造N份训练数据，所述训练数据包括索引文本、与索引文本一一对应的标签索引，其中，索引文本与标签索引之间间隔排列；

通过所述命名实体识别模型接收训练数据，训练迭代N次，设置学习率设为M，每L次在验证集上做一次实验，计算准确率，当计算得到的准确率达到预设要求时，终止训练，得到训练后的命名实体识别模型。

可选的，所述基于预先获取的词典与字典，将待识别的文本转换成索引文本，包括以下过程：

对所待识别的文本进行分词处理，得到字及分词，从所述字典中获取对应的字索引文本，从所述词典中获取对应的词索引文本，所述索引文本包括所述字索引文本及所述词索引文本。

可选的，所述从预先获取的实体标签列表中获取与所述实体标签索引对应的实体标签，基于所述实体标签生成中文命名实体的识别结果之后，所述基于 BiLSTM网络模型及CRF模型的实体识别方法还包括以下步骤：

根据所述中文命名实体的识别结果从所述待识别文本抽取命名实体，并生成结构化实体表格。

本发明还提供一种基于BiLSTM网络模型及CRF模型的实体识别装置，包括：

训练模块，用于设置BiLSTM网络模型的神经元数量、字向量的维度、待识别语句长度，基于所述设置后的BiLSTM网络模型及CRF模型构建命名实体识别模型，并对所述命名实体识别模型进行训练，得到训练后的命名实体识别模型；

转换模块，用于基于预先获取的词典与字典，将待识别的文本转换成索引文本；

处理模块，用于通过所述训练后的命名实体识别模型接收所述索引文本，并通过所述命名实体识别模型输出与所述索引文本中每个索引文本对应的实体标签索引；

识别模块，用于从预先获取的实体标签列表中获取与所述实体标签索引对应的实体标签，基于所述实体标签生成中文命名实体的识别结果。

可选的，所述训练模块包括：

构造子模块，用于构造N份训练数据，所述训练数据包括索引文本、与索引文本一一对应的标签索引，其中，索引文本与标签索引之间间隔排列；

训练子模块，用于通过所述命名实体识别模型接收训练数据，训练迭代N 次，设置学习率设为M，每L次在验证集上做一次实验，计算准确率，当计算得到的准确率达到预设要求时，终止训练，得到训练后的命名实体识别模型。

可选的，所述转换模块，具体用于对所待识别的文本进行分词处理，得到字及分词，从所述字典中获取对应的字索引文本，从所述词典中获取对应的词索引文本，所述索引文本包括所述字索引文本及所述词索引文本。

可选的，所述一种基于BiLSTM网络模型及CRF模型的实体识别装置还包括：

生成模块，用于根据所述中文命名实体的识别结果，从所述待识别文本抽取命名实体，并生成结构化实体表格。

本发明还提供一种计算机装置，所述计算机装置包括处理器，所述处理器用于执行存储器中计算机程序时实现如上述所述一种基于BiLSTM网络模型及CRF模型的实体识别方法的步骤。

本发明还提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述一种基于BiLSTM网络模型及CRF模型的实体识别方法的步骤。

本发明提供的一种基于BiLSTM网络模型及CRF模型的实体识别方法，通过BiLSTM网络模型及CRF模型构建命名实体识别模型，命名实体识别模型接收待识别的文本转换的索引文本，根据索引文本输出实体标签索引，从预先获取的实体标签列表中获取与所述实体标签索引对应的实体标签，基于所述实体标签生成中文命名实体的识别结果。这样，可以全自动地完成中文命名实体识别过程，提高中文命名实体识别的准确率，无需大量人工操作，减少人力成本。

附图说明

图1是本发明实施例提供的一种基于BiLSTM网络模型及CRF模型的实体识别方法的实现流程图；

图2本发明实施例提供的命名实体识别模型示意图；

图3本发明实施例提供的基于BiLSTM网络模型及CRF模型的实体识别方法的步骤S101的流程示意图；

图4本发明实施例提供的命名实体识别模型的训练数据的示例图；

图5本发明实施例提供的命名实体识别模型的训练数据的可读类型示例；

图6本发明实施例提供的字典局部示意图；

图7本发明实施例提供的字典局部示意图；

图8本发明实施例提供的中文命名实体识别试验结果的示例图；

图9本发明实施例提供的基于BiLSTM网络模型及CRF模型的实体识别装置的结构示意图；

图10是本发明实施提供的另一基于BiLSTM网络模型及CRF模型的实体识别装置的结构示意图；

图11是本发明实施例提供的另一基于BiLSTM网络模型及CRF模型的实体识别装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1所示为本发明实施例提供的一种基于BiLSTM网络模型及CRF模型的实体识别方法的实现流程图。该基于BiLSTM网络模型及CRF模型的实体识别方法包括以下过程：

步骤S101，设置BiLSTM网络模型的神经元数量、字向量的维度、待识别语句长度，基于所述设置后的BiLSTM网络模型及CRF模型构建命名实体识别模型，并对所述命名实体识别模型进行训练，得到训练后的命名实体识别模型。

双向长短时记忆(Bidirectional Long Short-Term Memory，BiLSTM)网络模型可以整合字的上下文信息，针对每个字得到包含上下文信息的字向量。条件随机场(Conditional Random Field，CRF)模型是随机场的一种，是一种判别式模型，CRF模型常用来标注、分析序列资料。

请参阅图2，图2为分词模型示意图。分词模型包括字嵌入、BiLSTM编码器及CRF层，l序列代表某个字词和其上文信息的向量表示，r序列则代表某个字词的下文信息的向量表示，c序列代表综合了上下文信息的某个字词的新的综合字向量表示。在图2中，l₁代表字“张”和其上文信息的向量表示，l₂代表字“三”和其上文信息的向量表示，l₃代表字“吃”和其上文信息的向量表示，l₄代表字“饭”和其上文信息的向量表示。r₁代表字“张”和其下文信息的向量表示，r₂代表字“三”和其下文信息的向量表示，r₃代表字“吃”和其下文信息的向量表示，r₄代表字“饭”和其下文信息的向量表示。c₁代表字“张”和其上下文信息的综合向量表示，c₂代表字“三”和其上下文信息的综合向量表示，c₃代表字“吃”和其上下文信息的综合向量表示，c₄代表字“饭”和其上下文信息的综合向量表示。

在本实施中，双向LSTM的隐藏神经元数量可以设为256个，实体标签总共有15个，词向量、字向量可以设为300维，将待识别语句分段输入到神经网络中，每段长度固定可以为90个词，每个词的字符数量固定为5个。根据这些参数设置BiLSTM网络模型。

在本实施例中，15个实体标签分别如下：O，B-LOC，I-LOC，B-MON， I-MON，B-PER，I-PER，B-PCT，I-PCT，B-DAT，I-DAT，B-TIM，I-TIM， B-ORG，I-ORG；其中，O代表非实体，B-LOC代表地名实体词的开头，I-LOC 代表地名实体词除开头外的其他部分。B-MON代表金钱实体词的开头，I-MON 代表金钱实体词除开头外的其他部分。B-PER代表人名实体词的开头，I-PER代表人名实体词除开头外的其他部分。B-PCT代表百分比实体词的开头，I-PCT 代表百分比实体词除开头外的其他部分。B-DAT代表日期实体词的开头， I-DAT日期实体词除开头外的其他部分。B-TIM代表时间实体词的开头，I-TIM 代表时间实体词除开头外的其他部分。B-ORG代表机构实体词的开头，I-ORG 代表机构实体词除开头外的其他部分。

请参阅图3，在步骤S101，所述对所述命名实体识别模型进行训练，得到训练后的命名实体识别模型，包括以下过程：

步骤S1011，构造N份训练数据，所述训练数据包括索引文本、与索引文本一一对应的标签索引，其中，索引文本与标签索引之间间隔排列；

步骤S1012，通过所述命名实体识别模型接收训练数据，训练迭代N次，设置学习率设为M，每L次在验证集上做一次实验，计算准确率，当计算得到的准确率达到预设要求时，终止训练，得到训练后的命名实体识别模型。

其中，N为正整数，N在100万到1000万之间，M一般取值在0.001到 0.00001之间，L根据验证集大小而定，可以取L为N的二十分之一或者十分之一。

在本实施例中，采用双向LSTM模型学习，接CRF进行分类，构建命名实体识别模型。进行命名实体识别时，词的标签有8种：“EY”,“OT”,“BN”, “IN”,“BL”，“IL”，“BO”，“IO”，它们的索引分别是0，1，2，3， 4，5，6，7。“EY”代表无意义的标签，“OT”代表这个词不属于命名实体，它属于其他类别，“BN”代表这个词作为人名类命名实体的起始词，“IN”代表这个词作为人名类命名实体的部分词，“BL”代表这个词作为地名类命名实体的起始词，“IL”代表这个词作为地名类命名实体的部分词，“BO”代表这个词作为组织机构类命名实体的起始词，“IO”代表这个词作为组织机构类命名实体的部分词。命名实体识别的训练数据中都是词的索引，从原始文本中取每一行的前80个词，不足80个词的用0补齐。80个词索引后面跟着组成这些词的字的索引，如果一个词的字数超过5个，就舍去中间的字，只保留开头4个字和最后的一个字。字索引后面就是每个词的标签的索引，这些数字统一由空格隔开，每一行训练数据是560个数字。训练数据示例请参阅图4。

此外，训练数据还可以转换为可读类型的训练数据，可读类型的数据是每个词后面跟着它对应的标签，词与词之间以空格隔开，便于用户阅读。训练数据可读类型示例请参阅图5。

在本实施例中，准确率达到预设要求则终止训练，其中预设要求可以由用户自定义设置。举例来说，命名实体识别模型输入训练数据，训练迭代10000 次，学习率设为0.001，每500次在验证集上做一次实验，计算准确率。模型效果超过10次准确率未有提升，则终止训练。

步骤S102，基于预先获取的词典与字典，将待识别的文本转换成索引文本。

在本实施例中，字典及词典可以从互联网下载，也可以根据语料库进行构建。请参阅图6，图6为字典局部示例图，字典中频次为1的字以及将来测试语料中的生字(在构建字典中不存在的字)都以一个符号“<UNK>”表示，它们的共同索引为字典中频数大于1的字的总数加1。字典中的字的索引和字向量表中的字的索引保持一致。

在本实施例中，字向量表由网络上几十GB的文本大数据结合神经网络语言模型训练而来，每个字的向量表示都是非常准确的，含有极为丰富的内在信息。字向量表中字的索引和字典中同一字的索引一致。例如，图6中字典局部示例“的”字的索引为2，则字向量表中字“的”字的索引也为2。

请参阅图7，图7为词典局部示例图，词典中频次为1以下的字以及将来测试语料中的生词(在构建词典中不存在的词)都以一个符号“<UNK>”表示，它们的共同索引为词典中频数大于1的词的总数加1。词典中的词的索引和词向量表中的词的索引保持一致。

在本实施例中，词向量表由网络上几十GB的文本大数据结合神经网络语言模型训练而来，每个词的向量表示都是非常准确的，含有极为丰富的内在信息。词向量表中字的索引和词典中同一词的索引一致。例如，图7中字典局部示例“医院”词的索引为187，则词向量表中词“医院”字的索引也为187。

可以理解的是，各类神经网络模型的输入必须是字向量和/或词向量，而不能是未经处理的字符输入，必须将字、词替换成对应的字向量、词向量，再输入到神经网络模型中进行推理。

可选的，步骤S102，基于预先获取的词典与字典，将待识别的文本转换成索引文本包括以下过程：对所待识别的文本进行分词处理，得到字及分词，从所述字典中获取对应的字索引文本，从所述词典中获取对应的词索引文本，所述索引文本包括所述字索引文本及所述词索引文本。

需要说明的是，对所待识别的文本进行分词处理，可以通过BiLSTM网络模型及CRF模型构建中文分词模型，通过中文分词模型对待识别的文本进行分词处理，处理过程如下：

设置BiLSTM网络模型的神经元数量、字向量的维度、待识别语句长度，设置CRF模型的分词标签，基于所述设置后的BiLSTM网络模型及CRF模型构建分词模型；

通过所述分词模型接收训练数据，所述训练数据包括字索引及与字索引对应的字标签索引，根据所述字索引从预先获取的字向量表中获取对应的字向量，根据所述获取的字向量生成字标签索引；

根据所述生成的字标签索引与所述训练数据的字标签索引的对比结果，调整所述分词模型的权重参数，得到优化后的分词模型；

通过所述优化后的分词模型对待识别中文文本进行分词处理。

进一步的，所述设置BiLSTM网络模型的神经元数量、字向量的维度、待识别语句长度之前，所述基于BiLSTM网络模型及CRF模型的中文分词方法还包括以下过程：

基于原始中文文本构建字典，其中，所述字典包括中文字符及其与中文字符对应的索引；

构建所述字向量表，所述字向量表包括所述字典中的索引及与所述索引对应字符的字向量；所述字典中字符的索引与所述字向量表的索引一一对应。

进一步的，所述通过所述优化后的分词模型对中文文本进行分词处理，包括以下过程：

根据所述字典将所述中文文本转换成索引文本；

根据所述字向量表，将所述索引文本转换为字向量文本，并将所述字向量文本输入所述优化后的分词模型，通过所述优化后的分词模型得到每个索引对应的分词标签索引；

从预先获取的词标签列表中查找所述分词标签索引对应的分词标签，其中，所述词标签列表包括分词标签索引及与所述分词标签索引对应的分词标签；

根据所述分词标签得到词边界，根据所述词边界确定所述中文文本的分词结果。

进一步的，所述根据所述分词标签确定所述中文文本的分词结果之后，所述基于BiLSTM网络模型及CRF模型的中文分词方法还包括以下步骤：

根据所述分词结果与所述字典中包含的字符确定目标字符，所述目标字符为出现在所述分词结果中、且未出现在所述字典中的字符；将所述目标字符及对应的索引更新到所述字典中。

在本实施例中，上述中文分词过程，通过所述设置后的BiLSTM获取待识别语句的字向量，每个字向量综合了上下文信息的向量表示，提高字向量的准确度，从而在将所述待识别语句的字向量输入所述设置后的CRF模型，得到所述待识别语句的分词标签更加准确；基于准确度较高的分词标签能够得到准确度更高的分词结果；进而根据交准确的分词能更加准确地调整分词模型的权重参数，得到较好的优化后的分词模型；通过所述优化后的分词模型对待识别中文文本进行分词处理，能够得到更加准确的分词结果，减少人力成本，提高分词准确率。

步骤S103，通过所述训练后的命名实体识别模型接收所述索引文本，并通过所述命名实体识别模型输出与所述索引文本中每个索引文本对应的实体标签索引。

在本实施例中，将索引文本输入到训练后的命名实体识别模型中，通过训练后的命名实体识别模型进行推理，得到每个索引文本对应的实体标签索引。

步骤S104，从预先获取的实体标签列表中获取与所述实体标签索引对应的实体标签，基于所述实体标签生成中文命名实体的识别结果。

在本实施例中，实体标签列表可以预先获取，包括实体标签索引及与实体标签索引对应的识别标签。利用实体标签列表将训练后的命名实体识别模型输出的实体标签索引转换成实体标签，便于根据实体标签得到中文命名实体的识别结果。

请参阅图7，图7为命名实体识别结果示例，从结果中可以看出，大部分命名实体都识别出来了，如“浙江”、“杭州”、“施宇翔”、“方英”、“黑龙江”、“记者”、“通讯员”。在确保数据量足够大，如有10GB数据训练，命名实体识别结果会更准确。除了增加命名实体、分词训练数据之外，加大大规模语料训练出的词向量、字向量，也可以提高中文命名实体识别的准确率。

可选的，步骤S104，从预先获取的实体标签列表中获取与所述实体标签索引对应的实体标签，基于所述实体标签生成中文命名实体的识别结果之后，所述基于BiLSTM网络模型及CRF模型的实体识别方法，还包括以下过程：

在本实施例中，分词模型将原始文本变为以空格分开的词组文本，词组文本再经过命名实体模型后成为被标记了实体的文本。最后将标记出来的命名实体抽取出来，形成结构化实体表格，如此一来，就可以从杂乱无序的文本中抽取出重要的、有价值的人名、地名、组织机构名、时间、日期、货币数量、百分比等等。

图9示出了本发明实施例提供的一种基于BiLSTM网络模型及CRF模型的实体识别装置900的结构示意图，为了便于说明，仅示出了于本发明实施相关的部分。该基于BiLSTM网络模型及CRF模型的实体识别装置900包括：

训练模块901，用于设置BiLSTM网络模型的神经元数量、字向量的维度、待识别语句长度，基于所述设置后的BiLSTM网络模型及CRF模型构建命名实体识别模型，并对所述命名实体识别模型进行训练，得到训练后的命名实体识别模型。

在本实施例中，设置BiLSTM网络模型的神经元数量、字向量的维度、待识别语句长度，基于所述设置后的BiLSTM网络模型及CRF模型构建命名实体识别模型，并对所述命名实体识别模型进行训练，得到训练后的命名实体识别模型。

请再次参阅图2，图2所示的分词模型包括字嵌入、BiLSTM编码器及CRF层， l序列代表某个字词和其上文信息的向量表示，r序列则代表某个字词的下文信息的向量表示，c序列代表综合了上下文信息的某个字词的新的综合字向量表示。在图2中，l₁代表字“张”和其上文信息的向量表示，l₂代表字“三”和其上文信息的向量表示，l₃代表字“吃”和其上文信息的向量表示，l₄代表字“饭”和其上文信息的向量表示。r₁代表字“张”和其下文信息的向量表示，r₂代表字“三”和其下文信息的向量表示，r₃代表字“吃”和其下文信息的向量表示，r₄代表字“饭”和其下文信息的向量表示。c₁代表字“张”和其上下文信息的综合向量表示，c₂代表字“三”和其上下文信息的综合向量表示，c₃代表字“吃”和其上下文信息的综合向量表示，c₄代表字“饭”和其上下文信息的综合向量表示。

在本实施中，双向LSTM的隐藏神经元数量可以设为256个，实体标签总共有15个，词向量、字向量可以设为300维，将待识别语句分段输入到神经网络中，每段长度固定可以为90个词，每个词的字符数量固定为5个。根据这些参数设置 BiLSTM网络模型。

在本实施例中，15个实体标签分别如下：O，B-LOC，I-LOC，B-MON， I-MON，B-PER，I-PER，B-PCT，I-PCT，B-DAT，I-DAT，B-TIM，I-TIM， B-ORG，I-ORG；其中，O代表非实体，B-LOC代表地名实体词的开头，I-LOC 代表地名实体词除开头外的其他部分。B-MON代表金钱实体词的开头，I-MON 代表金钱实体词除开头外的其他部分。B-PER代表人名实体词的开头，I-PER代表人名实体词除开头外的其他部分。B-PCT代表百分比实体词的开头，I-PCT代表百分比实体词除开头外的其他部分。B-DAT代表日期实体词的开头，I-DAT 日期实体词除开头外的其他部分。B-TIM代表时间实体词的开头，I-TIM代表时间实体词除开头外的其他部分。B-ORG代表机构实体词的开头，I-ORG代表机构实体词除开头外的其他部分。

请参阅图10，训练模块901包括：

构建子模块9011，用于构造N份训练数据，所述训练数据包括索引文本、与索引文本一一对应的标签索引，其中，索引文本与标签索引之间间隔排列；

训练子模块9012，用于通过所述命名实体识别模型接收训练数据，训练迭代N次，设置学习率设为M，每L次在验证集上做一次实验，计算准确率，当计算得到的准确率达到预设要求时，终止训练，得到训练后的命名实体识别模型。

转换模块902，用于基于预先获取的词典与字典，将待识别的文本转换成索引文本。

在本实施例中，字典及词典可以从互联网下载，也可以根据语料库进行构建。请再次参阅图6，字典中频次为1的字以及将来测试语料中的生字(在构建字典中不存在的字)都以一个符号“<UNK>”表示，它们的共同索引为字典中频数大于1的字的总数加1。字典中的字的索引和字向量表中的字的索引保持一致。

请再次参阅图7，词典中频次为1以下的字以及将来测试语料中的生词 (在构建词典中不存在的词)都以一个符号“<UNK>”表示，它们的共同索引为词典中频数大于1的词的总数加1。词典中的词的索引和词向量表中的词的索引保持一致。

可选的，所述转换模块902，具体用于基于预先获取的词典与字典，将待识别的文本转换成索引文本包括以下过程：对所待识别的文本进行分词处理，得到字及分词，从所述字典中获取对应的字索引文本，从所述词典中获取对应的词索引文本，所述索引文本包括所述字索引文本及所述词索引文本。

需要说明的是，对所待识别的文本进行分词处理，可以通过BiLSTM网络模型及CRF模型构建中文分词模型，通过中文分词模型对待识别的文本进行分词处理，基于BiLSTM网络模型及CRF模型的中文分词装置包括：

设置模块，用于设置BiLSTM网络模型的神经元数量、字向量的维度、待识别语句长度，设置CRF模型的分词标签，基于所述设置后的BiLSTM网络模型及CRF模型构建分词模型；

处理模块，用于通过所述分词模型接收训练数据，所述训练数据包括字索引及与字索引对应的字标签索引，根据所述字索引从预先获取的字向量表中获取对应的字向量，根据所述获取的字向量生成字标签索引；

优化模块，用于根据所述生成的字标签索引与所述训练数据的字标签索引的对比结果，调整所述分词模型的权重参数，得到优化后的分词模型；

分词处理模块，用于通过所述优化后的分词模型对待识别中文文本进行分词处理。

进一步的，所述基于BiLSTM网络模型及CRF模型的中文分词装置还包括：

第一构建模块，用于基于原始中文文本构建字典，其中，所述字典包括中文字符及其与中文字符对应的索引；

第二构建模块，用于构建所述字向量表，所述字向量表包括所述字典中的索引及与所述索引对应字符的字向量；所述字典中字符的索引与所述字向量表的索引一一对应。

进一步的，所述分词处理模块包括：

第一转换子模块，用于根据所述字典将所述中文文本转换成索引文本；

第二转换子模块，用于根据所述字向量表，将所述索引文本转换为字向量文本，并将所述字向量文本输入所述优化后的分词模型，通过所述优化后的分词模型得到每个索引对应的分词标签索引；

查找子模块，用于从预先获取的词标签列表中查找所述分词标签索引对应的分词标签，其中，所述词标签列表包括分词标签索引及与所述分词标签索引对应的分词标签；

确定子模块，用于根据所述分词标签得到词边界，根据所述词边界确定所述中文文本的分词结果。

更新模块，用于根据所述分词结果与所述字典中包含的字符确定目标字符，所述目标字符为出现在所述分词结果中、且未出现在所述字典中的字符；将所述目标字符及对应的索引更新到所述字典中。

处理模块903，用于通过所述训练后的命名实体识别模型接收所述索引文本，并通过所述命名实体识别模型输出与所述索引文本中每个索引文本对应的实体标签索引。

识别模块904，用于从预先获取的实体标签列表中获取与所述实体标签索引对应的实体标签，基于所述实体标签生成中文命名实体的识别结果。

可选的，参阅图11，所述基于BiLSTM网络模型及CRF模型的实体识别装置900，还包括：

生成模块905，用于根据所述中文命名实体的识别结果从所述待识别文本抽取命名实体，并生成结构化实体表格。

本发明提供的一种基于BiLSTM网络模型及CRF模型的实体识别装置，通过BiLSTM网络模型及CRF模型构建命名实体识别模型，命名实体识别模型接收待识别的文本转换的索引文本，根据索引文本输出实体标签索引，从预先获取的实体标签列表中获取与所述实体标签索引对应的实体标签，基于所述实体标签生成中文命名实体的识别结果。这样，可以全自动地完成中文命名实体识别过程，提高中文命名实体识别的准确率，无需大量人工操作，减少人力成本。

本发明实施例提供一种计算机装置，该计算机装置包括处理器，处理器用于执行存储器中计算机程序时实现上述各个方法实施例提供的一种基于 BiLSTM网络模型及CRF模型的实体识别方法的步骤。

示例性的，计算机程序可以被分割成一个或多个模块，一个或者多个模块被存储在存储器中，并由处理器执行，以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。例如，计算机程序可以被分割成上述各个方法实施例提供的一种基于BiLSTM网络模型及CRF模型的实体识别方法的步骤。

本领域技术人员可以理解，上述计算机装置的描述仅仅是示例，并不构成对计算机装置的限定，可以包括比上述描述更多或更少的部件，或者组合某些部件，或者不同的部件，例如可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD) 卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述计算机装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机存储介质中，该计算机程序在被处理器执行时，可实现上述各个一种基于BiLSTM网络模型及CRF模型的实体识别方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器 (RAM，Random Access Memory)、电载波信号、电信号以及软件分发介质等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于BiLSTM网络模型及CRF模型的实体识别方法，其特征在于，所述基于BiLSTM网络模型及CRF模型的实体识别方法包括：

2.根据权利要求1所述的基于BiLSTM网络模型及CRF模型的实体识别方法，其特征在于，所述对所述命名实体识别模型进行训练，得到训练后的命名实体识别模型，包括以下过程：

3.根据权利要求1所述的基于BiLSTM网络模型及CRF模型的实体识别方法，其特征在于，所述基于预先获取的词典与字典，将待识别的文本转换成索引文本，包括以下过程：

4.根据权利要求1所述的基于BiLSTM网络模型及CRF模型的实体识别方法，其特征在于，所述从预先获取的实体标签列表中获取与所述实体标签索引对应的实体标签，基于所述实体标签生成中文命名实体的识别结果之后，所述基于BiLSTM网络模型及CRF模型的实体识别方法还包括以下步骤：

5.一种基于BiLSTM网络模型及CRF模型的实体识别装置，其特征在于，所述基于BiLSTM网络模型及CRF模型的实体识别装置包括：

6.根据权利要求5所述的基于BiLSTM网络模型及CRF模型的实体识别装置，其特征在于，所述训练模块包括：

训练子模块，用于通过所述命名实体识别模型接收训练数据，训练迭代N次，设置学习率设为M，每L次在验证集上做一次实验，计算准确率，当计算得到的准确率达到预设要求时，终止训练，得到训练后的命名实体识别模型。

7.根据权利要求5所述的基于BiLSTM网络模型及CRF模型的实体识别装置，其特征在于，所述转换模块，具体用于对所待识别的文本进行分词处理，得到字及分词，从所述字典中获取对应的字索引文本，从所述词典中获取对应的词索引文本，所述索引文本包括所述字索引文本及所述词索引文本。

8.根据权利要求5所述的基于BiLSTM网络模型及CRF模型的实体识别装置，其特征在于，所述基于BiLSTM网络模型及CRF模型的实体识别装置还包括：

9.一种计算机装置，其特征在于，所述计算机装置包括处理器，所述处理器用于执行存储器中计算机程序时实现如权利要求1-4中任意一项所述基于BiLSTM网络模型及CRF模型的实体识别方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-4中任意一项所述基于BiLSTM网络模型及CRF模型的实体识别方法的步骤。