CN111062216B

CN111062216B - 命名实体识别方法、装置、终端及可读介质

Info

Publication number: CN111062216B
Application number: CN201911309705.0A
Authority: CN
Inventors: 薛天竹
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2021-11-23
Anticipated expiration: 2039-12-18
Also published as: CN111062216A

Abstract

本发明实施例提供了一种命名实体识别方法、装置、终端及可读存储介质，其中，所述方法包括：获取语料信息，所述语料信息包括m个语料词汇，m为正整数；调用命名实体识别模型对所述语料信息中的m个语料词汇进行实体预测，得到预测结果；其中，所述预测结果用于指示所述语料信息中的m个语料词汇是否为预测的命名实体，所述命名实体识别模型为根据标注语料信息训练得到，所述标注语料信息为对样本语料信息进行命名实体标注后得到的信息。通过实施本发明，可以减少命名实体识别对人工的依赖，节约人力成本和增加工作效率，并提升命名实体识别准确率。

Description

命名实体识别方法、装置、终端及可读介质

技术

本发明涉及人工智能技术，尤其涉及一种命名实体识别方法、装置、终端及可读存储介质。

背景技术

命名实体，是指某领域内的具有特定意义或者代表性强的实体词，如新闻领域的事件名、地点名、人物名等，又如游戏领域的游戏人物名、装备名、技能名等。目前，主要是将命名实体识别转化为机器学习中的一个有监督学习的问题进行处理，通过建立统计学习模型或者深度学习模型并进行模型的训练，最后得到命名实体识别结果。目前，有监督学习的模型训练依赖大规模的标注语料，通常标注语料是由人为主动标注获得的。这样会导致模型训练的精度不高。相应地，使用该模型进行实体识别时，会降低实体识别的准确度。

发明内容

本发明实施例提供了一种命名实体识别方法、装置、终端及可读存储介质，可以减少命名实体识别对人工的依赖，节约人力成本和增加工作效率，并提升命名实体识别准确率。

第一方面，本发明实施例提供了一种命名实体识别方法、装置、设备及可读存储介质，该命名实体识别方法包括：获取语料信息，该语料信息包括m个语料词汇，m为正整数；调用命名实体识别模型对语料信息中的m个语料词汇进行实体预测，得到预测结果；其中，预测结果用于指示语料信息中的m个语料词汇是否为预测的命名实体，该命名实体识别模型为根据标注语料信息训练得到，该标注语料信息为对样本语料信息进行命名实体标注后得到的信息。

在一种实现方式中，调用命名实体识别模型对语料信息中的m个语料词汇进行实体预测之前，还包括：获取样本语料信息，采用命名实体标注法对样本语料信息进行命名实体标注，得到标注语料信息，该标注语料信息用于表示样本语料信息中包括有n个命名实体，n为正整数；根据标注语料信息，对初始识别模型进行训练，得到命名实体识别模型。

在一种实现方式中，采用命名实体标注法对样本语料信息进行命名实体标注，得到标注语料信息包括：根据种子词典，采用强匹配算法对样本语料信息进行命名实体识别，得到样本语料信息中的n个命名实体；对样本语料信息中的n个命名实体进行实体标注，得到标注语料信息。

在一种实现方式中，还包括：根据种子词典和预测结果，对m个语料词汇进行实体再分类，得到分类结果，该分类结果用于指示m个语料词汇对应的预测结果是否与种子词典的分类结果相同；按照分类结果，对种子词典中的命名实体进行更新。

在一种实现方式中，分类结果包括目标语料词汇对应的预测结果指示目标语料词汇为预测的命名实体，而种子词典的分类结果指示目标语料词汇不为种子词典中的命名实体；按照该分类结果，对种子词典中的命名实体进行更新包括：将目标语料词汇添加到种子词典，作为种子词典中新增的命名实体，该目标语料词汇为m个语料词汇中的词汇。

在一种实现方式中，将目标语料词汇添加到种子词典之前，还包括：显示用户交互界面，该用户交互界面用于提示是否需要将目标语料词汇添加到种子词典；响应于针对用户交互界面的确认指令，执行将目标语料词汇添加到种子词典的步骤，该确认指令用于指示确定需要将目标语料词汇添加到种子词典。

在一种实现方式中，分类结果包括目标语料词汇对应的预测结果指示目标语料词汇不为预测的命名实体，而种子词典的分类结果指示目标语料词汇为种子词典中的命名实体；按照该分类结果，对种子词典中的命名实体进行更新包括：删除种子词典中的目标语料词汇，该目标语料词汇为m个语料词汇中的词汇。

第二方面，本发明实施例提供了一种命名实体识别装置，该命名实体识别装置包括：

获取单元：用于获取语料信息，该语料信息包括m个语料词汇，m为正整数；

预测单元：用于调用命名实体识别模型对语料信息中的m个语料词汇进行实体预测，得到预测结果；其中，预测结果用于指示语料信息中的m个语料词汇是否为预测的命名实体，该命名实体识别模型为根据标注语料信息训练得到，该标注语料信息为对样本语料信息进行命名实体标注后得到的信息。

第三方面，本发明实施例提供了一种计算机设备，该计算机设备包括：

存储器，该存储器包括计算机可读指令；

与存储器相连的处理器，该处理器用于执行所述计算机可读指令，从而使得计算机设备执行如上第一方面或第一方面的任意可能的实施方式中所描述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如上第一方面或第一方面的任意可能的实施方式中所描述的方法。

本发明实施例中，终端设备获取语料信息，该语料信息包括m个语料词汇，m为正整数；并调用命名实体识别模型对该语料信息中的m个语料词汇进行实体预测，得到预测结果；其中，预测结果用于指示语料信息中的m个语料词汇是否为预测的命名实体，命名实体识别模型为根据样本语料信息训练得到。因此，命名实体识别的过程中可以减少对人工的依赖，节约了人力成本，增加了工作效率，并提升了命名实体识别的准确率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种命名实体识别方法的流程示意图；

图2是本发明实施例提供的一种命名实体识别方法的流程示意图；

图3是本发明实施例提供的一种可能的标注结果示意图；

图4是本发明实施例提供的一种命名实体识别方法的流程示意图；

图5(a)是本发明实施例提供的一种可能的命名实体分类示意图；

图5(b)是本发明实施例提供的一种可能的命名实体分类示意图；

图6是本发明实施例提供的一种命名实体识别装置的结构示意图；

图7是本发明实施例提供的一种终端设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。另外，在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

本发明使用的术语仅仅是出于描述特定实施例的目的，而非限制本发明。本发明和权利要求书所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。应当理解的是，本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

在游戏领域中，通常没有大规模的标注语料，只有少部分游戏的命名实体词典。若将游戏领域中的命名实体识别转化为机器学习中的一个有监督学习的问题进行处理，则依赖大规模标注语料进行模型训练，如果没有大规模的标注语料，训练出的模型的准确性及可靠性较低。并且获取大规模标注语料，需要大量人工手动标注。人工标注成本高、工作量大且效率低、且受人为主观因素影响，标注精确度不高，进而导致命名实体识别准确率不高。为解决上述问题，本发明实施例提出一种命名实体识别方案。终端设备获取样本语料信息。然后根据种子词典，采用强匹配算法对样本语料信息进行命名实体识别，得到样本语料信息中的n个命名实体。进而终端设备对样本语料信息中的n个命名实体进行实体标注，得到标注语料信息。根据标注语料信息，对初始识别模型进行训练，得到命名实体识别模型。终端设备调用命名实体识别模型对领域内的语料信息中的m个语料词汇进行实体预测，得到预测结果。从而解决采用人工标注语料，可以减少对人工的依赖，节约了人力成本，加了工作效率，并提升了命名实体识别模型的命名实体识别准确率。

请参见图1，图1是本发明实施例提出一种命名实体识别方法流程示意图，该命名实体识别方法可包括以下步骤S101-S102：

步骤S101：终端设备获取语料信息。

终端设备获取语料信息，该语料信息包括m个语料词汇，m为正整数。其中，语料信息为未进行标注的原始的文本语料，也可称为生语料；语料词汇为组成语料信息的具体词汇。以游戏领域的语料信息为例，若一个文本中包含了语句“亚瑟是一个辅助”，则该语句就属于语料信息，并且“亚瑟”、“是”、“一个”、“辅助”都各自为一个语料词汇。其中，终端设备获取该语料信息的具体实施方式不做限制，例如终端设备可采用聚焦爬虫算法在互联网中爬取得到，互联网的中游戏领域的论坛、直播、新闻报道等都存在大规模的语料信息；又如，终端设备从游戏所属公司的数据库中保存的文本语料中获得语料信息，等等。

步骤S102：终端设备调用命名实体识别模型对该语料信息中的m个语料词汇进行实体预测，得到预测结果。

其中，命名实体识别模型为根据标注语料信息训练得到，该标注语料信息为对样本语料信息进行命名实体标注后得到的信息，其中训练得到命名实体识别模型的具体实施方式请参照下文详述。该命名实体识别模型用于预测语料信息中的m个语料词汇是否为命名实体；预测结果用于指示语料信息中的m个语料词汇是否为预测的命名实体。以游戏领域的语料信息为例，若一个文本中包含了语句“亚瑟是一个辅助”，则预测结果可为亚瑟、辅助为命名实体，而是和一个不为命名实体。

本发明实施例中，终端设备获取语料信息，该语料信息包括m个语料词汇，m为正整数；并调用命名实体识别模型对该语料信息中的m个语料词汇进行实体预测，得到预测结果；其中，预测结果用于指示语料信息中的m个语料词汇是否为预测的命名实体，命名实体识别模型为根据标注语料信息训练得到，该标注语料信息为对样本语料信息进行命名实体标注后得到的信息。因此，命名实体识别的过程中可以减少对人工的依赖，节约了人力成本，增加了工作效率，并提升了命名实体识别的准确率。

请参见图2，图2是本发明实施例提供的一种命名实体识别方法流程示意图，该命名实体识别方法包括步骤S201-S202：

步骤S201：终端设备获取样本语料信息，采用命名实体标注法对该样本语料信息进行命名实体标注，得到标注语料信息；该标注语料信息用于表示样本语料信息中包括有n个命名实体，n为正整数。

终端设备获取样本语料信息。然后根据种子词典，采用强匹配算法对样本语料信息进行命名实体识别，得到样本语料信息中的n个命名实体。进而终端设备对样本语料信息中的n个命名实体进行实体标注，得到标注语料信息。

具体地，终端设备获取样本语料信息，该样本语料信息为用于训练初始识别模型的样本，可采用聚焦爬虫算法在互联网中爬取得到。

进一步地，终端设备获取种子词典，该种子词典为某领域内已经确定的命名实体组成的词典，可通过收集搜狗、QQ输入法等输入法的某领域词库，或收集与该领域相关业务的相关词汇(如游戏中的部分道具名等)，得到种子词典。终端设备根据种子词典中的命名实体与样本语料信息中的命名实体进行强匹配，得到样本语料信息中的n个命名实体。强匹配算法能够保证在标注语料中出现种子词典中的命名实体时，该命名实体能够被正确识别，同时又能够解决中文中由切分语句导致歧义的问题。若出现种子词典中的某命名实体被样本语料信息中的其他词汇包含的情况，终端设备在进行强匹配时选取更长的词汇作为命名实体，能够包含更多的语义信息，如“亚瑟是一个辅助英雄”，辅助英雄包含命名实体辅助，因此选择辅助英雄作为命名实体。其中，本示例中的强匹配算法并不构成限定；如种子词典中，命名实体的数量比较大，涵盖范围比较广时，可采用AC(Aho-Corasick)自动机等更高效的匹配方法，对样本语料信息进行匹配，进而得到样本语料信息中的n个命名实体。

进一步地，终端设备对样本语料信息中的n个命名实体进行实体标注，得到标注语料信息。实体标注的具体实施方式不做限制，如采用命名实体标注法中的BIO标注法(B-begin，I-inside，O-outside)进行实体标注，BIO标注法可以使样本语料信息中的每一个汉字都有一个对应的标注。另外对词汇信息进行切分容易导致切分的词汇为错误词汇，并造成整体命名识别模型的准确率大幅度降低，因此，以字为单位对样本语料信息进行实体标注可以避免切分词汇带来的效果衰减。举例来说，如“亚瑟是一个辅助英雄”，请参见图3，图3是本发明实施例提供的一种可能的标注结果示意图，字母B标记命名实体的第一个字，表示开始字；字母I标记命名实体中除第一个字以外的其他字；字母O标记非命名实体。因此亚和辅对应标记的B，瑟和助英雄对应标记的I，是一个对应标记为O。

步骤S202：终端设备根据标注语料信息，对初始识别模型进行训练，得到命名实体识别模型。

终端设备在对样本语料信息标注完成后，获得了大规模的标注语料信息。由于对大规模样本语料信息采用强匹配算法进行匹配，只能识别种子词典中现有的命名实体，无法发现更多随时更新的命名实体，对种子词典中的命名实体进行更新。除此之外，强匹配算法采用字符串匹配的方法对大规模样本语料信息进行匹配处理的效率，也远远低于采用命名实体识别模型对命名实体进行识别。因此，终端设备根据标注语料信息，对初始识别模型进行训练，得到命名实体识别模型。命名实体识别模型能够学习到样本语料信息中的语言学特征，进而可以根据命名实体的语言学特征更准确的识别命名实体。其中，初始识别模型不做限制，如条件随机场等统计学习模型；又如深度学习模型，比如循环神经网络(Recurrent Neural Network,RNN)、长短期记忆网络(Long Short-Term Memory，LSTM)等深度神经网络模型；又如语言模型，比如通用预训练语言模型(Generative Pre-Training，GPT)，基于双向编码表征转换器(Bidirectional Encoder Representation fromTransformers，BERT)等的分类模型。

本发明实施例以条件随机场模型作为命名实体识别的初始识别模型为例，选择条件随机场模型在进行训练时迭代速度快，能够较快的执行完全部流程，整体效果较好。具体地，终端设备将样本语料信息和该样本语料信息对应的标注语料信息随机拆分为r份。终端设备随机抽取其中r-1份作为训练集对初始识别模型进行训练，得到训练后的命名实体识别模型。其中，r为正整数，如10份、9份、8份等任意正整数份。进而终端设备将第r份样本语料信息和该样本语料信息对应的标注语料信息作为测试集对训练后的命名实体识别模型进行测试，得到对应的预测结果。并且终端设备将上述训练及测试过程进行多次迭代，直到r份标注语料信息中的任一份都作为了测试集，则得到第一命名实体模型及第一预测结果。

进一步的，终端设备可将该第一预测结果进行分类，并根据分类结果对种子词典进行更新。具体地，请参见表1，表1是本发明实施例提供的一种第一预测结果的分类表。

表1第一预测结果的分类表

如表所示，真实结果用于表示目标词汇在测试集的标注语料信息中标注为命名实体或不为命名实体的。若目标词汇在测试集的标注语料信息中标注为命名实体可称为正样本(Positive)，若目标词汇在测试集的标注语料信息中标注不为命名实体可称为负样本(Negative)。若第一预测结果指示目标词汇预测为命名实体可称为正样本(Positive)，若第一预测结果指示目标词汇预测不为命名实体可称为负样本(Negative)。其中，目标词汇为样本语料信息中的任一词汇。因此，可将第一预测结果分为四类，包括分类1(TruePositive,TP)、分类2(False Negative,FP)、分类3(False Positive,FN)和分类4(TrueNegative,TN)。

分类1表示测试集为正样本，且第一预测结果为正样本的目标词汇。这说明测试集的标注语料信息和第一预测结果都指示目标词汇为命名实体，即可确定测试集的标注语料信息和第一预测结果都是正确的。

分类2表示测试集为负样本，且第一预测结果为正样本的目标词汇。即测试集的标注语料信息指示目标词汇不为命名实体，但是第一预测结果指示目标词汇为命名实体。这说明目标词汇符合命名实体识别模型从标注语料信息中学习到的命名实体的特征，但是由于种子词典的局限性，并不存在于种子词典中，因此没有在标注语料信息中进行实体标注，即目标词汇可能是新增的命名实体。终端设备可显示第一用户交互界面，提示是否需要将目标语料词汇添加到种子词典，研发人员通过该第一用户交互界面判断目标词汇是否为命名实体。若是命名实体，则研发人员触发终端设备针对该用户交互界面的确认指令，如通过点击用户交互界面的确认按钮触发确认指令。终端设备响应于该确认指令，执行将目标语料词汇添加到种子词典的步骤，该确认指令用于指示确定需要将目标语料词汇添加到种子词典。

分类3表示试集中标注为正样本，且第一预测结果为负样本的目标词汇。即测试集的标注语料信息指示目标词汇为命名实体，但是第一预测结果指示目标词汇不为命名实体。标注语料信息是根据种子词典进行实体标注的，因此确定种子词典中该目标词汇为命名实体，但是命名实体识别模型从标注语料信息中学习到了不为命名实体的特征。由于种子词典中有从网络上搜集到的命名实体，可能存在纯净性问题，所以目标词汇可能不为命名实体。终端设备可显示第二用户交互界面，提示是否需要将目标语料词汇从种子词典中删除。研发人员通过该第二用户交互界面判断目标词汇是否为命名实体。若不为命名实体，则研发人员触发终端设备针对该用户交互界面的删除指令，如通过点击用户交互界面的删除按钮触发删除指令。终端设备响应于该删除指令，执行将目标语料词汇从种子词典中删除的步骤，该删除指令用于指示确定需要将目标语料词汇从种子词典中删除。

分类4表示测试集为负样本，且第一预测结果为负样本的目标词汇。说明测试集的标注语料信息和第一预测结果都指示目标词汇不为命名实体，即可确定测试集的标注语料信息和第一预测结果都是正确的。

可选地，终端设备根据更新后的种子词典重复步骤S201-S202中除获取样本语料信息外的所有步骤，迭代至不再出现新增的命名实体，也不再在种子词典中发现不为命名实体的目标词汇，则确定样本语料信息中的命名实体已被全部挖掘，此时种子词典中包括的命名实体较为全面，并且得到了训练较为完善的命名实体识别模型。

本发明实施例中，终端设备获取样本语料信息，采用命名实体标注法对该样本语料信息进行命名实体标注，得到标注语料信息；该标注语料信息用于表示样本语料信息中包括有n个命名实体，n为正整数。根据标注语料信息，对初始识别模型进行训练，得到命名实体识别模型。因此，采用命名实体标注法代替人工标注样本语料信息，可以减少对人工的依赖，节约了人力成本，加了工作效率，并提升了命名实体识别模型的命名实体识别准确率。

请参见图4，图4是本发明实施例提供的一种命名实体识别方法的流程示意图，该命名实体识别方法包括步骤S401-S403：

步骤S401：终端设备获取语料信息。

步骤S402：终端设备调用命名实体识别模型对该语料信息中的m个语料词汇进行实体预测，得到预测结果。

步骤S401-S402的具体实施方式可参考图1所述的方法，这里不再赘述。

步骤S403：终端设备根据种子词典和预测结果，对m个语料词汇进行实体再分类，得到分类结果，该分类结果用于指示m个语料词汇对应的预测结果是否与种子词典的分类结果相同。

终端设备将调用命名实体识别模型对语料信息中的m个语料词汇进行实体预测后得到的预测结果，与种子词典中的命名实体进行对比并分类，得到分类结果。其中，分类结果用于指示m个语料词汇对应的预测结果是否与种子词典的分类结果相同；种子词典的分类结果用于指示种子词典中对应的命名实体。在实际应用中，终端设备可根据m个语料词汇中目标词汇对应的预测结果与种子词典中目标词汇的分类结果是否相同，将分类结果分为两类。其中，目标词汇可为m个语料词汇中的任一个。分类结果可包括第一分类结果和第二分类结果。第一分类结果和第二分类结果为自定义设置，并不做限定。其中，第一分类结果反映目标语料词汇对应的预测结果指示目标语料词汇为预测的命名实体，而种子词典的分类结果指示目标语料词汇不为种子词典中的命名实体。第二分类结果反映目标语料词汇对应的预测结果指示目标语料词汇不为预测的命名实体，而种子词典的分类结果指示目标语料词汇不为种子词典中的命名实体。

步骤S404：终端设备按照分类结果，对种子词典中的命名实体进行更新。

终端设备对种子词典中的命名实体进行更新的具体实施方式不做限制，以下示出两种可能的实施方式。

在一种实施方式中，若分类结果为第一分类结果，则终端设备将目标语料词汇添加到种子词典，作为种子词典中新增的命名实体，该目标语料词汇为m个语料词汇中的词汇。具体地，进而终端设备显示用户交互界面，该用户交互界面用于提示是否需要将目标语料词汇添加到种子词典。若需要将目标语料词汇添加到种子词典，则终端设备响应于针对用户交互界面的确认指令，如通过点击用户交互界面的确认按钮触发确认指令。进而终端设备执行将目标语料词汇添加到种子词典的步骤，该确认指令用于指示确定需要将目标语料词汇添加到种子词典。

在一种实施方式中，若分类结果为第二分类结果，终端设备删除种子词典中的目标语料词汇，可以一定程度上保证种子词典中命名实体的纯净性。其中，目标语料词汇为m个语料词汇中的词汇。

本发明上述示出步骤S404的几种具体实施方式可以单独实施，也可结合上述几种具体实施方式中的任一种或多种实施方式实施，本发明并不做限定。终端设备按照分类结果，对种子词典中的命名实体进行更新，能够高效地丰富领域种子词典中的命名实体，使得基于命名实体进行的其他自然语言处理任务的效果得到大规模的提升。同时该命名实体识别方法能够根据最新的样本语料信息，自动捕捉领域内新出现的命名实体。如在更新比较快速的游戏领域，能够帮助研发人员更快更好的发掘游戏内命名实体的变化，对游戏应用进行有效的更新。示例性地，分别在英雄联盟、和平精英和王者荣耀中部署相应的命名实体识别方法流程，该命名实体识别方法流程分别将英雄联盟、和平精英和王者荣耀对应的种子词典中的命名实体个数从814,325,96提高到3255,2269,758，且可以一直保持对相应游戏的种子词典进行更新。

可选地，根据种子词典中的命名实体，调用并更新命名实体对应的应用服务。具体地，终端设备可将种子词典中的命名实体按照该命名实体所在领域的特征，进行结构划分后存储；以便于该命名实体所在领域的目标对象调用，并根据该命名实体更新对应的应用服务。其中，应用服务为命名实体所在领域的应用提供的服务，如游戏领域为用户提供更换游戏人物肤色的服务。举例来说，以游戏领域为例，终端设备根据游戏领域的特征将种子词典中的命名实体进行结构划分。请参见图5(a)-图5(b)是本发明实施例提供的一种可能的命名实体分类示意图。图5(a)为以游戏领域中的王者荣耀为例的分类示意图，通过王者荣耀的游戏特征对命名实体进行结构划分，包括英雄、装备、皮肤和技能等多个结构。图5(b)为以游戏领域中的和平精英为例的分类示意图，如图所示展示了以和平精英中的英雄名称进行结构划分得到各个英雄中可能包括的命名实体。并将命名实体以该结构存储在数据库中，以便于游戏领域的目标对象调用。如王者荣耀开发人员，可以根据命名实体进行业务的相关指导，如对某些英雄、装备和新挖掘出的技能等进行相关的调整；又如根据目前新挖掘出的游戏领域的命名实体判断目前游戏大盘中游戏玩家中的新兴事件；再如根据命名实体，抽取出不同游戏玩家的专属特征，对不同玩家进行个性化的服务，如游戏领域的信息流推荐等。

本发明实施例中，终端设备获取语料信息，该语料信息包括m个语料词汇，m为正整数；并调用命名实体识别模型对该语料信息中的m个语料词汇进行实体预测，得到预测结果；其中，预测结果用于指示语料信息中的m个语料词汇是否为预测的命名实体，命名实体识别模型为根据标注语料信息训练得到，该标注语料信息为对样本语料信息进行命名实体标注后得到的信息。终端设备根据种子词典和预测结果，对m个语料词汇进行实体再分类，得到分类结果，按照分类结果，对种子词典中的命名实体进行更新。因此，命名实体识别的过程中可以减少对人工的依赖，节约了人力成本，增加了工作效率，并提升了命名实体识别的准确率；并且可以根据预测结果对种子词典中的命名实体进行更新，从而可对命名实体对应的应用服务进行更新。

请参见图6，图6是本发明实施例提供的一种命名实体识别装置的结构示意图，该命名实体识别装置具体可为一种计算机设备，用于执行图1-图4任一所示方法步骤，命名实体识别装置60可以包括获取单元601和预测单元602。其中：

获取单元601：用于获取语料信息，该语料信息包括m个语料词汇，m为正整数；

预测单元602：用于调用命名实体识别模型对语料信息中的m个语料词汇进行实体预测，得到预测结果；其中，预测结果用于指示语料信息中的m个语料词汇是否为预测的命名实体，该命名实体识别模型为根据标注语料信息训练得到，该标注语料信息为对样本语料信息进行命名实体标注后得到的信息。

在一种实现方式中，预测单元602在用于调用命名实体识别模型对语料信息中的m个语料词汇进行实体预测之前，具体用于：

获取样本语料信息，采用命名实体标注法对样本语料信息进行命名实体标注，得到标注语料信息，该标注语料信息用于表示样本语料信息中包括有n个命名实体，n为正整数；

根据标注语料信息，对初始识别模型进行训练，得到命名实体识别模型。

在一种实现方式中，预测单元602在用于采用命名实体标注法对样本语料信息进行命名实体标注，得到标注语料信息时，具体用于：

根据种子词典，采用强匹配算法对样本语料信息进行命名实体识别，得到样本语料信息中的n个命名实体；

对样本语料信息中的n个命名实体进行实体标注，得到标注语料信息。

在一种实现方式中，命名实体识别装置60可以包括获取单元601和预测单元602，还包括更新单元603，具体用于：

根据种子词典和预测结果，对m个语料词汇进行实体再分类，得到分类结果，该分类结果用于指示m个语料词汇对应的预测结果是否与种子词典的分类结果相同；

按照分类结果，对种子词典中的命名实体进行更新。

在一种实现方式中，分类结果包括目标语料词汇对应的预测结果指示目标语料词汇为预测的命名实体，而种子词典的分类结果指示目标语料词汇不为种子词典中的命名实体；更新单元603在用于按照该分类结果，对种子词典中的命名实体进行更新时，具体用于：

将目标语料词汇添加到种子词典，作为种子词典中新增的命名实体，该目标语料词汇为m个语料词汇中的词汇。

在一种实现方式中，更新单元603在用于将目标语料词汇添加到种子词典之前，具体用于：

显示用户交互界面，该用户交互界面用于提示是否需要将目标语料词汇添加到种子词典；

响应于针对用户交互界面的确认指令，执行将目标语料词汇添加到种子词典的步骤，该确认指令用于指示确定需要将目标语料词汇添加到种子词典。

在一种实现方式中，分类结果包括目标语料词汇对应的预测结果指示目标语料词汇不为预测的命名实体，而种子词典的分类结果指示目标语料词汇为种子词典中的命名实体；更新单元603在用于按照该分类结果，对种子词典中的命名实体进行更新时，具体用于：

删除种子词典中的目标语料词汇，该目标语料词汇为m个语料词汇中的词汇。

根据本发明的另一个实施例，图6所示的命名实体识别装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，基于命名实体识别方法的装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

基于上述方法实施例以及装置实施例的描述，本发明实施例还提供一种终端设备的结构示意图。请参见图7，该终端设备70至少包括处理器701、输入设备702、输出设备703以及计算机存储介质704。其中，终端设备内的处理器701、输入设备702、输出设备703以及计算机存储介质704可通过总线或其他方式连接。

计算机存储介质704可以存储在终端设备的存储器中，所述计算机存储介质704用于存储计算机程序，所述计算机程序包括程序指令，所述处理器701用于执行所述计算机存储介质704存储的程序指令。处理器701(或称CPU(Central Processing Unit，中央处理器))是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能。

本发明实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是终端设备的记忆终端设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端设备的操作系统。并且，在该存储空间中还存放了适于被处理器701加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非易失的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，可由处理器701加载并执行计算机存储介质中存放的一条或一条以上指令，以实现上述有关命名实体识别方法实施例中的方法的相应步骤；具体实现中，计算机存储介质中的一条或一条以上指令由处理器701加载并执行如下步骤：

获取语料信息，该语料信息包括m个语料词汇，m为正整数；

调用命名实体识别模型对语料信息中的m个语料词汇进行实体预测，得到预测结果；其中，预测结果用于指示语料信息中的m个语料词汇是否为预测的命名实体，该命名实体识别模型为根据标注语料信息训练得到，该标注语料信息为对样本语料信息进行命名实体标注后得到的信息。

在一种实现方式中，在调用命名实体识别模型对语料信息中的m个语料词汇进行实体预测之前，计算机存储介质中的一条或一条以上指令由处理器701加载并执行如下步骤：

在一种实现方式中，在采用命名实体标注法对样本语料信息进行命名实体标注，得到标注语料信息时，计算机存储介质中的一条或一条以上指令由处理器701加载并执行如下步骤：

在一种实现方式中，计算机存储介质中的一条或一条以上指令由处理器701加载并执行如下步骤：

按照分类结果，对种子词典中的命名实体进行更新。

在一种实现方式中，分类结果包括目标语料词汇对应的预测结果指示目标语料词汇为预测的命名实体，而种子词典的分类结果指示目标语料词汇不为种子词典中的命名实体；在按照该分类结果，对种子词典中的命名实体进行更新时，计算机存储介质中的一条或一条以上指令由处理器701加载并执行如下步骤：

在一种实现方式中，在将目标语料词汇添加到种子词典之前，计算机存储介质中的一条或一条以上指令由处理器701加载并执行如下步骤：

在一种实现方式中，分类结果包括目标语料词汇对应的预测结果指示目标语料词汇不为预测的命名实体，而种子词典的分类结果指示目标语料词汇为种子词典中的命名实体；在按照该分类结果，对种子词典中的命名实体进行更新时，计算机存储介质中的一条或一条以上指令由处理器701加载并执行如下步骤：

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种命名实体识别方法，其特征在于，所述方法包括：

获取样本语料信息以及包含所述样本语料信息所属领域内已经确定的命名实体组成的种子词典，所述种子词典通过收集所述样本语料信息所属领域对应的输入法词库或业务词汇得到；

根据所述种子词典，采用强匹配算法对所述样本语料信息进行命名实体识别，得到所述样本语料信息中的n个命名实体；

对所述样本语料信息中的n个命名实体进行实体标注，得到标注语料信息；

将所述样本语料信息和所述标注语料信息随机拆分为r份，对被拆分为r份的样本语料信息和标注语料信息迭代执行训练及测试操作，直到r份标注语料信息中的任一份作为测试集完成测试操作，得到命名实体识别模型，其中，所述执行训练及测试操作包括：

随机抽取r-1份的样本语料信息和标注语料信息作为训练集对初始识别模型进行训练，得到训练后的命名实体识别模型，所述r为正整数；将第r份样本语料信息和标注语料信息作为测试集对训练后的命名实体识别模型进行测试，得到对应的预测结果；

获取语料信息，所述语料信息包括m个语料词汇，m为正整数；

调用所述命名实体识别模型对所述语料信息中的m个语料词汇进行实体预测，得到预测结果；

其中，所述预测结果用于指示所述语料信息中的m个语料词汇是否为预测的命名实体。

2.如权利要求1所述的方法，其特征在于，调用命名实体识别模型对所述语料信息中的m个语料词汇进行实体预测之前，所述方法还包括：

获取样本语料信息，采用命名实体标注法对所述样本语料信息进行命名实体标注，得到标注语料信息，所述标注语料信息用于表示所述样本语料信息中包括有n个命名实体，n为正整数。

3.如权利要求1所述的方法，其特征在于，所述方法还包括：

根据种子词典和所述预测结果，对所述m个语料词汇进行实体再分类，得到分类结果，所述分类结果用于指示所述m个语料词汇对应的预测结果是否与所述种子词典的分类结果相同；

按照所述分类结果，对所述种子词典中的命名实体进行更新。

4.如权利要求3所述的方法，其特征在于，所述分类结果包括目标语料词汇对应的预测结果指示所述目标语料词汇为预测的命名实体，而所述种子词典的分类结果指示所述目标语料词汇不为所述种子词典中的命名实体；所述按照所述分类结果，对所述种子词典中的命名实体进行更新包括：

将所述目标语料词汇添加到种子词典，作为所述种子词典中新增的命名实体，所述目标语料词汇为所述m个语料词汇中的词汇。

5.如权利要求4所述的方法，其特征在于，所述将所述目标语料词汇添加到种子词典之前，所述方法还包括：

显示用户交互界面，所述用户交互界面用于提示是否需要将所述目标语料词汇添加到所述种子词典；

响应于针对所述用户交互界面的确认指令，执行所述将所述目标语料词汇添加到种子词典的步骤，所述确认指令用于指示确定需要将所述目标语料词汇添加到所述种子词典。

6.如权利要求3所述的方法，其特征在于，所述分类结果包括目标语料词汇对应的预测结果指示所述目标语料词汇不为预测的命名实体，而所述种子词典的分类结果指示所述目标语料词汇为所述种子词典中的命名实体；所述按照所述分类结果，对所述种子词典中的命名实体进行更新包括：

删除所述种子词典中的目标语料词汇，所述目标语料词汇为所述m个语料词汇中的词汇。

7.一种命名实体识别装置，其特征在于，所述装置包括：

获取单元，用于获取语料信息，所述语料信息包括m个语料词汇，m为正整数；

预测单元，用于调用命名实体识别模型对所述语料信息中的m个语料词汇进行实体预测，得到预测结果；

其中，所述预测结果用于指示所述语料信息中的m个语料词汇是否为预测的命名实体，所述命名实体识别模型为根据标注语料信息对初始识别模型训练得到，所述标注语料信息为对样本语料信息进行命名实体标注后得到的信息；

所述预测单元用于调用命名实体识别模型对语料信息中的m个语料词汇进行实体预测之前，具体用于：

随机抽取r-1份的样本语料信息和标注语料信息作为训练集对初始识别模型进行训练，得到训练后的命名实体识别模型，所述r为正整数；将第r份样本语料信息和标注语料信息作为测试集对训练后的命名实体识别模型进行测试，得到对应的预测结果。

8.一种计算机设备，其特征在于，所述计算机设备包括：

存储器，所述存储器包括计算机可读指令；

与所述存储器相连的处理器，所述处理器用于执行所述计算机可读指令，从而使得所述设备执行权利要求1～6任一项所述的命名实体识别方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行权利要求1～6中任意一项所述的命名实体识别方法。