CN111079435B

CN111079435B - 命名实体消歧方法、装置、设备及存储介质

Info

Publication number: CN111079435B
Application number: CN201911250691.XA
Authority: CN
Inventors: 孙俊; 文博; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2021-04-06
Anticipated expiration: 2039-12-09
Also published as: CN111079435A

Abstract

本申请公开了一种命名实体消歧方法、装置、设备及存储介质，属于计算机技术领域。所述方法包括：对目标文本进行命名实体识别处理，得到该目标文本对应的命名实体集合；基于该命名实体集合所包括的命名实体生成多个命名实体序列，其中，每个该命名实体序列中命名实体的排序与命名实体在该目标文本中的位置前后正相关，且，每个该命名实体序列包括的各个命名实体在该目标文本中互不重叠；根据每个该命名实体序列的特征信息从该多个命名实体序列中筛选出目标命名实体序列，并将该目标命名实体序列所包括的命名实体作为对该目标文本进行命名实体识别处理的最终结果。本申请实施例提供的技术方案能够在一定程度上提高命名实体消歧的准确性。

Description

命名实体消歧方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种命名实体消歧方法、装置、设备及存储介质。

背景技术

命名实体一般指的是文本中具有特定意义或者指代性较强的对象，通常包括人名、地名、组织机构名、日期时间以及专有名词等。命名实体识别技术就是识别文本中的命名实体的一种技术。

然而，实际应用中，命名实体识别技术所识别出的命名实体并不一定是文本所真正涉及到的命名实体，例如，对于“南京市长江大桥是我国第一座跨江大桥”这一文本而言，命名实体识别技术所识别出的命名实体可能会包括“南京市长江大桥”、“南京市长”以及“江大桥(人名)”，其中，“南京市长”以及“江大桥(人名)”显然不是文本所真正涉及到的命名实体。

为了从命名实体识别技术所识别出的命名实体中筛选出文本所真正涉及到的命名实体，通常需要引入命名实体消歧技术。

相关技术提供的命名实体消歧方式中，可以对每一个识别出的命名实体进行单独地打分，并通过打分结果对识别出的命名实体进行排序，而后，将排序靠前的命名实体确定为文本所真正涉及到的命名实体。然而，这样的方法准确性较低。

发明内容

基于此，为了提高命名实体消歧的准确性，本申请实施例提供了一种命名实体消歧方法、装置、设备及存储介质。

第一方面，提供了一种命名实体消歧方法，该方法包括：

对目标文本进行命名实体识别处理，得到该目标文本对应的命名实体集合，该命名实体集合包括多个命名实体；基于该命名实体集合所包括的命名实体生成多个命名实体序列，其中，每个该命名实体序列中命名实体的排序与命名实体在该目标文本中的位置前后正相关，且，每个该命名实体序列包括的各个命名实体在该目标文本中互不重叠；根据每个该命名实体序列的特征信息从该多个命名实体序列中筛选出目标命名实体序列，并将该目标命名实体序列所包括的命名实体作为对该目标文本进行命名实体识别处理的最终结果。

在其中一个实施例中，对目标文本进行命名实体识别处理，包括：

根据至少一种命名实体识别策略对该目标文本进行命名实体识别处理，该至少一种命名实体识别策略包括字典匹配策略、模板匹配策略、正则匹配策略和模型识别策略中的至少一种。

在其中一个实施例中，对目标文本进行命名实体识别处理，得到该目标文本对应的命名实体集合，包括：

对该目标文本进行命名实体识别处理，得到该目标文本对应的多个候选命名实体；获取该目标文本的内容所对应的内容领域，并获取该内容领域对应的命名实体类型集合，该命名实体类型集合包括该内容领域所可能涉及到的多个命名实体类型；从该多个候选命名实体中筛选出命名实体类型位于该命名实体类型集合中的候选命名实体，并利用筛选出的候选命名实体组成该命名实体集合。

在其中一个实施例中，根据每个该命名实体序列的特征信息从该多个命名实体序列中筛选出目标命名实体序列，包括：

对于每个该命名实体序列，获取该命名实体序列包括的每个命名实体的命名实体类型；对于每个该命名实体序列，获取该命名实体序列包括的命名实体的总字数；根据每个该命名实体序列包括的每个命名实体的命名实体类型以及每个该命名实体序列包括的命名实体的总字数，从该多个命名实体序列中筛选出该目标命名实体序列。

在其中一个实施例中，根据每个该命名实体序列包括的每个命名实体的命名实体类型以及每个该命名实体序列包括的命名实体的总字数，从该多个命名实体序列中筛选出该目标命名实体序列，包括：

对于每个该命名实体序列，获取该命名实体序列包括的每个命名实体的命名实体类型所对应的权重值，并获取该命名实体序列包括的命名实体的总字数与该目标文本包括的总字数的比值；对于每个该命名实体序列，根据该命名实体序列包括的每个命名实体的命名实体类型所对应的权重值以及该比值，获取该命名实体序列的准确性分值；根据每个该命名实体序列的准确性分值，从该多个命名实体序列中筛选出该目标命名实体序列。

在其中一个实施例中，根据该命名实体序列包括的每个命名实体的命名实体类型所对应的权重值以及该比值，获取该命名实体序列的准确性分值，包括：

将该命名实体序列包括的每个命名实体的命名实体类型所对应的权重值连乘，将连乘结果与该比值进行相加，得到该命名实体序列的准确性分值。

在其中一个实施例中，获取该命名实体序列包括的每个命名实体的命名实体类型所对应的权重值，包括：

对于该命名实体序列中的每个命名实体，在该命名实体序列中获取相邻命名实体，并根据该命名实体的命名实体类型以及该相邻命名实体的命名实体类型获取该命名实体的命名实体类型所对应的权重值，其中，该相邻命名实体在该命名实体序列中与该命名实体相邻。

在其中一个实施例中，根据每个该命名实体序列的准确性分值，从该多个命名实体序列中筛选出该目标命名实体序列，包括：

从该多个命名实体序列中筛选出准确性分值满足预设条件的命名实体序列，并将准确性分值满足该预设条件的命名实体序列确定为该目标命名实体序列。

在其中一个实施例中，该方法还包括：

当准确性分值满足该预设条件的命名实体序列的个数为至少两个时，根据命名实体粒度从至少两个准确性分值满足该预设条件的命名实体序列中筛选出该目标命名实体序列，该命名实体粒度为命名实体所包括的字数。

在其中一个实施例中，根据命名实体粒度从至少两个准确性分值满足该预设条件的命名实体序列中筛选出该目标命名实体序列，包括：

将至少两个准确性分值满足该预设条件的命名实体序列中命名实体粒度较大的命名实体序列确定为该目标命名实体序列。

在其中一个实施例中，该方法还包括：

当准确性分值满足该预设条件的命名实体序列的个数为至少两个时，对至少两个准确性分值满足该预设条件的命名实体序列分别进行句法分析，并根据句法分析结果从至少两个准确性分值满足该预设条件的命名实体序列中筛选出该目标命名实体序列。

第二方面，提供了一种命名实体消歧装置，该装置包括：

识别模块，用于对目标文本进行命名实体识别处理，得到该目标文本对应的命名实体集合，该命名实体集合包括多个命名实体；

生成模块，用于基于该命名实体集合所包括的命名实体生成多个命名实体序列，其中，每个该命名实体序列中命名实体的排序与命名实体在该目标文本中的位置前后正相关，且，每个该命名实体序列包括的各个命名实体在该目标文本中互不重叠；

筛选模块，用于根据每个该命名实体序列的特征信息从该多个命名实体序列中筛选出目标命名实体序列，并将该目标命名实体序列所包括的命名实体作为对该目标文本进行命名实体识别处理的最终结果。

在其中一个实施例中，该识别模块，具体用于：

在其中一个实施例中，该筛选模块，具体用于：

第三方面，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该计算机程序被该处理器执行时实现上述第一方面任一所述的命名实体消歧方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述第一方面任一所述的命名实体消歧方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过对目标文本进行命名实体识别处理，得到目标文本对应的命名实体集合，而后，基于命名实体集合所包括的命名实体生成多个命名实体序列，其中，每个命名实体序列中命名实体的排序与命名实体在目标文本中的位置前后正相关，且，每个命名实体序列包括的各个命名实体在目标文本中互不重叠，接着，根据每个命名实体序列的特征信息从该多个命名实体序列中筛选出目标命名实体序列，并将目标命名实体序列所包括的命名实体作为对目标文本进行命名实体识别处理的最终结果。

附图说明

图1为本申请实施例提供的一种命名实体消歧方法所涉及到的实施环境的示意图；

图2为本申请实施例提供的一种命名实体消歧方法的流程图；

图3为本申请实施例提供的另一种命名实体消歧方法的流程图；

图4为本申请实施例提供的另一种命名实体消歧方法的流程图；

图5为本申请实施例提供的一种命名实体消歧装置的框图；

图6为本申请实施例提供的一种计算机设备的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

命名实体消歧指的是对从文本中识别出的命名实体进行评估，以通过评估从识别出的命名实体中确定出文本所真正涉及到的命名实体的技术。

在相关技术提供的命名实体消歧方式中，可以对从文本中识别出的每个命名实体进行单独地打分，并通过打分结果对识别出的命名实体进行排序，而后，将排序靠前的命名实体确定为文本所真正涉及到的命名实体。

例如，对于“南京市长江大桥是我国第一座跨江大桥”这一文本而言，相关技术提供的命名实体消歧方式中，可以对从该文本中识别出的命名实体“南京市长江大桥”、“南京市长”以及“江大桥(人名)”分别进行打分，而后，根据打分结果对命名实体“南京市长江大桥”、“南京市长”以及“江大桥(人名)”进行排序，并将排序靠前的命名实体确定为文本所真正涉及到的命名实体。

由于相关技术提供的命名实体消歧方式是对每个命名实体分别进行单独地打分，其忽略了文本中不同命名实体之间的关联性和依赖性，因此，这种命名实体消歧方式的准确性较差。

有鉴于此，本申请实施例提供了一种命名实体消歧方法，该命名实体消歧方法可以充分考虑文本中不同命名实体之间的关联性和依赖性，因此，可以提高命名实体消歧的准确性。

下面，将对本申请实施例提供的命名实体消歧方法所涉及到的实施环境进行简要说明。

如图1所示，该实施环境可以包括终端101和服务器102，其中，终端101可以通过有线网络或者无线网络与服务器102进行通信。

在本申请实施例中，终端101可以获取待进行命名实体消歧的文本，并将该文本发送至服务器102，以由服务器102利用本申请实施例提供的命名实体消歧方法对终端101发送的文本进行命名实体消歧。

其中，在一种可能的实现方式中，该实施环境可以仅包括终端101，在仅包括终端101的情况下，终端101可以获取待进行命名实体消歧的文本，并利用本申请实施例提供的命名实体消歧方法对该文本进行命名实体消歧。

在另一种可能的实现方式中，该实施环境可以仅包括服务器102，在仅包括服务器102的情况下，该服务器102中可以存储有待进行命名实体消歧的文本，服务器102可以利用本申请实施例提供的命名实体消歧方法对自身存储的文本进行命名实体消歧。

需要指出的是，在本申请实施例中，终端101可以为智能手机、平板电脑、台式电脑以及可穿戴设备等，服务器102可以为一台服务器，也可以为由多台服务器组成的服务器集群。

请参考图2，其示出了本申请实施例提供的命名实体消歧方法的流程图，如上文所述，该命名实体消歧方法可以应用于终端或者服务器中，本申请实施例仅以该命名实体消歧方法应用于服务器中为例进行说明，该命名实体消歧方法应用于终端中的情况与该命名实体消歧方法应用于服务器中的情况同理，本申请实施例不再赘述，如图2所示，该命名实体消歧方法可以包括以下步骤：

步骤201、服务器对目标文本进行命名实体识别处理，得到目标文本对应的命名实体集合。

其中，该命名实体集合可以包括对目标文本进行命名实体识别处理后得到的多个命名实体。以上文所述的文本“南京市长江大桥是我国第一座跨江大桥”为例，在步骤201中，通过对该文本进行命名实体识别处理，可以得到该文本对应的命名实体集合，其中，该命名实体集合可以包括：“南京市长江大桥”、“南京市长”以及“江大桥(人名)”这三个从文本“南京市长江大桥是我国第一座跨江大桥”中识别出的命名实体。

在本申请的一个可选的实施例中，服务器可以根据至少一种命名实体识别策略对目标文本进行命名实体识别处理，其中，该至少一种命名实体识别策略可以包括字典匹配策略、模板匹配策略、正则匹配策略和模型识别策略中的至少一种。

采用至少一种命名实体识别策略对目标文本进行命名实体识别处理，可以保证服务器能够识别出目标文本中所包括的所有的命名实体，这样，就可以保证经过步骤201的命名实体识别处理后得到的命名实体集合能够包含目标文本所真正涉及到的命名实体，从而可以提高命名实体消歧的准确性。

步骤202、服务器基于命名实体集合所包括的命名实体生成多个命名实体序列。

其中，每个命名实体序列中命名实体的排序与命名实体在目标文本中的位置前后正相关，且，每个命名实体序列包括的各个命名实体在目标文本中互不重叠。

需要指出的是，所谓“命名实体序列中命名实体的排序与命名实体在目标文本中的位置前后正相关”指的是：命名实体在目标文本中的位置靠前，则该命名实体在命名实体序列中的排序靠前，命名实体在目标文本中的位置靠后，则该命名实体在命名实体序列中的排序靠后。

以上文所述的包括“南京市长江大桥”、“南京市长”以及“江大桥(人名)”这三个命名实体的命名实体集合为例，服务器基于该命名实体集合包括的命名实体所生成的命名实体序列不能是“江大桥”“南京市长”，这是因为：“南京市长”这一命名实体在文本“南京市长江大桥是我国第一座跨江大桥”中的位置靠前，而“江大桥”这一命名实体在文本“南京市长江大桥是我国第一座跨江大桥”中的位置靠后，因此，在生成的命名实体序列中“南京市长”的排序应当靠前，“江大桥”的排序应当靠后，故而，服务器基于该命名实体集合包括的命名实体所生成的命名实体序列不能是“江大桥”“南京市长”，而其生成的命名实体序列可以为“南京市长”“江大桥”。

还需要指的是，“命名实体序列包括的各个命名实体在目标文本中互不重叠”指的是命名实体序列中的各个命名实体不能包含目标文本中的同样的文字。

以上文所述的包括“南京市长江大桥”、“南京市长”以及“江大桥(人名)”这三个命名实体的命名实体集合为例，服务器基于该命名实体集合包括的命名实体所生成的命名实体序列不能是“南京市长江大桥”“江大桥”，这是因为：“南京市长江大桥”和“江大桥”中包含文本“南京市长江大桥是我国第一座跨江大桥”中的同样的文字，该同样的文字是“江大桥”，故而，服务器基于该命名实体集合包括的命名实体所生成的命名实体序列不能是“南京市长江大桥”“江大桥”。

在本申请的一个可选的实施例中，服务器可以为命名实体集合中包括的每个命名实体赋予一个位置坐标，该位置坐标用于指示命名实体的首字在目标文本包括的多个文字中的排序。

以上文所述的包括“南京市长江大桥”、“南京市长”以及“江大桥(人名)”这三个命名实体的命名实体集合为例，由于“南京市长江大桥”这一命名实体的首字“南”在文本“南京市长江大桥是我国第一座跨江大桥”中的排序为1，则服务器可以为“南京市长江大桥”赋予位置坐标“1”，同样的道理，服务器可以为“南京市长”赋予位置坐标“1”，为“江大桥(人名)”赋予位置坐标“5”.

在为命名实体集合中包括的每个命名实体赋予位置坐标之后，服务器根据位置坐标进行命名实体序列搜索，其中，搜索得到的各命名实体序列按照命名实体的位置坐标由小至大的顺序进行排序，且，搜索得到的各命名实体序列包括的各个命名实体在目标文本中互不重叠，这样，就可以实现对命名实体序列的生成。

步骤203、服务器根据每个命名实体序列的特征信息从该多个命名实体序列中筛选出目标命名实体序列，并将目标命名实体序列所包括的命名实体作为对目标文本进行命名实体识别处理的最终结果。

换句话说，服务器可以将目标命名实体序列所包括的命名实体作为目标文本所真正涉及到的命名实体。

在本申请实施例提供的命名实体消歧方法中，通过对目标文本进行命名实体识别处理，得到目标文本对应的命名实体集合，而后，基于命名实体集合所包括的命名实体生成多个命名实体序列，接着，根据每个命名实体序列的特征信息从该多个命名实体序列中筛选出目标命名实体序列，并将目标命名实体序列所包括的命名实体作为对目标文本进行命名实体识别处理的最终结果，这样，就能够以命名实体序列为单位进行命名实体消歧，由于命名实体序列中命名实体的排序与命名实体在目标文本中的位置前后正相关，且，命名实体序列包括的各个命名实体在目标文本中互不重叠，因此，命名实体序列可以反映命名实体在目标文本中的位置关系，该位置关系可以在一定程度上反映目标文本中文字的上下文关系，因此，以命名实体序列为单位进行命名实体消歧可以充分考虑目标文本中不同命名实体之间的关联性和依赖性，故而可以提高命名实体消歧的准确性。

请参考图3，在上文所述实施例的基础之上，步骤201的技术过程可以包括下述步骤：

步骤2011、服务器对目标文本进行命名实体识别处理，得到目标文本对应的多个候选命名实体。

其中，该多个候选命名实体包括服务器通过命名实体识别处理从该目标文本中识别出的所有命名实体。

步骤2012、服务器获取目标文本的内容所对应的内容领域，并获取该内容领域对应的命名实体类型集合。

实际应用中，不同文本的内容通常与不同的内容领域相对应，例如，“A县桃子的产量为每年1500吨”这一文本的内容对应的内容领域为“农产品领域”，又例如，“华为公司是一家通信设备制造企业”这一文本的内容对应的内容领域为“科技领域”。

其中，不同的内容领域所可能涉及到的命名实体类型不同，例如，“农产品领域”涉及到的命名实体类型可以包括“农产品名称”，“科技领域”涉及到的命名实体类型可以包括“企业名称”。

基于此，若服务器在某一内容领域的文本中所识别出的命名实体不属于该内容领域所可能涉及到的命名实体类型时，就可以说明服务器识别出的命名实体不是该文本所真正涉及到的命名实体。

例如，若服务器在“科技领域”的文本中识别出命名实体类型为“农产品名称”的命名实体，那么就可以说明该命名实体不是该“科技领域”的文本所真正涉及到的命名实体。

考虑到上述情况，服务器可以基于目标文本的内容所对应的内容领域所可能涉及到的命名实体类型对从该目标文本中识别出的命名实体进行筛选，以通过筛选将明显不是该目标文本真正涉及到的命名实体剔除掉，这样，可以减少命名实体消歧所需评估的命名实体的数量，从而减少命名实体消歧的计算量。

为了实现这一目的，在步骤2012中，服务器可以目标文本的内容所对应的内容领域，并获取该内容领域对应的命名实体类型集合，其中，该命名实体类型集合可以包括目标文本的内容所对应的内容领域所可能涉及到的多个命名实体类型。

步骤2013、服务器从该多个候选命名实体中筛选出命名实体类型位于该命名实体类型集合中的候选命名实体，并利用筛选出的候选命名实体组成上文所述的命名实体集合。

请参考图4，在上文所述实施例的基础之上，步骤203的技术过程可以包括下述步骤：

步骤2031、对于每个命名实体序列，服务器获取该命名实体序列包括的每个命名实体的命名实体类型。

通常情况下，每一个命名实体都对应于一个命名实体类型，例如，“华为”这一命名实体对应于“企业名称”这一命名实体类型，“桃子”这一命名实体对应于“农产品名称”这一命名实体类型。

在步骤2031中，对于每个命名实体序列中的每个命名实体，服务器都可以获取该命名实体对应的命名实体类型。在一种可能的实现方式中，服务器中可以维护有命名实体与命名实体类型的对照表，服务器可以通过查询该对照表的方式获取命名实体对应的命名实体类型。

步骤2032、对于每个命名实体序列，服务器获取该命名实体序列包括的命名实体的总字数。

所谓命名实体序列包括的命名实体的总字数指的是命名实体序列包括的每个命名实体的字数相加得到的和值。

步骤2033、服务器根据每个命名实体序列包括的每个命名实体的命名实体类型以及每个命名实体序列包括的命名实体的总字数，从该多个命名实体序列中筛选出目标命名实体序列。

在本申请实施例中，对于每个命名实体序列，服务器可以获取该命名实体序列包括的每个命名实体的命名实体类型所对应的权重值，并获取该命名实体序列包括的命名实体的总字数与目标文本包括的总字数的比值。

而后，服务器可以根据该命名实体序列包括的每个命名实体的命名实体类型所对应的权重值以及上述计算得到的比值，获取命名实体序列的准确性分值。

在一种可能的实现方式中，服务器可以将命名实体序列包括的每个命名实体的命名实体类型所对应的权重值连乘，将连乘结果与上述计算得到的比值进行相加，得到命名实体序列的准确性分值。

在得到命名实体序列的准确性分值之后，服务器可以根据每个命名实体序列的准确性分值，从该多个命名实体序列中筛选出目标命名实体序列。

在一种可能的实现方式中，服务器可以从该多个命名实体序列中筛选出准确性分值满足预设条件的命名实体序列，例如，该预设条件可以为准确性分值最大的条件，并将准确性分值满足预设条件的命名实体序列确定为目标命名实体序列。

需要指出的是，在本申请实施例中，服务器可以按照下述技术过程获取命名实体的命名实体类型所对应的权重值。

对于命名实体序列中的每个命名实体，服务器可以在该命名实体序列中获取相邻命名实体，其中，相邻命名实体在命名实体序列中与该命名实体相邻，而后，服务器可以根据该命名实体的命名实体类型以及该相邻命名实体的命名实体类型获取该命名实体的命名实体类型所对应的权重值。

实际应用中，不同类型的命名实体在文本中相邻的概率不同，例如，“农产品名称”类型的命名实体和“企业名称”类型的命名实体在文本中相邻的概率较小，而“地理位置名称”类型的命名实体和“农产品名称”类型的命名实体在文本中相邻的概率较大。

因此，在本申请实施例中，服务器可以根据某一命名实体的命名实体类型以及与该命名实体相邻的命名实体的命名实体类型获取该命名实体的命名实体类型所对应的权重值，该权重值可以反映这两个命名实体在真实文本中相邻的概率的大小。

当准确性分值满足该预设条件的命名实体序列的个数为至少两个时，服务器可以按照下述两种方式中的一种获取目标命名实体序列：

第一种、服务器根据命名实体粒度从至少两个准确性分值满足该预设条件的命名实体序列中筛选出目标命名实体序列，其中，命名实体粒度为命名实体所包括的字数。

可选的，服务器可以将至少两个准确性分值满足该预设条件的命名实体序列中命名实体粒度较大的命名实体序列确定为目标命名实体序列。

第二种、服务器对至少两个准确性分值满足该预设条件的命名实体序列分别进行句法分析，并根据句法分析结果从至少两个准确性分值满足该预设条件的命名实体序列中筛选出目标命名实体序列。

请参考图5，其示出了本申请实施例提供的一种命名实体消歧装置500的框图，该命名实体消歧装置500可以配置于上文所述的服务器或者终端中。如图5所示，该命名实体消歧装置500可以包括：识别模块501、生成模块502和筛选模块503。

其中，该识别模块501，用于对目标文本进行命名实体识别处理，得到该目标文本对应的命名实体集合，该命名实体集合包括多个命名实体。

该生成模块502，用于基于该命名实体集合所包括的命名实体生成多个命名实体序列，其中，每个该命名实体序列中命名实体的排序与命名实体在该目标文本中的位置前后正相关，且，每个该命名实体序列包括的各个命名实体在该目标文本中互不重叠。

该筛选模块503，用于根据每个该命名实体序列的特征信息从该多个命名实体序列中筛选出目标命名实体序列，并将该目标命名实体序列所包括的命名实体作为对该目标文本进行命名实体识别处理的最终结果。

在本申请的一个实施例中，该识别模块501，具体用于：根据至少一种命名实体识别策略对该目标文本进行命名实体识别处理，该至少一种命名实体识别策略包括字典匹配策略、模板匹配策略、正则匹配策略和模型识别策略中的至少一种。

在本申请的一个实施例中，该识别模块501，具体用于：对该目标文本进行命名实体识别处理，得到该目标文本对应的多个候选命名实体；获取该目标文本的内容所对应的内容领域，并获取该内容领域对应的命名实体类型集合，该命名实体类型集合包括该内容领域所可能涉及到的多个命名实体类型；从该多个候选命名实体中筛选出命名实体类型位于该命名实体类型集合中的候选命名实体，并利用筛选出的候选命名实体组成该命名实体集合。

在本申请的一个实施例中，该筛选模块503，具体用于：对于每个该命名实体序列，获取该命名实体序列包括的每个命名实体的命名实体类型；对于每个该命名实体序列，获取该命名实体序列包括的命名实体的总字数；根据每个该命名实体序列包括的每个命名实体的命名实体类型以及每个该命名实体序列包括的命名实体的总字数，从该多个命名实体序列中筛选出该目标命名实体序列。

在本申请的一个实施例中，该筛选模块503，具体用于：对于每个该命名实体序列，获取该命名实体序列包括的每个命名实体的命名实体类型所对应的权重值，并获取该命名实体序列包括的命名实体的总字数与该目标文本包括的总字数的比值；对于每个该命名实体序列，根据该命名实体序列包括的每个命名实体的命名实体类型所对应的权重值以及该比值，获取该命名实体序列的准确性分值；根据每个该命名实体序列的准确性分值，从该多个命名实体序列中筛选出该目标命名实体序列。

在本申请的一个实施例中，该筛选模块503，具体用于：将该命名实体序列包括的每个命名实体的命名实体类型所对应的权重值连乘，将连乘结果与该比值进行相加，得到该命名实体序列的准确性分值。

在本申请的一个实施例中，该筛选模块503，具体用于：对于该命名实体序列中的每个命名实体，在该命名实体序列中获取相邻命名实体，并根据该命名实体的命名实体类型以及该相邻命名实体的命名实体类型获取该命名实体的命名实体类型所对应的权重值，其中，该相邻命名实体在该命名实体序列中与该命名实体相邻。

在本申请的一个实施例中，该筛选模块503，具体用于：从该多个命名实体序列中筛选出准确性分值满足预设条件的命名实体序列，并将准确性分值满足该预设条件的命名实体序列确定为该目标命名实体序列。

在本申请的一个实施例中，该筛选模块503，具体用于：当准确性分值满足该预设条件的命名实体序列的个数为至少两个时，根据命名实体粒度从至少两个准确性分值满足该预设条件的命名实体序列中筛选出该目标命名实体序列，该命名实体粒度为命名实体所包括的字数。

在本申请的一个实施例中，该筛选模块503，具体用于：将至少两个准确性分值满足该预设条件的命名实体序列中命名实体粒度较大的命名实体序列确定为该目标命名实体序列。

在本申请的一个实施例中，该筛选模块503，具体用于：当准确性分值满足该预设条件的命名实体序列的个数为至少两个时，对至少两个准确性分值满足该预设条件的命名实体序列分别进行句法分析，并根据句法分析结果从至少两个准确性分值满足该预设条件的命名实体序列中筛选出该目标命名实体序列。

本申请实施例提供的命名实体消歧装置，可以实现上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

关于命名实体消歧装置的具体限定可以参见上文中对于命名实体消歧方法的限定，在此不再赘述。上述命名实体消歧装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在本申请的一个实施例中，提供了一种计算机设备，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器和存储器。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机程序被处理器执行时以实现一种命名实体消歧方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本申请的一个实施例中，提供了一种计算机设备，该计算机设备可以为服务器或者终端，该计算机设备包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：根据至少一种命名实体识别策略对该目标文本进行命名实体识别处理，该至少一种命名实体识别策略包括字典匹配策略、模板匹配策略、正则匹配策略和模型识别策略中的至少一种。

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：对该目标文本进行命名实体识别处理，得到该目标文本对应的多个候选命名实体；获取该目标文本的内容所对应的内容领域，并获取该内容领域对应的命名实体类型集合，该命名实体类型集合包括该内容领域所可能涉及到的多个命名实体类型；从该多个候选命名实体中筛选出命名实体类型位于该命名实体类型集合中的候选命名实体，并利用筛选出的候选命名实体组成该命名实体集合。

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：对于每个该命名实体序列，获取该命名实体序列包括的每个命名实体的命名实体类型；对于每个该命名实体序列，获取该命名实体序列包括的命名实体的总字数；根据每个该命名实体序列包括的每个命名实体的命名实体类型以及每个该命名实体序列包括的命名实体的总字数，从该多个命名实体序列中筛选出该目标命名实体序列。

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：对于每个该命名实体序列，获取该命名实体序列包括的每个命名实体的命名实体类型所对应的权重值，并获取该命名实体序列包括的命名实体的总字数与该目标文本包括的总字数的比值；对于每个该命名实体序列，根据该命名实体序列包括的每个命名实体的命名实体类型所对应的权重值以及该比值，获取该命名实体序列的准确性分值；根据每个该命名实体序列的准确性分值，从该多个命名实体序列中筛选出该目标命名实体序列。

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：将该命名实体序列包括的每个命名实体的命名实体类型所对应的权重值连乘，将连乘结果与该比值进行相加，得到该命名实体序列的准确性分值。

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：对于该命名实体序列中的每个命名实体，在该命名实体序列中获取相邻命名实体，并根据该命名实体的命名实体类型以及该相邻命名实体的命名实体类型获取该命名实体的命名实体类型所对应的权重值，其中，该相邻命名实体在该命名实体序列中与该命名实体相邻。

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：从该多个命名实体序列中筛选出准确性分值满足预设条件的命名实体序列，并将准确性分值满足该预设条件的命名实体序列确定为该目标命名实体序列。

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：当准确性分值满足该预设条件的命名实体序列的个数为至少两个时，根据命名实体粒度从至少两个准确性分值满足该预设条件的命名实体序列中筛选出该目标命名实体序列，该命名实体粒度为命名实体所包括的字数。

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：将至少两个准确性分值满足该预设条件的命名实体序列中命名实体粒度较大的命名实体序列确定为该目标命名实体序列。

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：当准确性分值满足该预设条件的命名实体序列的个数为至少两个时，对至少两个准确性分值满足该预设条件的命名实体序列分别进行句法分析，并根据句法分析结果从至少两个准确性分值满足该预设条件的命名实体序列中筛选出该目标命名实体序列。

本申请实施例提供的计算机设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在本申请的一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据至少一种命名实体识别策略对该目标文本进行命名实体识别处理，该至少一种命名实体识别策略包括字典匹配策略、模板匹配策略、正则匹配策略和模型识别策略中的至少一种。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：对该目标文本进行命名实体识别处理，得到该目标文本对应的多个候选命名实体；获取该目标文本的内容所对应的内容领域，并获取该内容领域对应的命名实体类型集合，该命名实体类型集合包括该内容领域所可能涉及到的多个命名实体类型；从该多个候选命名实体中筛选出命名实体类型位于该命名实体类型集合中的候选命名实体，并利用筛选出的候选命名实体组成该命名实体集合。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：对于每个该命名实体序列，获取该命名实体序列包括的每个命名实体的命名实体类型；对于每个该命名实体序列，获取该命名实体序列包括的命名实体的总字数；根据每个该命名实体序列包括的每个命名实体的命名实体类型以及每个该命名实体序列包括的命名实体的总字数，从该多个命名实体序列中筛选出该目标命名实体序列。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：对于每个该命名实体序列，获取该命名实体序列包括的每个命名实体的命名实体类型所对应的权重值，并获取该命名实体序列包括的命名实体的总字数与该目标文本包括的总字数的比值；对于每个该命名实体序列，根据该命名实体序列包括的每个命名实体的命名实体类型所对应的权重值以及该比值，获取该命名实体序列的准确性分值；根据每个该命名实体序列的准确性分值，从该多个命名实体序列中筛选出该目标命名实体序列。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：将该命名实体序列包括的每个命名实体的命名实体类型所对应的权重值连乘，将连乘结果与该比值进行相加，得到该命名实体序列的准确性分值。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：对于该命名实体序列中的每个命名实体，在该命名实体序列中获取相邻命名实体，并根据该命名实体的命名实体类型以及该相邻命名实体的命名实体类型获取该命名实体的命名实体类型所对应的权重值，其中，该相邻命名实体在该命名实体序列中与该命名实体相邻。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：从该多个命名实体序列中筛选出准确性分值满足预设条件的命名实体序列，并将准确性分值满足该预设条件的命名实体序列确定为该目标命名实体序列。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：当准确性分值满足该预设条件的命名实体序列的个数为至少两个时，根据命名实体粒度从至少两个准确性分值满足该预设条件的命名实体序列中筛选出该目标命名实体序列，该命名实体粒度为命名实体所包括的字数。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：将至少两个准确性分值满足该预设条件的命名实体序列中命名实体粒度较大的命名实体序列确定为该目标命名实体序列。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：当准确性分值满足该预设条件的命名实体序列的个数为至少两个时，对至少两个准确性分值满足该预设条件的命名实体序列分别进行句法分析，并根据句法分析结果从至少两个准确性分值满足该预设条件的命名实体序列中筛选出该目标命名实体序列。

本实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种命名实体消歧方法，其特征在于，所述方法包括：

对目标文本进行命名实体识别处理，得到所述目标文本对应的命名实体集合，所述命名实体集合包括多个命名实体；

基于所述命名实体集合所包括的命名实体生成多个命名实体序列，其中，每个所述命名实体序列中命名实体的排序与命名实体在所述目标文本中的位置前后正相关，且，每个所述命名实体序列包括的各个命名实体在所述目标文本中互不重叠；

根据每个所述命名实体序列的特征信息从所述多个命名实体序列中筛选出目标命名实体序列，并将所述目标命名实体序列所包括的命名实体作为对所述目标文本进行命名实体识别处理的最终结果，其中，各所述命名实体序列的特征信息包括各所述命名实体序列包括的每个命名实体的命名实体类型以及各所述命名实体序列包括的命名实体的总字数。

2.根据权利要求1所述的方法，其特征在于，所述对目标文本进行命名实体识别处理，包括：

根据至少一种命名实体识别策略对所述目标文本进行命名实体识别处理，所述至少一种命名实体识别策略包括字典匹配策略、模板匹配策略、正则匹配策略和模型识别策略中的至少一种。

3.根据权利要求1所述的方法，其特征在于，所述对目标文本进行命名实体识别处理，得到所述目标文本对应的命名实体集合，包括：

对所述目标文本进行命名实体识别处理，得到所述目标文本对应的多个候选命名实体；

获取所述目标文本的内容所对应的内容领域，并获取所述内容领域对应的命名实体类型集合，所述命名实体类型集合包括所述内容领域所可能涉及到的多个命名实体类型；

从所述多个候选命名实体中筛选出命名实体类型位于所述命名实体类型集合中的候选命名实体，并利用筛选出的候选命名实体组成所述命名实体集合。

4.根据权利要求1所述的方法，其特征在于，所述根据每个所述命名实体序列的特征信息从所述多个命名实体序列中筛选出目标命名实体序列，包括：

对于每个所述命名实体序列，获取所述命名实体序列包括的每个命名实体的命名实体类型；

对于每个所述命名实体序列，获取所述命名实体序列包括的命名实体的总字数；

根据每个所述命名实体序列包括的每个命名实体的命名实体类型以及每个所述命名实体序列包括的命名实体的总字数，从所述多个命名实体序列中筛选出所述目标命名实体序列。

5.根据权利要求4所述的方法，其特征在于，所述根据每个所述命名实体序列包括的每个命名实体的命名实体类型以及每个所述命名实体序列包括的命名实体的总字数，从所述多个命名实体序列中筛选出所述目标命名实体序列，包括：

对于每个所述命名实体序列，获取所述命名实体序列包括的每个命名实体的命名实体类型所对应的权重值，并获取所述命名实体序列包括的命名实体的总字数与所述目标文本包括的总字数的比值；

对于每个所述命名实体序列，根据所述命名实体序列包括的每个命名实体的命名实体类型所对应的权重值以及所述比值，获取所述命名实体序列的准确性分值；

根据每个所述命名实体序列的准确性分值，从所述多个命名实体序列中筛选出所述目标命名实体序列。

6.根据权利要求5所述的方法，其特征在于，所述根据所述命名实体序列包括的每个命名实体的命名实体类型所对应的权重值以及所述比值，获取所述命名实体序列的准确性分值，包括：

将所述命名实体序列包括的每个命名实体的命名实体类型所对应的权重值连乘，将连乘结果与所述比值进行相加，得到所述命名实体序列的准确性分值。

7.根据权利要求5所述的方法，其特征在于，所述获取所述命名实体序列包括的每个命名实体的命名实体类型所对应的权重值，包括：

对于所述命名实体序列中的每个命名实体，在所述命名实体序列中获取相邻命名实体，并根据所述命名实体的命名实体类型以及所述相邻命名实体的命名实体类型获取所述命名实体的命名实体类型所对应的权重值，其中，所述相邻命名实体在所述命名实体序列中与所述命名实体相邻。

8.根据权利要求5所述的方法，其特征在于，所述根据每个所述命名实体序列的准确性分值，从所述多个命名实体序列中筛选出所述目标命名实体序列，包括：

从所述多个命名实体序列中筛选出准确性分值满足预设条件的命名实体序列，并将准确性分值满足所述预设条件的命名实体序列确定为所述目标命名实体序列。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

当准确性分值满足所述预设条件的命名实体序列的个数为至少两个时，根据命名实体粒度从至少两个准确性分值满足所述预设条件的命名实体序列中筛选出所述目标命名实体序列，所述命名实体粒度为命名实体所包括的字数。

10.根据权利要求9所述的方法，其特征在于，所述根据命名实体粒度从至少两个准确性分值满足所述预设条件的命名实体序列中筛选出所述目标命名实体序列，包括：

将至少两个准确性分值满足所述预设条件的命名实体序列中命名实体粒度较大的命名实体序列确定为所述目标命名实体序列。

11.根据权利要求8所述的方法，其特征在于，所述方法还包括：

当准确性分值满足所述预设条件的命名实体序列的个数为至少两个时，对至少两个准确性分值满足所述预设条件的命名实体序列分别进行句法分析，并根据句法分析结果从至少两个准确性分值满足所述预设条件的命名实体序列中筛选出所述目标命名实体序列。

12.一种命名实体消歧装置，其特征在于，所述装置包括：

识别模块，用于对目标文本进行命名实体识别处理，得到所述目标文本对应的命名实体集合，所述命名实体集合包括多个命名实体；

生成模块，用于基于所述命名实体集合所包括的命名实体生成多个命名实体序列，其中，每个所述命名实体序列中命名实体的排序与命名实体在所述目标文本中的位置前后正相关，且，每个所述命名实体序列包括的各个命名实体在所述目标文本中互不重叠；

筛选模块，用于根据每个所述命名实体序列的特征信息从所述多个命名实体序列中筛选出目标命名实体序列，并将所述目标命名实体序列所包括的命名实体作为对所述目标文本进行命名实体识别处理的最终结果，其中，各所述命名实体序列的特征信息包括各所述命名实体序列包括的每个命名实体的命名实体类型以及各所述命名实体序列包括的命名实体的总字数。

13.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至11任一所述的命名实体消歧方法方法。

14.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至11任一所述的命名实体消歧方法方法。