CN112256885A

CN112256885A - 一种标签消歧方法、装置、设备和计算机可读存储介质

Info

Publication number: CN112256885A
Application number: CN202011148559.0A
Authority: CN
Inventors: 陈扬; 陆惠国; 顾文斌; 陆争辉; 祝志伟
Original assignee: Shanghai Hengsheng Juyuan Data Service Co ltd
Current assignee: Shanghai Hengsheng Juyuan Data Service Co ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-01-22
Anticipated expiration: 2040-10-23
Also published as: CN112256885B

Abstract

本申请公开了一种标签消歧方法、装置、设备和计算机可读存储介质，从预先构建的知识图谱中获取与歧义标签对应的子图。在指示词与歧义标签在资讯中的位置关系，与在样本资讯中的位置关系一致的情况下，利用指示词与歧义标签的语义相似度、以及指示词与资讯的关联度，计算指示词的语义维度权重。利用语义维度权重和边权重属性，计算各个子图的权重。比较各个子图的权重，选出目标子图。将目标子图中所包含的目标类别，作为歧义标签所属的类别。本申请参考了指示词与歧义词的关联度、指示词与歧义词的语义相似度、指示词与资讯的关联度、以及类别与指示词的关联度，能够从多方面来解析歧义标签所指示的实体，使得歧义判断结果具有可靠性。

Description

一种标签消歧方法、装置、设备和计算机可读存储介质

技术领域

本申请涉及资讯处理技术领域，尤其涉及一种标签消歧方法、装置、设备和计算机可读存储介质。

背景技术

资讯的标签是能够表达资讯中心内容的关键词，常用于标引资讯内容特征、信息检索和系统汇集。标签所属类别判断的正确性，关乎资讯推荐系统的性能和用户体验。例如，“县长在多家电商平台为苹果直播带货，这大大带动了家乡土特产的销售”，这篇资讯提取出资讯标签“苹果”，到底是指iPhone手机，还是指水果，假如无法判断资讯标签的类别，或者判断错了资讯标签的类别，把这篇原本关于水果的资讯推送给了关注于手机行业的用户，又或者在资讯的底部标签栏，用户点击标签了解详细信息，明明该资讯中的内容指的是水果，标签中却出现了iPhone手机等，从而降低资讯推荐系统的定位推荐资讯的精准度，影响用户体验。为此，需要对资讯中存在歧义的标签进行消歧，即对歧义标签所属的类别进行判别。

现有技术中，歧义标签所属类别的判断，绝大多数采用的判断方式为，利用相似度模型、或者分类模型对歧义标签所属类别进行判断。但是，在实际应用中，采用模型对歧义标签所属类别的判断结果可靠性较低。

发明内容

申请人发现：采用模型对歧义标签所属类别进行判断，其判断依据多为训练样本(即歧义词、以及类别等)。然而，在实际中，歧义词所属实体，还会受上下文的语境、以及指示词和歧义词之间的关联程度等各方面语义内容的影响。可见，若能将上下文的语境、以及指示词和歧义词之间的关联程度等各方面语义内容，作为歧义标签所属类别的判断依据，其判断结果会更令人信服，可靠性也会更高。

因此，本申请提供了一种标签消歧方法、装置、设备和计算机可读存储介质，目的在于提供一种行之有效的标签消歧方法，对资讯中存在歧义的标签的所属类别做出可靠判断。

为了实现上述目的，本申请提供了以下技术方案：

一种标签消歧方法，包括：

从预先构建的知识图谱中获取与歧义标签对应的子图；其中，所述子图与类别一一对应；与目标类别对应的所述子图用于指代，指示词与所述歧义标签在样本资讯中的位置关系、以及边权重属性与所述指示词的对应关系；所述边权重属性用于指代，所述指示词与所述目标类别的关联度；所述目标类别为任意一个所述类别；

在所述指示词与所述歧义标签在资讯中的位置关系，与在所述样本资讯中的位置关系一致的情况下，利用所述指示词与所述歧义标签的语义相似度、以及所述指示词与所述资讯的关联度，计算所述指示词的语义维度权重；其中，所述语义维度权重用于指代，所述指示词与所述歧义标签的关联度；

利用所述语义维度权重和所述边权重属性，计算各个所述子图的权重；

比较各个所述子图的所述权重，选出目标子图；其中，所述目标子图的所述权重，高于其他所述子图的所述权重；

将所述目标子图中所包含的所述目标类别，作为所述歧义标签所属的类别。

可选的，所述从预先构建的知识图谱中获取与歧义标签对应的子图之前，还包括：

将所述知识图谱中的所有歧义词存储至缓存中；

从所述资讯中提取关键词作为标签；

判断所述标签是否与所述缓存中预存的所述歧义词相同；

若所述标签与所述缓存中预存的所述歧义词相同，确定所述标签为所述歧义标签；

若所述标签与所述缓存中预存的所述歧义词不相同，确定所述标签不存在歧义，将所述标签发送给用户端。

可选的，所述位置关系包括：

所述指示词与所述歧义标签在所述样本资讯的全文范围内都有出现；

或者，所述指示词与所述歧义标签处于所述样本资讯的同一段落内；

或者，所述指示词与所述歧义标签处于所述样本资讯的同一句子内；

或者，所述指示词与所述歧义标签在所述样本资讯中相隔预设数量字符。

可选的，所述在所述指示词与所述歧义标签在所述资讯中的位置关系，与在所述样本资讯中的所述位置关系一致的情况下，利用所述指示词与所述歧义标签的语义相似度、以及所述指示词与所述资讯的关联度，计算所述指示词的语义维度权重，包括：

判断所述指示词与所述歧义标签在所述资讯中的位置关系，是否与所述指示词与所述歧义标签在所述样本资讯中的位置关系一致；

若所述指示词与所述歧义标签在所述资讯中的位置关系，与所述指示词与所述歧义标签在所述样本资讯中的位置关系一致，计算所述指示词与所述歧义标签的语义相似度、以及所述指示词与所述资讯的关联度；

计算所述语义相似度与所述指示词与所述资讯的关联度的乘积，得到所述指示词的语义维度权重；

若所述指示词与所述歧义标签在所述资讯中的位置关系，与所述指示词与所述歧义标签在所述样本资讯中的位置关系不一致，从所述子图中删除所述指示词。

可选的，所述计算所述指示词与所述歧义标签的语义相似度、以及所述指示词与所述资讯的关联度，包括：

利用bert模型，计算所述指示词与所述歧义标签的语义相似度；

利用BM25算法，计算所述指示词与所述资讯的关联度。

可选的，所述比较各个所述子图的所述权重，选出目标子图，包括：

将所述权重最高的所述子图，作为候选目标子图；

若所述候选目标子图的数量为一个，则将所述候选目标子图作为目标子图。

可选的，还包括：

若所述候选目标子图的数量不为一个，则将所述歧义标签存储至预设的稽核数据库中，并向用户发送消歧失败提示，触发人工对所述歧义标签进行消歧。

一种标签消歧装置，包括：

获取单元，用于从预先构建的知识图谱中获取与歧义标签对应的子图；其中，所述子图与类别一一对应；与目标类别对应的所述子图用于指代，指示词与所述歧义标签在样本资讯中的位置关系、以及边权重属性与所述指示词的对应关系；所述边权重属性用于指代，所述指示词与所述目标类别的关联度；所述目标类别为任意一个所述类别；

第一计算单元，用于在所述指示词与所述歧义标签在资讯中的位置关系，与在所述样本资讯中的位置关系一致的情况下，利用所述指示词与所述歧义标签的语义相似度、以及所述指示词与所述资讯的关联度，计算所述指示词的语义维度权重；其中，所述语义维度权重用于指代，所述指示词与所述歧义标签的关联度；

第二计算单元，用于利用所述语义维度权重和所述边权重属性，计算各个所述子图的权重；

比较单元，用于比较各个所述子图的所述权重，选出目标子图；其中，所述目标子图的所述权重，高于其他所述子图的所述权重；

消歧单元，用于将所述目标子图中所包含的所述目标类别，作为所述歧义标签所属的类别。

一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行所述的标签消歧方法。

一种标签消歧设备，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行所述的标签消歧方法。

本申请提供的技术方案，从预先构建的知识图谱中获取与歧义标签对应的子图，子图与类别一一对应，与目标类别对应的子图用于指代，指示词与歧义标签在样本资讯中的位置关系、以及边权重属性与指示词的对应关系，边权重属性用于指代，指示词与目标类别的关联度，目标类别为任意一个类别。在指示词与歧义标签在资讯中的位置关系，与在样本资讯中的位置关系一致的情况下，利用指示词与歧义标签的语义相似度、以及指示词与资讯的关联度，计算指示词的语义维度权重，语义维度权重用于指代，指示词与歧义标签的关联度。利用语义维度权重和边权重属性，计算各个子图的权重。比较各个子图的权重，选出目标子图，目标子图的权重，高于其他子图的权重。将目标子图中所包含的目标类别，作为歧义标签所属的类别。可见，本申请在对歧义标签所属类别的判断过程中，参考了指示词与歧义词的关联度、指示词与歧义词的语义相似度、指示词与资讯的关联度、以及类别与指示词的关联度，能够从多方面来解析歧义标签所指示的实体，具有较高的说服力，使得歧义标签所属类别的判断结果具有可靠性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种标签消歧方法的示意图；

图2a为本申请实施例提供的一种知识图谱的示意图；

图2b为本申请实施例提供的一种子图的示意图；

图2c为本申请实施例提供的另一种子图的示意图；

图3为本申请实施例提供的另一种标签消歧方法的示意图；

图4为本申请实施例提供的一种标签消歧装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，为本申请实施例提供的一种标签消歧方法的示意图，包括如下步骤：

S101：利用预设的语料知识库，预先构建知识图谱。

通常，知识图谱由节点和边组成。

本实施例中，歧义词、指示词、歧义词所属的类别和指示词所属的类别，构成知识图谱中的节点，歧义词所属的类别与歧义词之间的连线，以及指示词所属的类别与指示词之间的连线，构成知识图谱中的边。

其中，语料知识库包括多篇样本资讯，歧义词为在一篇样本资讯上下文中可以指称不同实体的词语(即存在歧义的词语)，例如，样本资讯中“小王参加小米的官方活动，抽中安慰奖”，“小米”在文中理应指示的是手机，但是单纯从“小米”的词义上来看，可能会被理解为食物，故确定“小米”为歧义词。

指示词为在一篇样本资讯中与歧义词具有语义关联的词语，例如，样本资讯中“目前市场上有黑小米、绿小米、黄小米和白小米等不同颜色的非黏性品种，其中白小米最好消化，颜色越深的品种，越不适合胃酸少的朋友”，歧义词为“小米”，则“黑小米”、“绿小米”、“黄小米”和“白小米”都是用于修饰“小米”的种类，故作为“小米”的指示词。

歧义词所属的类别为在一篇样本资讯中歧义词在上下文语境下所指示的实体，例如，样本资讯中“小王参加小米手机的官方活动，抽中安慰奖”，联系资讯上下文语境可知，歧义词“小米”指示的实体为手机，而不是食物。所以歧义词所属的类别为手机。

指示词所属的类别为在一篇样本资讯中指示词在上下文语境下所指示的实体，例如，样本资讯中“目前市场上有黑小米、绿小米、黄小米和白小米等不同颜色的非黏性品种，其中白小米最好消化，颜色越深的品种，越不适合胃酸少的朋友”，联系资讯上下文语境可知，指示词“黑小米”指示的实体为食物。

需要说明的是，利用预设的语料知识库，构建知识图谱的具体实现过程为本领域技术人员所熟悉的公知常识，具体的，语料知识库包括但不限于为Neo4j图形数据库等知识库，此外，知识图谱中各个节点与边的连接关系，如图2a所示。

需要强调的是，在知识图谱中，歧义词设置有名称属性，名称属性用于指代歧义词，名称属性的具体数值可由技术人员根据实际情况进行设置，例如，“小米”的名称属性为001。

指示词设置有名称属性和位置(position)属性，名称属性用于指代指示词，名称属性的具体数值可由技术人员根据实际情况进行设置，例如，“黑小米”的名称属性为101、以及“白小米”的名称属性为102等。

位置属性用于指代指示词与歧义词在一篇样本资讯中的位置关系，在本实施例中，位置属性的具体数值不仅可以依据语料知识库中的样本资讯进行设置，还可以由技术人员根据实际情况进行设置。

在本实施例中，指示词与歧义词在一篇样本资讯中的位置关系包括但不限于：指示词与歧义词在一篇样本资讯的全文范围内都有出现、指示词与歧义词处于一篇样本资讯的同一段落内、指示词与歧义词处于一篇样本资讯的同一句子内、以及指示词与歧义词在一篇样本资讯中相隔预设数量字符。

需要说明的是，在实际应用中，位置关系描述的越详细，则越能体现指示词与歧义词在一篇样本资讯中的关联程度，明显的，指示词与歧义词在一篇样本资讯中相隔预设数量字符所体现的关联程度，是上述多种位置关系中效果最好的，其次为，指示词与歧义词处于一篇样本资讯的同一句子内，接着为，指示词与歧义词处于一篇样本资讯的同一段落内，最后为，指示词与歧义词在一篇样本资讯的全文范围内都有出现。

具体的，依据位置关系体现指示词和歧义词在一篇样本资讯的关联程度的优先级，为指示词的位置属性设置取值，具体过程为：从包含有歧义词的样本资讯中提取指示词，并识别指示词和歧义词之间相隔的字符数量n，若n的取值不大于预设阈值，则将指示词作为知识图谱的节点，指示词的位置属性设为n。若n的取值大于预设阈值，则识别样本资讯中各个分句字符，依据各个分句字符，确定包含有歧义词的句子，将其标识为目标句子，并判断目标句子中是否包含指示词。若目标句子中包含有指示词，则将指示词作为知识图谱的节点，指示词的位置属性设为-1。若目标句子中不包含有指示词，则识别样本资讯中各个分段字符，依据各个分段字符，确定包含有歧义词的段落，将其标识为目标段落，并判断目标段落中是否包含指示词。若目标段落中包含有指示词，则将指示词作为知识图谱的节点，指示词的位置属性设为-2。若目标段落中不包含有指示词，则将指示词作为知识图谱的节点，并将指示词节点的位置属性设为0。

需要说明的是，上述具体实现过程仅仅用于举例说明。

类别设置有名称属性和id属性，名称属性用于指代类别，名称属性的具体数值可根据实际情况进行设置，例如，“食物”的名称属性为200。id属性用于指代可被计算机识别的机器代码，id属性的具体数值可根据实际情况进行设置，例如，“食物”的id属性为0100。

知识图谱中的边都预先设置有边权重属性，在本实施例中，歧义词所属的类别与歧义词之间的连线的边权重属性，用于指代歧义词与类别的关联程度。指示词所属的类别与指示词之间的连线的边权重属性，用于指代指示词与类别的关联程度。具体的，边权重属性的取值可根据实际情况进行设置，例如，将边权重属性设置为1。

S102：将知识图谱中的所有歧义词存储至缓存中。

S103：从资讯中提取关键词作为标签，并判断标签是否与缓存中预存的歧义词相同。

若标签与缓存中预存的歧义词相同，则执行S104，否则执行S105。

需要说明的是，从资讯中提取关键词作为标签的具体实现过程，为本领域技术人员所熟悉的公知常识，这里不再赘述。

S104：确定标签为歧义标签，并从知识图谱中获取与歧义标签对应的子图。

在S104执行结束之后，继续执行S106。

子图与知识图谱相同，也都是由节点和边组成。

在本实施中，目标歧义词、目标指示词和目标类别，构成子图中的节点。目标类别与目标歧义词之间的连线、以及目标类别与目标指示词之间的连线，构成子图中的边。

其中，目标歧义词为，歧义标签所指示的歧义词。

目标类别为，与目标歧义词具有边的各个类别中的任意一个。

目标指示词为，与目标类别具有边的指示词。

需要说明的是，每个子图中所包含的目标类别是互不相同的，并且，每个子图中所包含的目标指示词的数量至少为一个。

从知识图谱中获取与歧义标签对应的多个子图的具体实现过程包括：将歧义标签所指示的歧义词作为目标歧义词，以目标歧义词为索引，在知识图谱中，查询与目标歧义词具有边的类别，作为目标类别，并以目标类别为索引，查询与目标类别具有边的指示词，作为目标指示词。

需要说明的是，由于知识图谱中节点和边的数量较多，在查询与目标歧义词具有边的类别、以及查询与目标类别具有边的指示词的过程中，若是查询范围涵盖知识图谱所有的节点和边，不仅会消耗大量时间，还会查询到部分无用的节点，从而影响知识图谱的查询效率。因此，在查询知识图谱的过程中，可以预先设置知识图谱的查询深度，控制整个查询范围，从而保证知识图谱的查询效率。

具体的，假设资讯的全文为“有些小米比较粗散，有的比较黏糯，甚至还有黏性小米，也称为小黄米。东北的黏米饭、黏豆包等小吃，就是用黏小米做的。对胃酸偏少的朋友来说，选择口感软糯一些的为好。对胃酸多的人来说，不要选择黏小米。目前市场上有黑小米、绿小米、黄小米和白小米等不同颜色的非黏性品种，其中白小米最好消化，颜色越深的品种，越不适合胃酸少的朋友”，目标歧义词为“小米”，知识图谱的查询深度设为2。以“小米”为索引，在知识图谱中，查询与“小米”具有边的类别，包括“食物”和“公司”。以“食物”为索引，查询与“食物”具有边的指示词，包括“养胃”、“黑小米”、“绿小米”、“白小米”、“黄小米”、“粗粮”、“煮粥”、“熬粥”、“味道”、“早餐”、“营养”和“养生”，可见，从知识图谱中获取的子图如图2b所示。以“公司”为索引，查询与“公司”具有边的指示词，包括“华为”、“苹果”、“OPPO”和“VIVO”，可见，从知识图谱中获取的子图如图2c所示。

需要说明的是，上述具体实现过程仅仅用于举例说明。

S105：确定标签不存在歧义，并将标签发送给用户端。

其中，由于标签不存在歧义，因此，也就不需要从知识图谱中获取子图，避免无用的知识图谱查询操作，能够有效提高资讯推荐系统的工作效率。

S106：判断目标指示词与目标歧义词在资讯中的位置关系，是否与目标位置关系一致。

若目标指示词与目标歧义词在资讯中的位置关系，与目标位置关系一致，则执行S107，否则执行S108。

其中，目标位置关系为，目标指示词的位置属性所指示的位置关系。

具体的，

假设目标指示词的位置属性为0，即目标位置关系代表指示词与歧义词在一篇样本资讯的全文范围内都有出现。若检测到目标指示词和目标歧义词在资讯的全文范围中都有出现，则确定目标指示词与目标歧义词在资讯中的位置关系，与目标位置关系一致。

假设目标指示词的位置属性为-1，即目标位置关系代表指示词与歧义词处于一篇样本资讯的同一句子内。若检测到目标指示词与目标歧义词，在资讯中处于同一句子内，则确定目标指示词与目标歧义词在资讯中的位置关系，与目标位置关系一致。

假设目标指示词的位置属性为-2，即目标位置关系代表指示词与歧义词处于一篇样本资讯的同一段落内。若检测到目标指示词与目标歧义词，在资讯中处于同一段落内，则确定目标指示词与目标歧义词在资讯中的位置关系，与目标位置关系一致。

假设目标指示词的位置属性为n(n为正整数)，即目标位置关系代表指示词与歧义词在一篇样本资讯中相隔n个字符。若检测到目标指示词与目标歧义词，在资讯中相隔字符的数量不大于n，则确定目标指示词与目标歧义词在资讯中的位置关系，与目标位置关系一致。

需要说明的是，检测目标指示词与目标歧义词在资讯中的位置关系的具体实现方式，包括但不限于采用语义识别技术等现有手段。

S107：计算目标指示词的语义维度权重。

在S107执行结束之后，继续执行S109。

其中，语义维度权重的计算过程如公式(1)所示：

在公式(1)中，

W(similar_i)代表目标指示词的语义维度权重，语义维度权重用于指代目标指示词与歧义词的关联度。

i代表目标指示词的索引。

Similar(i)代表目标指示词与目标歧义词的语义相似度，在本实施例中，可以利用bert模型，计算得到目标指示词与目标歧义词的语义相似度。

代表一种评估目标指示词与资讯之间相关性的算法，即现有的BM25算法。

IDF(i)代表逆文档频率(BM25算法中的参数项，其大小与目标指示词的词频成反比)，IDF(i)的计算过程如下述公式(2)所示：

在公式(2)中，|D|代表预设语料知识库中的样本资讯总数，|1+d_i|代表预设语料知识库中包含有目标指示词的样本资讯的数目(为了避免预设语料知识库中不存在目标指示词而导致分母为0，故在原有计算基础上增加一个单位数量)。

F_i代表目标指示词的词频(即表示目标指示词在一篇样本资讯中出现的次数)。

k₁代表预设的常数项(用于控制词频在词频饱和度中的上升速度，该取值越小则词频饱和度变化越快，其默认取值可以设置为1.2)。

b代表预设的常数项(用于控制字段的归一化，具体的，0.0代表所有字段禁止归一化，1.0代表所有字段进行归一化，0.75代表部分字段进行归一化，其默认取值可以设置为0.75)。

dl代表资讯的字段长度。

avgdl代表预设语料知识库中所有样本资讯的平均字段长度。

S108：从子图中删除目标指示词。

其中，由于目标指示词与目标歧义词在资讯中的位置关系，与目标位置关系不一致，因此，确定目标指示词与目标歧义词的关联程度不大，可以视为无效的目标指示词，将无效的目标指示词从子图中过滤删除，避免将毫无关联的目标指示词纳入歧义判断的参考依据中，确保歧义判断的可靠性。

S109：计算子图的权重。

其中，子图的权重的具体计算过程如公式(3)所示：

在公式(3)中，

W代表子图的权重。

n代表子图中所包含目标指示词的数量。

α代表预设的权重因子，β代表预设的权重因子，并且，α+β的和为1。

W(edge_i)代表目标类别与目标指示词之间的连线的边权重属性。

S110：将各个子图中，权重最大的子图，作为候选目标子图。

S111：判断候选目标子图的数量是否为一个。

若候选目标子图的数量为一个，则执行S112，否则执行S113。

S112：确定候选目标子图作为目标子图，并将目标子图中所包含的目标类别，作为歧义标签所属的类别。

其中，经由上述公式(1)、(2)和(3)可推导出：将目标子图中所包含的目标类别，作为歧义标签所属的类别，其判断依据包括目标指示词与目标歧义词的语义相似度、目标指示词与资讯的关联度、以及目标指示词与目标类别的关联程度，相较于现有技术，本实施例依据与目标歧义词相关的多方面内容作为判断依据，对歧义标签所属的类别进行判断，判断结果可靠性高，更具有说服力。

S113：将歧义标签存储至预设的稽核数据库中，并向用户(即技术人员)发送消歧失败提示，触发人工对歧义标签进行消歧。

其中，造成候选目标子图的数量不为一个的原因，除了多个子图的权重相同之外，还可能是各个子图中所包含的目标指示词的数量为零(即子图中不包含目标指示词)等其他因素，为了避免这种情况再次发生，故将歧义标签存储至预设的稽核数据库中，由人工对歧义标签进行消歧。并且，在后续对知识图谱进行维护升级过程中，以稽核数据库中预存的歧义标签作为参考样本，对知识图谱进行维护和内容补充，使得知识图谱中的内容更加丰富完善，提高知识图谱的内容质量和查询效果。

综上所述，从预先构建的知识图谱中获取与歧义标签对应的子图，子图与类别一一对应，与目标类别对应的子图用于指代，指示词与歧义标签在样本资讯中的位置关系、以及边权重属性与指示词的对应关系，边权重属性用于指代，指示词与目标类别的关联度，目标类别为任意一个类别。在指示词与歧义标签在资讯中的位置关系，与在样本资讯中的位置关系一致的情况下，利用指示词与歧义标签的语义相似度、以及指示词与资讯的关联度，计算指示词的语义维度权重，语义维度权重用于指代，指示词与歧义标签的关联度。利用语义维度权重和边权重属性，计算各个子图的权重。比较各个子图的权重，选出目标子图，目标子图的权重，高于其他子图的权重。将目标子图中所包含的目标类别，作为歧义标签所属的类别。可见，本实施例在对歧义标签所属类别的判断过程中，参考了指示词与歧义词的关联度、指示词与歧义词的语义相似度、指示词与资讯的关联度、以及类别与指示词的关联度，能够从多方面来解析歧义标签所指示的实体，具有较高的说服力，使得歧义标签所属类别的判断结果具有可靠性。

需要说明的是，上述实施例中提及的S101，利用预设的语料知识库，预先构建知识图谱的过程，是本申请执行标签消歧过程中的一种可选的实现方式，还可以利用其他手段来实现。此外，上述实施例中提及的S102-S103，将知识图谱中的所有歧义词存储至缓存中，从资讯中提取关键词作为标签，并判断标签是否与缓存中预存的歧义词相同的过程，也都是本申请执行标签消歧过程中的一种可选的实现方式，还可以利用其他手段来实现。当然，上述实施例中还存在其他步骤，也是本申请执行标签消歧过程中可选的实现方式。为此，上实施例提及的步骤可以概括为图3所示的流程。

如图3所示，为本申请实施例提供的另一种标签消歧方法的示意图，包括如下步骤：

S301：从预先构建的知识图谱中获取与歧义标签对应的子图。

其中，子图与类别一一对应，与目标类别对应的子图用于指代，指示词与歧义标签在样本资讯中的位置关系、以及边权重属性与指示词的对应关系。边权重属性用于指代，指示词与目标类别的关联度。目标类别为任意一个类别。

S302：在指示词与歧义标签在资讯中的位置关系，与在样本资讯中的位置关系一致的情况下，利用指示词与歧义标签的语义相似度、以及指示词与资讯的关联度，计算指示词的语义维度权重。

其中，语义维度权重用于指代，指示词与歧义标签的关联度。

其中，利用指示词与歧义标签的语义相似度、以及指示词与资讯的关联度，计算指示词的语义维度权重的具体执行过程和实现原理，与上述S107的具体执行过程和实现原理一致，这里不再赘述。

S303：利用语义维度权重和边权重属性，计算各个子图的权重。

其中，S303的具体执行过程和实现原理，与上述S109的具体执行过程和实现原理一致，这里不再赘述。

S304：比较各个子图的权重，选出目标子图。

其中，目标子图的权重，高于其他子图的权重。

S305：将目标子图中所包含的目标类别，作为歧义标签所属的类别。

与上述本申请实施例提供的标签消歧方法相对应，本申请还提供了一种标签消歧装置。

如图4所示，为本申请实施例提供的一种标签消歧装置的结构示意图，包括：

缓存单元100，用于将预先构建的知识图谱中的所有歧义词存储至缓存中。

提取单元200，用于从资讯中提取关键词作为标签。

判断单元300，用于判断标签是否与缓存中预存的歧义词相同。

第一确定单元400，用于若标签与缓存中预存的歧义词相同，确定标签为歧义标签。

第二确定单元500，用于若标签与缓存中预存的歧义词不相同，确定标签不存在歧义，将标签发送给用户端。

获取单元600，用于从预先构建的知识图谱中获取与歧义标签对应的子图。其中，子图与类别一一对应。与目标类别对应的子图用于指代，指示词与歧义标签在样本资讯中的位置关系、以及边权重属性与指示词的对应关系。边权重属性用于指代，指示词与目标类别的关联度。目标类别为任意一个类别。

其中，指示词与歧义标签在样本资讯中的位置关系，包括：指示词与歧义标签在样本资讯的全文范围内都有出现，或者，指示词与歧义标签处于样本资讯的同一段落内，或者，指示词与歧义标签处于样本资讯的同一句子内，或者，指示词与歧义标签在样本资讯中相隔预设数量字符。

第一计算单元700，用于在指示词与歧义标签在资讯中的位置关系，与在样本资讯中的位置关系一致的情况下，利用指示词与歧义标签的语义相似度、以及指示词与资讯的关联度，计算指示词的语义维度权重。其中，语义维度权重用于指代，指示词与歧义标签的关联度。

其中，第一计算单元700具体用于：判断指示词与歧义标签在资讯中的位置关系，是否与指示词与歧义标签在样本资讯中的位置关系一致，若指示词与歧义标签在资讯中的位置关系，与指示词与歧义标签在样本资讯中的位置关系一致，计算指示词与歧义标签的语义相似度、以及指示词与资讯的关联度，计算语义相似度与指示词与资讯的关联度的乘积，得到指示词的语义维度权重，若指示词与歧义标签在资讯中的位置关系，与指示词与歧义标签在样本资讯中的位置关系不一致，从子图中删除指示词。

第一计算单元700用于，计算指示词与歧义标签的语义相似度、以及指示词与资讯的关联度的具体实现过程包括：利用bert模型，计算指示词与歧义标签的语义相似度，利用BM25算法，计算指示词与资讯的关联度。

第二计算单元800，用于利用语义维度权重和边权重属性，计算各个子图的权重。

比较单元900，用于比较各个子图的权重，选出目标子图。其中，目标子图的权重，高于其他子图的权重。

其中，比较单元900具体用于：将权重最高的子图，作为候选目标子图，若候选目标子图的数量为一个，则将候选目标子图作为目标子图。

此外，比较单元900还用于：若候选目标子图的数量不为一个，则将歧义标签存储至预设的稽核数据库中，并向用户发送消歧失败提示，触发人工对歧义标签进行消歧。

消歧单元1000，用于将目标子图中所包含的目标类别，作为歧义标签所属的类别。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，程序执行上述本申请提供的标签消歧方法。

本申请还提供了一种标签消歧设备，包括：处理器、存储器和总线。处理器与存储器通过总线连接，存储器用于存储程序，处理器用于运行程序，其中，程序运行时执行上述本申请提供的标签消歧方法，包括如下步骤：

将所述知识图谱中的所有歧义词存储至缓存中；

从所述资讯中提取关键词作为标签；

判断所述标签是否与所述缓存中预存的所述歧义词相同；

可选的，所述与目标类别对应的所述子图用于指代指示词与所述歧义标签在样本资讯中的位置关系，所述位置关系包括：

利用BM25算法，计算所述指示词与所述资讯的关联度。

将所述权重最高的所述子图，作为候选目标子图；

可选的，还包括：

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种标签消歧方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述从预先构建的知识图谱中获取与歧义标签对应的子图之前，还包括：

将所述知识图谱中的所有歧义词存储至缓存中；

从所述资讯中提取关键词作为标签；

判断所述标签是否与所述缓存中预存的所述歧义词相同；

3.根据权利要求1所述的方法，其特征在于，所述位置关系包括：

4.根据权利要求1所述的方法，其特征在于，所述在所述指示词与所述歧义标签在所述资讯中的位置关系，与在所述样本资讯中的所述位置关系一致的情况下，利用所述指示词与所述歧义标签的语义相似度、以及所述指示词与所述资讯的关联度，计算所述指示词的语义维度权重，包括：

5.根据权利要求4所述的方法，其特征在于，所述计算所述指示词与所述歧义标签的语义相似度、以及所述指示词与所述资讯的关联度，包括：

利用BM25算法，计算所述指示词与所述资讯的关联度。

6.根据权利要求1所述的方法，其特征在于，所述比较各个所述子图的所述权重，选出目标子图，包括：

将所述权重最高的所述子图，作为候选目标子图；

7.根据权利要求6所述的方法，其特征在于，还包括：

8.一种标签消歧装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，所述程序执行权利要求1-7所述的标签消歧方法。

10.一种标签消歧设备，其特征在于，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1-7所述的标签消歧方法。