CN111046190B - 一种基于语义图谱的大数据标签冲突检测方法、系统、存储介质及计算机设备 - Google Patents

一种基于语义图谱的大数据标签冲突检测方法、系统、存储介质及计算机设备 Download PDF

Info

Publication number
CN111046190B
CN111046190B CN201911189673.5A CN201911189673A CN111046190B CN 111046190 B CN111046190 B CN 111046190B CN 201911189673 A CN201911189673 A CN 201911189673A CN 111046190 B CN111046190 B CN 111046190B
Authority
CN
China
Prior art keywords
label
tag
conflict
updated
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911189673.5A
Other languages
English (en)
Other versions
CN111046190A (zh
Inventor
姜磊
朱振航
何树源
严海龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brilliant Data Analytics Inc
Original Assignee
Brilliant Data Analytics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brilliant Data Analytics Inc filed Critical Brilliant Data Analytics Inc
Priority to CN201911189673.5A priority Critical patent/CN111046190B/zh
Publication of CN111046190A publication Critical patent/CN111046190A/zh
Application granted granted Critical
Publication of CN111046190B publication Critical patent/CN111046190B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于大数据标签技术领域,为基于语义图谱的大数据标签冲突检测方法、系统、存储介质及计算机设备,其方法包括:构建包括同义词、反义词类型的语义图谱;配置相应的标签冲突处理策略;基于语义图谱对当前系统内存在的标签集合进行遍历,将所有标签对应的互斥标签与重叠标签进行查找,得到标签冲突规则集合;根据标签冲突规则集合对标签冲突结果进行检测,得到标签冲突结果数据集;根据标签冲突处理策略对标签冲突结果数据集进行标签冲突处理,完成标签更新。本发明通过构建语义图谱,配置标签冲突处理策略,生成标签冲突规则集合,在标签更新时自动进行标签冲突的检测与处理,保证标签结果的准确性。

Description

一种基于语义图谱的大数据标签冲突检测方法、系统、存储介 质及计算机设备
技术领域
本发明属于大数据标签技术领域,具体为基于语义图谱的大数据标签冲突检测方法、系统、存储介质及计算机设备。
背景技术
在大数据时代到来后,标签已经广泛用在企业精准营销、优质服务、精益管理等场景,已经成为支撑企业数字化转型的必要手段。但随着企业内部标签应用的推广、标签体系的丰富,因为标签规则错误、标签管理不规范、数据异常等问题,导致标签体系的一致性将面临挑战,同一业务对象画像上容易出现标签重叠与冲突等情况,标签的准确性与应用效果得不到有效保障。
当前,在标签冲突检测领域,冲突检测主要通过人工配置冲突规则进行检测与处理,人工配置冲突规则的方法不但耗费人力,还容易发生遗漏,影响了标签冲突检测的准确性与实时性,导致企业标签应用在一段时间后,使用效果不断下降。
发明内容
本发明为了解决上述现有技术所存在的问题,创新性地提出基于语义图谱的大数据标签冲突检测方法、系统、存储介质及计算机设备,通过构建语义图谱,配置标签冲突处理策略,生成标签冲突规则集合,在标签更新时自动进行标签冲突的检测与处理,保证标签结果的准确性,实现了自动化的大数据标签冲突检测,解决了现有技术中缺乏能够通过语义自动检测与处理目标对象标签冲突的技术问题。
根据本发明的基于语义图谱的大数据标签冲突检测方法,包括以下步骤:
S1、构建包括同义词、反义词类型的语义图谱;所构建的语义图谱由实体与关联关系组成,其中关联关系包括同义与反义两种关系,实体为相应的词语;
S2、配置相应的标签冲突处理策略;
S3、基于语义图谱,对当前系统内存在的标签集合进行遍历,将所有标签对应的互斥标签与重叠标签进行查找,得到标签冲突规则集合;
标签冲突规则集合包括冲突类型、目标标签标识、冲突标签标识字段,其中冲突类型包括标签重叠与标签互斥;
S4、在标签更新前,根据标签冲突规则集合,对标签冲突结果进行检测,得到标签冲突结果数据集;
S5、根据步骤S2配置的标签冲突处理策略,对标签冲突结果数据集进行标签冲突处理,完成标签更新。
根据本发明的基于语义图谱的大数据标签冲突检测系统,包括:
语义图谱模块,用于构建包括同义词、反义词类型的语义图谱,维护与存储语义图谱内容,以支撑标签冲突规则生成;
标签冲突检测模块,用于生成标签冲突规则集合与进行标签冲突检测,基于语义图谱对当前系统内存在的标签集合进行遍历,将所有标签对应的互斥标签与重叠标签进行查找,得到标签冲突规则集合;根据标签冲突规则集合,对标签冲突结果进行检测,得到标签冲突结果数据集;
标签冲突处理模块,用于配置相应的标签冲突处理策略,并根据配置的标签冲突处理策略对标签冲突结果数据集进行处理,得到标签冲突的处理结果;
标签库管理模块,用于根据标签冲突处理模块的标签冲突处理结果,进行标签属性信息维护、标签更新、标签存储、标签应用,提供基础的标签管理与应用能力;
所述标签库管理模块的标签进行更新后,进入标签冲突检测模块,基于语义图谱模块对当前更新标签进行冲突检测,如果检测到存在标签冲突,则进入标签冲突处理模块,对标签冲突进行处理后,再将处理结果存储在标签库管理模块。
本发明的存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时,实现上述大数据标签冲突检测方法的步骤。
本发明的计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器运行所述计算机程序时,实现上述大数据标签冲突检测方法。
与现有技术相比,本发明具有以下的有益效果:
(1)本发明通过梳理语义图谱,配置标签冲突处理策略,实现了基于语义图谱进行自动化的标签冲突检测,能快速有效地对目标对象中存在语义相近或语义对立的标签进行检测,及时发现冲突的标签,解决了现有技术中缺乏能够通过语义自动检测与处理目标对象标签冲突的技术问题。
(2)本发明创新性地提出基于语义图谱实现自动化的标签冲突检测,能基于标签冲突检测结果对冲突标签进行有效处理,支持多种冲突处理策略,能及时对冲突标签进行处理,实现了自动化的大数据标签冲突检测。
附图说明
图1为本发明冲突标签检测与处理的核心流程图;
图2为本发明基于语义图谱的大数据标签冲突检测系统的架构示意图;
图3为本发明实施例中的语义图谱示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
在本发明中,可对目标对象所拥有标签进行检测;目标对象指标签所标识的人或事物,可以是客户、设备、员工、工单、数据等。
如图1所示,本发明基于语义图谱的大数据标签冲突检测方法,包括如下步骤:
S1、构建包括同义词、反义词类型的语义图谱;所构建的语义图谱由实体与关联关系组成,其中关联关系包括同义与反义两种关系,实体为相应的词语。
本实施例中,构建的语义图谱如图3,稳定、平稳、波动、突降、突升等词语为实体,同义、反义为相应的关联关系,实体与实体之间通过关联关系进行连接,其中平稳、波动两个实体之间为反义的关联关系。
语义图谱可分为通用语义内容与行业语义内容。通用语义内容可以基于通用同义词、反义词进行转换梳理得到;行业语义内容按照行业进行划分,通过对该行业的名词术语梳理归纳得到。
S2、可按照实际应用需求,配置相应的标签冲突处理策略。处理策略指定系统应如何处理发生冲突的标签。当大数据标签更新时存在标签冲突,具体的标签冲突处理策略包括:
1)保留已存在的大数据标签。即在大数据标签更新时,发现目标对象已经拥有一个或多个标签与当前更新的标签存在冲突,则放弃本次针对该目标对象的标签更新。
2)保留当前更新的大数据标签。即在大数据标签更新时,发现目标对象已经拥有一个或多个标签与当前更新的标签存在冲突,则移除目标对象已存在与当前更新标签冲突的标签,保留当前更新的标签。
3)仅进行冲突预警提示。即在大数据标签更新时,发现目标对象已经拥有一个或多个标签与当前更新的标签存在冲突,则仅进行冲突预警提示,不进行任何标签处理。
4)移除所有冲突的标签。即在大数据标签更新时,发现目标已经拥有一个或多个标签与当前更新的标签存在冲突,则移除目标对象所有与当前更新的标签存在冲突的标签,并且放弃本次针对该目标对象的标签更新。
本实施例,配置冲突处理策略为“保留当前更新的大数据标签”,即发现标签冲突时保留当前的标签更新,移除已存在的冲突标签。
S3、基于语义图谱,对当前系统内存在的标签集合进行遍历,将所有标签对应的互斥标签与重叠标签进行查找,得到标签冲突规则集合,标签冲突规则集合包括冲突类型、目标标签标识、冲突标签标识等字段,其中冲突类型包括标签重叠与标签互斥。
假设标签管理系统存在名称为“信用平稳”和“信用波动”两个标签,根据语义图谱中定义的“平稳”、“波动”是一组语义为反义的词组,可以得到含有冲突类型为“标签互斥”,目标标签标识为“信用平稳”标签标识、冲突标签标识为“信用波动”标签标识的标签冲突规则集合,具体处理步骤如下:
S301、将当前系统所有标签属性信息放到标签集合G中,标签集合G包括标签标识、标签名称、标签描述。本实施例中,标签集合G包括“信用平稳”和“信用波动”标签。
S302、判断标签集合G是否为空,若是则结束操作,输出标签冲突规则集合;若标签集合G不为空,执行步骤S303。
S303、从标签集合G中获取一个标签X1;本实施例中,获取“信用平稳”标签进行处理,其中标签名称为“信用平稳”,标签标识为T001。
S304、在语义图谱中查找实体名称存在于标签X1名称的实体名称集合SetA,其中实体名称集合SetA存储的为相应实体名称。
本实施例中,在语义图谱中查找实体名称存在于“信用平稳”的实体名称集合SetA,其中“平稳”存在于“信用平稳”标签中,得到实体名称集合SetA,查找结果包括“平稳”。
S305、判断实体名称集合SetA是否为空,若是执行步骤S320,否则执行步骤S306。
S306、从实体名称集合SetA中获取其中一个实体,得到实体名称A。本实施例中,从实体名称集合SetA中取得的实体名称为“平稳”。
S307、在语义图谱中查找与实体名称A对应的关联实体集合(也叫关联语义集合)Set<B,C>,其中B为关联的实体名称,C为关联关系。
本实施例中,在语义图谱中查找与实体名称“平稳”对应的关联实体集合Set<B,C>,查找范围包括语义图谱中同义方向的关联实体和反义方向的关联实体,即对应的关联实体集合包括同义方向的数据记录,例如关联实体“波动”-“反义词”,和反义方向的数据记录,例如关联实体“稳定”-“同义词”。
本步骤的查找结果可能是没有相应的同义方向的数据记录或反义方向的数据记录,也可能只有一条数据记录,还可能有多条同义方向的数据记录和/或反义方向的数据记录。
S308、判断关联实体集合Set<B,C>是否为空,若是则执行步骤S319,否则执行步骤S309。
本实施例中,若语义图谱中能查找出与实体名称“平稳”对应的关联实体集合,即所查找的关联实体集合Set<B,C>不为空,执行步骤S309,否则执行步骤S319。
S309、从关联实体集合Set<B,C>中获取一组关联实体,得到关联实体D<DB,DC>,其中DB为关联实体D的名称,DC为关联实体D的关联关系。
本实施例中,从关联实体集合Set<B,C>中获取一组关联实体,为“波动”-“反义词”。
S310、在标签集合G中查找标签名称包含DB的标签集合SetB,内容包括标签标识、标签名称。
本实施例中,在标签集合G中查找标签名称包含“波动”的标签集合SetB,所述标签集合SetB的结果应包含“信用波动”标签,其中标签名称为“信用波动”,标签标识为T002。
S311、判断标签集合SetB是否为空,若是则执行步骤S318,否则执行步骤S312。
本实施例中,若标签集合G中能查找到标签名称包含“波动”的标签集合,即标签集合SetB不为空,执行步骤S312。
S312、将标签集合SetB各记录的标签名称中的实体名称DB替换为实体名称A。
本实施例中,将标签集合SetB中标签名称的“波动”字符替换为“平稳”,即标签集合SetB中的结果“信用波动”标签的标签名称变为“信用平稳”。
S313、在标签集合SetB查找标签名称等于标签X1名称的标签标识集合SetM。
本实施例中,在标签集合SetB中查找标签名称等于“信用平稳”的标签标识集合SetM;标签标识集合SetM包含“信用波动”标签的标签标识T002。
S314、判断标签标识集合SetM是否为空,若是则执行步骤S318,否则执行步骤S315。
本实施例中,若标签集合SetB中能查找到标签名称等于“信用平稳”的标签标识集合,即标签标识集合SetM不为空,执行步骤S315。
S315、从标签标识集合SetM中获取一条记录,得到该记录的冲突标签标识M。
本实施例中,从标签标识集合SetM中获取到“信用波动”标签的标签标识T002。
S316、将标签X1的标签标识、冲突标签标识M、冲突关系存入到标签冲突规则集合,其中若关联关系C为同义词,则冲突关系为标签重叠,否则冲突关系为标签互斥。
本实施例中,将“信用平稳”标签的标签标识T001、“信用波动”标签的标签标识T002及两者之间的冲突关系“标签互斥”,存入到标签冲突规则集合。
S317、从标签标识集合SetM中移除冲突标签标识M对应的记录,执行步骤S314。本实施例中,从标签标识集合SetM中移除“信用稳定”标签对应的记录。
S318、从关联实体集合Set<B,C>中移除关联实体D<DB,DC>对应的记录,执行步骤S308。
本实施例中,如标签标识集合SetM为空,则从关联实体集合Set<B,C>中移除关联实体“波动”-“反义词”。
S319、从实体名称集合SetA中移除实体名称A对应的记录,执行步骤S305。
本实施例中,如关联实体集合Set<B,C>为空,则从实体名称集合SetA中移除实体名称“平稳”对应的记录。
S320、从标签集合G中移除标签X1对应的记录,执行步骤S302。
本实施例中,如实体名称集合SetA为空,则从标签集合G中移除“信用平稳”标签对应的记录。
完成上述操作后,标签冲突规则集合包含“信用平稳”标签与“信用波动”标签为标签冲突的记录,同时去除当前处理的标签后,按相应步骤完成全量的标签冲突规则集合生成,在此不赘述。
S4、在标签更新前,根据标签冲突规则集合,对标签冲突结果进行检测,得到标签冲突结果数据集。
“信用平稳”标签执行更新时,对标签结果进行检测,发现标识为U003的用户同时拥有“信用平稳”和“信用波动”这两个互斥标签,则得到标签冲突结果数据集,内容包含记录{标签对象标识:U003,标签标识:T001,冲突标签标识:T002}。步骤S4对标签冲突结果进行检测的过程如下:
S401、获取当前需要更新的标签A,内容包括标签标识、标签名称。
本实施例中,获取当前需要更新的“信用平稳”标签,其中标签标识为T001、标签名称为“信用平稳”。
S402、根据步骤S3得到的标签冲突规则集合,得到与标签A冲突的标签集合X。
本实施例中,根据步骤S3得到的标签冲突规则集合,得到与“信用平稳”标签的互斥标签“信用波动”,将内容存储至标签集合X,所存储的内容包括标签标识T002、标签名称“信用波动”。
S403、判断标签集合X是否为空,若是则操作结束,输出标签冲突结果数据集,标签冲突结果数据集内容包括标签标识、冲突标签标识、标签对象标识,否则执行步骤S404。
S404、在标签A执行标签更新时,得到拥有该标签的标签对象集合SetE,内容包括标签对象标识。
本实施例中,得到拥有“信用平稳”标签的标签对象集合SetE,假设对象标识为U001、U002、U003的客户拥有“信用平稳”标签,则标签对象集合SetE内容包括{U001、U002、U003}。
S405、获取标签集合X中的一个标签B,并获取标签B对应的标签对象集合SetF,内容包括标签对象标识。
本实施例中,获取标签集合X中“信用波动”标签,并获取拥有“信用波动”标签的标签对象集合SetF,假设对象标识为U003、U004、U005的客户拥有“信用波动”标签,则标签对象集合SetF内容包括{U003、U004、U005}。
S406、将标签对象集合SetE和标签对象集合SetF进行交集处理,即将同时存在于SetE与SetF的标签对象查询出来,得到交集结果SetN作为冲突标签对象集合,内容包括标签对象标识。
本实施例中,将标签对象集合SetE和标签对象集合SetF进行交集处理,得到交集结果SetN,即U003同时存在于标签对象集合SetE与标签对象集合SetF中,交集结果SetN的内容包括{U003}。
S407、判断冲突标签对象集合SetN是否为空,若是则执行步骤S409,否则执行步骤S408。
S408、将标签A、标签B、冲突标签对象集合SetN内容插入至标签冲突结果数据集,其中标签冲突结果数据集的标签标识为标签A的标签标识、冲突标签标识为标签B的标签标识、标签对象标识为SetN的标签对象标识。
本实施例中,将“信用平稳”标签的标签标识T001、“信用波动”标签的标签标识T002、交集结果SetN的内容{U003}插入至标签冲突结果数据集,即{标签标识为T001、冲突标签标识为T002、标签对象标识为U003}。
S409、从标签集合X移除标签B,执行步骤S403。
通过上述步骤,得到标签冲突结果数据集。
S5、根据步骤S2配置的标签冲突处理策略,对标签冲突结果数据集进行标签冲突处理,完成标签更新。
在本实施例中,配置的标签冲突处理策略为“保留当前更新的大数据标签”。根据步骤S4得到的标签冲突结果数据集{标签标识为T001、冲突标签标识为T002、标签对象标识为U003},将标签对象标识为U003的客户移除原有标签标识为T002的冲突标签记录,将标签标识为T001的标签标识至U003客户上。
本发明中,标签更新包括新增标签。在新增标签时,也可以根据语义图谱对标签进行标签名称的重复检测,并进行相应的标签重复提示。例如,需要创建一个名为“信用稳当”的标签,在保存前,根据语义图谱发现“信用稳当”和已存在的名称为“信用平稳”的标签存在标签重复关系,系统进行相应的提示:“新建‘信用稳当’标签与‘信用平稳’标签语义重复,请确认是否需要创建”。
如图2所示,本发明基于语义图谱的大数据标签冲突检测系统,包括:
语义图谱模块,用于实现上述步骤S1,构建包括同义词、反义词类型的语义图谱,维护与存储语义图谱内容,以支撑标签冲突规则生成;
标签冲突检测模块,用于实现上述步骤S3、S4,生成标签冲突规则集合与进行标签冲突检测,基于语义图谱对当前系统内存在的标签集合进行遍历,将所有标签对应的互斥标签与重叠标签进行查找,得到标签冲突规则集合;根据标签冲突规则集合,对标签冲突结果进行检测,得到标签冲突结果数据集;
标签冲突处理模块,用于实现上述步骤S2、S5,配置相应的标签冲突处理策略,并根据配置的标签冲突处理策略对标签冲突结果数据集进行处理,得到标签冲突处理结果;
标签库管理模块,用于根据标签冲突处理模块的标签冲突处理结果,进行标签属性信息维护、标签更新、标签存储、标签应用等工作,提供基础的标签管理与应用能力;
所述标签库管理模块的标签进行更新后,进入标签冲突检测模块,基于语义图谱模块对当前更新标签进行冲突检测,如果检测到存在标签冲突,则进入标签冲突处理模块,对标签冲突进行处理后,再将处理结果存储在标签库管理模块。
在本实施例中,标签冲突检测模块基于语义图谱对当前系统内存在的标签集合进行遍历,将所有标签对应的互斥标签与重叠标签进行查找,得到标签冲突规则集合,在标签更新时,基于标签冲突规则集合对标签更新结果进行冲突检测,并把标签冲突结果数据集推送到标签冲突处理模块。其中,标签更新包括新增标签;在新增标签时,根据语义图谱对标签进行标签名称的重复检测,并进行相应的标签重复提示。
本发明还提出一种存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时,实现上述大数据标签冲突检测方法的步骤。
本发明还提出一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,当处理器运行所述计算机程序时,实现本发明大数据标签冲突检测方法。
上述为本发明较佳的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于语义图谱的大数据标签冲突检测方法,其特征在于,包括以下步骤:
S1、构建包括同义词、反义词类型的语义图谱;所构建的语义图谱由实体与关联关系组成,其中关联关系包括同义与反义两种关系,实体为相应的词语;
S2、配置相应的标签冲突处理策略;
S3、基于语义图谱,对当前系统内存在的标签集合进行遍历,将所有标签对应的互斥标签与重叠标签进行查找,得到标签冲突规则集合;
标签冲突规则集合包括冲突类型、目标标签标识、冲突标签标识字段,其中冲突类型包括标签重叠与标签互斥;
S4、在标签更新前,根据标签冲突规则集合,对标签冲突结果进行检测,得到标签冲突结果数据集;
S5、根据步骤S2配置的标签冲突处理策略,对标签冲突结果数据集进行标签冲突处理,完成标签更新;
步骤S2中,标签冲突处理策略包括:
1)保留已存在的大数据标签,即在大数据标签更新时,发现目标对象已经拥有一个或多个标签与当前更新的标签存在冲突,则放弃本次针对该目标对象的标签更新;
2)保留当前更新的大数据标签,即在大数据标签更新时,发现目标对象已经拥有一个或多个标签与当前更新的标签存在冲突,则移除目标对象已存在与当前更新标签冲突的标签,保留当前更新的标签;
3)仅进行冲突预警提示,即在大数据标签更新时,发现目标对象已经拥有一个或多个标签与当前更新的标签存在冲突,则仅进行冲突预警提示,不进行任何标签处理;
4)移除所有冲突的标签,即在大数据标签更新时,发现目标已经拥有一个或多个标签与当前更新的标签存在冲突,则移除目标对象所有与当前更新的标签存在冲突的标签,并且放弃本次针对该目标对象的标签更新。
2.根据权利要求1所述的基于语义图谱的大数据标签冲突检测方法,其特征在于,步骤S3包括:
S301、将当前系统所有标签属性信息放到标签集合G中,标签集合G包括标签标识、标签名称、标签描述;
S302、判断标签集合G是否为空,若是则结束操作,输出标签冲突规则集合,否则执行步骤S303;
S303、从标签集合G中获取一个标签X1;
S304、在语义图谱中查找实体名称存在于标签X1名称的实体名称集合SetA;
S305、判断实体名称集合SetA是否为空,若是执行步骤S320,否则执行步骤S306;
S306、从实体名称集合SetA中获取一个实体,得到实体名称A;
S307、在语义图谱中查找与实体名称A对应的关联实体集合Set<B,C>,其中B为关联的实体名称,C为关联关系;
S308、判断关联实体集合Set<B,C>是否为空,若是则执行步骤S319,否则执行步骤S309;
S309、从关联实体集合Set<B,C>中获取一组关联实体,得到关联实体D<DB,DC>,其中DB为关联实体D的名称,DC为关联实体D的关联关系;
S310、在标签集合G中查找标签名称包含DB的标签集合SetB,内容包括标签标识、标签名称;
S311、判断标签集合SetB是否为空,若是则执行步骤S318,否则执行步骤S312;
S312、将标签集合SetB各记录的标签名称中的实体名称DB替换为实体名称A;
S313、在标签集合SetB查找标签名称等于标签X1名称的标签标识集合SetM;
S314、判断标签标识集合SetM是否为空,若是则执行步骤S318,否则执行步骤S315;
S315、从标签标识集合SetM中获取一条记录,得到该记录的冲突标签标识M;
S316、将X1的标签标识、冲突标签标识M、冲突关系存入到标签冲突规则集合,其中若关联关系C为同义词,则冲突关系为标签重叠,否则冲突关系为标签互斥;
S317、从标签标识集合SetM中移除冲突标签标识M对应的记录,执行步骤S314;
S318、从关联实体集合Set<B,C>中移除关联实体D<DB,DC>对应的记录,执行步骤S308;
S319、从实体名称集合SetA中移除实体名称A对应的记录,执行步骤S305;
S320、从标签集合G中移除标签X1对应的记录,执行步骤S302。
3.根据权利要求1所述的基于语义图谱的大数据标签冲突检测方法,其特征在于,步骤S4对标签冲突结果进行检测的过程如下:
S401、获取当前需要更新的标签A,内容包括标签标识、标签名称;
S402、根据步骤S3得到的标签冲突规则集合,得到与标签A冲突的标签集合X;
S403、判断标签集合X是否为空,若是则操作结束,输出标签冲突结果数据集,标签冲突结果数据集内容包括标签标识、冲突标签标识、标签对象标识,否则执行步骤S404;
S404、在标签A执行标签更新时,得到拥有该标签的标签对象集合SetE,内容包括标签对象标识;
S405、获取标签集合X中的一个标签B,并获取标签B对应的标签对象集合SetF,内容包括标签对象标识;
S406、将标签对象集合SetE和标签对象集合SetF进行交集处理,得到交集结果SetN作为冲突标签对象集合;
S407、判断冲突标签对象集合SetN是否为空,若是则执行步骤S409,否则执行步骤S408;
S408、将标签A、标签B、冲突标签对象集合SetN内容插入至标签冲突结果数据集,其中标签冲突结果数据集的标签标识为标签A的标签标识、冲突标签标识为标签B的标签标识、标签对象标识为SetN的标签对象标识;
S409、从标签集合X移除标签B,执行步骤S403。
4.根据权利要求1所述的基于语义图谱的大数据标签冲突检测方法,其特征在于,标签更新包括新增标签;在新增标签时,根据语义图谱对标签进行标签名称的重复检测,并进行相应的标签重复提示。
5.一种基于语义图谱的大数据标签冲突检测系统,其特征在于,包括:
语义图谱模块,用于构建包括同义词、反义词类型的语义图谱,维护与存储语义图谱内容,以支撑标签冲突规则生成;
标签冲突检测模块,用于生成标签冲突规则集合与进行标签冲突检测,基于语义图谱对当前系统内存在的标签集合进行遍历,将所有标签对应的互斥标签与重叠标签进行查找,得到标签冲突规则集合;根据标签冲突规则集合,对标签冲突结果进行检测,得到标签冲突结果数据集;
标签冲突处理模块,用于配置相应的标签冲突处理策略,并根据配置的标签冲突处理策略对标签冲突结果数据集进行处理,得到标签冲突的处理结果;
标签库管理模块,用于根据标签冲突处理模块的标签冲突处理结果,进行标签属性信息维护、标签更新、标签存储、标签应用,提供基础的标签管理与应用能力;
所述标签库管理模块的标签进行更新后,进入标签冲突检测模块,基于语义图谱模块对当前更新标签进行冲突检测,如果检测到存在标签冲突,则进入标签冲突处理模块,对标签冲突进行处理后,再将处理结果存储在标签库管理模块;
其中标签冲突处理策略包括:
1)保留已存在的大数据标签,即在大数据标签更新时,发现目标对象已经拥有一个或多个标签与当前更新的标签存在冲突,则放弃本次针对该目标对象的标签更新;
2)保留当前更新的大数据标签,即在大数据标签更新时,发现目标对象已经拥有一个或多个标签与当前更新的标签存在冲突,则移除目标对象已存在与当前更新标签冲突的标签,保留当前更新的标签;
3)仅进行冲突预警提示,即在大数据标签更新时,发现目标对象已经拥有一个或多个标签与当前更新的标签存在冲突,则仅进行冲突预警提示,不进行任何标签处理;
4)移除所有冲突的标签,即在大数据标签更新时,发现目标已经拥有一个或多个标签与当前更新的标签存在冲突,则移除目标对象所有与当前更新的标签存在冲突的标签,并且放弃本次针对该目标对象的标签更新。
6.根据权利要求5所述的基于语义图谱的大数据标签冲突检测系统,其特征在于,所述标签冲突检测模块基于语义图谱对当前系统内存在的标签集合进行遍历,将所有标签对应的互斥标签与重叠标签进行查找,得到标签冲突规则集合,在标签更新时,基于标签冲突规则集合对标签更新结果进行冲突检测,并把标签冲突结果数据集推送到标签冲突处理模块。
7.根据权利要求6所述的基于语义图谱的大数据标签冲突检测系统,其特征在于,标签更新包括新增标签;在新增标签时,根据语义图谱对标签进行标签名称的重复检测,并进行相应的标签重复提示。
8.一种存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被处理器执行时,实现权利要求1-4中任一项所述的大数据标签冲突检测方法的步骤。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时,实现权利要求1-4中任一项所述的大数据标签冲突检测方法。
CN201911189673.5A 2019-11-28 2019-11-28 一种基于语义图谱的大数据标签冲突检测方法、系统、存储介质及计算机设备 Active CN111046190B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911189673.5A CN111046190B (zh) 2019-11-28 2019-11-28 一种基于语义图谱的大数据标签冲突检测方法、系统、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911189673.5A CN111046190B (zh) 2019-11-28 2019-11-28 一种基于语义图谱的大数据标签冲突检测方法、系统、存储介质及计算机设备

Publications (2)

Publication Number Publication Date
CN111046190A CN111046190A (zh) 2020-04-21
CN111046190B true CN111046190B (zh) 2021-03-26

Family

ID=70233908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911189673.5A Active CN111046190B (zh) 2019-11-28 2019-11-28 一种基于语义图谱的大数据标签冲突检测方法、系统、存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN111046190B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111831830B (zh) * 2020-07-01 2023-10-20 腾讯科技(深圳)有限公司 知识图谱实体领域冲突检测方法、装置及相关设备
CN111897956A (zh) * 2020-07-14 2020-11-06 内蒙古电力(集团)有限责任公司电力调度控制分公司 变电站二次设备资料的标签体系构建方法及系统
CN112232082B (zh) * 2020-10-14 2022-02-18 海南大学 面向本质计算的多模态dikw内容多语义分析方法
CN112565193B (zh) * 2020-11-06 2021-12-28 西安电子科技大学 一种网络安全策略冲突分解方法、系统、存储介质、设备
CN112818000B (zh) * 2021-01-06 2023-06-27 佰聆数据股份有限公司 基于多标签主体的标签库管理与应用方法、系统及计算机设备
CN116846837A (zh) * 2022-03-23 2023-10-03 中兴通讯股份有限公司 流量识别方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955849A (zh) * 2012-10-29 2013-03-06 新浪技术(中国)有限公司 基于标签推荐文档的方法及文档推荐装置
CN107341206A (zh) * 2017-06-23 2017-11-10 南京甄视智能科技有限公司 基于多个数据源构建精准的用户画像系统及方法
CN108874878A (zh) * 2018-05-03 2018-11-23 众安信息技术服务有限公司 一种知识图谱的构建系统及方法
CN109033374A (zh) * 2018-07-27 2018-12-18 四川长虹电器股份有限公司 基于贝叶斯分类器的知识图谱检索方法
CN110471597A (zh) * 2019-07-25 2019-11-19 北京明略软件系统有限公司 一种数据标注方法和装置、计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184229B (zh) * 2011-05-11 2013-05-01 中国科学院软件研究所 一种海量rfid标签信息的内存数据存储方法
US20140365486A1 (en) * 2012-09-19 2014-12-11 Cedar Point Partners, Llc Methods, systems, and computer program products for tagging a resource
US10169952B2 (en) * 2014-08-26 2019-01-01 Bally Gaming, Inc. Processing credit-related events in a wagering game system
CN109446343B (zh) * 2018-11-05 2020-10-27 上海德拓信息技术股份有限公司 一种公共安全知识图谱构建的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955849A (zh) * 2012-10-29 2013-03-06 新浪技术(中国)有限公司 基于标签推荐文档的方法及文档推荐装置
CN107341206A (zh) * 2017-06-23 2017-11-10 南京甄视智能科技有限公司 基于多个数据源构建精准的用户画像系统及方法
CN108874878A (zh) * 2018-05-03 2018-11-23 众安信息技术服务有限公司 一种知识图谱的构建系统及方法
CN109033374A (zh) * 2018-07-27 2018-12-18 四川长虹电器股份有限公司 基于贝叶斯分类器的知识图谱检索方法
CN110471597A (zh) * 2019-07-25 2019-11-19 北京明略软件系统有限公司 一种数据标注方法和装置、计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于层次—互斥模型的多标签分类算法的研究与应用;何伟骏;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160615(第6期);第I138-983页 *

Also Published As

Publication number Publication date
CN111046190A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN111046190B (zh) 一种基于语义图谱的大数据标签冲突检测方法、系统、存储介质及计算机设备
CN110291517B (zh) 图数据库中的查询语言互操作性
CN110222127B (zh) 基于知识图谱的信息汇聚方法、装置和设备
US7945543B2 (en) Method and system for deferred maintenance of database indexes
CN107590123B (zh) 车载中地点上下文指代消解方法及装置
CN113032579B (zh) 一种元数据血缘分析方法、装置、电子设备和介质
US8250532B2 (en) Efficient development of configurable software systems in a large software development community
CN109284323B (zh) 检测数据的管理方法及装置
JP2008084114A (ja) オントロジー統合支援装置、オントロジー統合支援方法及びオントロジー統合支援プログラム
CN110866029B (zh) sql语句构建方法、装置、服务器及可读存储介质
US20200074509A1 (en) Business data promotion method, device, terminal and computer-readable storage medium
CN107291745B (zh) 一种数据指标的管理方法及装置
CN106933857B (zh) 一种数据仓库中任务的调度方法、装置
Jalili et al. Indexing next-generation sequencing data
CN112199494A (zh) 医疗信息搜索方法、装置、电子设备及存储介质
US11645283B2 (en) Predictive query processing
CN114490658A (zh) 一种节点展示方法、装置、存储介质及程序产品
US20160253423A1 (en) Data processing system including a search engine
CN110851543A (zh) 一种数据建模的方法、装置、设备以及存储介质
CN110609926A (zh) 数据标签存储管理方法及装置
CN108984793A (zh) 一种数据更新方法及系统、存储介质
CN114896273B (zh) 一种兼容存储过程的sql语句配置方法、设备及存储介质
CN115455010B (zh) 一种基于milvus数据库的数据处理方法、电子设备及存储介质
CN113535737B (zh) 特征的生成方法、装置、电子设备及计算机存储介质
CN112988986B (zh) 人机交互方法、装置与设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant