CN112699238A

CN112699238A - 一种基于标签的知识本体构建方法、终端设备及存储介质

Info

Publication number: CN112699238A
Application number: CN202011597238.9A
Authority: CN
Inventors: 乔盛; 袁泉; 王电; 傅金争
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-23

Abstract

本发明涉及一种基于标签的知识本体构建方法、终端设备及存储介质，该方法中包括：S1：采集业务数据，根据业务数据生成业务标签，业务标签包括实体标签、实体关系标签和实体行为标签；S2：根据叙词表获取业务标签的所有的关联标签；S3：根据层次聚类算法，将业务标签和其所有的关联标签生成聚类树；S4：根据生成的聚类树创建或更新标签的知识本体；S5：返回S1重新采集新的业务数据来对生成的标签的知识本体进行更新。本发明通过闭环的反馈链路，不断的对标签的知识本体更新新的内容，最终形成动态的领域标签知识本体的闭环迭代。

Description

一种基于标签的知识本体构建方法、终端设备及存储介质

技术领域

本发明涉及知识本体领域，尤其涉及一种基于标签的知识本体构建方法、终端设备及存储介质。

背景技术

在如今互联网时代的大数据环境下，海量数据、多源数据、分布式计算、秒级响应、实时反馈等已然成为系统建设的必然要求；同时，又需要快速对接其他平台。这就有以下几点要求：

其一：提供统一的标签知识平台的概念模型，为分级分类方法提供统一的数据处理规范，以便于信息应用时的共享和数据对接。

其二：提供知识信息的连接，标签的知识本体具有对象属性和数据属性，从而使得标签和标签之间、标签和属性之间、标签和语义化信息之间存在多种多样的直接关系和潜在关系，而这些庞大的关系种类可以提供给我们各式各样的应用，使得标签的本体知识结构浅显易懂，从而最大化大数据的价值。

其三：提供语义分析及推理，便于机器解析查找，继而推理出潜在未知的关系，有效降低标签数据量的大小。完整全面的标签知识表示，简易明确的标签知识规范，使得标签知识本体的语义和推理在分级分类的系统中，成功的把人长期的知识、经验、推理的积累传递给机器，从而达到标签知识本体互通、互联、推理等。

其四：提供各个系统之间的标签知识共享，因为本标签的知识本体架构具有可重用、统一的规范标注，这让用户在不同的平台系统之间可以共用一套标签知识本体。

其五：提供专家积累定义的叙词表，又称主题词表，包含关键词、关系词、行为词、热词、敏感词、情感词等。提供词和语义概念，增加标签特征描述，在应用领域，实现精确语义搜索，发现语义关系，分析语义关系等。

发明内容

为了解决上述问题，本发明提出了一种基于标签的知识本体构建方法、终端设备及存储介质。

具体方案如下：

一种基于标签的知识本体构建方法，包括以下步骤：

S1：采集业务数据，根据业务数据生成业务标签，业务标签包括实体标签、实体关系标签和实体行为标签；

S2：根据叙词表获取业务标签的所有的关联标签；

S3：根据层次聚类算法，将业务标签和其所有的关联标签生成聚类树；

S4：根据生成的聚类树创建或更新标签的知识本体；

S5：返回S1重新采集新的业务数据来对生成的标签的知识本体进行更新。

进一步的，步骤S1中根据业务数据生成业务标签的具体过程包括以下步骤：

S101：提取业务数据中的与实体名称、业务行为和业务关系有关的内容；

S102：基于预先设定的该业务类型对应的规则模板，根究提取的与实体名称、业务行为和业务关系有关的内容生成实体标签、实体关系标签和实体行为标签。

进一步的，叙词表采用图数据库存储。

进一步的，步骤S2还包括：当叙词表中未包含业务数据对应的业务标签时，将该业务标签添加进叙词表内对叙词表进行补充更新，下次使用时采用更新后的叙词表。

进一步的，在首次加载叙词表时采用冷启动的方式启动，当需要更新时，采用热加载的方式更新。

一种基于标签的知识本体构建终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。

本发明采用如上技术方案，通过闭环的反馈链路，不断的对标签的知识本体更新新的内容，最终形成动态的领域标签知识本体的闭环迭代。

附图说明

图1所示为本发明实施例一的流程图。

图2所示为该实施例中叙词表示意图。

图3所示为该实施例中知识本体效果示意图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例一：

本发明实施例提供了一种基于标签的知识本体构建方法，如图1所示，其为本发明实施例所述的基于标签的知识本体构建方法的流程图，所述方法包括以下步骤：

S1：采集业务数据，根据业务数据生成业务标签。

该实施例中业务标签包括实体标签、实体关系标签和实体行为标签。其中：

实体是客观存在并可相互区别的事物，往往指某类事务的集合。比如在特定应用领域人、案件、车、物品等，把每一类数据对象的个体集合称为实体。

行为是每一类实体所产生的活动、轨迹等的行为。比如：人的线下的住店、飞机、铁路等，线上的外卖、购物、社交活动等。

关系是指实体之间天然存在的背景、属性等关系，通过标签计算、刻画之后产生的关系，不同种类的不同个体之间的潜在关系(如亲属关系、同行关系)。

该实施例中根据业务数据生成业务标签的具体过程包括以下步骤：

S101：取业务数据中的与实体名称、业务行为和业务关系有关的内容。

需要说明的是，在提取业务关系时，由于可能需要与其他实体关联，因此可以对接第三方关系来源，根据第三方关系来源综合计算具体的业务关系。

不同业务的不同场景对应不同的规则，本领域技术人员可以预先对其进行设定，在生成标签时，根据设定的规则模板将提取的实体名称、业务行为和业务关系转化为对应的实体标签、实体关系标签和实体行为标签。

S2：根据叙词表获取业务标签的所有的关联标签。

由于同一个意思在可以采用形式的词进行表示，如同义词、近义词、关系词等等，因此最终构建的标签的知识本体应包含标签的这些相关词组成的关联标签，该实施例中通过该业务领域对应的叙词表来获取业务标签的关联词组成的关联标签。

叙词表包括词的同义词、近义词、关系词、行为词、热词、敏感词等，其结构如表1所示。

表1

该实施例中还包括当叙词表中未包含业务数据对应的业务标签时，将该业务标签添加进叙词表内对叙词表进行补充更新，下次使用时采用更新后的叙词表。

进一步的，为了减少步骤S2的时间损耗，该实施例中在首次加载叙词表时采用冷启动的方式启动，启动后加载在缓存中，当需要更新时，采用热加载(进程在后台运行)的方式更新。

该实施例中叙词表采用图数据库存储，图数据库本身提供完善的图查询语言、支持各种图挖掘算法。采用图数据库的应用方式避免了多表join的问题，跨度查询实现起来，更为方便、灵活，效率也有更好的提升。且在schema的设计上具有更好的普适性，方便建模。在开发过程中也很友好，导入图库之后，可以看到更为直观的展示形态，如图2所示。

S3：根据层次聚类算法，将业务标签和其所有的关联标签生成聚类树。

层次聚类就是对数据集采用某种方法逐层地进行分解或者汇聚，直到分出的最后一层的所有的类别数据满足要求为止。所以按照分解或者汇聚的原理的不同，层次聚类可以分为凝聚(Agglomerative)和分裂(Divisive)两种方法。该实施例中采用凝聚(Agglomerative)的方法，把业务标签和其对应的关联标签自底向上合并成一颗聚类树。

层次聚类的合并算法通过计算两类数据点间的相似性，对所有数据点中最为相似的两个数据点进行组合，并反复迭代这一过程。简单的说层次聚类的合并算法是通过计算每一个类别的数据点与所有数据点之间的距离来确定它们之间的相似性，距离越小，相似度越高。并将距离最近的两个数据点或类别进行组合，生成聚类树。

凝聚型层次聚类的算法流程如下：

(1)将每个对象看作一类，计算两两之间的距离；

(2)将距离最小的两个类合并成一个新类；

(3)重新计算新类与所有类之间的距离；

(4)重复(2)、(3)，直到所有类最后合并成一类。

层次聚类使用欧式距离来计算不同类别数据点间的距离(相似度)。

凝聚型层次聚类的示例如下：

数据点如表2所示。

表2

A	15
		B	35
C	37
		D	77
E	83
		F	43

分别计算欧式距离值(矩阵)：

	A	B	C	D	E	F
							A	0	20	22	62	68	28
B	20	0	2	42	48	8
							C	22	2	0	40	46	6
D	62	42	40	0	6	34
							E	68	48	46	6	0	40
F	28	8	6	34	40	0

将数据点B与数据点C进行组合后，重新计算各类别数据点间的距离矩阵。数据点间的距离计算方式与之前的方法一样。这里需要说明的是组合数据点(B,C) 与其他数据点间的计算方法。当我们计算(B,C)到A的距离时，需要分别计算B 到A和C到A的距离均值。

得到如下结果：

经过计算数据点D到数据点E的距离在所有的距离值中最小，为6。这表示在当前的所有数据点中(包含组合数据点)，D和E的相似度最高。因此，将数据点D和数据点E进行组合。并再次计算其他数据点间的距离。以此类推，不断的重复计算数据点与数据点，数据点与组合数据点间的距离。

S4：根据生成的聚类树创建或更新标签的知识本体。

该实施例中最终得到标签的知识本体效果如图3所示。

构建的知识本体中实体标签使用图库存储为节点，实体关系标签使用图库存储为实体节点之间的关联关系(即连线)，实体行为标签包括静态标签和动态标签，其中，静态标签存储为实体节点的属性，静态标签需要进行去燥、归一化等预处理。动态标签根据应用层使用规则和静态标签来实时计算，比如：人员实体和案件实体，就不需要把是否有前科单独清洗为标签，完全可以预定义规则，使用图库的挖掘算法返回前科的标签。

该实施例中通过闭环的反馈链路，不断的对标签的知识本体更新新的内容，最终形成动态的领域标签知识本体的闭环迭代。

本发明实施例一通过应用行业领域的专家积累的叙词表，结合业务数据、语义数据集合以及第三方提供的数据源，按照特定的标签业务规则模板(多值计算、特征描述、条件判断、属性存在、特殊取值，多值合并、复杂判断、复杂计算等)生成业务标签，这种方式准确率高，对最终的结果有很高应用价值。

本发明实施例一通过图库提供的可视化界面，可以查询想要的标签和关系信息，从而验证本实施例方法的正确性，然后根据结果，调整标签的计算规则。形成良性循环，提高本实施例方法的有效性。

本发明实施例一对案件、人员、电话的实体做了标签及其刻画。在实战应用中取得了较好的效果，直观的显示了各实体属性标签、行为标签、关系标签的效果，充分发挥了其价值。标签表达的多样灵活的语义和多角度构建语义关系的潜力极为强大。高质量的标签，为以后的智能搜索、情报推送、自动问答等知识图谱的应用，建立了夯实的基础。合理的标签知识本体，丰富的数据源数据量将决定其价值的优劣。

实施例二：

本发明还提供一种基于标签的知识本体构建终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，所述基于标签的知识本体构建终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述基于标签的知识本体构建终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述基于标签的知识本体构建终端设备的组成结构仅仅是基于标签的知识本体构建终端设备的示例，并不构成对基于标签的知识本体构建终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述基于标签的知识本体构建终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述基于标签的知识本体构建终端设备的控制中心，利用各种接口和线路连接整个基于标签的知识本体构建终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述基于标签的知识本体构建终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart MediaCard,SMC)，安全数字 (Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

所述基于标签的知识本体构建终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器 (ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory) 以及软件分发介质等。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种基于标签的知识本体构建方法，其特征在于，包括以下步骤：

S2：根据叙词表获取业务标签的所有的关联标签；

S4：根据生成的聚类树创建或更新标签的知识本体；

2.根据权利要求1所述的基于标签的知识本体构建方法，其特征在于：步骤S1中根据业务数据生成业务标签的具体过程包括以下步骤：

3.根据权利要求1所述的基于标签的知识本体构建方法，其特征在于：叙词表采用图数据库存储。

4.根据权利要求1所述的基于标签的知识本体构建方法，其特征在于：步骤S2还包括：当叙词表中未包含业务数据对应的业务标签时，将该业务标签添加进叙词表内对叙词表进行补充更新，下次使用时采用更新后的叙词表。

5.根据权利要求1所述的基于标签的知识本体构建方法，其特征在于：在首次加载叙词表时采用冷启动的方式启动，当需要更新时，采用热加载的方式更新。

6.一种基于标签的知识本体构建终端设备，其特征在于：包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～5中任一所述方法的步骤。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1～5中任一所述方法的步骤。