CN115438205B

CN115438205B - 用于离线终端的知识图谱压缩存储方法

Info

Publication number: CN115438205B
Application number: CN202211388080.3A
Authority: CN
Inventors: 邱冬; 张强; 王耀光; 朱晓卿; 郑晓彬; 张超; 滕厚雪; 金喆; 洪云强; 江展威; 孙倩; 黄智华; 敬军; 林意强; 吴林英; 邹许红
Original assignee: GUANGDONG DONGGUAN QUALITY SUPERVISION TESTING CENTER; Shenzhen Pingan Integrated Financial Services Co ltd; Shenzhen Changjiang Furniture Co ltd
Current assignee: GUANGDONG DONGGUAN QUALITY SUPERVISION TESTING CENTER; Shenzhen Pingan Integrated Financial Services Co ltd; Shenzhen Changjiang Furniture Co ltd
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-01-13
Anticipated expiration: 2042-11-08
Also published as: CN115438205A

Abstract

本发明公开了用于离线终端的知识图谱压缩存储方法，涉及数据处理领域。主要包括：获取家居知识图像，根据家居知识图像得到各节点的重要程度，根据家居知识图像得到稀疏向量，根据稀疏向量得到起始点和可能终止点，根据起始点、可能只知点和类别序列得到调整后稀疏向量，根据稀疏向量和调整后稀疏向量得到家居知识图像、调整后家居知识图像的识别程度，根据所述识别程度和各节点的重要程度得到可能终止点的压缩损失程度，根据可能终止点的压缩损失程度得到起始点的终止点，将起始点和终止点得到压缩模块，根据压缩模块进行压缩存储，从而实现在降低家居知识图像存储数据量的同时还能不影响对知识图像信息的识别。

Description

用于离线终端的知识图谱压缩存储方法

技术领域

本申请涉及数据处理领域，具体涉及用于离线终端的知识图谱压缩存储方法。

背景技术

随着社会经济的发展，智能家居成为生活的重要部分，智能家居相关知识成为指导智能家居生产、使用的基础，智能家居相关知识图谱是智能家居知识的结构框架，其信息对于智能家居知识学习具有引导作用，因而需对智能家居知识图谱进行相应的管理。但是由于智能家居知识图谱数据量大，并且知识图谱需要相应的软件才能打开，对知识图谱进行展示宣传时，会有很大的局限性，因而需将知识图谱转化为图像进行存储，便于知识图谱信息展示宣传。

将知识图谱转化为图像进行压缩存储时需要考虑到知识图谱中每个节点的信息重要性不同，有些节点会与大量的节点存在关联关系，例如中心节点，从该节点会引发出很多支节点，当这个节点中的信息损失会造成影响与其关联的信息的识别应用，而有些节点为支节点，从该节点不会引发支节点，当这个节点的信息损失时仅仅造成本节点的信息损失，不太会影响其他节点信息的识别应用。因而需分析每个节点的关联信息情况来计算每个节点的重要权重。同时节点信息是通过节点上的字体来反应，而字体本身的区分性不同，例如有些字体本身区分性较大，当该字体的部分信息损失时不会造成该字体与其他字体混淆，影响字体含义辨识，而有些字体本身区分性较小，当该字体的部分信息丢失时，很容易该字体与其他字体混淆，无法辨识出该字体承载的信息，因而需分析在压缩时，信息损失造成的信息影响情况来进行压缩调整，从而实现降低存储量同时尽可能的保障不影响知识图谱信息的识别应用。

发明内容

针对上述技术问题，本发明实施例提供了用于离线终端的知识图谱压缩存储方法，所采用的技术方法具体如下：

本发明实施例提出了用于离线终端的知识图谱压缩存储方法，包括：

获取家居知识图谱以及家居知识图像，每张家居知识图像的每个节点包含多个独立字；根据每个节点的所有关联节点得到每个节点的重要性权重；获得每个家居知识图像的稀疏向量以及每个稀疏向量的多个类别序列；

设置第一序号的值为1，对于稀疏向量的一个类别序列，将类别序列中第一序号位置处的第一个数据记为起始点；

根据类别序列以及起始点得到第一压缩模块，包括：

根据起始点和类别序列得到起始点的可能终止点，获取类别序列中起始点至可能终止点之间的序列记为第一子序列，根据第一子序列得到调整后家居知识图像，根据调整后家居知识图像得到每个独立字、无损独立字的识别程度，根据每个节点的重要性权重和每个独立字、无损独立字的识别程度得到可能终止点的压缩损失影响程度，根据压缩损失影响程度进行终止点判定得到终止点；将类别序列中起始点与终止点之间序列划分为第一压缩模块，将第一子序列的第一数据作为第一压缩模块的调整数，将第一序号值加一；将类别序列中第一序号处的数据作为起始点；

重复执行根据类别序列以及起始点得到第一压缩模块操作，直至第一序号大于类别序列的长度时停止，得到每个类别序列的多个第一压缩模块；

所有的类别序列的多个第一压缩模块构成第一压缩模块集合；根据第一压缩模块集合进行压缩得到压缩后稀疏向量并进行存储。

优选的，所述根据每个节点的所有关联节点得到每个节点的重要性权重的方法，包括：

将每个节点记为第一节点，将第一节点的关联节点记为第二节点，将第一节点与第二节点构成一个节点对，获取第一节点至第二节点之间的所有的连接路径，获取每条连接路径通过边的个数记为每条连接路径的第一个数，计算每条路径的第一个数的倒数记为每条路径的第一倒数，计算第一节点至第二节点所有路径的第一倒数的累加和作为第一节点与第二节点的关联权重，即每个节点对的关联权重；

将每个节点包含字符的个数作为每个节点的信息量，根据每个节点的信息量和每个节点对的关联权重得到每个节点的重要性权重。

优选的，所述根据每个节点的所有关联节点得到每个节点的重要性权重的公式为：

其中

表示第

节点与第

个节点构成的节点对的关联权重，

表示第

个节点的信息量，

表示第

节点的节点对的总个数，

表示第

个节点的重要性权重，即每个节点的重要性权重。

优选的，所述根据第一子序列得到调整后家居知识图像的方法，包括：

获取第一子序列所属的稀疏向量记为第一稀疏向量，计算第一子序列中所有数据的均值，将均值向上取整得到第一数据，将第一稀疏向量中的第一子序列上的数据替换成第一数据且其他位置的数据保持不变得到调整后稀疏向量，根据调整后稀疏向量得到调整后家居知识图像。

优选的，所述根据调整后家居知识图像得到每个独立字、无损独立字的识别程度的方法，包括：

获取调整后家居知识图像的各节点的多个独立字，将调整后家居知识图谱任一节点记为研究节点，将研究节点中任一独立字记为研究独立字，在对应的家居知识图像中获取研究独立字对应位置的字记为研究独立字的无损独立字；

获取标准字集合，所述标准字集合中包含多个标准字，将所述无损独立字与各标准字进行匹配得到多个匹配值，将所有匹配值按从大到小排列得到匹配值序列，在匹配值序列中获取第一个位置次序的匹配值对应的标准字和第二个位置次序的匹配值对应的标准字分别记为无损独立字的第一标准字和第二标准字，将所述第一标准字的匹配值与第二标准字的匹配值的商值记为所述无损独立字的识别程度；

同理计算研究独立字的识别程度，即每个独立字的识别程度。

优选的，所述根据每个节点的重要性权重和每个独立字、无损独立字的识别程度得到可能终止点的压缩损失影响程度的方法，包括：

将每个独立字的无损独立字的识别程度减去独立字的识别程度得到的差值作为每个独立字的压缩损失影响程度，所有独立字的压缩损失影响程度的累加和作为各节点的压缩损失影响程度，根据各节点的压缩损失影响程度和各节点的重要性权重得到家居知识图谱的压缩损失影响程度的计算公式为：

其中

表示家居知识图谱中第

个节点的压缩损失影响程度，

表示家居知识图谱中第

个节点的重要性权重，

表示家居知识图谱中包含的节点的个数，

表示家居知识图谱的压缩损失影响程度。

本发明实施例提供了用于离线终端的知识图谱压缩存储方法，相比于现有技术，本发明实施例的有益效果在于：

通过分析家居知识图谱各节点的关联关系以及各节点的包含信息量得到各节点重要性权重，从而实现在进行家居知识图谱压缩时，根据知识图谱内节点的重要性来进行压缩损失控制，有效防止重要由于压缩损失造成知识图谱识别困难。

将家居知识图谱转化为稀疏向量，通过调整稀疏向量中各元素的数值将稀疏向量中邻接的相同数据量增多，从而降低稀疏向量的存储数据量，同时在对稀疏向量中各元素数据调整时考虑调整后稀疏向量对家居知识图谱内信息识别影响情况得到家居知识图谱调整前后的识别程度，结合知识图谱调整前后的识别程度和各节点的重要程度得到压缩损失程度，根据压缩损失程度对稀疏向量进行调整控制，从而降低家居知识图谱压缩造成存储量降低的同时还能有效避免对家居知识图谱信息识别的影响。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的用于离线终端的知识图谱压缩存储方法的系统框图；

图2是本发明实施例提供的K－SVD算法示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征；在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

请参阅图1，其示出了本发明一个实施例提供的用于离线终端的知识图谱压缩存储方法流程图，包括：

步骤101：采集数据得到家居知识图谱。

采集数据得到

张家居知识图谱，家居知识图谱一种无向图，该无向图中包含很多节点和连接边；

家居知识图谱中包含家居产品的生产工艺相关信息，家居知识图谱中每个节点为一个加工工位，每个节点上会显示该工位的文字操作规范，即每个节点是一个文本数据，节点之间的连接边为工位之间关联性，即工位之间材料供应关系。

将每个家居知识图谱转化为图像格式得到家居知识图像，例如现有的ColPalRed、HistCite等软件可将知识图谱保存为图像格式。

需要说明的是本实施例将所有的家居知识图像保存成大小为2048×2048的高清图像。为了解释存储空间需要利用本发明实施例对所有的家居知识图像进行高效的压缩。

步骤102：根据每个节点关联信息信息量得到每个节点的重要权重。

对于一个家居知识图像，每个节点重要性不同，有些节点为中心节点，即与该节点连接了很多关联节点，该节点的信息损失时会影响较多关联节点的知识学习，而有些节点为支节点，即与该节点连接较少的关联节点，该节点的信息损失时，只会影响较少的关联节点的知识学习。

将一个节点上的每个字符记为一个独立字，且具有一个信息量。

获取第

个节点的所有的关联节点，所述第

个节点的关联节点是指与第

个节点存在直接或间接连接关系的节点。将第

个节点与该节点的任意一个关联节点构成节点对，得到第

个节点的多个节点对，需要说明的是第

个节点与自身节点一个节点对，该节点对属于第

个节点的多个节点对的其中一个节点对。

其中第

节点与自身节点构成的节点对的关联权重以及信息量的确定方法为：第

节点包含第

个工位的文字操作规范，获取某张知识图像中第

个节点包含的字符个数记为第

个节点的信息量值

，将第

个节点与自身节点的关联权重设置为

，本方案

取0.1。

由于两个节点之间不止存在一种连接路径，每个连接路径的连接线的个数不尽相同，其中连接线的个数越少，说明这两个节点之间的连接关系越紧密，例如两个节点之间存在一条连接线路，这条连接线路上两个节点利用一个连接边进行连接，此时说明这两个节点之间存在直接关联，而不是需要其他节点搭桥才能实现两个节点的关联，因而通过分析两个节点的所有连接线路，以及每条连接线路的连接的紧密型来分析两个节点之间的关联关系。

假设第

节点的某一节点对中包含第

和第

个节点，计算第

个节点与第

个节点的关联权重：获取第

个节点至第

个节点所有的连接路径，获取第

条连接路径通过边的个数，记为第一个数

，计算第

个节点至

个节点的第

条路径第一个数的倒数

，将第

节点至第

节点的所有路径的第一数据的倒数的累加和作为第

个节点至第

个节点的关联权重

。

获取第

个节点的信息量

，因而第

个节点的重要权重为：

其中

表示第

个节点至第

个节点的关联权重，该值越大说明两个节点的关联性越高，因而当节点

的信息损失时对第

个节点的知识学习影响越高，

表示第

个节点的信息量，该值越大说明与第

个节点关联的信息越多，因而第

个节点的信息越重要，当第

节点的信息损失时会影响越多信息的学习，

表示与第

个节点的节点对的总个数，

表示第

个节点的重要权重。

步骤103：计算压缩影响程度，根据压缩影响程度划分压缩模块。

现有的图像存储方法有基于稀疏分解压缩存储方法，例如K-SVD，但是现有的压缩方法没有结合家居知识图像的特征。本实施例中首先需将家居知识图像稀疏化表示，

算法能够将家居知识图像转化为稀疏向量，这样可以节约图像的存储空间，为了进一步节约存储空间需对稀疏向量进一步分析，将稀疏向量中一定区域内相近的元素值调整成相同元素值，这样无需存储各位置的值，只需存储一个值以及该区域的起始位置，进行稀疏向量中元素值调整时会造成信息损失，而每个元素的信息损失对家居知识图像的影响不同，因而需分析每个元素调整时的影响程度来控制稀疏向量区域划分，使得一定区域内元素调整后的影响程度在可接受的范围内。

S1：得到每个家居知识图像的稀疏向量：

将每张家居知识图像展平为向量得到家居知识图像向量，将

个家居知识图像向量作为输入，利用

算法对家居知识图像进行训练，输出一个字典矩阵

和

个稀疏向量，将第

个家居知识图像对应的家居知识图像向量记为

，将第

个稀疏向量记为

，每个家居知识图像向量对应一个稀疏向量，根据

算法可知：

，如示意图2所示，即图像经过展平后的向量是由字典矩阵和稀疏向量的乘积得到。

为了便于分析，以第

张家居知识图像的压缩方法为例进行介绍，具体步骤如下：

S2：对稀疏向量进行聚类得到多个类别序列：

为了节约计算量先对稀疏向量进行所有数据类别划分，不同类别之间的数据差值较大，同一类别的数据差值较小这样才能实现将相近的元素值调整成同一数据，而不是将差异较大元素值调整成同一数据，从而防止由于数据调整量过大，导致家居知识图像的信息损失量过大，影响家居知识图像内容信息辨识，同时还需通过将相近的数据调整成同一数据，能够实现相似特征的整合，进而将图像中的冗余特征去除，降低存储量，同时还不影响家居知识图像内容信息辨识；具体方法为：

获取稀疏向量

中第

个位置的数据

，将稀疏向量中第

个位置的位置次序记为

，根据位置次序

和数据

得到数据

的聚类标志值为：

其中

表示数据

的聚类标志值。

利用均值漂移算法对所有稀疏向量中的所有数据的聚类标志值进行聚类处理得到多个类别。

将一个稀疏向量中同一类别的数据按位置次序排列得到类别序列，那么一个稀疏向量对应多个类别序列，下面以其中某一个类别序列的压缩模块划分方式进行介绍，具体如下：

S3：设置第一序号的值为1，将类别序列中第一序号位置处的第一个数据记为起始点；

S4：根据类别序列、第一序号以及起始点得到第一压缩模块，包括：

(1)获取起始点下一个位置的点记为可能终止点。

(2)根据第一序列和起始点获得家居知识图像的压缩损失影响程度：

获取起始点至可能终止点之间的序列第一子序列，计算中第一子序列中所有数据的均值，将均值向上取整得到第一数据，将稀疏向量

中的第一子序列上的数据都替换成第一数据，

中其他位置的数据保持不变得到调整后稀疏向量

，进而得到调整后家居知识图像向量

，将调整后家居知识图像向量

还原成成家居知识图像记为第

张调整后家居知识图像。

至此本发明获得了第

张家居知识图像以及第

张调整后家居知识图像。

基于第

个节点压缩损失影响程度的实现方法来说明，具体如下：

压缩损失影响程度主要分析当家居知识图像压缩时，造成家居知识图像中各节点的字体意思辨识影响情况，当由于压缩造成家居知识图像中各节点中字体意思辨识收到较大影响时，说明压缩损失影响程度较大。

第

张调整后家居知识图像的第

节点中包含多个独立字，将第

张调整后家居知识图像的第

节点第

个独立字记为

，在第

张家居知识图像中获取第

个节点第

个独立字

对应位置的字记为第

个节点第

个独立字的无损独立字

。

在云端字体库中获取各字体图像记为标准字，将第

个节点第

个独立字的无损独立字

与各标准字进行匹配得到多个匹配值，将所有匹配值按从大到小排列得到匹配值序列，在匹配值序列中第一个位置次序的匹配值对应的标准字

和第二个位置次序的匹配值对应的标准字

，其中标准字

为无损独立字

的准确字体，标准字

为无损独立字

的易混淆字体，将标准字

的匹配值与

的匹配值的商值记为无损独立字

的识别程度

。

识别程度

越大说明该无损独立字的易混淆字体对该无损独立字的识别干扰较小，该无损独立字容易被辨识,越小说明无损独立字的易混淆字体容易干扰无损独立字的识别，该无损独立字不容易被辨识。

同理计算第

个节点第

个独立字

的识别程度

。将第

个节点第

个独立字的无损独立字的识别程度

减去第

个节点第

个独立字的识别程度得到的差值作为第

个节点第

个独立字的压缩损失影响程度。将第

个节点的所有独立字的压缩损失影响程度的累加和作为第

个节点的压缩损失影响程度

，

压缩损失影响程度

，越大说明通过稀疏向量对家居知识图像相近特征信息的整合导致该独立字的辨识能力影响较大，即损失的信息对该独立字的辨识影响较大，说明该损失信息对于独立字识别影响较大,越小说明说明通过稀疏向量对家居知识图像相近特征信息的整合导致该独立字的辨识能力影响较较小，即损失的信息对该独立字的辨识影响较小，说明该损失信息对独立字的辨识影响较小。

因而家居知识图像的压缩损失影响程度为：

其中

表示家居知识图像中第

个节点的压缩损失影响程度，

表示家居知识图像中第

个节点的重要性权重，

表示家居知识图像中包含的节点的个数，

表示家居知识图像的压缩损失影响程度。

通过压缩损失影响程度能够反映通过数据调整导致的信息丢失对知识图像辨识的影响情况，该值越大说明数据调整后导致家居知识图像丢失一些重要节点的辨识性信息，非常影响家居知识图像信息的识别和理解。

当压缩损失影响程度大于预设阈值时，将可能终止点作为起始点的终止点；当压缩损失影响程度小于预设阈值时，将可能终止点的下一个位置的点作为可能终止点，本方案中预设阈值取2。

（3）重复执行（2）直至压缩损失影响程度大于预设阈值得到终止点，或者重复执行预设数量次，本方案中预设数据取100。

S5：将类别序列中起始点与终止点之间序列划分为第一压缩模块，将第一数据作为第一压缩模块的调整数，将第一序号值加一；将类别序列中第一序号处的数据作为起始点；

S6：重复执行S4和S5，直至终止点的位置次序大于类别序列的长度，得到多个第一压缩模块。

因而通过上述过程将第

个稀疏向量划分为多个第一压缩模块。

步骤104：根据压缩模块进行压缩存储。

通过步骤103所述方法将第

个稀疏向量

划分为多个第一压缩模块。

将第

个稀疏向量

的每个第一压缩模块为一个存储单元，每个存储单元只需存储该第一压缩模块的调整数据以及该第一压缩模块在第

个稀疏向量

的起始位置和终止位置。通过将每个第一压缩模块作为一个存储单元的方式进行压缩存储能够保障压缩后的图像既不会过大的压缩损失，有效避免由于压缩造成家居知识图像识别难度增加，同时还能有效降低存储数据量，节约存储空间。

需要说明的是本实施例中利用OCR识别算法以及图像识别方法获得图像中每个节点的文字以及节点间的连接线，实现将图像转换为知识图像的功能。

综上所述，本发明实施例通过分析家居知识图像各节点的关联关系以及各节点的包含信息量得到各节点重要性权重，从而实现在进行家居知识图像压缩时，根据知识图像内节点的重要性来进行压缩损失控制，有效防止重要由于压缩损失造成知识图像识别困难。

将家居知识图像转化为稀疏向量，通过调整稀疏向量中各元素的数值将稀疏向量中邻接的相同数据量增多，从而降低稀疏向量的存储数据量，同时在对稀疏向量中各元素数据调整时考虑调整后稀疏向量对家居知识图像内信息识别影响情况得到家居知识图像调整前后的识别程度，结合知识图谱调整前后的识别程度和各节点的重要程度得到压缩损失程度，根据压缩损失程度对稀疏向量进行调整控制，从而降低家居知识图像压缩造成存储量降低的同时还能有效降低对家居知识图像重要信息识别的影响。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。