CN115438205A - 用于离线终端的知识图谱压缩存储方法 - Google Patents

用于离线终端的知识图谱压缩存储方法 Download PDF

Info

Publication number
CN115438205A
CN115438205A CN202211388080.3A CN202211388080A CN115438205A CN 115438205 A CN115438205 A CN 115438205A CN 202211388080 A CN202211388080 A CN 202211388080A CN 115438205 A CN115438205 A CN 115438205A
Authority
CN
China
Prior art keywords
node
obtaining
compression
knowledge
independent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211388080.3A
Other languages
English (en)
Other versions
CN115438205B (zh
Inventor
邱冬
张强
王耀光
朱晓卿
郑晓彬
张超
滕厚雪
金喆
洪云强
江展威
孙倩
黄智华
敬军
林意强
吴林英
邹许红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGDONG DONGGUAN QUALITY SUPERVISION TESTING CENTER
Shenzhen Pingan Integrated Financial Services Co ltd
Shenzhen Changjiang Furniture Co ltd
Original Assignee
GUANGDONG DONGGUAN QUALITY SUPERVISION TESTING CENTER
Shenzhen Pingan Integrated Financial Services Co ltd
Shenzhen Changjiang Furniture Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGDONG DONGGUAN QUALITY SUPERVISION TESTING CENTER, Shenzhen Pingan Integrated Financial Services Co ltd, Shenzhen Changjiang Furniture Co ltd filed Critical GUANGDONG DONGGUAN QUALITY SUPERVISION TESTING CENTER
Priority to CN202211388080.3A priority Critical patent/CN115438205B/zh
Publication of CN115438205A publication Critical patent/CN115438205A/zh
Application granted granted Critical
Publication of CN115438205B publication Critical patent/CN115438205B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/513Sparse representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了用于离线终端的知识图谱压缩存储方法,涉及数据处理领域。主要包括:获取家居知识图像,根据家居知识图像得到各节点的重要程度,根据家居知识图像得到稀疏向量,根据稀疏向量得到起始点和可能终止点,根据起始点、可能只知点和类别序列得到调整后稀疏向量,根据稀疏向量和调整后稀疏向量得到家居知识图像、调整后家居知识图像的识别程度,根据所述识别程度和各节点的重要程度得到可能终止点的压缩损失程度,根据可能终止点的压缩损失程度得到起始点的终止点,将起始点和终止点得到压缩模块,根据压缩模块进行压缩存储,从而实现在降低家居知识图像存储数据量的同时还能不影响对知识图像信息的识别。

Description

用于离线终端的知识图谱压缩存储方法
技术领域
本申请涉及数据处理领域,具体涉及用于离线终端的知识图谱压缩存储方法。
背景技术
随着社会经济的发展,智能家居成为生活的重要部分,智能家居相关知识成为指导智能家居生产、使用的基础,智能家居相关知识图谱是智能家居知识的结构框架,其信息对于智能家居知识学习具有引导作用,因而需对智能家居知识图谱进行相应的管理。但是由于智能家居知识图谱数据量大,并且知识图谱需要相应的软件才能打开,对知识图谱进行展示宣传时,会有很大的局限性,因而需将知识图谱转化为图像进行存储,便于知识图谱信息展示宣传。
将知识图谱转化为图像进行压缩存储时需要考虑到知识图谱中每个节点的信息重要性不同,有些节点会与大量的节点存在关联关系,例如中心节点,从该节点会引发出很多支节点,当这个节点中的信息损失会造成影响与其关联的信息的识别应用,而有些节点为支节点,从该节点不会引发支节点,当这个节点的信息损失时仅仅造成本节点的信息损失,不太会影响其他节点信息的识别应用。因而需分析每个节点的关联信息情况来计算每个节点的重要权重。同时节点信息是通过节点上的字体来反应,而字体本身的区分性不同,例如有些字体本身区分性较大,当该字体的部分信息损失时不会造成该字体与其他字体混淆,影响字体含义辨识,而有些字体本身区分性较小,当该字体的部分信息丢失时,很容易该字体与其他字体混淆,无法辨识出该字体承载的信息,因而需分析在压缩时,信息损失造成的信息影响情况来进行压缩调整,从而实现降低存储量同时尽可能的保障不影响知识图谱信息的识别应用。
发明内容
针对上述技术问题,本发明实施例提供了用于离线终端的知识图谱压缩存储方法,所采用的技术方法具体如下:
本发明实施例提出了用于离线终端的知识图谱压缩存储方法,包括:
获取家居知识图谱以及家居知识图像,每张家居知识图像的每个节点包含多个独立字;根据每个节点的所有关联节点得到每个节点的重要性权重;获得每个家居知识图像的稀疏向量以及每个稀疏向量的多个类别序列;
设置第一序号的值为1,对于稀疏向量的一个类别序列,将类别序列中第一序号位置处的第一个数据记为起始点;
根据类别序列以及起始点得到第一压缩模块,包括:
根据起始点和类别序列得到起始点的可能终止点,获取类别序列中起始点至可能终止点之间的序列记为第一子序列,根据第一子序列得到调整后家居知识图像,根据调整后家居知识图像得到每个独立字、无损独立字的识别程度,根据每个节点的重要性权重和每个独立字、无损独立字的区分程度得到可能终止点的压缩损失影响程度,根据压缩损失影响程度进行终止点判定得到终止点;将类别序列中起始点与终止点之间序列划分为第一压缩模块,将第一子序列的第一数据作为第一压缩模块的调整数,将第一序号值加一;将类别序列中第一序号处的数据作为起始点;
重复执行根据类别序列以及起始点得到第一压缩模块操作,直至第一序号大于类别序列的长度时停止,得到每个类别序列的多个第一压缩模块;
所有的类别序列的多个第一压缩模块构成第一压缩模块集合;根据第一压缩模块集合进行压缩得到压缩后稀疏向量并进行存储。
优选的,所述根据每个节点的所有关联节点得到每个节点的重要性权重的方法,包括:
将每个节点记为第一节点,将第一节点的关联节点记为第二节点,将第一节点与第二节点构成一个节点对,获取第一节点至第二节点之间的所有的连接路径,获取每条连接路径通过边的个数记为每条连接路径的第一个数,计算每条路径的第一个数的倒数记为每条路径的第一倒数,计算第一节点至第二节点所有路径的第一倒数的累加和作为第一节点与第二节点的关联权重,即每个节点对的关联权重;
将每个节点包含字符的个数作为每个节点的信息量,根据每个节点的信息量和每个节点对的关联权重得到每个节点的重要性权重。
优选的,所述根据每个节点的所有关联节点得到每个节点的重要性权重的公式为:
Figure 640087DEST_PATH_IMAGE002
其中
Figure 100002_DEST_PATH_IMAGE003
表示第
Figure 100002_DEST_PATH_IMAGE005
节点与第
Figure 100002_DEST_PATH_IMAGE007
个节点构成的节点对的关联权重,
Figure 372551DEST_PATH_IMAGE008
表示第
Figure 535679DEST_PATH_IMAGE007
个节点的信息量,
Figure 100002_DEST_PATH_IMAGE009
表示第
Figure 859344DEST_PATH_IMAGE005
节点的节点对的总个数,
Figure 373502DEST_PATH_IMAGE010
表示第
Figure DEST_PATH_IMAGE011
个节点的重要性权重,即每个节点的重要性权重。
优选的,所述根据第一子序列得到调整后家居知识图像的方法,包括:
获取第一子序列所属的稀疏向量记为第一稀疏向量,计算第一子序列中所有数据的均值,将均值向上取整得到第一数据,将第一稀疏向量中的第一子序列上的数据替换成第一数据且其他位置的数据保持不变得到调整后稀疏向量,根据调整后稀疏向量得到调整后家居知识图像。
优选的,所述根据调整后家居知识图像得到每个独立字、无损独立字的识别程度的方法,包括:
获取调整后家居知识图像的各节点的多个独立字,将调整后家居知识图谱任一节点记为研究节点,将研究节点中任一独立字记为研究独立字,在对应的家居知识图像中获取研究独立字对应位置的字记为研究独立字的无损独立字;
获取标准字集合,所述标准字集合中包含多个标准字,将所述无损独立字与各标准字进行匹配得到多个匹配值,将所有匹配值按从大到小排列得到匹配值序列,在匹配值序列中获取第一个位置次序的匹配值对应的标准字和第二个位置次序的匹配值对应的标准字分别记为无损独立字的第一标准字和第二标准字,将所述第一标准字的匹配值与的匹配值的商值记为所述无损独立字的识别程度;
同理计算研究独立字的识别程度,即每个独立字的识别程度。
优选的,所述根据每个节点的重要性权重和每个独立字、无损独立字的区分程度得到可能终止点的压缩损失影响程度的方法,包括:
将每个独立字的无损独立字的识别程度减去独立字的识别程度得到的差值作为每个独立字的压缩损失影响程度,所有独立字的压缩损失影响程度的累加和各节点的压缩损失影响程度,根据各节点的压缩损失影响程度和各节点的重要性权重得到家居知识图谱的压缩损失影响程度的计算公式为:
Figure 100002_DEST_PATH_IMAGE013
其中
Figure 166447DEST_PATH_IMAGE014
表示家居知识图谱中第
Figure 980819DEST_PATH_IMAGE016
个节点的压缩损失影响程度,
Figure 100002_DEST_PATH_IMAGE017
表示家居知识图谱中第
Figure 6544DEST_PATH_IMAGE016
个节点的重要性权重,
Figure 742419DEST_PATH_IMAGE018
表示家居知识图谱中包含的节点的个数,
Figure DEST_PATH_IMAGE019
表示家居知识图谱的压缩损失影响程度。
本发明实施例提供了用于离线终端的知识图谱压缩存储方法,相比于现有技术,本发明实施例的有益效果在于:
通过分析家居知识图谱各节点的关联关系以及各节点的包含信息量得到各节点重要性权重,从而实现在进行家居知识图谱压缩时,根据知识图谱内节点的重要性来进行压缩损失控制,有效防止重要由于压缩损失造成知识图谱识别困难。
将家居知识图谱转化为稀疏向量,通过调整稀疏向量中各元素的数值将稀疏向量中邻接的相同数据量增多,从而降低稀疏向量的存储数据量,同时在对稀疏向量中各元素数据调整时考虑调整后稀疏向量对家居知识图谱内信息识别影响情况得到家居知识图谱调整前后的识别程度,结合知识图谱调整前后的识别程度和各节点的重要程度得到压缩损失程度,根据压缩损失程度对稀疏向量进行调整控制,从而降低家居知识图谱压缩造成存储量降低的同时还能有效避免对家居知识图谱信息识别的影响。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的用于离线终端的知识图谱压缩存储方法的系统框图;
图2是本发明实施例提供的K-SVD算法示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征;在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
请参阅图1,其示出了本发明一个实施例提供的用于离线终端的知识图谱压缩存储方法流程图,包括:
步骤101:采集数据得到家居知识图谱。
采集数据得到
Figure 613423DEST_PATH_IMAGE020
张家居知识图谱,家居知识图谱一种无向图,该无向图中包含很多节点和连接边;
家居知识图谱中包含家居产品的生产工艺相关信息,家居知识图谱中每个节点为一个加工工位,每个节点上会显示该工位的文字操作规范,即每个节点是一个文本数据,节点之间的连接边为工位之间关联性,即工位之间材料供应关系。
将每个家居知识图谱转化为图像格式得到家居知识图像,例如现有的ColPalRed、HistCite等软件可将知识图谱保存为图像格式。
需要说明的是本实施例将所有的家居知识图像保存成大小为2048×2048的高清图像。为了解释存储空间需要利用本发明实施例对所有的家居知识图像进行高效的压缩。
步骤102:根据每个节点关联信息信息量得到每个节点的重要权重。
对于一个家居知识图像,每个节点重要性不同,有些节点为中心节点,即与该节点连接了很多关联节点,该节点的信息损失时会影响较多关联节点的知识学习,而有些节点为支节点,即与该节点连接较少的关联节点,该节点的信息损失时,只会影响较少的关联节点的知识学习。
将一个节点上的每个字符记为一个独立字,且具有一个信息量。
获取第
Figure 436629DEST_PATH_IMAGE011
个节点的所有的关联节点,所述第
Figure 164414DEST_PATH_IMAGE011
个节点的关联节点是指与第
Figure 122005DEST_PATH_IMAGE011
个节点存在直接或间接连接关系的节点。将第
Figure 593438DEST_PATH_IMAGE011
个节点与该节点的任意一个关联节点构成节点对,得到第
Figure 585665DEST_PATH_IMAGE011
个节点的多个节点对,需要说明的是第
Figure 218771DEST_PATH_IMAGE011
个节点与自身节点一个节点对,该节点对属于第
Figure 663659DEST_PATH_IMAGE011
个节点的多个节点对的其中一个节点对。
其中第
Figure 673203DEST_PATH_IMAGE011
节点与自身节点构成的节点对的关联权重以及信息量的确定方法为:第
Figure 519937DEST_PATH_IMAGE011
节点包含第
Figure 386262DEST_PATH_IMAGE011
个工位的文字操作规范,获取某张知识图像中第
Figure 521708DEST_PATH_IMAGE011
个节点包含的字符个数记为第
Figure 131681DEST_PATH_IMAGE011
个节点的信息量值
Figure DEST_PATH_IMAGE021
,将第
Figure 567341DEST_PATH_IMAGE011
个节点与自身节点的关联权重设置为
Figure 542251DEST_PATH_IMAGE022
,本方案
Figure DEST_PATH_IMAGE023
取0.1。
由于两个节点之间不止存在一种连接路径,每个连接路径的连接线的个数不尽相同,其中连接线的个数越少,说明这两个节点之间的连接关系越紧密,例如两个节点之间存在一条连接线路,这条连接线路上两个节点利用一个连接边进行连接,此时说明这两个节点之间存在直接关联,而不是需要其他节点搭桥才能实现两个节点的关联,因而通过分析两个节点的所有连接线路,以及每条连接线路的连接的紧密型来分析两个节点之间的关联关系。
假设第
Figure 433502DEST_PATH_IMAGE011
节点的某一节点对中包含第
Figure 784849DEST_PATH_IMAGE011
和第
Figure 606174DEST_PATH_IMAGE024
个节点,计算第
Figure 751985DEST_PATH_IMAGE011
个节点与第
Figure 658761DEST_PATH_IMAGE024
个节点的关联权重:获取第
Figure 610536DEST_PATH_IMAGE011
个节点至第
Figure 286368DEST_PATH_IMAGE024
个节点所有的连接路径,获取第
Figure DEST_PATH_IMAGE025
条连接路径通过边的个数,记为第一个数
Figure 71922DEST_PATH_IMAGE026
,计算第
Figure 465994DEST_PATH_IMAGE011
个节点至
Figure 159143DEST_PATH_IMAGE024
个节点的第
Figure 955061DEST_PATH_IMAGE025
条路径第一个数的倒数
Figure DEST_PATH_IMAGE027
,将第
Figure 177095DEST_PATH_IMAGE011
节点至第
Figure 589622DEST_PATH_IMAGE024
节点的所有路径的第一数据的倒数的累加和作为第
Figure 86462DEST_PATH_IMAGE011
个节点至第
Figure 406061DEST_PATH_IMAGE024
个节点的关联权重
Figure 330154DEST_PATH_IMAGE028
获取第
Figure 698819DEST_PATH_IMAGE024
个节点的信息量
Figure 733771DEST_PATH_IMAGE008
,因而第
Figure 35439DEST_PATH_IMAGE011
个节点的重要权重为:
Figure 130434DEST_PATH_IMAGE002
其中
Figure 720815DEST_PATH_IMAGE003
表示第
Figure 559458DEST_PATH_IMAGE005
个节点至第
Figure 184475DEST_PATH_IMAGE007
个节点的关联权重,该值越大说明两个节点的关联性越高,因而当节点
Figure 450371DEST_PATH_IMAGE005
的信息损失时对第
Figure 528049DEST_PATH_IMAGE024
个节点的知识学习影响越高,
Figure 904803DEST_PATH_IMAGE008
表示第
Figure 384326DEST_PATH_IMAGE024
个节点的信息量,该值越大说明与第
Figure 821124DEST_PATH_IMAGE011
个节点关联的信息越多,因而第
Figure 386097DEST_PATH_IMAGE011
个节点的信息越重要,当第
Figure 566543DEST_PATH_IMAGE011
节点的信息损失时会影响越多信息的学习,
Figure 166151DEST_PATH_IMAGE009
表示与第
Figure 741944DEST_PATH_IMAGE011
个节点的节点对的总个数,
Figure 325372DEST_PATH_IMAGE010
表示第
Figure 309509DEST_PATH_IMAGE011
个节点的重要权重。
步骤103:计算压缩影响程度,根据压缩影响程度划分压缩模块。
现有的图像存储方法有基于稀疏分解压缩存储方法,例如K-SVD,但是现有的压缩方法没有结合家居知识图像的特征。本实施例中首先需将家居知识图像稀疏化表示,
Figure DEST_PATH_IMAGE029
算法能够将家居知识图像转化为稀疏向量,这样可以节约图像的存储空间,为了进一步节约存储空间需对稀疏向量进一步分析,将稀疏向量中一定区域内相近的元素值调整成相同元素值,这样无需存储各位置的值,只需存储一个值以及该区域的起始位置,进行稀疏向量中元素值调整时会造成信息损失,而每个元素的信息损失对家居知识图像的影响不同,因而需分析每个元素调整时的影响程度来控制稀疏向量区域划分,使得一定区域内元素调整后的影响程度在可接受的范围内。
S1:得到每个家居知识图像的稀疏向量:
将每张家居知识图像展平为向量得到家居知识图像向量,将
Figure 435728DEST_PATH_IMAGE030
个家居知识图像向量作为输入,利用
Figure 214328DEST_PATH_IMAGE029
算法对家居知识图像进行训练,输出一个字典矩阵
Figure DEST_PATH_IMAGE031
Figure 957156DEST_PATH_IMAGE030
个稀疏向量,将第
Figure 744983DEST_PATH_IMAGE032
个家居知识图像对应的家居知识图像向量记为
Figure DEST_PATH_IMAGE033
,将第
Figure 256867DEST_PATH_IMAGE032
个稀疏向量记为
Figure 206369DEST_PATH_IMAGE034
,每个家居知识图像向量对应一个稀疏向量,根据
Figure 121979DEST_PATH_IMAGE029
算法可知:
Figure DEST_PATH_IMAGE035
,如示意图2所示,即图像经过展平后的向量是由字典矩阵和稀疏向量的乘积得到。
为了便于分析,以第
Figure 651180DEST_PATH_IMAGE032
张家居知识图像的压缩方法为例进行介绍,具体步骤如下:
S2:对稀疏向量进行聚类得到多个类别序列:
为了节约计算量先对稀疏向量进行所有数据类别划分,不同类别之间的数据差值较大,同一类别的数据差值较小这样才能实现将相近的元素值调整成同一数据,而不是将差异较大元素值调整成同一数据,从而防止由于数据调整量过大,导致家居知识图像的信息损失量过大,影响家居知识图像内容信息辨识,同时还需通过将相近的数据调整成同一数据,能够实现相似特征的整合,进而将图像中的冗余特征去除,降低存储量,同时还不影响家居知识图像内容信息辨识;具体方法为:
获取稀疏向量
Figure 79888DEST_PATH_IMAGE034
中第
Figure 934711DEST_PATH_IMAGE036
个位置的数据
Figure DEST_PATH_IMAGE037
,将稀疏向量中第
Figure 343477DEST_PATH_IMAGE036
个位置的位置次序记为
Figure 207527DEST_PATH_IMAGE036
,根据位置次序
Figure 490741DEST_PATH_IMAGE036
和数据
Figure 982378DEST_PATH_IMAGE037
得到数据
Figure 921515DEST_PATH_IMAGE037
的聚类标志值为:
Figure DEST_PATH_IMAGE039
其中
Figure 792519DEST_PATH_IMAGE040
表示数据
Figure 930239DEST_PATH_IMAGE037
的聚类标志值。
利用均值漂移算法对所有稀疏向量中的所有数据的聚类标志值进行聚类处理得到多个类别。
将一个稀疏向量中同一类别的数据按位置次序排列得到类别序列,那么一个稀疏向量对应多个类别序列,下面以其中某一个类别序列的压缩模块划分方式进行介绍,具体如下:
S3:设置第一序号的值为1,将类别序列中第一序号位置处的第一个数据记为起始点;
S4:根据类别序列、第一序号以及起始点得到第一压缩模块,包括:
(1)获取起始点下一个位置的点记为可能终止点。
(2)根据第一序列和起始点获得家居知识图像的压缩损失影响程度:
获取起始点至可能终止点之间的序列第一子序列,计算中第一子序列中所有数据的均值,将均值向上取整得到第一数据,将稀疏向量
Figure 392445DEST_PATH_IMAGE034
中的第一子序列上的数据都替换成第一数据,
Figure 615616DEST_PATH_IMAGE034
中其他位置的数据保持不变得到调整后稀疏向量
Figure DEST_PATH_IMAGE041
,进而得到调整后家居知识图像向量
Figure 32254DEST_PATH_IMAGE042
,将调整后家居知识图像向量
Figure DEST_PATH_IMAGE043
还原成成家居知识图像记为第
Figure 493322DEST_PATH_IMAGE032
张调整后家居知识图像。
至此本发明获得了第
Figure 126429DEST_PATH_IMAGE032
张家居知识图像以及第
Figure 446683DEST_PATH_IMAGE032
张调整后家居知识图像。
基于第
Figure 190648DEST_PATH_IMAGE016
个节点压缩损失影响程度的实现方法来说明,具体如下:
压缩损失影响程度主要分析当家居知识图像压缩时,造成家居知识图像中各节点的字体意思辨识影响情况,当由于压缩造成家居知识图像中各节点中字体意思辨识收到较大影响时,说明压缩损失影响程度较大。
Figure 302961DEST_PATH_IMAGE032
张调整后家居知识图像的第
Figure 510563DEST_PATH_IMAGE016
节点中包含多个独立字,将第
Figure 239485DEST_PATH_IMAGE032
张调整后家居知识图像的第
Figure 255983DEST_PATH_IMAGE016
节点第
Figure 753960DEST_PATH_IMAGE036
个独立字记为
Figure 994449DEST_PATH_IMAGE044
,在第
Figure 413929DEST_PATH_IMAGE032
张家居知识图像中获取第
Figure 765275DEST_PATH_IMAGE016
个节点第
Figure 586601DEST_PATH_IMAGE036
个独立字
Figure 997991DEST_PATH_IMAGE044
对应位置的字记为第
Figure 904767DEST_PATH_IMAGE016
个节点第
Figure 79046DEST_PATH_IMAGE036
个独立字的无损独立字
Figure DEST_PATH_IMAGE045
在云端字体库中获取各字体图像记为标准字,将第
Figure 20457DEST_PATH_IMAGE016
个节点第
Figure 602748DEST_PATH_IMAGE036
个独立字的无损独立字
Figure 996821DEST_PATH_IMAGE045
与各标准字进行匹配得到多个匹配值,将所有匹配值按从大到小排列得到匹配值序列,在匹配值序列中第一个位置次序的匹配值对应的标准字
Figure 689970DEST_PATH_IMAGE046
和第二个位置次序的匹配值对应的标准字
Figure DEST_PATH_IMAGE047
,其中标准字
Figure 954729DEST_PATH_IMAGE046
为无损独立字
Figure 442342DEST_PATH_IMAGE045
的准确字体,标准字
Figure 323711DEST_PATH_IMAGE047
为无损独立字
Figure 820551DEST_PATH_IMAGE045
的易混淆字体,将标准字
Figure 470975DEST_PATH_IMAGE046
的匹配值与
Figure 395069DEST_PATH_IMAGE047
的匹配值的商值记为无损独立字
Figure 498154DEST_PATH_IMAGE045
的识别程度
Figure 533106DEST_PATH_IMAGE048
识别程度
Figure 38037DEST_PATH_IMAGE048
越大说明该无损独立字的易混淆字体对该无损独立字的识别干扰较小,该无损独立字容易被辨识,越小说明无损独立字的易混淆字体容易干扰无损独立字的识别,该无损独立字不容易被辨识。
同理计算第
Figure 395682DEST_PATH_IMAGE016
个节点第
Figure 986063DEST_PATH_IMAGE036
个独立字
Figure 824706DEST_PATH_IMAGE044
的识别程度
Figure DEST_PATH_IMAGE049
。将第
Figure 652985DEST_PATH_IMAGE016
个节点第
Figure 918881DEST_PATH_IMAGE036
个独立字的无损独立字的识别程度
Figure 996558DEST_PATH_IMAGE048
减去第
Figure 186362DEST_PATH_IMAGE016
个节点第
Figure 665885DEST_PATH_IMAGE036
个独立字的识别程度得到的差值作为第
Figure 102683DEST_PATH_IMAGE016
个节点第
Figure 682305DEST_PATH_IMAGE036
个独立字的压缩损失影响程度。将第
Figure 862750DEST_PATH_IMAGE016
个节点的所有独立字的压缩损失影响程度的累加和作为第
Figure 806567DEST_PATH_IMAGE016
个节点的压缩损失影响程度
Figure 414266DEST_PATH_IMAGE050
压缩损失影响程度
Figure 466535DEST_PATH_IMAGE050
,越大说明通过稀疏向量对家居知识图像相近特征信息的整合导致该独立字的辨识能力影响较大,即损失的信息对该独立字的辨识影响较大,说明该损失信息对于独立字识别影响较大,越小说明说明通过稀疏向量对家居知识图像相近特征信息的整合导致该独立字的辨识能力影响较较小,即损失的信息对该独立字的辨识影响较小,说明该损失信息对独立字的辨识影响较小。
因而家居知识图像的压缩损失影响程度为:
Figure 450672DEST_PATH_IMAGE013
其中
Figure 45732DEST_PATH_IMAGE014
表示家居知识图像中第
Figure 24665DEST_PATH_IMAGE016
个节点的压缩损失影响程度,
Figure 564231DEST_PATH_IMAGE017
表示家居知识图像中第
Figure 86479DEST_PATH_IMAGE016
个节点的重要性权重,
Figure 660680DEST_PATH_IMAGE018
表示家居知识图像中包含的节点的个数,
Figure 829755DEST_PATH_IMAGE019
表示家居知识图像的压缩损失影响程度。
通过压缩损失影响程度能够反映通过数据调整导致的信息丢失对知识图像辨识的影响情况,该值越大说明数据调整后导致家居知识图像丢失一些重要节点的辨识性信息,非常影响家居知识图像信息的识别和理解。
当压缩损失影响程度大于预设阈值时,将可能终止点作为起始点的终止点;当压缩损失影响程度小于预设阈值时,将可能终止点的下一个位置的点作为可能终止点,本方案中预设阈值取2。
(3)重复执行(2)直至压缩损失影响程度大于预设阈值得到终止点,或者重复执行预设数量次,本方案中预设数据取100。
S5:将类别序列中起始点与终止点之间序列划分为第一压缩模块,将第一数据作为第一压缩模块的调整数,将第一序号值加一;将类别序列中第一序号处的数据作为起始点;
S6:重复执行S4和S5,直至终止点的位置次序大于类别序列的长度,得到多个第一压缩模块。
因而通过上述过程将第
Figure 856617DEST_PATH_IMAGE032
个稀疏向量划分为多个第一压缩模块。
步骤104:根据压缩模块进行压缩存储。
通过步骤103所述方法将第
Figure 123169DEST_PATH_IMAGE032
个稀疏向量
Figure 286297DEST_PATH_IMAGE034
划分为多个第一压缩模块。
将第
Figure DEST_PATH_IMAGE051
个稀疏向量
Figure 141121DEST_PATH_IMAGE052
的每个第一压缩模块为一个存储单元,每个存储单元只需存储该第一压缩模块的调整数据以及该第一压缩模块在第
Figure 124120DEST_PATH_IMAGE051
个稀疏向量
Figure 191433DEST_PATH_IMAGE052
的起始位置和终止位置。通过将每个第一压缩模块作为一个存储单元的方式进行压缩存储能够保障压缩后的图像既不会过大的压缩损失,有效避免由于压缩造成家居知识图像识别难度增加,同时还能有效降低存储数据量,节约存储空间。
需要说明的是本实施例中利用OCR识别算法以及图像识别方法获得图像中每个节点的文字以及节点间的连接线,实现将图像转换为知识图像的功能。
综上所述,本发明实施例通过分析家居知识图像各节点的关联关系以及各节点的包含信息量得到各节点重要性权重,从而实现在进行家居知识图像压缩时,根据知识图像内节点的重要性来进行压缩损失控制,有效防止重要由于压缩损失造成知识图像识别困难。
将家居知识图像转化为稀疏向量,通过调整稀疏向量中各元素的数值将稀疏向量中邻接的相同数据量增多,从而降低稀疏向量的存储数据量,同时在对稀疏向量中各元素数据调整时考虑调整后稀疏向量对家居知识图像内信息识别影响情况得到家居知识图像调整前后的识别程度,结合知识图谱调整前后的识别程度和各节点的重要程度得到压缩损失程度,根据压缩损失程度对稀疏向量进行调整控制,从而降低家居知识图像压缩造成存储量降低的同时还能有效降低对家居知识图像重要信息识别的影响。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.用于离线终端的知识图谱压缩存储方法,其特征在于,包括:
获取家居知识图谱以及家居知识图像,每张家居知识图像的每个节点包含多个独立字;根据每个节点的所有关联节点得到每个节点的重要性权重;获得每个家居知识图像的稀疏向量以及每个稀疏向量的多个类别序列;
设置第一序号的值为1,对于稀疏向量的一个类别序列,将类别序列中第一序号位置处的第一个数据记为起始点;
根据类别序列以及起始点得到第一压缩模块,包括:
根据起始点和类别序列得到起始点的可能终止点,获取类别序列中起始点至可能终止点之间的序列记为第一子序列,根据第一子序列得到调整后家居知识图像,根据调整后家居知识图像得到每个独立字、无损独立字的识别程度,根据每个节点的重要性权重和每个独立字、无损独立字的区分程度得到可能终止点的压缩损失影响程度,根据压缩损失影响程度进行终止点判定得到终止点;将类别序列中起始点与终止点之间序列划分为第一压缩模块,将第一子序列的第一数据作为第一压缩模块的调整数,将第一序号值加一;将类别序列中第一序号处的数据作为起始点;
重复执行根据类别序列以及起始点得到第一压缩模块操作,直至第一序号大于类别序列的长度时停止,得到每个类别序列的多个第一压缩模块;
所有的类别序列的多个第一压缩模块构成第一压缩模块集合;根据第一压缩模块集合进行压缩得到压缩后稀疏向量并进行存储。
2.根据权利要求1所述的用于离线终端的知识图谱压缩存储方法,其特征在于,所述根据每个节点的所有关联节点得到每个节点的重要性权重的方法,包括:
将每个节点记为第一节点,将第一节点的关联节点记为第二节点,将第一节点与第二节点构成一个节点对,获取第一节点至第二节点之间的所有的连接路径,获取每条连接路径通过边的个数记为每条连接路径的第一个数,计算每条路径的第一个数的倒数记为每条路径的第一倒数,计算第一节点至第二节点所有路径的第一倒数的累加和作为第一节点与第二节点的关联权重,即每个节点对的关联权重;
将每个节点包含字符的个数作为每个节点的信息量,根据每个节点的信息量和每个节点对的关联权重得到每个节点的重要性权重。
3.根据权利要求2所述的用于离线终端的知识图谱压缩存储方法,其特征在于,所述根据每个节点的所有关联节点得到每个节点的重要性权重的公式为:
Figure 452674DEST_PATH_IMAGE002
其中
Figure DEST_PATH_IMAGE003
表示第
Figure DEST_PATH_IMAGE005
节点与第
Figure DEST_PATH_IMAGE007
个节点构成的节点对的关联权重,
Figure 294378DEST_PATH_IMAGE008
表示第
Figure 905619DEST_PATH_IMAGE007
个节点的信息量,
Figure DEST_PATH_IMAGE009
表示第
Figure 183148DEST_PATH_IMAGE005
节点的节点对的总个数,
Figure 789710DEST_PATH_IMAGE010
表示第
Figure 986336DEST_PATH_IMAGE005
个节点的重要性权重,即每个节点的重要性权重。
4.根据权利要求1所述的用于离线终端的知识图谱压缩存储方法,其特征在于,所述根据第一子序列得到调整后家居知识图像的方法,包括:
获取第一子序列所属的稀疏向量记为第一稀疏向量,计算第一子序列中所有数据的均值,将均值向上取整得到第一数据,将第一稀疏向量中的第一子序列上的数据替换成第一数据且其他位置的数据保持不变得到调整后稀疏向量,根据调整后稀疏向量得到调整后家居知识图像。
5.根据权利要求1所述的用于离线终端的知识图谱压缩存储方法,其特征在于,所述根据调整后家居知识图像得到每个独立字、无损独立字的识别程度的方法,包括:
获取调整后家居知识图像的各节点的多个独立字,将调整后家居知识图谱任一节点记为研究节点,将研究节点中任一独立字记为研究独立字,在对应的家居知识图像中获取研究独立字对应位置的字记为研究独立字的无损独立字;
获取标准字集合,所述标准字集合中包含多个标准字,将所述无损独立字与各标准字进行匹配得到多个匹配值,将所有匹配值按从大到小排列得到匹配值序列,在匹配值序列中获取第一个位置次序的匹配值对应的标准字和第二个位置次序的匹配值对应的标准字分别记为无损独立字的第一标准字和第二标准字,将所述第一标准字的匹配值与的匹配值的商值记为所述无损独立字的识别程度;
同理计算研究独立字的识别程度,即每个独立字的识别程度。
6.根据权利要求1所述的用于离线终端的知识图谱压缩存储方法,其特征在于,所述根据每个节点的重要性权重和每个独立字、无损独立字的区分程度得到可能终止点的压缩损失影响程度的方法,包括:
将每个独立字的无损独立字的识别程度减去独立字的识别程度得到的差值作为每个独立字的压缩损失影响程度,所有独立字的压缩损失影响程度的累加和各节点的压缩损失影响程度,根据各节点的压缩损失影响程度和各节点的重要性权重得到家居知识图谱的压缩损失影响程度的计算公式为:
Figure 144260DEST_PATH_IMAGE012
其中
Figure DEST_PATH_IMAGE013
表示家居知识图谱中第
Figure 350114DEST_PATH_IMAGE014
个节点的压缩损失影响程度,
Figure DEST_PATH_IMAGE015
表示家居知识图谱中第
Figure 483286DEST_PATH_IMAGE014
个节点的重要性权重,
Figure 585234DEST_PATH_IMAGE016
表示家居知识图谱中包含的节点的个数,
Figure DEST_PATH_IMAGE017
表示家居知识图谱的压缩损失影响程度。
CN202211388080.3A 2022-11-08 2022-11-08 用于离线终端的知识图谱压缩存储方法 Active CN115438205B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211388080.3A CN115438205B (zh) 2022-11-08 2022-11-08 用于离线终端的知识图谱压缩存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211388080.3A CN115438205B (zh) 2022-11-08 2022-11-08 用于离线终端的知识图谱压缩存储方法

Publications (2)

Publication Number Publication Date
CN115438205A true CN115438205A (zh) 2022-12-06
CN115438205B CN115438205B (zh) 2023-01-13

Family

ID=84253022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211388080.3A Active CN115438205B (zh) 2022-11-08 2022-11-08 用于离线终端的知识图谱压缩存储方法

Country Status (1)

Country Link
CN (1) CN115438205B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190044535A1 (en) * 2018-09-28 2019-02-07 Intel Corporation Systems and methods for compressing parameters of learned parameter systems
US20190095806A1 (en) * 2017-09-28 2019-03-28 Siemens Aktiengesellschaft SGCNN: Structural Graph Convolutional Neural Network
CN110719106A (zh) * 2019-09-27 2020-01-21 华中科技大学 一种基于节点分类排序的社交网络图压缩方法及系统
CN111400410A (zh) * 2020-02-28 2020-07-10 湖南大学 知识图谱的查询方法、装置、计算机设备和存储介质
CN113420233A (zh) * 2021-06-23 2021-09-21 新疆大学 协同知识感知增强网络推荐方法
CN113987196A (zh) * 2021-09-29 2022-01-28 浙江大学 一种基于知识图谱蒸馏的知识图谱嵌入压缩方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190095806A1 (en) * 2017-09-28 2019-03-28 Siemens Aktiengesellschaft SGCNN: Structural Graph Convolutional Neural Network
US20190044535A1 (en) * 2018-09-28 2019-02-07 Intel Corporation Systems and methods for compressing parameters of learned parameter systems
CN110719106A (zh) * 2019-09-27 2020-01-21 华中科技大学 一种基于节点分类排序的社交网络图压缩方法及系统
CN111400410A (zh) * 2020-02-28 2020-07-10 湖南大学 知识图谱的查询方法、装置、计算机设备和存储介质
CN113420233A (zh) * 2021-06-23 2021-09-21 新疆大学 协同知识感知增强网络推荐方法
CN113987196A (zh) * 2021-09-29 2022-01-28 浙江大学 一种基于知识图谱蒸馏的知识图谱嵌入压缩方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘松灵: "《基于度量学习的轨迹聚类研究》", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
蔡红: "基于稀疏表示的SAR图像压缩方法研究", 《计算机工程与应用》 *
邵豪等: "基于压缩感知的无线通信网拓扑推断方法", 《探测与控制学报》 *

Also Published As

Publication number Publication date
CN115438205B (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
CN109146892B (zh) 一种基于美学的图像裁剪方法及装置
CN107123122B (zh) 无参考图像质量评价方法及装置
CN111209910A (zh) 用于语义分割的系统、方法和非暂时性计算机可读介质
CN111126514A (zh) 图像多标签分类方法、装置、设备及介质
CN111488985A (zh) 深度神经网络模型压缩训练方法、装置、设备、介质
CN111428557A (zh) 基于神经网络模型的手写签名的自动校验的方法和装置
CN114241505B (zh) 化学结构图像的提取方法、装置、存储介质及电子设备
CN113066065B (zh) 无参考图像质量检测方法、系统、终端及介质
CN111814821A (zh) 深度学习模型的建立方法、样本处理方法及装置
CN110796182A (zh) 一种少量样本的票据分类方法及系统
CN109886317B (zh) 基于注意力机制的通用图像美学评估方法、系统及设备
CN115438205B (zh) 用于离线终端的知识图谱压缩存储方法
CN115131803A (zh) 文档字号的识别方法、装置、计算机设备和存储介质
CN112256881B (zh) 用户信息分类方法及装置
CN115620083B (zh) 模型训练方法、人脸图像质量评价方法、设备及介质
CN111291754B (zh) 一种文本级联检测方法、装置及存储介质
CN113052236A (zh) 一种基于NASNet的肺炎图像分类方法
CN110866143B (zh) 一种音频场景分类方法及系统
CN117235565A (zh) 一种变压器故障诊断模型构建方法和装置
CN111612732A (zh) 图像质量评估方法、装置、计算机设备及存储介质
CN114842425B (zh) 用于石油化工工艺的异常行为识别方法及电子设备
CN114387524B (zh) 基于多层级二阶表征的小样本学习的图像识别方法和系统
US11900589B2 (en) Detection device of display panel and detection method thereof, electronic device and readable medium
CN113723367B (zh) 一种答案确定方法、判题方法及装置和电子设备
CN113378866B (zh) 图像分类方法、系统、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant