CN110781313A - 一种图存储优化方法、装置和电子设备 - Google Patents

一种图存储优化方法、装置和电子设备 Download PDF

Info

Publication number
CN110781313A
CN110781313A CN201910930670.6A CN201910930670A CN110781313A CN 110781313 A CN110781313 A CN 110781313A CN 201910930670 A CN201910930670 A CN 201910930670A CN 110781313 A CN110781313 A CN 110781313A
Authority
CN
China
Prior art keywords
degree
folding
nodes
knowledge graph
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910930670.6A
Other languages
English (en)
Inventor
黄建庭
宋荣鑫
周鹏
孔海明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qiyu Information Technology Co Ltd
Original Assignee
Beijing Qiyu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qiyu Information Technology Co Ltd filed Critical Beijing Qiyu Information Technology Co Ltd
Priority to CN201910930670.6A priority Critical patent/CN110781313A/zh
Publication of CN110781313A publication Critical patent/CN110781313A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种图存储优化方法、装置、电子设备及计算机可读介质,包括:获取用户信息构建知识图谱,所述知识图谱包括表示实体或概念的节点和表示关系的边;设立折叠规则以选取所述知识图谱中节点作为折叠节点;识别所述折叠节点的一度关联节点;建立同一所述折叠节点的所述一度关联节点两两之间一度扩边关系;基于所述一度扩边关系优化所述知识图谱结构进行存储。本发明能够通过在折叠节点的一度关联节点之间建立直连关系以优化知识图谱结构,减少进行知识图谱查询的计算量。

Description

一种图存储优化方法、装置和电子设备
技术领域
本发明涉及计算机信息处理领域,具体而言,涉及一种图存储优化方法、装置、电子设备及计算机可读介质。
背景技术
在基于大数据的金融反欺诈场景中,通过知识图谱获取用户的真实信息、深度特征,能够对用户注册的虚假信息进行校验。因此,在反欺诈场景中,知识图谱是非常有效的手段。
折叠查询是通过知识图谱获取用户深度特征的常用的操作。在十亿顶点,百亿级边的超级大图里面,通过现有的查询算法做二度的折叠查询,即非折叠四度查询规模,计算量非常大,折叠查询操作占据过多计算资源,且现有的折叠查询计算速度较慢,无法满足性能要求。在现有技术中,技术人员往往通过改进查询算法来减少查询计算量,对于通过优化知识图谱存储结构来减少查询计算量的尝试较少。
发明内容
本发明要解决的技术问题是如何通过折叠知识图谱而减少查询过程中的计算量。
本发明的一方面提供一种图存储优化方法,包括:获取用户信息构建知识图谱,所述知识图谱包括表示实体或概念的节点和表示关系的边;
设立折叠规则以选取所述知识图谱中节点作为折叠节点;
识别所述折叠节点的一度关联节点;
建立同一所述折叠节点的所述一度关联节点两两之间一度扩边关系;
基于所述一度扩边关系优化所述知识图谱结构进行存储。
根据本发明的一种优选实施方式,所述设立折叠规则,进一步包括:
选择具有相同属性的节点为折叠节点;和/或
获取所述节点的一度分析特征,选择具有相同一度分析特征的节点为折叠节点。
根据本发明的一种优选实施方式,所述一度分析特征包括节点的点入度、点出度和/或利用机器学习模型获取的特征。
根据本发明的一种优选实施方式,所述利用机器学习模型获取的特征进一步可包括社群边界特征。
根据本发明的一种优选实施方式,所述基于所述一度扩边关系优化所述知识图谱结构进行存储,进一步包括:
以所述一度扩边关系为所述知识图谱新边;
将所述折叠节点属性及所述折叠节点与所述一度关联节点之间的关系属性作为所述新边的属性;
按照所述新边及所述新边的属性优化所述知识图谱结构进行存储。
根据本发明的一种优选实施方式,还包括:
设置检索规则,所述检索规则可通过检索所述新边的属性获取折叠点属性以及所述折叠节点与所述一度关联节点之间的边的属性。
根据本发明的一种优选实施方式,还包括:
知识图谱的存储方式具体可包括:列值分布式存储。
根据本发明的一种优选实施方式,所述列值分布式存储,其用于存储数据的数据库包括:HBase数据库、Cassandra数据库。
根据本发明的一种优选实施方式,还包括:
针对优化后的知识图谱结构建立查询算法;以及
按照所述查询算法对所述优化后的知识图谱结构进行二度查询操作。
本发明的第二方面提供一种图存储优化装置,包括:知识图谱构建模块,用于获取用户信息构建知识图谱,所述知识图谱包括表示实体和/或概念的节点和表示关系的边;
折叠节点选取模块,用于设立折叠规则以选取所述知识图谱中节点作为折叠节点;
一度关联节点识别模块,用于识别所述折叠节点的一度关联节点;
一度扩边关系建立模块,用于建立同一所述折叠节点的所述一度关联节点两两之间一度扩边关系;
知识图谱优化存储模块,用于基于所述一度扩边关系优化所述知识图谱结构进行存储。
根据本发明的一种优选实施方式,所述设立折叠规则,进一步包括:
选择具有相同属性的节点为折叠节点;和/或
获取所述节点的一度分析特征,选择具有相同一度分析特征的节点为折叠节点。
根据本发明的一种优选实施方式,所述一度分析特征包括节点的点入度、点出度和/或利用机器学习模型获取的特征。
根据本发明的一种优选实施方式,所述利用机器学习模型获取的特征进一步可包括社群边界特征。
根据本发明的一种优选实施方式,所述知识图谱存储模块,进一步包括:
新边建立单元,用于以所述一度扩边关系为所述知识图谱新边;
属性设置单元,用于将所述折叠节点属性及所述折叠节点与所述一度关联节点之间的关系属性作为所述新边的属性;
知识图谱优化存储单元,用于按照所述新边及所述新边的属性优化所述知识图谱结构进行存储。
根据本发明的一种优选实施方式,还包括:检索规则设置模块,用于设置检索规则,所述检索规则可通过检索所述新边的属性获取折叠点属性以及所述折叠节点与所述一度关联节点之间的边的属性。
根据本发明的一种优选实施方式,还包括:知识图谱的存储方式具体可包括:列值分布式存储。
根据本发明的一种优选实施方式,所述列值分布式存储,其用于存储数据的数据库包括:HBase数据库、Cassandra数据库。
根据本发明的一种优选实施方式,本发明的装置可用于针对优化后的知识图谱结构建立查询算法;以及用于按照所述查询算法对所述优化后的知识图谱结构进行二度查询操作。
本发明的第三方面提供一种电子设备,其中,该电子设备包括:处理器;以及,
存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行任一项所述的方法。
本发明的第四方面提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现任一项所述的方法。
本发明的技术方案,具有如下有益效果:
本发明通过在折叠节点的一度关联节点之间建立直连关系以优化知识图谱存储结构,减少进行知识图谱查询的计算量。
附图说明
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本发明示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
图1是本发明的图存储优化方法流程示意图;
图2是本发明的一具体实施例的未折叠的用户关系图示意图;
图3是本发明的一具体实施例的折叠后的用户关系图示意图;
图4是本发明的一具体实施例的图存储优化装置模块架构示意图;
图5是本发明的一具体实施例的图存储优化装置的知识图谱存储模块架构示意图;
图6是本发明的图存储优化电子设备结构框架示意图;
图7是本发明的计算机可读存储介质示意图。
具体实施方式
现在将参考附图更全面地描述本发明的示例性实施例。然而,示例性实施例能够以多种形式实施,且不应被理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例能够使得本发明更加全面和完整,更加便于将发明构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的元件、组件或部分,因而将省略对它们的重复描述。
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的特征、结构、特性或其他细节不排除可以以合适的方式结合在一个或更多其他的实施例中。
在对于具体实施例的描述中,本发明描述的特征、结构、特性或其他细节是为了使本领域的技术人员对实施例进行充分理解。但是,并不排除本领域技术人员可以实践本发明的技术方案而没有特定特征、结构、特性或其他细节的一个或更多。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但这不应受这些定语限制。这些定语乃是用以区分一者与另一者。例如,第一器件亦可称为第二器件而不偏离本发明实质的技术方案。
术语“和/或”或者“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
图1是本发明的图存储优化方法流程示意图;如图1所示,本发明的方法包括:
S101:获取用户信息构建知识图谱,所述知识图谱包括表示实体或概念的节点和表示关系的边。
在金融反欺诈场景中,通过获取用户信息构建知识图谱,能够合理整合利用用户信息,在金融平台根据需要对用户信息进行检索时,节约时间成本。
知识图谱包括表示实体或概念的节点和表示关系的边,其中,知识图谱的节点和边均具有属性。
知识图谱的节点可以是实体:指的是具有可区别性且独立存在的某种事物。如某一个人、某一个城市、某一种植物、某一种商品等等。也可以是概念,概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等。知识图谱的节点还可以是内容:通常作为实体和语义类的名字、描述、解释等,可以由文本、图像、音视频等来表达。
知识图谱的节点的属性,从一个实体指向它的属性,“面积”、“人口”、“首都”是几种不同的属性。属性值主要指对象指定属性的值,例如960万平方公里等。
知识图谱的边表示节点之间的关系。进一步地,关系可以是两人之间的关系,具体地,可例如,表示两个人之间的关系包括:父女,师生,朋友等。
知识图谱的关系也可以是概念之间的普遍性关系,进一步地,可以是“职业”与“性别”之间的关系。
知识图谱中边的属性包括:方向性和强度值。其中,边的方向性表示,两个节点之间存在单向联系或双向联系,边的强度值表示两个节点之间的关系强弱程度。不同的属性类型对应于不同类型属性的边。
例如,用户和用户关联人之间的通讯、邮件往来均比较密切,则边的强度值较高。
S102:设立折叠规则以选取所述知识图谱中节点作为折叠节点。
其中,设立折叠规则,进一步包括:选择具有相同属性的节点为折叠节点;和/或获取所述节点的一度分析特征,选择具有相同一度分析特征的节点为折叠节点。
其中,选择具有相同属性的节点为折叠节点,具体地,可例如,将知识图谱中属性为“城市”的节点作为折叠节点。
进一步地,所述一度分析特征包括节点的点入度、点出度、和/或利用机器学习模型获取的特征。
其中,节点的点入度指以某节点为弧头,终止于该节点的弧的数目称为该节点的点入度。其中,节点的点出度是指以某节点为弧尾,起始于该节点的弧的数目,节点的点入度或点出度能够反映节点的中心性。
具体地,可例如,如果知识图谱的节点属性均为“城市”,知识图谱的边表示“城市”之间的铁路线路,节点的点入度表示到达该“城市”的线路。筛选点入度较高的城市作为折叠节点,则可筛选出北京、上海、广州、武汉、成都、郑州、重庆、西安等铁路交通枢纽城市。
更进一步地,所述利用机器学习模型获取的特征进一步可包括社群边界特征。
其中,若节点具有某一社群边界特征,表示该节点为某一社群的边界点。具有相同的社群边界特征的节点构成某一社群的边界。不同的社群,其边界上的节点具有不同的社群边界特征。具体地,可例如,在网购领域,用社群思路去区分不同类型的消费者。活跃型的消费者,构成一个社群,该社群的边界上的节点具有某一活跃指数。节约型的消费者,构成一个社群,该社群边界上的节点具有某一节约指数。
社群边界特征的获取,需通过机器学习模型获取。
首先,获取历史社群节点的属性信息及历史社群节点的边界特征将历史社群节点的属性信息输入机器学习模型进行训练输出历史社群节点的边界特征。获取新社群节点的属性信息,将新社群节点的属性信息输入机器学习模型,获取到新社群节点的边界特征。
S103:识别所述折叠节点的一度关联节点。
折叠节点的一度关联节点是指与折叠节点相邻的其他节点。折叠节点的二度关联节点是指介由一个中间节点与折叠节点相关联的节点。一度关联节点与二度关联节点在反欺诈场景中的使用非常广泛。
图2是本发明的一具体实施例的未折叠的用户关系图示意图;如图2所示,该未折叠的用户关系图包括一个折叠节点A,识别出折叠节点A的一度关联节点包括:节点B、C、D、E,该未折叠的用户关系图的边包括:AB、AC、AD、AE。
S104:建立同一所述折叠节点的所述一度关联节点两两之间一度扩边关系。
知识图谱具有上亿个节点,根据折叠规则选取的折叠节点的数量同样非常巨大。以选取出的一个折叠节点为例。
图3是本发明的一具体实施例的图存储方法折叠后的用户关系图示意图;如图3所示,建立折叠节点A的一度关联节点B、C、D、E两两之间的一度扩边关系。
S105:基于所述一度扩边关系优化所述知识图谱结构进行存储。
其中,所述基于所述一度扩边关系优化所述知识图谱结构进行存储,进一步包括:以所述一度扩边关系为所述知识图谱新边;将所述折叠节点属性及所述折叠节点与所述一度关联节点之间的关系属性作为所述新边的属性;按照所述新边及所述新边的属性优化所述知识图谱结构进行存储。
在一度关联节点B、C、D、E两两之间建立一度扩边关系后,以新建的边BC、BE、BE、DC、DE、CE取代未折叠之前的边AB、AC、AD、AE。将折叠节点A的属性及AB、AC、AD、AE的属性,作为新边BC、BE、BE、DC、DE、CE的属性。
其中,本发明的图存储优化方法,还包括:设置检索规则,所述检索规则可通过检索所述新边的属性获取折叠点属性以及所述折叠节点与
新边构建之后,可通过设置检索规则对新边BC、BE、BE、DC、DE、CE的属性进行检索,进而获得折叠节点A的属性及AB、AC、AD、AE的属性。
其中,本发明的图存储优化方法,还包括:知识图谱的存储方式具体可包括:列值分布式存储。
进一步地,所述列值分布式存储,其用于存储数据的数据库包括:HBase数据库、Cassandra数据库。
具体地,可例如,将新边BC、BE、BE、DC、DE、CE及属性以列值分布式存储于HBase数据库中。
其中,本发明的图存储优化方法,还包括:针对优化后的知识图谱结构建立查询算法;以及
按照所述查询算法对所述优化后的知识图谱结构进行二度查询操作。
原来的知识图谱已进行优化,则对优化后的用户关系图进行查询时,需针对新的用户关系图改进查询算法,并结合数据库的批量查询特性,两次get操作完成二度查询操作。
本发明通过在折叠节点的一度关联节点之间建立直连关系以优化知识图谱存储结构,减少进行知识图谱查询的计算量。
本领域技术人员可以理解,实现上述实施例的全部或部分步骤被实现为由计算机数据处理设备执行的程序(计算机程序)。在该计算机程序被执行时,可以实现本发明提供的上述方法。而且,所述的计算机程序可以存储于计算机可读存储介质中,该存储介质可以是磁盘、光盘、ROM、RAM等可读存储介质,也可以是多个存储介质组成的存储阵列,例如磁盘或磁带存储阵列。所述的存储介质不限于集中式存储,其也可以是分布式存储,例如基于云计算的云存储。
下面描述本发明的装置实施例,该装置可以用于执行本发明的方法实施例。对于本发明装置实施例中描述的细节,应视为对于上述方法实施例的补充;对于在本发明装置实施例中未披露的细节,可以参照上述方法实施例来实现。
本领域技术人员可以理解,上述装置实施例中的各模块可以按照描述分布于装置中,也可以进行相应变化,分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
图4是本发明的一具体实施例的图存储优化装置模块架构示意图;如图4所示,本发明的图存储优化装置400,包括:知识图谱构建模块401,折叠节点选取模块402,一度关联节点识别模块403,一度扩边关系建立模块404,知识图谱存储模块405。
知识图谱构建模块,用于获取用户信息构建知识图谱,所述知识图谱包括表示实体和/或概念的节点和表示关系的边。
折叠节点选取模块,用于设立折叠规则以选取所述知识图谱中节点作为折叠节点。
一度关联节点识别模块,用于识别所述折叠节点的一度关联节点。一度扩边关系建立模块,用于建立同一所述折叠节点的所述一度关联节点两两之间一度扩边关系。
知识图谱优化存储模块,用于基于所述一度扩边关系优化所述知识图谱结构进行存储。
其中,设立折叠规则,进一步包括:选择具有相同属性的节点为折叠节点;和/或获取所述节点的一度分析特征,选择具有相同一度分析特征的节点为折叠节点。
其中,所述一度分析特征包括节点的点入度、点出度和/或利用机器学习模型获取的特征。
其中,所述利用机器学习模型获取的特征进一步可包括社群边界特征。
图5是本发明的一具体实施例的图存储优化装置的知识图谱存储模块架构示意图,如图5所示,本发明的知识图谱存储模块405,进一步包括:新边建立单元501,属性设置单元502,知识图谱优化存储单元503。
新边建立单元,用于以所述一度扩边关系为所述知识图谱新边。
属性设置单元,用于将所述折叠节点属性及所述折叠节点与所述一度关联节点之间的关系属性作为所述新边的属性。
知识图谱优化存储单元,用于按照所述新边及所述新边的属性优化所述知识图谱结构进行存储。
其中,本发明的图存储优化装置,还包括:检索规则设置模块。
检索规则设置模块,用于设置检索规则,所述检索规则可通过检索所述新边的属性获取折叠点属性以及所述折叠节点与所述一度关联节点之间的边的属性。
其中,本发明的图存储优化装置,还包括:知识图谱的存储方式具体可包括:列值分布式存储。
其中,所述列值分布式存储,其用于存储数据的数据库包括:HBase数据库、Cassandra数据库。
其中,本发明的图存储优化装置,还可用于针对优化后的知识图谱结构建立查询算法;以及用于按照所述查询算法对所述优化后的知识图谱结构进行二度查询操作。
下面描述本发明的电子设备实施例,该电子设备可以视为对于上述本发明的方法和装置实施例的具体实体实施方式。对于本发明电子设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明电子设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
图6是本发明的图存储优化电子设备结构框架示意图。下面参照图6来描述根据本发明该实施例的的电子设备600。图6显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。当所述计算机程序被一个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法,即:获取用户信息构建知识图谱,所述知识图谱包括表示实体和/或概念的节点和表示关系的边;设立折叠规则以选取所述知识图谱中节点作为折叠节点;识别所述折叠节点的一度关联节点;建立同一所述折叠节点的所述一度关联节点两两之间一度扩边关系;基于所述一度扩边关系优化所述知识图谱结构进行存储。
所述计算机程序可以存储于一个或多个计算机可读介质上,如图7所示。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,本发明可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种图存储优化方法,其特征在于,包括:
获取用户信息构建知识图谱,所述知识图谱包括表示实体或概念的节点和表示关系的边;
设立折叠规则以选取所述知识图谱中节点作为折叠节点;
识别所述折叠节点的一度关联节点;
建立同一所述折叠节点的所述一度关联节点两两之间一度扩边关系;
基于所述一度扩边关系优化所述知识图谱结构进行存储。
2.如权利要求1所述的方法,其特征在于,所述设立折叠规则,进一步包括:
选择具有相同属性的节点为折叠节点;和/或
获取所述节点的一度分析特征,选择具有相同一度分析特征的节点为折叠节点。
3.如权利要求1-2中任一项所述的方法,其特征在于,所述一度分析特征包括节点的点入度、点出度和/或利用机器学习模型获取的特征。
4.如权利要求1-3中任一项所述的方法,其特征在于,所述利用机器学习模型获取的特征进一步可包括社群边界特征。
5.如权利要求1-4中任一项所述的方法,其特征在于,所述基于所述一度扩边关系优化所述知识图谱结构进行存储,进一步包括:
以所述一度扩边关系为所述知识图谱新边;
将所述折叠节点属性及所述折叠节点与所述一度关联节点之间的关系属性作为所述新边的属性;
按照所述新边及所述新边的属性优化所述知识图谱结构进行存储。
6.如权利要求1-5中任一项所述的方法,其特征在于,还包括:
设置检索规则,所述检索规则可通过检索所述新边的属性获取折叠点属性以及所述折叠节点与所述一度关联节点之间的边的属性。
7.如权利要求1-6中任一项所述的方法,其特征在于,还包括:
知识图谱的存储方式具体可包括:列值分布式存储。
8.一种图存储优化装置,其特征在于,包括:
知识图谱构建模块,用于获取用户信息构建知识图谱,所述知识图谱包括表示实体或概念的节点和表示关系的边;
折叠节点选取模块,通过设立折叠规则以选取所述知识图谱中节点作为折叠节点;
一度关联节点识别模块,用于识别所述折叠节点的一度关联节点;
一度扩边关系建立模块,用于建立同一所述折叠节点的所述一度关联节点两两之间一度扩边关系;
知识图谱优化存储模块,用于基于所述一度扩边关系优化所述知识图谱结构进行存储。
9.一种电子设备,其中,该电子设备包括:
处理器;以及,
存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行根据权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现权利要求1-7中任一项所述的方法。
CN201910930670.6A 2019-09-29 2019-09-29 一种图存储优化方法、装置和电子设备 Pending CN110781313A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910930670.6A CN110781313A (zh) 2019-09-29 2019-09-29 一种图存储优化方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910930670.6A CN110781313A (zh) 2019-09-29 2019-09-29 一种图存储优化方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN110781313A true CN110781313A (zh) 2020-02-11

Family

ID=69384652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910930670.6A Pending CN110781313A (zh) 2019-09-29 2019-09-29 一种图存储优化方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN110781313A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199959A (zh) * 2020-10-15 2021-01-08 中国科学院自动化研究所 语义文化机器人系统
CN114416913A (zh) * 2022-03-28 2022-04-29 支付宝(杭州)信息技术有限公司 一种对知识图谱进行数据分片的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9645999B1 (en) * 2016-08-02 2017-05-09 Quid, Inc. Adjustment of document relationship graphs
US9852231B1 (en) * 2014-11-03 2017-12-26 Google Llc Scalable graph propagation for knowledge expansion
CN108196880A (zh) * 2017-12-11 2018-06-22 北京大学 软件项目知识图谱自动构造方法与系统
CN109121436A (zh) * 2015-11-25 2019-01-01 蒂米菲尔股份有限公司 增广、探索、和维护项目分层结构的方法
CN110046194A (zh) * 2019-03-19 2019-07-23 阿里巴巴集团控股有限公司 一种扩展节点关系图的方法、装置和电子设备
CN110209885A (zh) * 2018-04-26 2019-09-06 腾讯科技(深圳)有限公司 一种图查询方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9852231B1 (en) * 2014-11-03 2017-12-26 Google Llc Scalable graph propagation for knowledge expansion
CN109121436A (zh) * 2015-11-25 2019-01-01 蒂米菲尔股份有限公司 增广、探索、和维护项目分层结构的方法
US9645999B1 (en) * 2016-08-02 2017-05-09 Quid, Inc. Adjustment of document relationship graphs
CN108196880A (zh) * 2017-12-11 2018-06-22 北京大学 软件项目知识图谱自动构造方法与系统
CN110209885A (zh) * 2018-04-26 2019-09-06 腾讯科技(深圳)有限公司 一种图查询方法及系统
CN110046194A (zh) * 2019-03-19 2019-07-23 阿里巴巴集团控股有限公司 一种扩展节点关系图的方法、装置和电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199959A (zh) * 2020-10-15 2021-01-08 中国科学院自动化研究所 语义文化机器人系统
CN112199959B (zh) * 2020-10-15 2024-04-12 中国科学院自动化研究所 语义文化机器人系统
CN114416913A (zh) * 2022-03-28 2022-04-29 支付宝(杭州)信息技术有限公司 一种对知识图谱进行数据分片的方法及装置

Similar Documents

Publication Publication Date Title
CN110555640B (zh) 路由规划的方法和装置
CN106960030B (zh) 基于人工智能的推送信息方法及装置
US5561790A (en) Shortest path determination processes for use in modeling systems and communications networks
CN110008413B (zh) 一种交通出行问题查询方法和装置
CN107491547A (zh) 基于人工智能的搜索方法和装置
CN112560496A (zh) 语义分析模型的训练方法、装置、电子设备及存储介质
CN112035598A (zh) 一种智能语义检索方法、系统和电子设备
CN106776544A (zh) 人物关系识别方法及装置和分词方法
US20170235726A1 (en) Information identification and extraction
CN105224554A (zh) 推荐搜索词进行搜索的方法、系统、服务器和智能终端
JP2008176721A (ja) コンピュータネットワーク上の電子文書の重要度を、当該電子文書に関係付けられた他の電子文書の当該電子文書に対する批評に基づいて、計算するためのコンピュータ装置、コンピュータプログラム及び方法
CN109657053A (zh) 多文本摘要生成方法、装置、服务器及存储介质
CN103049495A (zh) 用于提供与查询序列相对应的搜索建议的方法、装置与设备
CN115455161A (zh) 对话处理方法、装置、电子设备及存储介质
CN110781313A (zh) 一种图存储优化方法、装置和电子设备
CN113742463A (zh) 旅游场景下的对话预测方法、装置、电子设备、存储介质
CN110309293A (zh) 文本推荐方法和装置
CN112016327A (zh) 基于多轮对话的智能结构化文本抽取方法、装置和电子设备
CN104391969A (zh) 确定用户查询语句句法结构的方法及装置
CN101996257A (zh) 可重构路由交换平台构件的检索方法
CN110889029B (zh) 城市目标推荐方法和装置
CN110737820B (zh) 用于生成事件信息的方法和装置
CN115204889A (zh) 文本处理方法、装置、计算机设备及存储介质
CN113486659A (zh) 文本匹配方法、装置、计算机设备及存储介质
CN113688164A (zh) 基于知识图谱关联分析的兴趣点查询方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination