CN107038263A - 一种面向事务计算效率的基于数据图谱、信息图谱和知识图谱的搜索优化方法 - Google Patents

一种面向事务计算效率的基于数据图谱、信息图谱和知识图谱的搜索优化方法 Download PDF

Info

Publication number
CN107038263A
CN107038263A CN201710488750.1A CN201710488750A CN107038263A CN 107038263 A CN107038263 A CN 107038263A CN 201710488750 A CN201710488750 A CN 201710488750A CN 107038263 A CN107038263 A CN 107038263A
Authority
CN
China
Prior art keywords
illustrative plates
collection
search
resource
cost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710488750.1A
Other languages
English (en)
Other versions
CN107038263B (zh
Inventor
段玉聪
邵礼旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan University
Original Assignee
Hainan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan University filed Critical Hainan University
Priority to CN201710488750.1A priority Critical patent/CN107038263B/zh
Publication of CN107038263A publication Critical patent/CN107038263A/zh
Application granted granted Critical
Publication of CN107038263B publication Critical patent/CN107038263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明是一种面向事务计算效率的基于数据图谱、信息图谱和知识图谱的搜索优化方法,并给出了数据图谱、信息图谱和知识图谱的概念表示,属于分布式计算和软件工程学技术交叉领域。主要用于通过数据图谱、信息图谱和知识图谱对以数据、信息和知识形态存储的资源进行搜索,计算在不同层次图谱上搜索资源时的效率和所要花费的代价。通过对搜索过程进行参数化,衡量在数据图谱、信息图谱和知识图谱上搜索资源的效率和每一步搜索的代价,使用户花费最少代价而能获得相对有效和准确的资源,提高搜索效率。

Description

一种面向事务计算效率的基于数据图谱、信息图谱和知识图 谱的搜索优化方法
技术领域
本发明是一种面向事务计算效率的基于数据图谱、信息图谱和知识图谱的搜索优化方法,并给出了数据图谱、信息图谱和知识图谱的概念表示。主要用于通过数据图谱、信息图谱和知识图谱对以数据、信息和知识形态存储的资源进行建模和搜索,提高搜索效率,属于分布式计算和软件工程学技术交叉领域。
背景技术
传统的搜索引擎技术根据用户的查询要求快速检索和排序网页资源,对于搜索引擎反馈的大量资源需要用户进行人工排查和筛选,难以满足用户全面掌控资源的需求。现有的技术包括基于机器学习的方法和基于本体的方法为应对这一挑战做出了许多贡献,然而,基于机器学习的方法缺乏有效的机制来明确地将经验知识与训练模型结合在一起,基于本体的方法受到人类专家方面沉重负担的限制。
知识图谱容纳资源规模较大,涵盖的知识领域广泛,并且能为用户提供智能搜索和问答服务。基于知识图谱的搜索侧重于图结构的逻辑推理计算,基于语义网三元组进行推理补充资源信息,实现Web从网页链接向概念链接的转变,支持用户按照语句进行检索,以图形化的方式向用户反馈结构化知识,准确定位用户所需资源,使用户从人工过滤网页寻找答案的模式中解脱出来。
一种面向事务计算效率的基于数据图谱、信息图谱和知识图谱的搜索优化方法的关键技术包括对在不同层次图谱上搜索资源时效率和代价的计算。通过对搜索过程进行参数化,衡量在数据图谱、信息图谱和知识图谱上搜索资源的效率和每一步搜索的代价,使用户花费最少代价而能获得相对有效和准确的资源。
发明内容
技术问题:本发明的目的是提供一种对数据、信息和知识等形态的资源的原始表述的自然语言的机器理解、自动处理、自动综合和自动分析方法,用于解决搜索范围难以确定、搜索资源难以找到等问题。本发明将数据标识为DataDIK,信息标识为InformationDIK,知识标识为KnowledgeDIK,DIK是数据、信息和知识三者的简写,本发明可显著地提高搜索效率,并降低搜索过程中所要耗费的代价。
技术方案:本发明是一种面向事务计算效率的基于数据图谱、信息图谱和知识图谱的搜索优化方法,从应对自动增量式结合经验知识和减少人工专家交互负担等两个方面考虑,从资源建模、资源处理、处理优化和资源管理等角度进行研究,基于对现有知识图谱(Knowledge Graph)概念的拓展提出了一种三层可自动抽象调整的解决架构。这个架构包括:数据图谱、信息图谱和知识图谱(将数据图谱标识为DataGraphDIK,信息图谱标识为InformationGraphDIK,知识图谱标识为KnowledgeGraphDIK)等三个层面。基于不同层次的图谱架构查找和匹配用户的资源需求,提高搜索效率。
体系结构
图1给出了在DataGraphDIK,InformationGraphDIK和KnowledgeGraphDIK上查找资源的体系结构,获取到用户的资源查找需求后,计算在不同图谱层次上搜索的代价和效率,将效率由高到底进行排序,从而确定优先查找的图谱。表1所示为对DataDIK、IntormationDIK和KnowledgeDIK等形态的资源以及对应图谱层次的介绍。表2所示为分别在DataGraphDIK、InformationGraphDIK和KnoweldgeGraphDIK上查找DataDIK、IntormationDIK和KnowledgeDIK等资源的效率。
下面我们给出DataGraphDIK,InformationGraphDIK和KnowledgeGraphDIK的具体说明:
DataGraphDIK:DataGraphDIK := collection{array, list, stack, queue, tree,graph}. DataGraphDIK是各种数据结构包括数组(array)、链表(list)、栈(stack)、队列(queue)、树(tree)和图(graph)等的集合(collection)。DataGraphDIK只能对图谱上表示的DataDIK进行静态分析,无法分析和预测DataDIK的动态变化。
InformationGraphDIK:InformationGraphDIK:= combination{related DataDIK}。InformationGraphDIK是相互关联(related)的DataDIK组合(combination),InformationDIK是通过DataDIK和DataDIK组合之后的上下文传达的,经过概念映射和相关关系组合之后的适合分析和解释的信息。在InformationGraphDIK上进行数据清洗,消除冗余数据,根据结点之间的交互度进行初步抽象,提高设计的内聚性。
KnowledgeGraphDIK:KnowledgeGraphDIK := collection{statistic rules}。KnowledgeGraphDIK实质是语义网络和由InformationDIK总结出的统计规则(statisticrules)的集合(collection)。KnowledgeGraphDIK蕴含丰富的语义关系,在KnowledgeGraphDIK上能通过信息推理和实体链接提高KnowledgeGraphDIK的边密度和结点密度,KnowledgeGraphDIK的无结构特性使得其自身可以无缝链接。信息推理需要有相关关系规则的支持,这些规则可以由人手动构建,但往往耗时费力,得到复杂关系中的所有推理规则更加困难。使用路径排序算法将每个不同的关系路径作为一维特征,通过在KnowledgeGraphDIK中构建大量的关系路径来构建关系分类的特征向量和关系分类器来提取关系。
表1.资源类型的渐进形式
表2. 资源分层查找效率
DataGraphDIK InformationGraphDIK KnowledgeGraphDIK
DataDIK O(scale) O(scale) |Resource|/SearchCost
InformationDIK 人工抽象 O(scale) |Resource|/SearchCost
KnowledgeDIK 人工抽象 人工抽象 |Resource|/SearchCost
标注:scale: 图谱规模 |Resource|:搜索得到的资源量 SearchCost: 搜索代价
O(scale)表示搜索效率与图谱规模成正比
有益效果:
本发明提出了一种面向事务计算效率的基于数据图谱、信息图谱和知识图谱的搜索优化方法,主要用于解决对于以DataDIK,InformaitionDIK和KnowledgeDIK形态存在的资源查找问题。通过使用本发明提出的方法可以提高对资源的查找效率,假定资源已按照三层图谱架构存储完毕,以整个事物性资源为搜索目标,满足用户的查找需求。该方法具有如下优点:
1)允许跨层搜索资源
在资源量较大的情况下,在与资源类型一致的图谱上搜索效率会低于在更高抽象层次图谱上进行查询的效率,本发明允许跨层搜索资源,从而提高搜索效率;
2)搜索效率驱动
面向事务计算效率的基于数据图谱、信息图谱和知识图谱的搜索优化方法,通过参数化搜索过程,确定最匹配的资源搜索框架,提高了搜索效率;
3)能够解决无法找到答案的情况
对于在资源对应层次查找不到答案的情况,允许到高层次图谱上进行查询,在KnowledgeGraphDIK上通过关系抽象和信息推理挖掘出隐式出现的资源,减少无法找到答案的情况。
附图说明
图1是一种面向事务计算效率的基于数据图谱、信息图谱和知识图谱的搜索优化方法流程图。
具体实施方式
一种面向事务计算效率的基于数据图谱、信息图谱和知识图谱的搜索优化方法,其特征对于搜索事件性资源的搜索效率和搜索代价的计算,根据搜索效率和搜索代价综合考虑在哪一层次的图谱上进行遍历。本发明假定资源已按照DataGraphDIK、InformationGraphDIK和KnoweldgeGraphDIK架构存储完毕,以整个事物性资源为搜索目标,允许搜索目标为一批资源的集合,知道用户的搜索目标属于哪种资源类型,通过计算在不同层次图谱上的搜索代价和搜索效率,将搜索效率由高到低进行排序,确定在三层图谱上查找用户所需资源的优先顺序。具体实现方式为:
步骤1)对应于图1中的操作001,获取用户搜索资源需求;
步骤2)对应于图1中的操作002,匹配资源类型,003计算资源需求量(|Initial_res|);
步骤3)对应于图1中操作004,根据公式1和公式2计算在不同图谱上查找资源所要花费的代价(SearchCost):
(1)
(2)
其中scale表示图谱的规模,即结点数和边的个数,ReasoningCost表示知识推理要花费的代价,λ表示能在图谱上直接找到答案,无需推理的概率,α和β分别表示图谱规模和推理代价占搜索代价的权重,均可通过数据训练得出,Ncost和Ecost分别表示通过结点链接和关系推理得到新的结点和边的代价;
步骤4)对应于图1中操作005,根据公式3计算在不同图谱上查找资源的效率(SearchEfficiency):
(3)
其中|Resource|表示在该层图谱上搜索到的资源量;
步骤5)对应于图1中操作006,比较在不同图谱上搜索资源的效率。对应于图1中操作007和008继续比较在不同图谱上的查找效率。根据查找效率由高到底进行排序,确定要优先遍历的资源处理架构;
步骤6)对应于图1中操作009遍历图谱,010将搜索到的与用户搜索目标集合最匹配的资源返回给用户。

Claims (1)

1.一种面向事务计算效率的基于数据图谱、信息图谱和知识图谱的搜索优化方法,其特征对于搜索事件性资源的搜索效率和搜索代价的计算,根据搜索效率和搜索代价综合考虑在哪一层次的图谱上进行遍历,本发明假定知道用户的搜索目标属于哪种资源类型,根据搜索效率确定在三层图谱上搜索的优先顺序,具体实现步骤为:
步骤1)根据用户搜索的需求确定搜索目标集合,包括资源类型和资源总量(|Initial_res|),对用户提出的查找需求,在图谱上采用遍历查找算法;
步骤2)根据公式1和公式2计算在不同图谱上查找资源所要花费的代价(SearchCost):
(1)
(2)
其中scale表示图谱的规模,即结点数和边的个数,ReasoningCost表示知识推理要花费的代价,λ表示能在图谱上直接找到答案,无需推理的概率,α和β分别表示图谱规模和推理代价占搜索代价的权重,均可通过数据训练得出,Ncost和Ecost分别表示通过结点链接和关系推理得到新的结点和边的代价;
步骤3)根据公式3计算在不同图谱上查找资源的效率(SearchEfficiency):
(3)
其中|Resource|表示在该层图谱上搜索到的资源量;
步骤4)根据查找效率由高到底进行排序,确定要优先遍历的资源处理架构;
步骤5)遍历图谱,并将搜索到的与用户搜索目标集合最匹配的资源返回给用户。
CN201710488750.1A 2017-06-23 2017-06-23 一种基于数据图谱、信息图谱和知识图谱的搜索优化方法 Active CN107038263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710488750.1A CN107038263B (zh) 2017-06-23 2017-06-23 一种基于数据图谱、信息图谱和知识图谱的搜索优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710488750.1A CN107038263B (zh) 2017-06-23 2017-06-23 一种基于数据图谱、信息图谱和知识图谱的搜索优化方法

Publications (2)

Publication Number Publication Date
CN107038263A true CN107038263A (zh) 2017-08-11
CN107038263B CN107038263B (zh) 2019-09-24

Family

ID=59541445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710488750.1A Active CN107038263B (zh) 2017-06-23 2017-06-23 一种基于数据图谱、信息图谱和知识图谱的搜索优化方法

Country Status (1)

Country Link
CN (1) CN107038263B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107360044A (zh) * 2017-08-29 2017-11-17 海南大学 面向类型化资源的价值导向的处理优化系统
CN108471414A (zh) * 2018-03-24 2018-08-31 海南大学 面向类型化资源的物联网数据隐私保护方法
CN110263177A (zh) * 2019-05-23 2019-09-20 广州市香港科大霍英东研究院 用于事件预测的知识图构建方法与事件预测方法
CN111694963A (zh) * 2020-05-11 2020-09-22 电子科技大学 一种基于事项关联网络的关键政务流程识别方法与装置
CN113535893A (zh) * 2021-06-11 2021-10-22 海南大学 一种基于dikw的专利内容检索方法及系统
CN113535787A (zh) * 2021-06-11 2021-10-22 海南大学 一种基于dikw的专利智能辅助审查方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100318537A1 (en) * 2009-06-12 2010-12-16 Microsoft Corporation Providing knowledge content to users
CN104462501A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于结构化数据的知识图谱构建方法和装置
CN105956052A (zh) * 2016-04-27 2016-09-21 青岛海尔软件有限公司 一种基于垂直领域的知识图谱的构建方法
CN106021281A (zh) * 2016-04-29 2016-10-12 京东方科技集团股份有限公司 医学知识图谱的构建方法、其装置及其查询方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100318537A1 (en) * 2009-06-12 2010-12-16 Microsoft Corporation Providing knowledge content to users
CN104462501A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于结构化数据的知识图谱构建方法和装置
CN105956052A (zh) * 2016-04-27 2016-09-21 青岛海尔软件有限公司 一种基于垂直领域的知识图谱的构建方法
CN106021281A (zh) * 2016-04-29 2016-10-12 京东方科技集团股份有限公司 医学知识图谱的构建方法、其装置及其查询方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIXU SHAO等: "Bidirectional value driven design between economical planning and technical implementation based on data graph, information graph and knowledge graph", 《SERA 2017》 *
YUCONG DUAN等: "Specifying architecture of knowledge graph with data graph, information graph, knowledge graph and wisdom graph", 《SERA 2017》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107360044A (zh) * 2017-08-29 2017-11-17 海南大学 面向类型化资源的价值导向的处理优化系统
CN108471414A (zh) * 2018-03-24 2018-08-31 海南大学 面向类型化资源的物联网数据隐私保护方法
CN108471414B (zh) * 2018-03-24 2019-07-30 海南大学 面向类型化资源的物联网数据隐私保护方法
CN110263177A (zh) * 2019-05-23 2019-09-20 广州市香港科大霍英东研究院 用于事件预测的知识图构建方法与事件预测方法
CN111694963A (zh) * 2020-05-11 2020-09-22 电子科技大学 一种基于事项关联网络的关键政务流程识别方法与装置
CN111694963B (zh) * 2020-05-11 2023-04-18 电子科技大学 一种基于事项关联网络的关键政务流程识别方法与装置
CN113535893A (zh) * 2021-06-11 2021-10-22 海南大学 一种基于dikw的专利内容检索方法及系统
CN113535787A (zh) * 2021-06-11 2021-10-22 海南大学 一种基于dikw的专利智能辅助审查方法及系统

Also Published As

Publication number Publication date
CN107038263B (zh) 2019-09-24

Similar Documents

Publication Publication Date Title
CN107038263A (zh) 一种面向事务计算效率的基于数据图谱、信息图谱和知识图谱的搜索优化方法
CN104573106B (zh) 一种基于案例推理技术的城市建设智能审批方法
Huang et al. A machine-learning approach to automated knowledge-base building for remote sensing image analysis with GIS data
CN108877905A (zh) 一种基于Xgboost框架的医院门诊就诊量预测方法
Qian et al. A self‐sparse generative adversarial network for autonomous early‐stage design of architectural sketches
CN104200387B (zh) 一种顾及地理实体语义相似度的土地用途分区方法
CN109411093A (zh) 一种基于云计算的智慧医疗大数据分析处理方法
CN104699786A (zh) 一种语义智能搜索的通信网络投诉系统
CN107330007A (zh) 一种基于多数据源的本体学习方法
CN106909931A (zh) 一种用于机器学习模型的特征生成方法、装置和电子设备
CN105024886B (zh) 一种基于用户元数据的快速Web服务QoS预测方法
CN106650930A (zh) 模型参数优化的方法及装置
CN107229878A (zh) 一种投入决定的安全性可定义的基于数据图谱、信息图谱和知识图谱的资源安全保护方法
CN116595328B (zh) 一种基于知识图谱的数据评分卡模型智能构建装置及方法
Tang et al. Spatial task assignment based on information gain in crowdsourcing
Jiang et al. Study on site selection of municipal solid waste incineration plant based on swarm optimization algorithm
Wang et al. Model for evaluating the rural landscape design schemes with fuzzy number intuitionistic fuzzy information
Erdoğan et al. Selection of the best outsourcing firm for WEEE under hesitant fuzzy environment
CN105279388B (zh) 多层云计算框架协同的孕龄新生儿脑病历集成约简方法
He et al. An intelligent computing approach to evaluating the contribution rate of talent on economic growth
CN107133371A (zh) 一种投入驱动的存储与计算一体化协同调整的面向事务处理的时空效率优化方法
Hakli et al. Comparing the performances of six nature-inspired algorithms on a real-world discrete optimization problem
CN107251062A (zh) 服务交付网络的基于成本的评估的方法
Petrican et al. Ontology-based skill matching algorithms
Zheng et al. Simulation of crowd emergency evacuation based on the optimal algorithm of invasive weeds

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant