CN112100399B - 基于知识体系的知识图谱模型的创建方法及图谱检索方法 - Google Patents
基于知识体系的知识图谱模型的创建方法及图谱检索方法 Download PDFInfo
- Publication number
- CN112100399B CN112100399B CN202010941317.0A CN202010941317A CN112100399B CN 112100399 B CN112100399 B CN 112100399B CN 202010941317 A CN202010941317 A CN 202010941317A CN 112100399 B CN112100399 B CN 112100399B
- Authority
- CN
- China
- Prior art keywords
- node
- weight
- search
- knowledge
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000012216 screening Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于知识体系的知识图谱模型的创建方法及图谱检索方法,其中创建方法包括:对创建关键词进行搜索,根据第一搜索结果结合创建关键词所在的领域对创建关键词进行语义扩展,以得到每个创建关键词对应的关联词组;于关联词组中获取每个关联词的权重,以根据权重的顺序由上至下依次将预设数量的关联词记为预设核心词;根据预设核心词与创建关键词之间的语义关系设置预设核心词与创建关键词之间的节点关系,并根据创建关键词和预设核心词之间的节点关系将创建关键词和预设核心词写入到知识图谱模型中。本发明的有益效果:在知识图谱模型直观地查询与需要查询的创建关键词相关联的关联词组,并且在关联词组中对各个关联词的权重进行查阅。
Description
技术领域
本发明涉及信息检索技术领域,尤其涉及一种基于知识体系的知识图谱模型的创建方法及图谱检索方法。
背景技术
目前的很多搜索服务中,通常采用聚类算法对指定数据进行迭代计算,检索出主题,但是通过聚类算法进行迭代计算的计算复杂程度高,而且计算量较大,从而导致检索出主题的速度往往需要等待几小时甚至几天。然而公共体系的各个行业的图谱并不适用于所有数据,绘制不同的图谱的工作量巨大;并且所有图谱无法给用户直观地感受。
因此目前需要一种应用于所有行业图谱的知识图谱模型;并且采用合适的搜索方法结合知识图谱模型对进行快速检索,提取需要的信息,了解知识的信息全貌。
发明内容
针对现有技术中存在的上述问题,现提供一种基于知识体系的知识图谱模型的创建方法及图谱检索方法。
具体技术方案如下:
一种基于知识体系的知识图谱模型的创建方法,其中,包括以下步骤:
对创建关键词进行搜索,根据第一搜索结果对创建关键词进行语义扩展,以得到每个创建关键词对应的关联词组;
根据权重计算公式于关联词组中获取每个关联词的权重,以根据权重的顺序由上至下依次将预设数量的关联词记为预设核心词;
根据预设核心词与创建关键词之间的语义关系设置预设核心词与创建关键词之间的节点关系,并根据创建关键词和预设核心词之间的节点关系将创建关键词和预设核心词写入到一知识图谱模型中。
优选的,基于知识体系的知识图谱模型的创建方法,其中,步骤A1具体包括以下步骤:
获取并根据创建关键词进行搜索得到第一搜索结果;
对创建关键词进行语义扩展,以获取得到创建关键词的表示含义;
根据表示含义于第一搜索结果中的每个关联词搜索项中获取得到接近于表示含义的兄弟含义和/或父含义和/或子含义,并将表示含义和/或兄弟含义和/或父含义和/或子含义形成的关联词写入关联词组中。
优选的,基于知识体系的知识图谱模型的创建方法,其中,权重计算公式如下述公式所示:
其中,W用于表示关联词的权重;
subsetFreq用于表示第一搜索结果的词频;
subsetSize用于表示第一搜索结果的大小;
superFreq用于表示整个搜索数据库的词频;
superSize用于表示整个搜索数据库的大小;
natureBoost用于表示词性权重;
fieldBoost用于表示字段权重。
优选的,基于知识体系的知识图谱模型的创建方法,其中,获取并根据创建关键词进行搜索得到第一搜索结果还包括:获取检索参数,以根据创建关键词和检索参数搜索得到第一搜索结果。
还包括一种基于知识体系的图谱检索方法,其中,应用于上述任一的创建方法创建的知识图谱模型中,检索方法包括以下步骤:
获取用户选择的选中节点,并于知识图谱模型中获取选中节点的多个关联节点,以得到选中节点对应的节点集;
根据节点集中的所有节点进行搜索,以得到满足所有节点的第二搜索结果,第二搜索结果包括多个图谱搜索项;
根据第一权重计算公式获取每个图谱搜索项中的每个节点的权重;和
分别设置节点集的每个节点的配置参数;
根据配置参数和每个节点的权重分别计算每个图谱搜索项中的对应节点的节点相关度值;
获取图谱搜索项的原始相关度值,并根据所有节点的节点相关度值和图谱搜索项的原始相关度值计算得到对应的图谱搜索项的相关度分数;
根据相关度分数的大小对节点集的每个节点和对应于节点集的图谱搜索项进行依次展示。
优选的,基于知识体系的图谱检索方法,其中,获取用户选择的选中节点,并于知识图谱模型中获取选中节点的多个关联节点,以得到选中节点对应的节点集,具体包括:读取搜索关键词的表示概念,并根据表示概念于知识图谱模型中获取至少一个对应的选中节点。
优选的,基于知识体系的图谱检索方法,其中,关联节点包括选中节点的兄弟节点、父节点和子节点中的至少一种。
优选的,基于知识体系的图谱检索方法,其中,采用下述公式根据配置参数和每个节点的权重分别计算每个图谱搜索项中的对应节点的节点相关度值;
Weight=log(1+factor_w*w)*factor_w/log(1+factor_p*p)*factor_p;
其中,Weight用于表示节点的节点相关度值;
W用于表示选中节点和关联节点的权重;
factor_w用于表示选中节点和关联节点的权重调节因子;
p用于表示选中节点和关联节点的路径深度值;
factor_p用于表示选中节点和关联节点的路径调节因子。
优选的,基于知识体系的图谱检索方法,其中,采用下述公式根据所有节点的节点相关度值和图谱搜索项的原始相关度值计算得到对应的图谱搜索项的相关度分数,
Score=∑(S*Weight);
其中,Score用于表示图谱搜索项的相关度分数;
S用于表示图谱搜索项的原始相关度值;
Weight用于表示节点相关度值。
上述技术方案具有如下优点或有益效果:
通过各个创建关键词和与对应的创建关键词相关联的关联词组创建知识图谱模型,并且关联词组中的每个关联词按照自身的权重顺序由上至下进行排序,从而使得用户可以直观地查询与需要查询的创建关键词相关联的关联词组,并且在关联词组中对各个关联词的权重进行查阅,进而采用知识图谱模型进行对应的搜索;
可以实现采用知识图谱模型获取节点集,并根据节点集进行搜索,进而快速、高效地对海量数据中进行对应于节点集的图谱搜索项地发现,并且有助于各行各业在海量数据中可以快速浓缩主题,获取有价值的信息。
附图说明
参考所附附图,以更加充分的描述本发明的实施例。然而,所附附图仅用于说明和阐述,并不构成对本发明范围的限制。
图1为本发明知识图谱模型的图表示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
本发明包括一种基于知识体系的知识图谱模型的创建方法,其中,包括以下步骤:
步骤A1,对创建关键词进行搜索,根据第一搜索结果对创建关键词进行语义扩展,以得到每个创建关键词对应的关联词组;
步骤A2,根据权重计算公式于关联词组中获取每个关联词的权重,以根据权重的顺序由上至下依次将预设数量的关联词记为预设核心词;
步骤A3,根据预设核心词与创建关键词之间的语义关系设置预设核心词与创建关键词之间的节点关系,并根据创建关键词和预设核心词之间的节点关系将创建关键词和预设核心词写入到一知识图谱模型中。
在上述实施例中,通过各个创建关键词和与对应的创建关键词相关联的预设核心词创建知识图谱模型,并且关联词组中的每个关联词按照自身的权重顺序由上至下进行排序,从而使得用户可以直观地查询与需要查询的创建关键词相关联的关联词组,并且在关联词组中对各个关联词的权重进行查阅,进而采用知识图谱模型进行对应的搜索。
作为优选的实施方式,可以将上述实施例中的预设核心词设置为创建关键词,以执行上述步骤A1-A3;
例如优选的实施例一:
首先,对创建关键词进行搜索,根据第一搜索结果对创建关键词进行语义扩展,以得到每个创建关键词对应的关联词组;
随后,于关联词组中获取每个关联词的权重,以根据权重的顺序由上至下依次将第一预设数量的关联词记为预设核心词;
接着,根据预设核心词与创建关键词之间的语义关系设置预设核心词与创建关键词之间的节点关系;
然后,直接根据创建关键词和预设核心词之间的节点关系将创建关键词和预设核心词写入到知识图谱模型中;
紧接着,将预设核心词设置为创建关键词执行上述步骤,即根据第一搜索结果对预设核心词进行语义扩展,以获取得到与预设核心词相关联的次要核心词;
再接着,计算次要核心词的权重,并根据次要核心词的权重顺序对次要核心词进行筛选以得预设数量的筛选核心词;
下一步,根据筛选核心词与预设核心词之间的语义关系设置筛选核心词与预设核心词之间的节点关系;
最后,根据预设核心词和筛选核心词之间的节点关系将预设核心词和筛选核心词写入到知识图谱模型中。
例如优选的实施例二:
首先,对创建关键词进行搜索,根据第一搜索结果对创建关键词进行语义扩展,以得到每个创建关键词对应的关联词组;
随后,于关联词组中获取每个关联词的权重,以根据权重的顺序由上至下依次将第一预设数量的关联词记为预设核心词;
接着,根据预设核心词与创建关键词之间的语义关系设置预设核心词与创建关键词之间的节点关系;
紧接着,将预设核心词设置为创建关键词执行上述步骤,即根据第一搜索结果对预设核心词进行语义扩展,以获取得到与预设核心词相关联的次要核心词;
再接着,计算次要核心词的权重,并根据次要核心词的权重顺序对次要核心词进行筛选以得预设数量的筛选核心词;
下一步,根据筛选核心词与预设核心词之间的语义关系设置筛选核心词与预设核心词之间的节点关系;
最后,根据创建关键词、预设核心词和筛选核心词之间的节点关系将创建关键词、预设核心词和筛选核心词写入到知识图谱模型中。
在上述优选的实施例一和优选的实施例二,将创建关键词、预设核心词和筛选核心词写入到知识图谱模型中的顺序不同。
需要说明的是,也可以将上述优选的实施例一和优选的实施例二中的筛选核心词作为创建核心词,继续执行上述步骤A1-A3,以此类推,在此不做详细阐述。
进一步地,在上述实施例中,步骤A1具体包括以下步骤:
步骤A11,获取并根据创建关键词进行搜索得到第一搜索结果;
步骤A12,对创建关键词进行语义扩展,以获取得到创建关键词的表示含义;
步骤A13,根据表示含义于第一搜索结果中的每个关联词搜索项中获取得到接近于表示含义的兄弟含义和/或父含义和/或子含义,并将表示含义和/或兄弟含义和/或父含义和/或子含义形成的关联词写入关联词组中。
作为优选的实施例中,用户会在一个搜索框中同时输入至少一个创建关键词,并可以对创建关键词进行解析,以得到创建关键词对应的领域(例如,篮球对应的领域可以为体育、球类运动、运动项目中的至少一种),同时搜索得到对应于每个创建关键词的第一搜索结果;
接着,在创建关键词所在的领域中,对创建关键词进行语义推演,以获取创建关键词的表示含义;
随后,根据表示含义于第一搜索结果中获取接近于表示含义的兄弟含义和/或父含义和/或子含义,并将表示含义和/或兄弟含义和/或父含义和/或子含义形成的关联词写入关联词组中。
其中,第一搜索结果中包括多个关联词搜索项(例如,关联词搜索项可以为文章、咨询),会在每个关联词搜索项中获取得到与每个创建关键词的表示含义接近的兄弟含义和/或父含义和/或子含义;最后根据关联与每个创建关键词的所有关联词形成创建关键词对应的关联词组,上述关联词包括兄弟含义和/或父含义和/或子含义对应的关联词。
作为优选的实施方式,用户可以输入两个创建关键词,分别为“第一关键词”和“第二关键词”,用户在搜索框中同时输入“第一关键词”和“第二关键词”,那么会满足“第一关键词”的第一搜索结果一,以及满足“第二关键词”的第一搜索结果二;
对“第一关键词”进行语义推演,以获取“第一关键词”的至少一个第一表示含义;
第一搜索结果一包括多个关联词搜索项(指代文章、咨询),在每个关联词搜索项中获取得到与第一关键词相关联的关联词(例如,可以在第一搜索结果一中的第一关联词搜索项中获取得到与“第一表示含义”接近的子含义)。
其中,“第一搜索结果一”和“第一搜索结果二”可以分别存储在两个不同的存储区间中,以避免混淆。
作为优选的实施方式,用户可以输入创建关键词——林业,对“林业”进行搜索,以得到对应于“林业”的第一搜索结果;
随后,对“林业”进行解析,以得到“林业”的表示含义——“保护生态环境保持生态平衡,培育和保护森林以取得木材和其他林产品、利用林木的自然特性以发挥防护作用的生产部”;
接着,在第一搜索结果中的每个关联词搜索项中查询接近“林业”的表示含义的子含义,例如子含义可以包括“森林”和“草原”等;
最后,将“森林”和“草原”作为“林业”的子节点写入关联词组。
在上述实施例中,用户可以选择接近于表示含义的兄弟含义,或父含义和子含义中的至少一个。
进一步地,在上述实施例中,权重计算公式如下述公式所示:
其中,在上述公式1中W用于表示关联词的权重;
subsetFreq用于表示第一搜索结果的词频;
subsetSize用于表示第一搜索结果的大小;
superFreq用于表示整个搜索数据库的词频;
superSize用于表示整个搜索数据库的大小;
natureBoost用于表示词性权重(其中,名词和动词的权重大于比其他词性的权重);
fieldBoost用于表示字段权重(其中,标题的权重大于比内容的权重)。
在上述实施例中,可以在步骤A1之前供用户选择搜索的种类和/或领域,并根据用户选择的搜索领域和/或种类形成搜索数据库。
例如,用户可以选择种类包括:网页、文章、咨询等中的至少一种;
用户可以选择领域包括:新闻、文化等中的至少一种。
当用户没有进行选择时,可以默认用户选择了所有种类和所有领域,即此时的整个搜索数据库包括了所有领域和所有种类的数据。
作为优选的实施方式,当用户选择搜索的领域是新闻,并且用户选择搜索的种类的文章时,那么此时的整个搜索数据库为新闻文章数据库,新闻文章数据库中包括所有的新闻文章;
用户输入“第一关键词”和“第二关键词”,以在新闻文章数据库中搜索得到分别满足“第一关键词”和“第二关键词”的第一搜索结果一和第一搜索结果二。
进一步地,在上述实施例中,
步骤A11还包括:
获取检索参数,以根据创建关键词和检索参数搜索得到第一搜索结果。
在上述实施例中,检索参数包括需要检索的时间段,例如需要检索2019年的创建关键词时,可以直接输入时间段范围是2019年1月1日至2019年12月31日。
在上述实施例中,检索参数包括检索位置,例如,检索位置包括个关联词搜索项的全文、标题等范围。
进一步地,在上述实施例中,可以将知识图谱模型以列表展示,以供用户直观地查阅关联词组中的各个创建关键词和与创建关键词相关联的关联词。
如图1所示,当用户创建关键词为“A11”时,关联词可以为“A1”(“A1”是“A11”的父节点,即“A1”的表示含义接近于是“A11”的父含义),关联词可以为“A111”和“A112”(“A111”和“A112”是“A11”的子节点,即“A111”和“A112”的表示含义接近于是“A11”的子含义,其中“A111”的权重大于“A112”的权重),关联词可以为“A12”和“A13”(“A12”和“A13”是“A11”的兄弟节点,即“A12”和“A13”的表示含义接近于是“A11”的兄弟含义,其中“A12”的权重大于“A13”的权重);
通过列表可以更直观地查阅与创建关键词相关联的关联词。
进一步地,在上述实施例中,应用于采用上述创建方法创建的知识图谱模型中,检索方法包括以下步骤:
步骤B1,获取用户选择的选中节点,并于知识图谱模型中获取选中节点的多个关联节点,以得到选中节点对应的节点集;
步骤B2,根据节点集中的所有节点进行搜索,以得到满足所有节点的第二搜索结果,第二搜索结果包括多个图谱搜索项;
步骤B3,根据权重计算公式获取每个图谱搜索项中的每个节点的权重;和
分别设置节点集的每个节点的配置参数;
步骤B4,根据配置参数和每个节点的权重分别计算每个图谱搜索项中的对应节点的节点相关度值;
步骤B5,获取图谱搜索项的原始相关度值,并根据所有节点的节点相关度值和图谱搜索项的原始相关度值计算得到对应的图谱搜索项的相关度分数;
步骤B6,根据相关度分数的大小对节点集的每个节点和对应于节点集的图谱搜索项进行依次展示。
在上述实施例中,结合知识图谱模型获取与选中节点相关联的关联节点,并将关联节点和选中节点写入当前选中节点的节点集;
例如,用户选择的选中节点为第一选中节点时,于知识图谱模型中获取第一选中节点的第一关联节点一和第一关联节点二,并将第一选中节点、第一关联节点一和第一关联节点二写入与第一选中节点对应的第一节点集中。
接着,对整个节点集进行搜索,以得到满足节点集中所有节点的第二搜索结果,第二搜索结果包括多个图谱搜索项;
例如,当节点集为第一节点集时,第一节点集包括第一选中节点、第一关联节点一和第一关联节点二,此时的第二搜索结果中的每个图谱搜索项均满足第一选中节点、第一关联节点一和第一关联节点二。
随后,计算得到每个图谱搜索项中的每个节点的权重;同时设置每个节点的设置参数;
例如,当节点集为第一节点集时,第一节点集包括第一选中节点、第一关联节点一和第一关联节点二,此时计算一个图谱搜索项中的第一选中节点的权重、第一关联节点一的权重和第一关联节点二的权重。
然后,根据配置参数和每个节点的权重分别计算每个图谱搜索项中的对应节点的节点相关度值;
例如,当节点集为第一节点集时,第一节点集包括第一选中节点、第一关联节点一和第一关联节点二,根据第一选中节点的配置参数和第一选中节点的权重计算第一选中节点的节点相关度值。
紧接着,获取图谱搜索项的原始相关度值,并根据所有节点的节点相关度值和图谱搜索项的原始相关度值计算得到对应的图谱搜索项的相关度分数;
最后,根据相关度分数的大小对节点集的每个节点和对应于节点集的图谱搜索项进行依次展示。
在上述实施例中,可以实现采用知识图谱模型获取节点集,并根据节点集进行搜索,进而快速、高效地对海量数据中进行对应于节点集的图谱搜索项地发现,并且有助于各行各业在海量数据中可以快速浓缩主题,获取有价值的信息。
进一步地,作为优选的实施方式,当用户没有直接查询知识图谱模型的图表时,步骤B1具体包括以下步骤:读取搜索关键词的表示概念,并根据表示概念于知识图谱模型中获取至少一个对应的选中节点。
进一步地,作为优选的实施方式,用户可以直接通过知识图谱模型的图表选择选中节点。
进一步地,在上述实施例中,配置参数包括权重调节因子和路径调节因子。
进一步地,在上述实施例中,关联节点包括选中节点的兄弟节点、父节点和子节点中的至少一种。
进一步地,在上述实施例中,采用下述公式根据配置参数和每个节点的权重分别计算每个图谱搜索项中的对应节点的节点相关度值;
Weight=log(1+factor_w*w)*factor_w/log(1+factor_p*p)*factor_p;(2)
其中,在上述公式2中Weight用于表示节点相关度值;
W用于表示选中节点和关联节点的权重;
factor_w用于表示选中节点和关联节点的权重调节因子;
p用于表示选中节点和关联节点的路径深度值;
factor_p用于表示选中节点和关联节点的路径调节因子。
作为优选的实施方式,设置当前的节点集为第一节点集时,第一节点集包括第一选中节点、第一关联节点一和第一关联节点二,此时计算一个图谱搜索项中的第一选中节点的权重、第一关联节点一的权重和第一关联节点二的权重;
并分别设置第一选中节点、第一关联节点一和第一关联节点二的权重调节因子,同时分别设置第一选中节点、第一关联节点一和第一关联节点二的路径调节因子。
其中,需要说明的是,可以将选中节点的权重调节因子调节为:50;
可以将选中节点的父节点的权重调节因子调节为:10;
可以将选中节点的子节点的权重调节因子调节为:30;
可以将选中节点的兄弟节点的权重调节因子调节为:10;
可以将选中节点的路径调节因子调节为:1;
可以将选中节点的父节点的路径调节因子调节为:4;
可以将选中节点的子节点的路径调节因子调节为:2;
可以将选中节点的兄弟节点的路径调节因子调节为:3。
例如,当知识图谱模型的图表包括“体育”,“体育”的子节点包括“足球”、“篮球”、“橄榄球”等,而“足球”的子节点包括“足球赛事”、“足球明星”、“足球队伍”等;
当选中节点为“足球”时,此时“足球”的权重调节因子可以为50,路径调节因子可以为1;
此时,“足球”的父节点“体育”的权重调节因子可以为10,路径调节因子可以为4;
此时,“足球”的子节点“足球赛事”、“足球明星”、“足球队伍”等的权重调节因子均可以为10,路径调节因子可以为2;
此时,“足球”的兄弟节点“篮球”、“橄榄球”等的权重调节因子均可以为10,路径调节因子可以为3;
并且通过上述“足球”的关联节点的权重调节因子和路径调节因子结合公式2可以获取得到“足球”的节点相关度值。
进一步地,在上述实施例中,采用下述公式根据所有节点的节点相关度值和图谱搜索项的原始相关度值计算得到对应的图谱搜索项的相关度分数,
Score=∑(S*Weight);(3)
其中,在上述公式3中Score用于表示图谱搜索项的相关度分数;
S用于表示图谱搜索项的原始相关度值;
Weight用于表示节点相关度值。
以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。
Claims (5)
1.一种基于知识体系的基于知识体系的知识图谱模型的创建方法,其特征在于,包括以下步骤:
对创建关键词进行搜索,根据第一搜索结果对所述创建关键词进行语义扩展,以得到每个所述创建关键词对应的关联词组,具体的,包括以下步骤:获取并根据所述创建关键词进行搜索得到所述第一搜索结果;对所述创建关键词进行语义扩展,以获取得到所述创建关键词的表示含义;根据所述表示含义于所述第一搜索结果中的每个关联词搜索项中获取得到接近于所述表示含义的兄弟含义和/或父含义和/或子含义,并将所述表示含义和/或所述兄弟含义和/或所述父含义和/或所述子含义形成的所述关联词写入所述关联词组中;
根据权重计算公式于所述关联词组中获取每个关联词的权重,以根据权重的顺序由上至下依次将预设数量的所述关联词记为预设核心词;
根据所述预设核心词与所述创建关键词之间的语义关系设置所述预设核心词与所述创建关键词之间的节点关系,并根据所述创建关键词和所述预设核心词之间的节点关系将所述创建关键词和所述预设核心词写入到一知识图谱模型中;
其中,所述权重计算公式如下述公式所示:
;
其中,用于表示所述关联词的权重;
用于表示第一搜索结果的词频;
用于表示第一搜索结果的大小;
用于表示整个搜索数据库的词频;
用于表示整个搜索数据库的大小;
用于表示词性权重;
用于表示字段权重。
2.如权利要求1所述的基于知识体系的知识图谱模型的创建方法,其特征在于,所述获取并根据所述创建关键词进行搜索得到所述第一搜索结果还包括:获取检索参数,以根据创建关键词和检索参数搜索得到第一搜索结果。
3.一种基于知识体系的图谱检索方法,其特征在于,应用于采用如权利要求1-2任一所述的创建方法创建的所述知识图谱模型中,所述检索方法包括以下步骤:
获取用户选择的选中节点,并于所述知识图谱模型中获取所述选中节点的多个关联节点,以得到所述选中节点对应的节点集,具体的,包括:读取搜索关键词的表示概念,并根据所述表示概念于所述知识图谱模型中获取至少一个对应的所述选中节点;
根据所述节点集中的所有节点进行搜索,以得到满足所有节点的第二搜索结果,所述第二搜索结果包括多个图谱搜索项;
根据第一权重计算公式获取每个所述图谱搜索项中的每个节点的权重;和
分别设置所述节点集的每个节点的配置参数;
根据所述配置参数和每个节点的权重分别计算每个所述图谱搜索项中的对应节点的节点相关度值;
获取所述图谱搜索项的原始相关度值,并根据所有节点的所述节点相关度值和所述图谱搜索项的原始相关度值计算得到对应的所述图谱搜索项的相关度分数;
根据所述相关度分数的大小对所述节点集的每个节点和对应于所述节点集的所述图谱搜索项进行依次展示;
其中,采用下述公式根据所述配置参数和每个节点的权重分别计算每个所述图谱搜索项中的对应节点的节点相关度值;
;
其中,用于表示节点的节点相关度值;
用于表示所述选中节点和所述关联节点的权重;
用于表示所述选中节点和所述关联节点的权重调节因子;
用于表示所述选中节点和所述关联节点的路径深度值;
用于表示所述选中节点和所述关联节点的路径调节因子。
4.如权利要求3所述的基于知识体系的图谱检索方法,其特征在于,所述关联节点包括所述选中节点的兄弟节点、父节点和子节点中的至少一种。
5.如权利要求3所述的基于知识体系的图谱检索方法,其特征在于,采用下述公式根据所有节点的所述节点相关度值和所述图谱搜索项的原始相关度值计算得到对应的所述图谱搜索项的相关度分数,
;
其中,用于表示所述图谱搜索项的相关度分数;
用于表示所述图谱搜索项的原始相关度值;
用于表示所述节点相关度值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010941317.0A CN112100399B (zh) | 2020-09-09 | 2020-09-09 | 基于知识体系的知识图谱模型的创建方法及图谱检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010941317.0A CN112100399B (zh) | 2020-09-09 | 2020-09-09 | 基于知识体系的知识图谱模型的创建方法及图谱检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112100399A CN112100399A (zh) | 2020-12-18 |
CN112100399B true CN112100399B (zh) | 2023-12-22 |
Family
ID=73750747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010941317.0A Active CN112100399B (zh) | 2020-09-09 | 2020-09-09 | 基于知识体系的知识图谱模型的创建方法及图谱检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100399B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007085187A1 (fr) * | 2006-01-25 | 2007-08-02 | Huawei Technologies Co., Ltd. | Procédé d'extraction de données, procédé de production de fichiers d'index et moteur de recherche |
CN102902806A (zh) * | 2012-10-17 | 2013-01-30 | 深圳市宜搜科技发展有限公司 | 一种利用搜索引擎进行查询扩展的方法及系统 |
CN104391942A (zh) * | 2014-11-25 | 2015-03-04 | 中国科学院自动化研究所 | 基于语义图谱的短文本特征扩展方法 |
CN111611398A (zh) * | 2020-04-02 | 2020-09-01 | 中南大学 | 一种基于知识图谱的临床表现联想方法、装置、设备及介质 |
-
2020
- 2020-09-09 CN CN202010941317.0A patent/CN112100399B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007085187A1 (fr) * | 2006-01-25 | 2007-08-02 | Huawei Technologies Co., Ltd. | Procédé d'extraction de données, procédé de production de fichiers d'index et moteur de recherche |
CN102902806A (zh) * | 2012-10-17 | 2013-01-30 | 深圳市宜搜科技发展有限公司 | 一种利用搜索引擎进行查询扩展的方法及系统 |
CN104391942A (zh) * | 2014-11-25 | 2015-03-04 | 中国科学院自动化研究所 | 基于语义图谱的短文本特征扩展方法 |
CN111611398A (zh) * | 2020-04-02 | 2020-09-01 | 中南大学 | 一种基于知识图谱的临床表现联想方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112100399A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8527506B2 (en) | Media discovery and playlist generation | |
US9600533B2 (en) | Matching and recommending relevant videos and media to individual search engine results | |
US7987191B2 (en) | System and method for generating a relationship network | |
US8244773B2 (en) | Keyword output apparatus and method | |
US8108417B2 (en) | Discovering and scoring relationships extracted from human generated lists | |
US8793259B2 (en) | Information retrieval device, information retrieval method, and program | |
US7275052B2 (en) | Combined classification based on examples, queries, and keywords | |
CN102214186B (zh) | 展示对象关系的方法和系统 | |
Adek et al. | Online Newspaper Clustering in Aceh using the Agglomerative Hierarchical Clustering Method | |
CN106372123B (zh) | 一种基于标签的相关内容推荐方法和系统 | |
CN112100399B (zh) | 基于知识体系的知识图谱模型的创建方法及图谱检索方法 | |
JP2008065468A (ja) | テキスト多重分類装置、テキストを多重分類する方法、プログラムおよび記憶媒体 | |
CN112100330B (zh) | 一种基于人工智能技术的主题搜索方法及其系统 | |
Keller et al. | TEKMA at CLEF-2021: BM-25 based rankings for scientific publication retrieval and data set recommendation. | |
Zhang et al. | WiiCluster: A platform for wikipedia infobox generation | |
Wen et al. | Web snippets clustering based on an improved suffix tree algorithm | |
Vieira et al. | Accessing related topics through community detection in knowledge graph | |
Rodriguez | Optimizing Search Engine Efficiency with Static Index Pruning and Tiering | |
JPH09305619A (ja) | 階層インデックス検索装置、及び文書検索方法 | |
CN114254120A (zh) | 一种面向调控云的电网智能搜索系统及方法 | |
JPH08212232A (ja) | 事例データベース検索提示方法 | |
Elliott | Automatic pure anchor-based taxonomy generation from the world wide web | |
Dias et al. | HULTECH at the NTCIR-11 Temporalia Task: Ensemble Learning for Temporal Query Intent Classification | |
JP2003330952A (ja) | 情報検索支援システムおよびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |