CN117744784B - 一种医学科研知识图谱构建与智能检索方法及系统 - Google Patents
一种医学科研知识图谱构建与智能检索方法及系统 Download PDFInfo
- Publication number
- CN117744784B CN117744784B CN202410155441.2A CN202410155441A CN117744784B CN 117744784 B CN117744784 B CN 117744784B CN 202410155441 A CN202410155441 A CN 202410155441A CN 117744784 B CN117744784 B CN 117744784B
- Authority
- CN
- China
- Prior art keywords
- data
- content
- entity
- scientific research
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011160 research Methods 0.000 title claims abstract description 388
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000010276 construction Methods 0.000 title claims abstract description 50
- 238000013461 design Methods 0.000 claims abstract description 13
- 238000013500 data storage Methods 0.000 claims abstract description 9
- 238000004458 analytical method Methods 0.000 claims description 166
- 239000011159 matrix material Substances 0.000 claims description 53
- 230000005855 radiation Effects 0.000 claims description 53
- 238000004364 calculation method Methods 0.000 claims description 33
- 238000005192 partition Methods 0.000 claims description 31
- 238000013507 mapping Methods 0.000 claims description 23
- 238000000926 separation method Methods 0.000 claims description 23
- 230000006978 adaptation Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 12
- 238000005065 mining Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000002349 favourable effect Effects 0.000 description 22
- 238000003058 natural language processing Methods 0.000 description 16
- 238000005457 optimization Methods 0.000 description 12
- 230000003044 adaptive effect Effects 0.000 description 10
- 230000009286 beneficial effect Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 201000010099 disease Diseases 0.000 description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 7
- 239000003814 drug Substances 0.000 description 7
- 230000010354 integration Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 229940079593 drug Drugs 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及医学科研技术领域,尤其涉及一种医学科研知识图谱构建与智能检索方法及系统。所述方法包括以下步骤:获取医学科研数据;根据医学科研数据得到内容领域主题交叠数据、医学科研实体数据以及内容领域主题交叠数据;根据领域概念主题数据以及内容领域主题交叠数据进行知识图谱构建,从而获得内容领域知识图谱;根据医学科研实体数据对内容领域知识图谱进行检索地址设计,生成实体内容检索地址;对实体内容检索地址进行地址生成规则编码,生成检索地址规则编码数据;通过检索地址规则编码数据对内容领域知识图谱进行数据存储,以执行知识图谱智能检索。本发明通过对医学科研知识图谱构建与检索方法的优化,使得医学科研检索速度更加迅捷。
Description
技术领域
本发明涉及医学科研技术领域,尤其涉及一种医学科研知识图谱构建与智能检索方法及系统。
背景技术
利用信息技术在医学领域进行深度研究的重要手段,知识图谱以图形结构展现医学领域的复杂关系,整合了大量医学知识数据,包括疾病、药物元素,构建过程涉及自然语言处理、数据挖掘和本体论多学科知识。然而,传统的医学科研知识图谱构建与智能检索方法存在着对不同医学科研领域概念关系混淆不清,以及无法准确的对医学科研知识进行检索的问题。
发明内容
基于此,有必要提供一种医学科研知识图谱构建与智能检索方法及系统,以解决至少一个上述技术问题。
为实现上述目的,一种医学科研知识图谱构建与智能检索方法,所述方法包括以下步骤:
步骤S1:获取医学科研数据;对医学科研数据进行实体识别,得到医学科研实体数据;根据医学科研实体数据对医学科研数据进行领域概念分析,得到领域概念分析数据;
步骤S2:根据医学科研实体数据对领域概念分析数据进行领域主题分析,得到领域概念主题数据;根据领域概念主题数据进行内容主题重叠识别,得到内容领域主题交叠数据;根据领域概念主题数据以及内容领域主题交叠数据进行知识图谱构建,从而获得内容领域知识图谱;
步骤S3:根据医学科研实体数据对内容领域知识图谱进行实体内容映射,生成科研实体内容知识图谱;对科研实体内容知识图谱进行检索地址设计,生成实体内容检索地址;对实体内容检索地址进行地址生成规则编码,生成检索地址规则编码数据;
步骤S4:通过检索地址规则编码数据对图数据库进行检索适配性调整,生成检索适配图数据库;通过检索适配图数据库对内容领域知识图谱进行数据存储,以执行知识图谱智能检索。
本发明通过获取医学科研数据,包含了各种相关信息,以及不同医学领域的研究资料,通过实体识别,可以精确地定位文本中的医学实体,如药物、疾病,为后续深入分析提供基础,实体识别有助于在文本中发现实体之间的关系,帮助理解医学领域中的关联性,通过对实体数据的领域概念分析,可以理清医学领域的核心概念,有助于建立概念体系和知识图谱,其中对医学科研数据进行领域概念分析是指对各自不同领域的医学科研的相关医学概念进行分析,医学科研知识中有很多相似的内容,通过对它们进行领域概念分析,可以明确不同领域的医学科研的相关医学概念,提供了对医学科研数据的深度理解,有助于进行更为精细和深入的研究,有助于从文本中提取关键知识,形成结构化的信息,为后续的研究和应用提供基础,同时也可以通过概念分析追踪医学科研的发展趋势,帮助决策者了解领域的动态;通过主题分析,可以识别医学科研领域中各个概念和主题之间的关联性,帮助构建概念之间的关系网,确定医学科研领域中的核心主题,有助于深入理解领域内重要议题和研究方向,识别不同领域概念主题之间的重叠和交汇,有助于发现不同领域之间的联系和交叉点,促进跨学科研究和创新,确定内容领域中相互关联的主题,促进跨领域知识的整合和交流,构建知识图谱有助于将医学科研领域内的信息结构化呈现,形成节点和边的网络关系,提高信息可视化和理解,通过知识图谱,能够更好地挖掘和展示医学科研领域中实体、概念之间的关联性和关系,促进知识发现和应用;通过实体内容映射,将医学科研实体与其相关内容关联起来,有助于构建更为丰富和全面的知识图谱,映射后的图谱能够清晰地展现不同实体之间的关系,提高对科研领域知识结构的理解,设计适配的检索地址有助于提高检索效率,使科研人员更迅速地获取所需信息,根据实体内容的特点,设计的检索地址能够更好地满足不同用户的个性化检索需求,通过地址生成规则编码,将检索地址的生成过程规范化,提高系统的稳定性和可维护性,编码规则使得检索地址的生成可以自动进行,减少人工干预,提高系统的自动化程度,调整图数据库的检索适配性可以针对实体内容的检索地址规则进行性能优化,提高检索速度和效率,适配性调整有助于充分利用图数据库的资源,提升整个系统的运行效能,生成的检索适配图数据库能够更好地满足医学科研领域的个性化检索需求,提高检索的准确性和适用性,适配图数据库可以根据检索需求对数据结构进行优化,提升检索性能,利用检索适配图数据库进行知识图谱的智能检索,使用户能够更智能、精准地获取相关信息,同时可以通过适配图数据库实时更新知识图谱,保持检索结果的时效性和准确性。因此本发明是对传统的医学科研知识图谱构建与智能检索方法做出的优化处理,解决了传统的医学科研知识图谱构建与智能检索方法存在着对不同医学科研领域概念关系混淆不清,以及无法准确的对医学科研知识进行检索的问题,明晰了对不同医学科研领域概念之间的关系,提高了对医学科研知识进行检索的准确度。
优选地,步骤S1包括以下步骤:
步骤S11:获取医学科研数据;
步骤S12:对医学科研数据进行专业术语标记,得到专业术语标记数据;根据专业术语标记数据对医学科研数据进行语言逻辑分析,得到医学科研语言逻辑数据;
步骤S13:根据医学科研语言逻辑数据以及专业术语标记数据对医学科研数据进行实体识别,得到医学科研实体数据;
步骤S14:根据医学科研语言逻辑数据以及医学科研实体数据对医学科研数据进行领域概念分析,得到领域概念分析数据。
本发明通过获取丰富的医学科研数据,确保研究的全面性和可靠性,收集来自不同来源、不同类型的数据,以更好地反映医学领域的多样性,标记专业术语有助于数据的一致性,提高数据的可理解性和可比性,实体识别有助于将非结构化的文本数据转化为结构化的实体数据,方便后续的分析和应用,通过实体识别,可以更好地理解数据中的关键元素,促进不同数据实体之间的关联,领域概念分析有助于深入理解医学科研数据的内在含义,为研究提供更深层次的见解,通过对领域概念的分析,可以发现新的关联、趋势和知识,推动医学领域的进一步研究,其中领域概念分析是指对各自不同领域的医学科研的相关医学概念进行分析,医学科研知识中有很多相似的内容,通过对它们进行领域概念分析,可以明确不同领域的医学科研的相关医学概念,提供了对医学科研数据的深度理解,有助于进行更为精细和深入的研究。
优选地,步骤S14包括以下步骤:
步骤S141:根据医学科研实体数据对医学科研数据进行研究领域分类,得到研究领域分类数据;
步骤S142:对医学科研语言逻辑数据进行关系逻辑提取,得到医学科研关系逻辑数据;根据研究领域分类数据对医学科研关系逻辑数据进行不同领域规则约束分析,得到关系规则约束数据;
步骤S143:根据关系规则约束数据以及医学科研实体数据对医学科研数据进行不同领域词性解析,得到领域词性解析数据;
步骤S144:根据领域词性解析数据、关系规则约束数据以及医学科研实体数据对医学科研数据进行领域概念分析,得到领域概念分析数据。
本发明通过对医学科研实体数据进行研究领域分类,可以将数据准确地定位到特定的研究领域,有助于研究人员更清晰地了解其研究对象,研究领域分类数据使得相似主题或领域的研究可以更容易地被整合,并且提高了检索效率,使得研究人员能够更迅速地获取相关信息,通过关系逻辑提取,可以深入理解医学科研数据中实体之间的关系,有助于建立更为准确的关系模型,结合研究领域分类数据,对医学科研关系逻辑数据进行不同领域规则约束分析,能够提高对关系数据的准确性和可信度,避免不适用于特定领域的误解或错误;通过对医学科研数据进行不同领域词性解析,可以更好地理解实体和关系的语境,提高数据的理解准确性,领域词性解析有助于将术语标注和规范化,使得数据更易于被理解和使用,促进数据的一致性和标准化,结合领域词性解析数据和关系规则约束数据,进行领域概念分析有助于深度理解医学科研数据中的概念关系,进一步揭示数据的内在结构,通过领域概念分析,可以抽取出隐藏在数据中的知识和关联,为科学研究提供更多的洞察和发现机会,最后得到不同领域的领域概念分析数据。
优选地,步骤S2包括以下步骤:
步骤S21:根据医学科研实体数据对领域概念分析数据进行层级检索,得到实体领域概念层级数据;
步骤S22:对实体领域概念层级数据进行领域主题分析,得到领域概念主题数据;
步骤S23:根据领域概念主题数据对实体领域概念层级数据进行内容主题重叠识别,得到内容领域主题交叠数据;
步骤S24:根据实体领域概念层级数据、内容领域主题交叠数据以及领域概念主题数据进行知识图谱构建,从而获得内容领域知识图谱。
本发明通过对领域概念分析数据进行层级检索,可以建立医学科研实体的层级结构,提供了实体在知识体系中的位置和关联,有助于更深入理解领域内的概念结构,针对实体领域概念层级数据进行领域主题分析有助于挖掘医学科研数据中的主题和关键概念,提供对领域内重要主题的理解,领域概念主题数据有助于将医学科研数据以主题为基础进行组织,使得知识更易于被理解和利用,通过对实体领域概念层级数据进行内容主题重叠识别,可以发现概念之间的重叠和关联,帮助理解不同概念之间的联系,促进知识的交叉整合,结合实体领域概念层级数据、内容领域主题交叠数据和领域概念主题数据,构建知识图谱有助于更全面地理解医学科研数据中的信息关联,知识图谱的构建为后续的智能检索提供基础,用户可以更方便地通过图谱查询相关信息,提高检索效率。
优选地,本发明还提供了一种医学科研知识图谱构建与智能检索系统,用于执行如上所述的一种医学科研知识图谱构建与智能检索方法,该医学科研知识图谱构建与智能检索系统包括:
医学科研领域解析模块,用于获取医学科研数据;对医学科研数据进行实体识别,得到医学科研实体数据;根据医学科研实体数据对医学科研数据进行领域概念分析,得到领域概念分析数据;
内容领域知识图谱构建模块,用于根据医学科研实体数据对领域概念分析数据进行领域主题分析,得到领域概念主题数据;根据领域概念主题数据进行内容主题重叠识别,得到内容领域主题交叠数据;根据领域概念主题数据以及内容领域主题交叠数据进行知识图谱构建,从而获得内容领域知识图谱;
检索地址生成模块,用于根据医学科研实体数据对内容领域知识图谱进行实体内容映射,生成科研实体内容知识图谱;对科研实体内容知识图谱进行检索地址开辟,生成实体内容检索地址;对实体内容检索地址进行地址生成规则编码,生成检索地址规则编码数据;
智能检索执行模块,用于通过检索地址规则编码数据对图数据库进行检索适配性调整,生成检索适配图数据库;通过检索适配图数据库对内容领域知识图谱进行数据存储,以执行知识图谱智能检索。
本发明有益效果,通过获取医学科研数据,包含了各种相关信息,以及不同医学领域的研究资料,通过实体识别,可以精确地定位文本中的医学实体,如药物、疾病,为后续深入分析提供基础,实体识别有助于在文本中发现实体之间的关系,帮助理解医学领域中的关联性,通过对实体数据的领域概念分析,可以理清医学领域的核心概念,有助于建立概念体系和知识图谱,其中对医学科研数据进行领域概念分析是指对各自不同领域的医学科研的相关医学概念进行分析,医学科研知识中有很多相似的内容,通过对它们进行领域概念分析,可以明确不同领域的医学科研的相关医学概念,提供了对医学科研数据的深度理解,有助于进行更为精细和深入的研究,有助于从文本中提取关键知识,形成结构化的信息,为后续的研究和应用提供基础,同时也可以通过概念分析追踪医学科研的发展趋势,帮助决策者了解领域的动态;通过主题分析,可以识别医学科研领域中各个概念和主题之间的关联性,帮助构建概念之间的关系网,确定医学科研领域中的核心主题,有助于深入理解领域内重要议题和研究方向,识别不同领域概念主题之间的重叠和交汇,有助于发现不同领域之间的联系和交叉点,促进跨学科研究和创新,确定内容领域中相互关联的主题,促进跨领域知识的整合和交流,构建知识图谱有助于将医学科研领域内的信息结构化呈现,形成节点和边的网络关系,提高信息可视化和理解,通过知识图谱,能够更好地挖掘和展示医学科研领域中实体、概念之间的关联性和关系,促进知识发现和应用;通过实体内容映射,将医学科研实体与其相关内容关联起来,有助于构建更为丰富和全面的知识图谱,映射后的图谱能够清晰地展现不同实体之间的关系,提高对科研领域知识结构的理解,设计适配的检索地址有助于提高检索效率,使科研人员更迅速地获取所需信息,根据实体内容的特点,设计的检索地址能够更好地满足不同用户的个性化检索需求,通过地址生成规则编码,将检索地址的生成过程规范化,提高系统的稳定性和可维护性,编码规则使得检索地址的生成可以自动进行,减少人工干预,提高系统的自动化程度,调整图数据库的检索适配性可以针对实体内容的检索地址规则进行性能优化,提高检索速度和效率,适配性调整有助于充分利用图数据库的资源,提升整个系统的运行效能,生成的检索适配图数据库能够更好地满足医学科研领域的个性化检索需求,提高检索的准确性和适用性,适配图数据库可以根据检索需求对数据结构进行优化,提升检索性能,利用检索适配图数据库进行知识图谱的智能检索,使用户能够更智能、精准地获取相关信息,同时可以通过适配图数据库实时更新知识图谱,保持检索结果的时效性和准确性。因此本发明是对传统的医学科研知识图谱构建与智能检索方法做出的优化处理,解决了传统的医学科研知识图谱构建与智能检索方法存在着对不同医学科研领域概念关系混淆不清,以及无法准确的对医学科研知识进行检索的问题,明晰了对不同医学科研领域概念之间的关系,提高了对医学科研知识进行检索的准确度。
附图说明
图1为一种医学科研知识图谱构建与智能检索方法的步骤流程示意图;
图2为图1中步骤S2的详细实施步骤流程示意图;
图3为图2中步骤S23的详细实施步骤流程示意图;
图4为图2中步骤S24的详细实施步骤流程示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面结合附图对本发明专利的技术方法进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域所属的技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器方法和/或微控制器方法中实现这些功能实体。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
为实现上述目的,请参阅图1至图4,一种医学科研知识图谱构建与智能检索方法,所述方法包括以下步骤:
步骤S1:获取医学科研数据;对医学科研数据进行实体识别,得到医学科研实体数据;根据医学科研实体数据对医学科研数据进行领域概念分析,得到领域概念分析数据;
步骤S2:根据医学科研实体数据对领域概念分析数据进行领域主题分析,得到领域概念主题数据;根据领域概念主题数据进行内容主题重叠识别,得到内容领域主题交叠数据;根据领域概念主题数据以及内容领域主题交叠数据进行知识图谱构建,从而获得内容领域知识图谱;
步骤S3:根据医学科研实体数据对内容领域知识图谱进行实体内容映射,生成科研实体内容知识图谱;对科研实体内容知识图谱进行检索地址设计,生成实体内容检索地址;对实体内容检索地址进行地址生成规则编码,生成检索地址规则编码数据;
步骤S4:通过检索地址规则编码数据对图数据库进行检索适配性调整,生成检索适配图数据库;通过检索适配图数据库对内容领域知识图谱进行数据存储,以执行知识图谱智能检索。
本发明实施例中,参考图1所述,为本发明一种医学科研知识图谱构建与智能检索方法的步骤流程示意图,在本实例中,所述医学科研知识图谱构建与智能检索方法包括以下步骤:
步骤S1:获取医学科研数据;对医学科研数据进行实体识别,得到医学科研实体数据;根据医学科研实体数据对医学科研数据进行领域概念分析,得到领域概念分析数据;
本发明实施例中,通过从医学期刊、病例报告、学术论文数据库途径获取医学科研数据,设计并实施数据采集策略,使用访问数据库接口等方式,收集医学科研相关的文本数据;选择自然语言处理工具:使用自然语言处理(NLP)工具,如Spacy、Stanford NER,以进行实体识别,基于医学领域的语料库,训练实体识别模型,以识别医学科研数据中的实体,如疾病、药物、以及其他医学实体信息,在医学科研数据上应用实体识别模型,提取文本中的具体实体信息,根据医学科研实体数据,构建医学科研领域的概念体系,涵盖各种实体类型之间的关系,通过分析实体间的语境和关联,抽取实体之间的关系,从而对不同领域的医学科研知识做出了详细的概念分析,形成领域概念分析数据。
步骤S2:根据医学科研实体数据对领域概念分析数据进行领域主题分析,得到领域概念主题数据;根据领域概念主题数据进行内容主题重叠识别,得到内容领域主题交叠数据;根据领域概念主题数据以及内容领域主题交叠数据进行知识图谱构建,从而获得内容领域知识图谱;
本发明实施例中,利用前一步骤得到的医学科研实体数据和领域概念分析数据,建立医学科研领域的词汇表,包括关键词、术语、概念,应用文本挖掘技术,如主题模型(Topic Modeling)算法(如LDA或其他相关方法),对医学科研数据进行主题分析,将文本按照主题进行归类,得到领域概念主题数据,标识出文本所涉及的主题及其关联性,分析领域概念主题数据,检测其中存在的主题重叠,即一个文本涉及多个主题,识别具体的主题交叠情况,得到内容领域主题交叠数据,标识出哪些主题在某些文本中同时存在,根据领域概念主题数据中的实体和关系,定义知识图谱中的实体节点和关系边。
步骤S3:根据医学科研实体数据对内容领域知识图谱进行实体内容映射,生成科研实体内容知识图谱;对科研实体内容知识图谱进行检索地址设计,生成实体内容检索地址;对实体内容检索地址进行地址生成规则编码,生成检索地址规则编码数据;
本发明实施例中,确定医学科研实体在知识图谱中的映射规则,即如何将实体与知识图谱中的节点相对应,对医学科研实体数据进行处理,按照映射规则将实体映射到知识图谱的相应节点,建立科研实体内容知识图谱,确定知识图谱中的节点作为检索地址的基础,例如特定实体类型、主题、关键词,确定知识图谱中的关系路径,关注的实体之间的关联关系,以建立更有意义的检索地址,基于以上定义,设计实体内容检索地址的结构,确保检索地址能够准确反映用户的检索需求,确定生成检索地址的规则,包括节点的选择、关系路径的组合,将设计好的检索地址结构转化为编码,确保规则能够在知识图谱中有效地生成实体内容检索地址,验证生成规则的准确性和有效性,确保规则能够覆盖各种检索情境,并产生有意义的检索地址。
步骤S4:通过检索地址规则编码数据对图数据库进行检索适配性调整,生成检索适配图数据库;通过检索适配图数据库对内容领域知识图谱进行数据存储,以执行知识图谱智能检索。
本发明实施例中,建立与图数据库的连接,确保能够通过编码规则与图数据库进行交互,通过检索地址规则编码数据对图数据库(如Cypher(Neo4j图数据库)或SPARQL(RDF图数据库)),进行存储地址生成规则做出调整,形成一个能够很好的对医学科研数据进行检索查询的检索适配图数据库,通过检索适配图数据库对内容领域知识图谱进行数据存储,此时每个不同领域的内容领域知识图谱,都有对应的且唯一的存储地址,以执行知识图谱智能检索。
在另一实施例中,建立与图数据库的连接,确保能够通过编码规则与图数据库进行交互,解析检索地址规则编码数据,将其中的检索需求转化为图数据库可以理解的查询语言,如Cypher(对于Neo4j图数据库)或SPARQL(对于RDF图数据库),执行经过解析的查询语言,从图数据库中检索相关实体数据,将从图数据库中检索到的数据按照预定的数据格式进行转换,以便后续的存储和处理,根据实际查询性能和需求,对查询适配性进行优化,包括索引的使用、查询语句的调整,根据实际存储需求和性能要求,对存储结构进行优化,包括分区、压缩,将经过检索的数据存储到适配图数据库中,确保数据的完整性和一致性,为了提高知识图谱的智能检索性能,建立适当的索引结构,以加速后续的查询操作。
本发明通过获取医学科研数据,包含了各种相关信息,以及不同医学领域的研究资料,通过实体识别,可以精确地定位文本中的医学实体,如药物、疾病,为后续深入分析提供基础,实体识别有助于在文本中发现实体之间的关系,帮助理解医学领域中的关联性,通过对实体数据的领域概念分析,可以理清医学领域的核心概念,有助于建立概念体系和知识图谱,其中对医学科研数据进行领域概念分析是指对各自不同领域的医学科研的相关医学概念进行分析,医学科研知识中有很多相似的内容,通过对它们进行领域概念分析,可以明确不同领域的医学科研的相关医学概念,提供了对医学科研数据的深度理解,有助于进行更为精细和深入的研究,有助于从文本中提取关键知识,形成结构化的信息,为后续的研究和应用提供基础,同时也可以通过概念分析追踪医学科研的发展趋势,帮助决策者了解领域的动态;通过主题分析,可以识别医学科研领域中各个概念和主题之间的关联性,帮助构建概念之间的关系网,确定医学科研领域中的核心主题,有助于深入理解领域内重要议题和研究方向,识别不同领域概念主题之间的重叠和交汇,有助于发现不同领域之间的联系和交叉点,促进跨学科研究和创新,确定内容领域中相互关联的主题,促进跨领域知识的整合和交流,构建知识图谱有助于将医学科研领域内的信息结构化呈现,形成节点和边的网络关系,提高信息可视化和理解,通过知识图谱,能够更好地挖掘和展示医学科研领域中实体、概念之间的关联性和关系,促进知识发现和应用;通过实体内容映射,将医学科研实体与其相关内容关联起来,有助于构建更为丰富和全面的知识图谱,映射后的图谱能够清晰地展现不同实体之间的关系,提高对科研领域知识结构的理解,设计适配的检索地址有助于提高检索效率,使科研人员更迅速地获取所需信息,根据实体内容的特点,设计的检索地址能够更好地满足不同用户的个性化检索需求,通过地址生成规则编码,将检索地址的生成过程规范化,提高系统的稳定性和可维护性,编码规则使得检索地址的生成可以自动进行,减少人工干预,提高系统的自动化程度,调整图数据库的检索适配性可以针对实体内容的检索地址规则进行性能优化,提高检索速度和效率,适配性调整有助于充分利用图数据库的资源,提升整个系统的运行效能,生成的检索适配图数据库能够更好地满足医学科研领域的个性化检索需求,提高检索的准确性和适用性,适配图数据库可以根据检索需求对数据结构进行优化,提升检索性能,利用检索适配图数据库进行知识图谱的智能检索,使用户能够更智能、精准地获取相关信息,同时可以通过适配图数据库实时更新知识图谱,保持检索结果的时效性和准确性。因此本发明是对传统的医学科研知识图谱构建与智能检索方法做出的优化处理,解决了传统的医学科研知识图谱构建与智能检索方法存在着对不同医学科研领域概念关系混淆不清,以及无法准确的对医学科研知识进行检索的问题,明晰了对不同医学科研领域概念之间的关系,提高了对医学科研知识进行检索的准确度。
优选地,步骤S1包括以下步骤:
步骤S11:获取医学科研数据;
步骤S12:对医学科研数据进行专业术语标记,得到专业术语标记数据;根据专业术语标记数据对医学科研数据进行语言逻辑分析,得到医学科研语言逻辑数据;
步骤S13:根据医学科研语言逻辑数据以及专业术语标记数据对医学科研数据进行实体识别,得到医学科研实体数据;
步骤S14:根据医学科研语言逻辑数据以及医学科研实体数据对医学科研数据进行领域概念分析,得到领域概念分析数据。
本发明实施例中,通过API接口或订阅服务方式,从确定的数据源中抓取或收集医学科研相关数据,包括科学出版物、医学期刊、论文,利用自然语言处理(NLP)技术,对医学科研数据进行分词、词干提取等操作,抽取关键词汇,使用医学专业词汇库或专业术语词典,对抽取的词汇进行匹配和标记,识别出医学领域的专业术语,应用语言学分析工具或技术,进行句法分析,了解句子结构和语法关系,利用NLP或语义分析技术,理解文本中词汇的意义和上下文关联,以进行语义理解,根据医学领域的逻辑关系和知识体系,对数据进行逻辑分析,以获得更深层次的理解和信息提取,使用自然语言处理(NLP)工具,如Spacy、Stanford NER,以进行实体识别,基于医学领域的语料库,训练实体识别模型,以识别医学科研数据中的实体,如疾病、药物、以及其他医学实体信息,在医学科研数据上应用实体识别模型,提取文本中的具体实体信息,将实体与已知的医学实体库进行链接,以提高实体识别的准确性和一致性,基于专业术语标记数据,进行进一步的验证和校准,确保实体的正确性和医学领域的专业性,利用医学科研语言逻辑数据,分析实体之间的关系,包括语法关系和语义关系,考虑上下文信息,了解实体在文本中的含义和相关性,基于医学科研实体数据,提取出领域相关的概念,包括医学科研不同方向,不同领域之间的概念划分,分析,利用自然语言处理技术,挖掘文本中的隐含信息,丰富概念分析的内容。
本发明通过获取丰富的医学科研数据,确保研究的全面性和可靠性,收集来自不同来源、不同类型的数据,以更好地反映医学领域的多样性,标记专业术语有助于数据的一致性,提高数据的可理解性和可比性,实体识别有助于将非结构化的文本数据转化为结构化的实体数据,方便后续的分析和应用,通过实体识别,可以更好地理解数据中的关键元素,促进不同数据实体之间的关联,领域概念分析有助于深入理解医学科研数据的内在含义,为研究提供更深层次的见解,通过对领域概念的分析,可以发现新的关联、趋势和知识,推动医学领域的进一步研究,其中领域概念分析是指对各自不同领域的医学科研的相关医学概念进行分析,医学科研知识中有很多相似的内容,通过对它们进行领域概念分析,可以明确不同领域的医学科研的相关医学概念,提供了对医学科研数据的深度理解,有助于进行更为精细和深入的研究。
优选地,步骤S14包括以下步骤:
步骤S141:根据医学科研实体数据对医学科研数据进行研究领域分类,得到研究领域分类数据;
步骤S142:对医学科研语言逻辑数据进行关系逻辑提取,得到医学科研关系逻辑数据;根据研究领域分类数据对医学科研关系逻辑数据进行不同领域规则约束分析,得到关系规则约束数据;
步骤S143:根据关系规则约束数据以及医学科研实体数据对医学科研数据进行不同领域词性解析,得到领域词性解析数据;
步骤S144:根据领域词性解析数据、关系规则约束数据以及医学科研实体数据对医学科研数据进行领域概念分析,得到领域概念分析数据。
本发明实施例中,基于医学科研实体数据,提取与研究领域相关的特征,包括关键词、主题词,使用自然语言处理技术和文本挖掘方法来识别这些特征,构建机器学习分类模型,使用提取的特征进行训练。可选择支持向量机、决策树、深度学习算法,利用已标记的研究领域数据进行监督学习,使模型能够准确分类医学科研数据的研究领域,使用自然语言处理技术,从医学科研语言逻辑数据中提取关系信息,如实体之间的关联、影响,考虑使用依存句法分析、语义角色标注方法,捕捉关系的结构和语义,基于研究领域分类数据对医学科研关系逻辑数据进行不同领域规则约束分析,为不同领域之间分析关系规则约束。例如,某些关系在特定领域中更为常见或更为重要,以提高关系逻辑数据的准确性和适用性,对医学科研实体数据进行清洗和标准化,以确保数据的一致性和准确性,利用关系规则约束数据,过滤出与特定领域相关的医学科研数据,使用自然语言处理工具,如Stanford NLP或NLTK,对医学科研数据进行词性标注,结合关系规则约束数据,对特定领域的词汇赋予领域特定的词性标记,其中领域概念分析是指对不同领域的医学科研知识进行概念区分,医学领域有很多十分相似的医学概念,基于领域词性解析和关系规则约束数据,进行关系抽取,找出医学科研实体之间的关联关系,采用关系抽取模型(如BERT-based模型、GraphConvolutional Networks)来捕捉医学科研实体之间的关联关系,根据实体抽取和关系抽取的结果,进行概念归纳,形成医学科研数据的领域概念,使用领域知识库或本体(如UMLS、SNOMED CT)来补充和丰富概念的语义信息,以提高概念归纳的准确性,最后得到领域概念分析数据。
本发明通过对医学科研实体数据进行研究领域分类,可以将数据准确地定位到特定的研究领域,有助于研究人员更清晰地了解其研究对象,研究领域分类数据使得相似主题或领域的研究可以更容易地被整合,并且提高了检索效率,使得研究人员能够更迅速地获取相关信息,通过关系逻辑提取,可以深入理解医学科研数据中实体之间的关系,有助于建立更为准确的关系模型,结合研究领域分类数据,对医学科研关系逻辑数据进行不同领域规则约束分析,能够提高对关系数据的准确性和可信度,避免不适用于特定领域的误解或错误;通过对医学科研数据进行不同领域词性解析,可以更好地理解实体和关系的语境,提高数据的理解准确性,领域词性解析有助于将术语标注和规范化,使得数据更易于被理解和使用,促进数据的一致性和标准化,结合领域词性解析数据和关系规则约束数据,进行领域概念分析有助于深度理解医学科研数据中的概念关系,进一步揭示数据的内在结构,通过领域概念分析,可以抽取出隐藏在数据中的知识和关联,为科学研究提供更多的洞察和发现机会,最后得到不同领域的领域概念分析数据。
优选地,步骤S2包括以下步骤:
步骤S21:根据医学科研实体数据对领域概念分析数据进行层级检索,得到实体领域概念层级数据;
步骤S22:对实体领域概念层级数据进行领域主题分析,得到领域概念主题数据;
步骤S23:根据领域概念主题数据对实体领域概念层级数据进行内容主题重叠识别,得到内容领域主题交叠数据;
步骤S24:根据实体领域概念层级数据、内容领域主题交叠数据以及领域概念主题数据进行知识图谱构建,从而获得内容领域知识图谱。
作为本发明的一个实例,参考图2所示,在本实例中所述步骤S2包括:
步骤S21:根据医学科研实体数据对领域概念分析数据进行层级检索,得到实体领域概念层级数据;
本发明实施例中,基于医学科研实体数据对领域概念分析数据进行层级检索,构建实体的层级结构,通过实体之间的上下位关系、包含关系或其他语义关系来建立,选择层级检索算法,例如深度优先搜索(DFS)或广度优先搜索(BFS),对领域概念分析数据进行层级检索以便按照实体的层级结构检索数据,从实体关系图中实施层级检索,获取每个层级的实体数据。确保检索到的数据具有层级关系,即上下级实体的正确组织。
步骤S22:对实体领域概念层级数据进行领域主题分析,得到领域概念主题数据;
本发明实施例中,使用主题分析算法,如Latent Dirichlet Allocation(LDA)或Non-negative Matrix Factorization(NMF),对实体领域概念层级数据进行主题分析,将得到的主题数据表示为主题-实体关联矩阵或其他数据结构,在后续分析中更好地理解实体与主题之间的关系。
步骤S23:根据领域概念主题数据对实体领域概念层级数据进行内容主题重叠识别,得到内容领域主题交叠数据;
本发明实施例中,收集领域概念主题数据,包括与实体领域概念相关的主题信息,如关键词、主题词或者其他能够表示主题的信息,选择适当的算法来识别实体领域概念层级数据中的内容主题重叠。可以使用文本挖掘、自然语言处理技术等,例如基于词向量的相似度计算、主题建模方法,来识别内容主题重叠,如文本相似度计算、主题建模(如LDA、LSI)或者基于词嵌入模型的方法(如Word2Vec、BERT),对实体领域概念层级数据进行内容主题重叠识别,包括计算文本之间的相似度或者主题关联度,以确定它们之间的重叠关系,对生成的内容领域主题交叠数据进行验证和分析,确保它们反映了实体领域概念层级数据中的内容主题重叠情况。
步骤S24:根据实体领域概念层级数据、内容领域主题交叠数据以及领域概念主题数据进行知识图谱构建,从而获得内容领域知识图谱。
本发明实施例中,将实体领域概念层级数据整合为图谱的节点。每个概念可以作为一个节点,节点之间的层级关系表示为图谱中的边,将内容领域主题交叠数据整合到知识图谱中,如在图谱中创建新的边,表示实体概念之间的主题重叠关系,利用领域概念主题数据,为图谱中的节点添加关于其主题的信息,包括关键词、主题标签等,以丰富节点的属性,选择适当的图谱构建算法,包括图算法(如深度优先搜索、广度优先搜索)或者基于知识表示学习的方法(如TransE、GraphSAGE),根据整合的数据构建知识图谱,如采用节点的连接、边的赋权操作,对构建的图谱进行优化,包括去除冗余边、节点合并等操作,以提高知识图谱的质量和性能,最后得到内容领域知识图谱。
本发明通过对领域概念分析数据进行层级检索,可以建立医学科研实体的层级结构,提供了实体在知识体系中的位置和关联,有助于更深入理解领域内的概念结构,针对实体领域概念层级数据进行领域主题分析有助于挖掘医学科研数据中的主题和关键概念,提供对领域内重要主题的理解,领域概念主题数据有助于将医学科研数据以主题为基础进行组织,使得知识更易于被理解和利用,通过对实体领域概念层级数据进行内容主题重叠识别,可以发现概念之间的重叠和关联,帮助理解不同概念之间的联系,促进知识的交叉整合,结合实体领域概念层级数据、内容领域主题交叠数据和领域概念主题数据,构建知识图谱有助于更全面地理解医学科研数据中的信息关联,知识图谱的构建为后续的智能检索提供基础,用户可以更方便地通过图谱查询相关信息,提高检索效率。
优选地,步骤S23包括以下步骤:
步骤S231:对实体领域概念层级数据进行科研领域聚类分析,得到科研领域聚类数据;根据科研领域聚类数据进行科研领域辐射范围界定,得到领域辐射范围数据;
步骤S232:根据领域辐射范围数据对实体领域概念层级数据进行科研领域边缘辐射范围标注,得到辐射边缘区域数据;
步骤S233:对辐射边缘区域数据进行内容主旨挖掘,得到边缘内容主旨数据;根据边缘内容主旨数据进行边缘内容矩阵转换,得到边缘内容矩阵;
步骤S234:对边缘内容矩阵进行插值计算,得到边缘内容插值矩阵;利用内容矩阵相似度算法对边缘内容插值矩阵进行相似度计算,得到边缘内容相似度数据;
步骤S235:根据领域概念主题数据对边缘内容相似度数据进行内容主题重叠识别,得到内容领域主题交叠数据。
作为本发明的一个实例,参考图3所示,在本实例中所述步骤S23包括:
步骤S231:对实体领域概念层级数据进行科研领域聚类分析,得到科研领域聚类数据;根据科研领域聚类数据进行科研领域辐射范围界定,得到领域辐射范围数据;
本发明实施例中,选择适当的聚类算法,例如层次聚类、K均值聚类,用于对实体领域概念进行聚类分析,定义相似性度量,可以基于概念之间的层级关系、关键词的相似性,对每个生成的科研领域聚类进行分析,确定其核心概念和关键特征,利用核心概念和关键特征,定义科研领域的辐射范围,包括涉及到确定与核心概念直接相关的其他概念或主题,利用聚类数据中的信息,界定科研领域的范围,确保包含关键概念和相关主题,根据界定的辐射范围,生成领域辐射范围数据,其中领域辐射范围数据为一个包含核心概念及其相关概念的列表或图谱。
步骤S232:根据领域辐射范围数据对实体领域概念层级数据进行科研领域边缘辐射范围标注,得到辐射边缘区域数据;
本发明实施例中,针对实体领域概念层级数据,使用领域辐射范围数据进行标注,如通过手动标注,也可以是利用算法自动标注,具体方法取决于数据规模和复杂性,对于每个概念,确定其在领域辐射范围中的位置,即是否处于核心区域或辐射边缘区域,定义辐射边缘区域的标准,基于概念在领域内的相对重要性或关联性,对于领域辐射范围中的每个概念,判断其是否位于辐射边缘区域,通过概念的关键词、层级位置,结合标注的信息,生成辐射边缘区域数据,这可以是一个包含核心区域、辐射边缘区域的概念列表,或者是一个图谱,显示概念之间的相对位置关系,得到辐射边缘区域数据。
步骤S233:对辐射边缘区域数据进行内容主旨挖掘,得到边缘内容主旨数据;根据边缘内容主旨数据进行边缘内容矩阵转换,得到边缘内容矩阵;
本发明实施例中,利用上述S232步骤得到的辐射边缘区域数据,通过文本挖掘或自然语言处理技术,对辐射边缘区域中的概念、关键词或文本进行分析,识别概念之间的关联性、重要性,挖掘出这些边缘区域的内容主旨,包括关键主题、关键短语,根据内容主旨挖掘的结果,生成边缘内容主旨数据,其中边缘内容主旨数据是一个描述边缘区域主题的列表或结构化数据,将边缘内容主旨数据转换为边缘内容矩阵,如边缘内容矩阵为一个二维矩阵,其中行表示辐射边缘区域的概念,列表示边缘内容主旨,在矩阵中使用二进制值或权重值表示概念与内容主旨的关联程度。
步骤S234:对边缘内容矩阵进行插值计算,得到边缘内容插值矩阵;利用内容矩阵相似度算法对边缘内容插值矩阵进行相似度计算,得到边缘内容相似度数据;
本发明实施例中,利用插值算法,填充边缘内容矩阵中的缺失值。插值的目的是根据已知的内容关联信息来估算缺失的关联信息,常用的插值方法包括线性插值、多项式插值、基于邻居的插值,根据插值计算的结果,生成边缘内容插值矩阵。这个矩阵是填充了缺失值后的完整矩阵,表示辐射边缘区域概念与内容主旨之间的关联,利用内容矩阵相似度算法,对边缘内容插值矩阵进行相似度计算,相似度计算的结果,生成边缘内容相似度数据,这可以是一个矩阵或列表,其中包含了辐射边缘区域之间的相似度信息,当然也可以使用例如常用的相似度算法包括余弦相似度、欧几里德距离进行计算,当时没有本案中的效果显著。
步骤S235:根据领域概念主题数据对边缘内容相似度数据进行内容主题重叠识别,得到内容领域主题交叠数据。
本发明实施例中,利用之前步骤得到的领域概念主题数据对边缘内容相似度数据进行内容主题重叠识别,对每个辐射边缘区域,将其与领域概念主题数据进行比较,识别内容领域主题的交叠情况,可以使用文本匹配、主题模型、关键词匹配等方法来判断内容领域主题与领域概念主题之间的关联,根据识别的交叠情况,生成内容领域主题交叠数据,其中内容领域主题交叠数据是一个表示每个辐射边缘区域与领域概念主题交叠情况的结构化数据,例如二进制标志或权重值,最后得到内容领域主题交叠数据。
本发明通过对实体领域概念层级数据进行聚类分析,可以将相关的领域概念整合在一起,形成科研领域聚类数据,这有助于理清科研领域内部的结构,找到相似领域之间的关联,利用科研领域聚类数据,可以界定每个科研领域的辐射范围,明确定义各领域的研究方向和关联领域,这有助于更精确地划分科研领域,避免模糊性和重叠,利用领域辐射范围数据对实体领域概念层级数据进行标注,可以确定科研领域的边缘区域,这对于识别科研领域内的边缘领域和交叉点非常重要,有助于深入了解领域的动态变化和边缘研究方向,识别辐射边缘区域数据有助于揭示不同科研领域之间的交叉点和共同研究领域,通过对辐射边缘区域数据进行内容主旨挖掘,可以从大量的数据中提炼出核心的内容主旨,有助于减少信息冗余,使得后续的分析更加精准,将边缘内容主旨数据转换成边缘内容矩阵的形式有助于对信息进行结构化处理。这种矩阵形式能够更方便地应用于后续的数学计算和分析,插值计算有助于填补内容矩阵中的缺失数据,使得整个边缘内容插值矩阵更加完整。本发明可以提高后续分析的准确性,确保对所有数据的全面考虑,得到的边缘内容插值矩阵反映了内容在边缘区域的连续性和变化趋势。这种矩阵可以更好地反映边缘领域的内容演变,为未来的研究提供参考,利用内容矩阵相似度算法进行相似度计算有助于发现边缘区域内相关领域的相似性,从而帮助研究者理解边缘领域内各主题之间的联系,为知识图谱构建做出了铺垫;通过使用领域概念主题数据,可以对边缘内容相似度数据进行内容主题重叠识别,这有助于识别在边缘区域内有相似主题的不同内容,从而深入了解边缘领域内的关联性和交叠情况,通过对内容主题重叠的识别,得到了内容领域主题交叠数据,这种数据可以反映边缘领域内不同内容之间的交叠情况,即它们在领域主题上的共同点,这有助于揭示领域内复杂关系和潜在的跨领域关联关系,最后得到内容领域主题交叠数据。
优选地,步骤S234中的内容矩阵相似度算法如下所示:
;
式中,表示边缘内容相似度结果值,/>表示边缘内容相似度计算时间,/>表示边缘内容插值矩阵的元素差异系数,/>表示边缘内容的数据量比例系数,/>表示自然对数的底数,表示边缘内容插值矩阵的对称系数,/>表示边缘内容主旨的相似预估值,/>表示辐射边缘区域面积系数,/>表示辐射边缘区域的边界面积值。
本发明构造了一个内容矩阵相似度算法,该算法通过综合考虑了多个因素,如元素差异系数、数据量比例系数、对称系数、主旨相似预估值、辐射边缘区域面积系数和边界面积值。通过将这些因素纳入计算公式,可以综合考虑不同的内容特征和重要性,从而更全面地评估边缘内容的相似度。边缘内容相似度计算时间,公式中通过积分的形式将时间/>纳入计算,表示对边缘内容相似度进行时间加权,使得较长的计算时间将在结果中得到更大的权重,有助于确保对于计算时间更长的内容相似度计算,其结果能够更准确地反映出相似度的特征。因此,/>是能够将时间因素纳入相似度计算,从而更全面地评估内容的相似性;边缘内容插值矩阵的元素差异系数/>,边缘内容的插值矩阵可以理解为一个描述内容特征的矩阵,元素差异系数越大,表示矩阵中的元素之间的差异越大,在相似度计算中,较大的元素差异系数可以加大不同元素之间的差异,从而更准确地度量内容的差异;边缘内容的数据量比例系数/>,边缘内容的数据量比例系数用于调整数据量在相似度计算中的权重。较大的/>值会增加数据量在相似度计算中的重要性,而较小的/>值则会减小数据量的影响,这样可以根据具体情况,更灵活地调整数据量的权重,使得相似度结果更加准确;自然对数的底数/>,/>函数的指数衰减特性使得在积分过程中,较大的/>值对积分结果的贡献较小,这种平滑作用可以减小边缘内容相似度结果对极端值的敏感性,使得结果更加稳定;边缘内容插值矩阵的对称系数/>,该参数表示边缘内容插值矩阵的对称系数,对称系数可以用来描述插值矩阵的对称性,在相似度计算中,对称系数的变化可以影响到内容的相似度结果;边缘内容主旨的相似预估值/>,该参数表示边缘内容主旨的相似预估值,主旨相似预估值用于衡量内容的主题或主要特征的相似度,较大的主旨相似预估值可以增加主题相似度的权重,使得相似度计算更加关注内容的主要特征;辐射边缘区域面积系数/>,该参数表示辐射边缘区域面积系数,辐射边缘区域是指内容的边界部分,辐射边缘区域面积系数可以用来调整辐射边缘区域在相似度计算中的权重,较大的面积系数会使辐射边缘区域在相似度计算中起到更重要的作用;辐射边缘区域的边界面积值/>,辐射边缘区域的边界面积值可以用来描述辐射边缘区域的大小,较大的边界面积值可以加大辐射边缘区域在相似度计算中的影响。
优选地,步骤S24包括以下步骤:
步骤S241:对实体领域概念层级数据进行层级分隔区域标注,从而获得层级分隔区域数据;
步骤S242:基于层级分隔区域数据对领域概念主题数据进行领域主题关系网构建,从而获得领域主题关系网;根据领域主题关系网对内容领域主题交叠数据进行交叠内容从属关系匹配,从而获得内容领域从属关系网;
步骤S243:对内容领域从属关系网进行从属关系结构嵌套分析,得到从属结构嵌套数据;
步骤S244:根据从属结构嵌套数据对领域主题关系网进行关系路径深度检索,得到领域主题关系路径深度数据;对领域主题关系路径深度数据进行路径密度评估,得到领域主题关系路径密度数据;
步骤S245:根据领域主题关系路径密度数据对实体领域概念层级数据进行关系强度修正,得到领域关系强度层级数据;
步骤S246:根据领域关系强度层级数据、领域主题关系网以及内容领域从属关系网进行知识图谱构建,从而获得内容领域知识图谱。
作为本发明的一个实例,参考图4所示,在本实例中所述步骤S24包括:
步骤S241:对实体领域概念层级数据进行层级分隔区域标注,从而获得层级分隔区域数据;
本发明实施例中,对实体领域概念层级数据进行层级分隔区域标注,定义层级分隔的标准,是通过不同内容实体所对应的实体领域概念进行层级标注,每个实体所对应的实体领域概念都有递进关系,以此为标准进行层级分隔区域标注,针对实体领域概念层级数据,标注层级分隔区域,如手动标注,也可以是利用算法自动标注,结合标注的信息,生成层级分隔区域数据,层级分隔区域数据是一个包含不同层级分隔区域的概念列表,或者是一个图谱,显示概念之间的层级关系,从而获得层级分隔区域数据。
步骤S242:基于层级分隔区域数据对领域概念主题数据进行领域主题关系网构建,从而获得领域主题关系网;根据领域主题关系网对内容领域主题交叠数据进行交叠内容从属关系匹配,从而获得内容领域从属关系网;
本发明实施例中,定义领域主题关系网的结构,例如图或网络结构,每个概念可以是节点,而概念之间的关系可以是边,利用层级分隔区域数据,将领域概念主题数据映射到领域主题关系网上的相应层级,根据概念之间的层级关系,建立领域主题关系网中节点之间的关系,如父子关系、兄弟关系,取决于层级分隔区域的定义和数据;将领域主题关系网中的节点与内容领域主题交叠数据中的概念进行对应,根据领域主题关系网和内容领域主题交叠数据的相似度、关联度信息,进行匹配,包括算法包括字符串匹配、图匹配、相似度计算,根据匹配结果,构建内容领域从属关系网,这是一个包含从属关系的图或网络结构,反映了内容领域主题与领域主题的关联。
步骤S243:对内容领域从属关系网进行从属关系结构嵌套分析,得到从属结构嵌套数据;
本发明实施例中,获取生成的内容领域从属关系网,该网络结构反映了内容领域主题与领域主题的从属关系,定义从属关系结构嵌套的概念,即一个从属关系是否嵌套在另一个从属关系之中,如采用基于深度、层级或其他结构特征的定义,识别从属关系结构中的嵌套关系,如子图的检测、网络的深度分析,定义从属结构嵌套数据的格式,这可以是一个包含嵌套关系信息的结构化数据,例如节点之间的嵌套层级、关系的深度。
步骤S244:根据从属结构嵌套数据对领域主题关系网进行关系路径深度检索,得到领域主题关系路径深度数据;对领域主题关系路径深度数据进行路径密度评估,得到领域主题关系路径密度数据;
本发明实施例中,利用上述S243步骤得到的从属结构嵌套数据,确保数据包含领域主题之间的从属关系和嵌套结构信息,定义领域主题关系路径的概念,即从一个领域主题到另一个领域主题的路径。路径是从属关系的序列,考虑嵌套关系,选择适当的深度检索算法,例如深度优先搜索(DFS)或广度优先搜索(BFS),以在领域主题关系网中找到路径的深度,对每对领域主题进行深度检索,提取关系路径的深度数据,包括路径的步数或其他度量,定义领域主题关系路径密度的概念,即路径的紧密程度或频繁程度,计算路径的出现频率、路径上的权重或其他相关度量,根据选择的评估算法,对领域主题关系路径深度数据进行评估,得到路径密度数据。
步骤S245:根据领域主题关系路径密度数据对实体领域概念层级数据进行关系强度修正,得到领域关系强度层级数据;
本发明实施例中,使用前述步骤S244得到的领域主题关系路径密度数据,确保数据包含各领域主题之间的路径密度信息,获取实体领域概念的层级数据,确保数据包含各个领域概念的层级结构,可以是树状结构或其他形式,考虑使用路径密度数据对实体领域概念之间的关系强度进行调整,定义关系强度的修正规则,基于路径密度的数值,例如,路径密度越高,关系强度越大,针对每一对实体领域概念,根据路径密度数据和修正规则,计算修正后的关系强度,根据修正后的关系强度,更新实体领域概念层级数据,得到领域关系强度层级数据,如更新层级关系中的权重或其他度量。
步骤S246:根据领域关系强度层级数据、领域主题关系网以及内容领域从属关系网进行知识图谱构建,从而获得内容领域知识图谱。
本发明实施例中,使用前述步骤S245生成的领域关系强度层级数据,确保数据包含实体领域概念之间的修正关系强度,确保领域主题关系网中包含领域内各主题之间的关系信息,这可以是领域内概念、主题或实体之间的关系,获取内容领域从属关系网,确保包含内容领域中各个概念或实体之间的从属关系,这有助于建立知识图谱的层级结构,为领域内的每个概念、主题或实体创建节点,并初始化节点的属性,包括名称、描述,将领域关系强度层级数据映射到知识图谱中的边,用于表示各个节点之间的关系强度。根据关系强度设置边的权重或其他属性,整合领域主题关系网的信息到知识图谱中,确保主题之间的关系得以反映在图谱结构中,将内容领域从属关系网的信息整合到知识图谱中,以建立概念或实体的层级结构,根据整合后的关系信息,建立知识图谱中节点之间的关系,包括领域关系强度层级、主题关系和从属关系。
本发明通过对实体领域概念层级数据进行层级分隔区域标注,可以精细划分不同层级的概念区域,这有助于更准确地理解实体领域内不同概念之间的关系和层级结构,划分出的层级分隔区域可以用于更有效地组织和检索相关信息,用户或系统可以根据层级结构迅速定位到特定层级的概念,从而提高信息管理的效率,通过基于层级分隔区域数据构建领域主题关系网,可以揭示实体领域内不同主题之间的关系,这有助于全面理解领域内概念的相互影响和关联性,利用领域主题关系网对内容领域主题交叠数据进行匹配,获得内容领域从属关系网,从而揭示不同内容领域主题之间的从属关系,这对于理解内容之间的层次结构和相互关系非常有帮助,通过对内容领域从属关系网进行结构嵌套分析,可以识别出不同层次或级别的从属关系,并发现这些关系的嵌套模式,从而反映内容领域内复杂的从属关系结构,并确定哪些主题或概念处于更深层次的层级,这个分析可以帮助深入了解内容领域中主题或概念之间的复杂关系,能够反映不同主题之间的层次性,包括哪些主题更深层次地从属于其他主题,通过对从属结构嵌套数据进行路径深度检索,可以获得领域主题关系的深度数据,有助于了解特定主题间关系的距离和层次,即它们在关系路径上的远近程度,路径密度评估可以提供关于主题关系紧密程度的信息。高密度路径表示主题间关系更为密切和频繁,基于领域主题关系路径密度数据进行关系强度修正,有助于更准确地评估实体领域概念之间的关系强度。通过考虑路径密度,可以调整关系强度的权重,使其更符合实际关系的密切程度,修正后的关系强度数据可以用于改善实体领域概念的层级结构,这样的修正有助于建立更准确、更有层次结构的层级数据,使得知识图谱能够更好地反映内容领域的实际关系,结合领域关系强度层级数据、领域主题关系网以及内容领域从属关系网进行知识图谱构建,有助于综合考虑关系强度和层级信息。本发明中综合性建模可以更全面地表达内容领域内实体概念之间的关系,通过将这些不同数据源的信息融合到知识图谱中,可以创建更为丰富和准确的知识图谱,有助于提高知识图谱的质量,使其成为一个更有用的工具,支持领域内的知识发现和应用。
优选地,步骤S3包括以下步骤:
步骤S31:根据医学科研实体数据对内容领域知识图谱进行实体内容映射,生成科研实体内容知识图谱;
步骤S32:基于图数据库对科研实体内容知识图谱进行检索地址设计,生成实体内容检索地址;
步骤S33:对实体内容检索地址进行地址生成规则编码,生成检索地址规则编码数据。
本发明实施例中,提取知识图谱的节点和关系,确定医学科研实体的属性信息,将实体映射到图谱节点,建立节点间的关系,根据文本中的关联信息,建立医学科研实体之间的关系,形成完整的知识图谱,选择图数据库,如Neo4j或ArangoDB,并进行搭建,导入构建好的医学科研实体内容知识图谱,根据知识图谱的结构,设计图数据库的节点和关系模型,以支持高效的实体检索,确定索引策略,以提高检索速度,使用图数据库的查询语言(例如Cypher),编写查询语句,以实现对医学科研实体内容的灵活检索,考虑不同类型的实体和关系,编写多样化的查询语句,根据用户的查询需求,生成相应的实体内容检索地址,地址可以包含节点标识、属性信息等,以确保检索的精准性,定义实体内容检索地址的生成规则,考虑用户的常见查询模式和需求,使用编程语言(例如Python或Java),将生成规则进行编码,利用字符串拼接等技术,将规则转化为可执行的代码,通过参数化处理,使生成规则适应不同的查询情境。
本发明通过将医学科研实体数据映射到内容领域知识图谱,可以丰富知识图谱的内容,有助于将医学科研领域的实体信息结合到知识图谱中,使得知识图谱更全面、更多样化,生成科研实体内容知识图谱有助于建立跨领域关联。将医学科研实体数据与内容领域知识图谱相结合,可以发现不同领域之间的联系,基于图数据库对科研实体内容知识图谱进行检索地址设计,可以提高检索效率。利用图数据库的优势,设计出更有效的检索方式,使用户能够更快速、精准地获取所需信息,生成实体内容检索地址有助于改善用户的查询体验。通过提供生成的检索地址,用户可以更便捷地访问特定实体或内容,简化了查询过程,提高了用户满意度,对实体内容检索地址进行地址生成规则编码,有助于数据规范化和自动化。通过编码生成规则,可以自动化地处理检索地址,确保数据的一致性和规范性,生成检索地址规则编码数据可以增强系统的可扩展性,这种数据处理方式使得系统更易于扩展和维护,降低了维护成本,也有助于日后系统的更新和改进。
优选地,步骤S32包括以下步骤:
步骤S321:对科研实体内容知识图谱进行二叉树结构转换,生成实体内容二叉树;
步骤S322:对实体内容二叉树进行节点度计算,生成节点度数据;根据节点度数据对实体内容二叉树进行实体内容分区处理,生成实体内容分区数据;
步骤S323:对实体内容分区数据进行关键字段提取,生成内容关键字段数据;利用散列函数对内容关键字段数据进行散列索引建立,生成实体内容分区索引;
步骤S324:基于图数据库进行存储引擎解析,生成存储引擎解析数据;根据存储引擎解析数据对实体内容二叉树进行节点储存地址映射,生成实体内容节点地址;
步骤S325:根据实体内容节点地址以及实体内容分区索引进行地址格式标准限定,生成地址格式标准数据;
步骤S326:基于图数据库和地址格式标准数据对实体内容分区索引以及实体内容节点地址进行检索地址设计,生成实体内容检索地址。
本发明实施例中,选择图谱遍历算法,例如深度优先遍历(DFS)或广度优先遍历(BFS),遍历知识图谱的节点和关系,构建二叉树的节点结构,将知识图谱的节点映射到二叉树的节点上,设计节点的数据结构,包括实体类型、属性信息等,以便后续处理,将知识图谱中节点之间的关系映射到二叉树的父子关系上,考虑如何表示不同类型的关系,以保留图谱的结构,根据遍历和节点构建过程,生成完整的实体内容二叉树,对实体内容二叉树的每个节点进行度的计算,即该节点有多少子节点,可以使用递归算法或迭代算法完成度的计算,将每个节点及其度数记录为节点度数据,设计实体内容分区的规则,可以基于节点度数据进行划分,考虑节点度的不同阈值,确定节点度高的节点是否独立分区或与其他节点度相近的节点合并分区,根据设计好的规则,对实体内容二叉树进行分区操作,生成实体内容分区数据,针对每个实体内容分区,确定关键字段的选择,这涉及到实体属性、节点度,提取每个实体内容分区的关键字段数据,基于散列函数,确保不同的关键字段数据映射到不同的散列值,对内容关键字段数据使用散列函数,得到散列索引,将散列索引与对应的实体内容分区关联,形成实体内容分区索引;选择适用的图数据库存储引擎,例如Neo4j、ArangoDB,解析存储引擎的结构,了解节点和关系的存储方式,提取存储引擎解析数据,包括节点存储结构、关系存储方式,根据实体内容二叉树的节点,通过存储引擎解析数据建立节点储存地址映射,确定每个节点在存储引擎中的存储位置,将节点储存地址映射记录下来,形成实体内容节点地址数据;从数据源中获取实体内容节点地址和相应的实体内容分区索引,对数据进行清洗,确保每个实体内容节点地址都有对应的实体内容分区索引,确定地址标准的相关要素,地址字段的排序规则,以及分隔符的使用方式,将实体内容节点地址按照标准进行格式化,遍历每个实体内容节点地址,应用前述的算法或规则进行地址格式标准限定,将生成的标准地址数据存储在相应的数据结构中,以备后续的使用和检索;利用图数据库的查询语言(如Cypher等),设计查询语句以检索实体内容分区索引和实体内容节点地址,考虑性能优化,合理利用图数据库的索引和优化机制,根据用户或系统需求,设计地址查询的逻辑,结合地址格式标准数据,确保查询逻辑能够准确匹配标准化的地址格式,生成实体内容检索地址数据。
本发明将科研实体内容知识图谱转换为二叉树结构有助于优化数据组织方式。二叉树结构通常能提高数据的检索速度和查询效率,因为它具有明确定义的层级结构和快速的查找特性,通过构建实体内容的二叉树,可以简化对知识图谱的检索和遍历。这种结构有助于快速定位和访问特定节点,从而提高了知识检索的效率,对实体内容二叉树进行节点度计算可以提供有关节点连接性的信息。节点度是指与某节点直接相连的边的数量,这个数据可以帮助了解实体内容之间的关联程度,有助于后续分析和优化,基于节点度数据对实体内容二叉树进行分区处理有助于将知识图谱分割为更小的区域。这种分区可以根据节点度的不同特征划分,使得具有相似特征或连接性的实体被归为一组,这样的分区有助于更有效地管理和分析实体内容,使得对特定区域的检索和分析更加高效,通过对实体内容分区数据进行关键字段提取,可以筛选出最具代表性和关键性的信息,有助于减小数据量并集中注意力在对实体内容重要的信息上,利用散列函数对关键字段数据进行散列索引建立,可以提高数据的检索速度。散列索引允许直接通过关键字段的散列值快速定位到相应的实体内容分区,从而加速检索操作,通过建立实体内容分区索引,可以实现对分区数据的快速查找和访问,有助于提高系统的响应速度和效率,尤其在大规模数据处理和检索场景下更为显著,基于图数据库的存储引擎解析产生的数据包含有关实体内容在数据库中的存储结构和方式的信息,为后续的优化和调整提供了基础,利用存储引擎解析数据对实体内容二叉树进行节点存储地址映射,可以有效地将实体内容的逻辑结构映射到物理存储结构上,有助于提高存储空间的利用率,并能够更有效地管理和访问实体内容,通过实体内容节点地址,系统可以更快速地定位和检索实体内容。通过对实体内容节点地址和实体内容分区索引进行地址格式标准限定,确保了地址数据的一致性,避免由于地址格式差异导致的数据不一致或错误,生成地址格式标准数据有助于实现更加标准化的检索操作。标准化的地址格式可以简化检索逻辑,提高检索的准确性和速度,基于图数据库和地址格式标准数据进行实体内容分区索引和节点地址的检索地址设计,可以实现高效的检索操作。系统可以根据标准化的地址格式迅速定位和访问所需的实体内容,设计检索地址时考虑了地址格式的标准,可以实现更精准的匹配。在大规模数据集中,通过生成实体内容检索地址,系统可以更快速、准确地响应用户的检索请求,提高用户体验。用户可以更轻松地找到所需的实体内容,而无需面对复杂的检索过程。
优选地,本发明还提供了一种医学科研知识图谱构建与智能检索系统,用于执行如上所述的一种医学科研知识图谱构建与智能检索方法,该医学科研知识图谱构建与智能检索系统包括:
医学科研领域解析模块,用于获取医学科研数据;对医学科研数据进行实体识别,得到医学科研实体数据;根据医学科研实体数据对医学科研数据进行领域概念分析,得到领域概念分析数据;
内容领域知识图谱构建模块,用于根据医学科研实体数据对领域概念分析数据进行领域主题分析,得到领域概念主题数据;根据领域概念主题数据进行内容主题重叠识别,得到内容领域主题交叠数据;根据领域概念主题数据以及内容领域主题交叠数据进行知识图谱构建,从而获得内容领域知识图谱;
检索地址生成模块,用于根据医学科研实体数据对内容领域知识图谱进行实体内容映射,生成科研实体内容知识图谱;对科研实体内容知识图谱进行检索地址开辟,生成实体内容检索地址;对实体内容检索地址进行地址生成规则编码,生成检索地址规则编码数据;
智能检索执行模块,用于通过检索地址规则编码数据对图数据库进行检索适配性调整,生成检索适配图数据库;通过检索适配图数据库对内容领域知识图谱进行数据存储,以执行知识图谱智能检索。
本发明有益效果,通过获取医学科研数据,包含了各种相关信息,以及不同医学领域的研究资料,通过实体识别,可以精确地定位文本中的医学实体,如药物、疾病、为后续深入分析提供基础,实体识别有助于在文本中发现实体之间的关系,帮助理解医学领域中的关联性,通过对实体数据的领域概念分析,可以理清医学领域的核心概念,有助于建立概念体系和知识图谱,其中对医学科研数据进行领域概念分析是指对各自不同领域的医学科研的相关医学概念进行分析,医学科研知识中有很多相似的内容,通过对它们进行领域概念分析,可以明确不同领域的医学科研的相关医学概念,提供了对医学科研数据的深度理解,有助于进行更为精细和深入的研究,有助于从文本中提取关键知识,形成结构化的信息,为后续的研究和应用提供基础,同时也可以通过概念分析追踪医学科研的发展趋势,帮助决策者了解领域的动态;通过主题分析,可以识别医学科研领域中各个概念和主题之间的关联性,帮助构建概念之间的关系网,确定医学科研领域中的核心主题,有助于深入理解领域内重要议题和研究方向,识别不同领域概念主题之间的重叠和交汇,有助于发现不同领域之间的联系和交叉点,促进跨学科研究和创新,确定内容领域中相互关联的主题,促进跨领域知识的整合和交流,构建知识图谱有助于将医学科研领域内的信息结构化呈现,形成节点和边的网络关系,提高信息可视化和理解,通过知识图谱,能够更好地挖掘和展示医学科研领域中实体、概念之间的关联性和关系,促进知识发现和应用;通过实体内容映射,将医学科研实体与其相关内容关联起来,有助于构建更为丰富和全面的知识图谱,映射后的图谱能够清晰地展现不同实体之间的关系,提高对科研领域知识结构的理解,设计适配的检索地址有助于提高检索效率,使科研人员更迅速地获取所需信息,根据实体内容的特点,设计的检索地址能够更好地满足不同用户的个性化检索需求,通过地址生成规则编码,将检索地址的生成过程规范化,提高系统的稳定性和可维护性,编码规则使得检索地址的生成可以自动进行,减少人工干预,提高系统的自动化程度,调整图数据库的检索适配性可以针对实体内容的检索地址规则进行性能优化,提高检索速度和效率,适配性调整有助于充分利用图数据库的资源,提升整个系统的运行效能,生成的检索适配图数据库能够更好地满足医学科研领域的个性化检索需求,提高检索的准确性和适用性,适配图数据库可以根据检索需求对数据结构进行优化,提升检索性能,利用检索适配图数据库进行知识图谱的智能检索,使用户能够更智能、精准地获取相关信息,同时可以通过适配图数据库实时更新知识图谱,保持检索结果的时效性和准确性。因此本发明是对传统的医学科研知识图谱构建与智能检索方法做出的优化处理,解决了传统的医学科研知识图谱构建与智能检索方法存在着对不同医学科研领域概念关系混淆不清,以及无法准确的对医学科研知识进行检索的问题,明晰了对不同医学科研领域概念之间的关系,提高了对医学科研知识进行检索的准确度。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在申请文件的等同要件的含义和范围内的所有变化涵括在本发明内。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种医学科研知识图谱构建与智能检索方法,其特征在于,包括以下步骤:
步骤S1:获取医学科研数据;对医学科研数据进行实体识别,得到医学科研实体数据;根据医学科研实体数据对医学科研数据进行领域概念分析,得到领域概念分析数据;
步骤S2:根据医学科研实体数据对领域概念分析数据进行领域主题分析,得到领域概念主题数据;根据领域概念主题数据进行内容主题重叠识别,得到内容领域主题交叠数据;根据领域概念主题数据以及内容领域主题交叠数据进行知识图谱构建,从而获得内容领域知识图谱;
步骤S3:根据医学科研实体数据对内容领域知识图谱进行实体内容映射,生成科研实体内容知识图谱;对科研实体内容知识图谱进行检索地址设计,生成实体内容检索地址;对实体内容检索地址进行地址生成规则编码,生成检索地址规则编码数据;其中,步骤S3包括:
步骤S31:根据医学科研实体数据对内容领域知识图谱进行实体内容映射,生成科研实体内容知识图谱;
步骤S32:基于图数据库对科研实体内容知识图谱进行检索地址设计,生成实体内容检索地址;其中,步骤S32包括:
步骤S321:对科研实体内容知识图谱进行二叉树结构转换,生成实体内容二叉树;
步骤S322:对实体内容二叉树进行节点度计算,生成节点度数据;根据节点度数据对实体内容二叉树进行实体内容分区处理,生成实体内容分区数据;
步骤S323:对实体内容分区数据进行关键字段提取,生成内容关键字段数据;利用散列函数对内容关键字段数据进行散列索引建立,生成实体内容分区索引;
步骤S324:基于图数据库进行存储引擎解析,生成存储引擎解析数据;根据存储引擎解析数据对实体内容二叉树进行节点储存地址映射,生成实体内容节点地址;
步骤S325:根据实体内容节点地址以及实体内容分区索引进行地址格式标准限定,生成地址格式标准数据;
步骤S326:基于图数据库和地址格式标准数据对实体内容分区索引以及实体内容节点地址进行检索地址设计,生成实体内容检索地址;
步骤S33:对实体内容检索地址进行地址生成规则编码,生成检索地址规则编码数据;
步骤S4:通过检索地址规则编码数据对图数据库进行检索适配性调整,生成检索适配图数据库;通过检索适配图数据库对内容领域知识图谱进行数据存储,以执行知识图谱智能检索。
2.根据权利要求1所述的医学科研知识图谱构建与智能检索方法,其特征在于,步骤S1包括以下步骤:
步骤S11:获取医学科研数据;
步骤S12:对医学科研数据进行专业术语标记,得到专业术语标记数据;根据专业术语标记数据对医学科研数据进行语言逻辑分析,得到医学科研语言逻辑数据;
步骤S13:根据医学科研语言逻辑数据以及专业术语标记数据对医学科研数据进行实体识别,得到医学科研实体数据;
步骤S14:根据医学科研语言逻辑数据以及医学科研实体数据对医学科研数据进行领域概念分析,得到领域概念分析数据。
3.根据权利要求2所述的医学科研知识图谱构建与智能检索方法,其特征在于,步骤S14包括以下步骤:
步骤S141:根据医学科研实体数据对医学科研数据进行研究领域分类,得到研究领域分类数据;
步骤S142:对医学科研语言逻辑数据进行关系逻辑提取,得到医学科研关系逻辑数据;根据研究领域分类数据对医学科研关系逻辑数据进行不同领域规则约束分析,得到关系规则约束数据;
步骤S143:根据关系规则约束数据以及医学科研实体数据对医学科研数据进行不同领域词性解析,得到领域词性解析数据;
步骤S144:根据领域词性解析数据、关系规则约束数据以及医学科研实体数据对医学科研数据进行领域概念分析,得到领域概念分析数据。
4.根据权利要求1所述的医学科研知识图谱构建与智能检索方法,其特征在于,步骤S2包括以下步骤:
步骤S21:根据医学科研实体数据对领域概念分析数据进行层级检索,得到实体领域概念层级数据;
步骤S22:对实体领域概念层级数据进行领域主题分析,得到领域概念主题数据;
步骤S23:根据领域概念主题数据对实体领域概念层级数据进行内容主题重叠识别,得到内容领域主题交叠数据;
步骤S24:根据实体领域概念层级数据、内容领域主题交叠数据以及领域概念主题数据进行知识图谱构建,从而获得内容领域知识图谱。
5.根据权利要求4所述的医学科研知识图谱构建与智能检索方法,其特征在于,步骤S23包括以下步骤:
步骤S231:对实体领域概念层级数据进行科研领域聚类分析,得到科研领域聚类数据;根据科研领域聚类数据进行科研领域辐射范围界定,得到领域辐射范围数据;
步骤S232:根据领域辐射范围数据对实体领域概念层级数据进行科研领域边缘辐射范围标注,得到辐射边缘区域数据;
步骤S233:对辐射边缘区域数据进行内容主旨挖掘,得到边缘内容主旨数据;根据边缘内容主旨数据进行边缘内容矩阵转换,得到边缘内容矩阵;
步骤S234:对边缘内容矩阵进行插值计算,得到边缘内容插值矩阵;利用内容矩阵相似度算法对边缘内容插值矩阵进行相似度计算,得到边缘内容相似度数据;
步骤S235:根据领域概念主题数据对边缘内容相似度数据进行内容主题重叠识别,得到内容领域主题交叠数据。
6.根据权利要求5所述的医学科研知识图谱构建与智能检索方法,其特征在于,步骤S234中的内容矩阵相似度算法如下所示:
;
式中,表示边缘内容相似度结果值,/>表示边缘内容相似度计算时间,/>表示边缘内容插值矩阵的元素差异系数,/>表示边缘内容的数据量比例系数,/>表示自然对数的底数,/>表示边缘内容插值矩阵的对称系数,/>表示边缘内容主旨的相似预估值,/>表示辐射边缘区域面积系数,/>表示辐射边缘区域的边界面积值。
7.根据权利要求4所述的医学科研知识图谱构建与智能检索方法,其特征在于,步骤S24包括以下步骤:
步骤S241:对实体领域概念层级数据进行层级分隔区域标注,从而获得层级分隔区域数据;
步骤S242:基于层级分隔区域数据对领域概念主题数据进行领域主题关系网构建,从而获得领域主题关系网;根据领域主题关系网对内容领域主题交叠数据进行交叠内容从属关系匹配,从而获得内容领域从属关系网;
步骤S243:对内容领域从属关系网进行从属关系结构嵌套分析,得到从属结构嵌套数据;
步骤S244:根据从属结构嵌套数据对领域主题关系网进行关系路径深度检索,得到领域主题关系路径深度数据;对领域主题关系路径深度数据进行路径密度评估,得到领域主题关系路径密度数据;
步骤S245:根据领域主题关系路径密度数据对实体领域概念层级数据进行关系强度修正,得到领域关系强度层级数据;
步骤S246:根据领域关系强度层级数据、领域主题关系网以及内容领域从属关系网进行知识图谱构建,从而获得内容领域知识图谱。
8.一种医学科研知识图谱构建与智能检索系统,其特征在于,用于执行如权利要求1所述的一种医学科研知识图谱构建与智能检索方法,该医学科研知识图谱构建与智能检索系统包括:
医学科研领域解析模块,用于获取医学科研数据;对医学科研数据进行实体识别,得到医学科研实体数据;根据医学科研实体数据对医学科研数据进行领域概念分析,得到领域概念分析数据;
内容领域知识图谱构建模块,用于根据医学科研实体数据对领域概念分析数据进行领域主题分析,得到领域概念主题数据;根据领域概念主题数据进行内容主题重叠识别,得到内容领域主题交叠数据;根据领域概念主题数据以及内容领域主题交叠数据进行知识图谱构建,从而获得内容领域知识图谱;
检索地址生成模块,用于根据医学科研实体数据对内容领域知识图谱进行实体内容映射,生成科研实体内容知识图谱;对科研实体内容知识图谱进行检索地址开辟,生成实体内容检索地址;对实体内容检索地址进行地址生成规则编码,生成检索地址规则编码数据;其中,检索地址生成模块包括:
步骤S31:根据医学科研实体数据对内容领域知识图谱进行实体内容映射,生成科研实体内容知识图谱;
步骤S32:基于图数据库对科研实体内容知识图谱进行检索地址设计,生成实体内容检索地址;其中,步骤S32包括:
步骤S321:对科研实体内容知识图谱进行二叉树结构转换,生成实体内容二叉树;
步骤S322:对实体内容二叉树进行节点度计算,生成节点度数据;根据节点度数据对实体内容二叉树进行实体内容分区处理,生成实体内容分区数据;
步骤S323:对实体内容分区数据进行关键字段提取,生成内容关键字段数据;利用散列函数对内容关键字段数据进行散列索引建立,生成实体内容分区索引;
步骤S324:基于图数据库进行存储引擎解析,生成存储引擎解析数据;根据存储引擎解析数据对实体内容二叉树进行节点储存地址映射,生成实体内容节点地址;
步骤S325:根据实体内容节点地址以及实体内容分区索引进行地址格式标准限定,生成地址格式标准数据;
步骤S326:基于图数据库和地址格式标准数据对实体内容分区索引以及实体内容节点地址进行检索地址设计,生成实体内容检索地址;
步骤S33:对实体内容检索地址进行地址生成规则编码,生成检索地址规则编码数据;
智能检索执行模块,用于通过检索地址规则编码数据对图数据库进行检索适配性调整,生成检索适配图数据库;通过检索适配图数据库对内容领域知识图谱进行数据存储,以执行知识图谱智能检索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410155441.2A CN117744784B (zh) | 2024-02-04 | 2024-02-04 | 一种医学科研知识图谱构建与智能检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410155441.2A CN117744784B (zh) | 2024-02-04 | 2024-02-04 | 一种医学科研知识图谱构建与智能检索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117744784A CN117744784A (zh) | 2024-03-22 |
CN117744784B true CN117744784B (zh) | 2024-04-30 |
Family
ID=90279520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410155441.2A Active CN117744784B (zh) | 2024-02-04 | 2024-02-04 | 一种医学科研知识图谱构建与智能检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117744784B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117993500B (zh) * | 2024-04-07 | 2024-06-25 | 江西为易科技有限公司 | 基于人工智能的医学教学数据管理方法及系统 |
CN118210878B (zh) * | 2024-05-17 | 2024-07-23 | 清华大学 | 一种多跳问答方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255031A (zh) * | 2018-09-20 | 2019-01-22 | 苏州友教习亦教育科技有限公司 | 基于知识图谱的数据处理方法 |
CN114328975A (zh) * | 2022-01-06 | 2022-04-12 | 北京迈迪培尔信息技术有限公司 | 一种药学知识图谱构建方法和装置 |
CN115374290A (zh) * | 2022-08-09 | 2022-11-22 | 北方工业大学 | 一种花卉科学培植养护知识的检索方法和装置 |
CN115840805A (zh) * | 2022-12-14 | 2023-03-24 | 河北工业大学 | 基于计算机学科知识图谱的智能问答系统的构建方法 |
CN116805013A (zh) * | 2023-06-27 | 2023-09-26 | 广州中医药大学(广州中医药研究院) | 一种基于知识图谱的中医药视频检索模型 |
CN116821354A (zh) * | 2023-04-26 | 2023-09-29 | 浙江药科职业大学 | 一种中医药知识图谱的构建方法 |
CN116881436A (zh) * | 2023-08-09 | 2023-10-13 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于知识图谱的文献检索方法、系统、终端及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2881916B1 (en) * | 2013-12-06 | 2018-01-31 | Siemens Healthcare GmbH | Query-specific generation and retrieval of medical volume images |
-
2024
- 2024-02-04 CN CN202410155441.2A patent/CN117744784B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255031A (zh) * | 2018-09-20 | 2019-01-22 | 苏州友教习亦教育科技有限公司 | 基于知识图谱的数据处理方法 |
CN114328975A (zh) * | 2022-01-06 | 2022-04-12 | 北京迈迪培尔信息技术有限公司 | 一种药学知识图谱构建方法和装置 |
CN115374290A (zh) * | 2022-08-09 | 2022-11-22 | 北方工业大学 | 一种花卉科学培植养护知识的检索方法和装置 |
CN115840805A (zh) * | 2022-12-14 | 2023-03-24 | 河北工业大学 | 基于计算机学科知识图谱的智能问答系统的构建方法 |
CN116821354A (zh) * | 2023-04-26 | 2023-09-29 | 浙江药科职业大学 | 一种中医药知识图谱的构建方法 |
CN116805013A (zh) * | 2023-06-27 | 2023-09-26 | 广州中医药大学(广州中医药研究院) | 一种基于知识图谱的中医药视频检索模型 |
CN116881436A (zh) * | 2023-08-09 | 2023-10-13 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于知识图谱的文献检索方法、系统、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117744784A (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10725836B2 (en) | Intent-based organisation of APIs | |
CN117744784B (zh) | 一种医学科研知识图谱构建与智能检索方法及系统 | |
US7383260B2 (en) | Method and apparatus for ontology-based classification of media content | |
CN111291161A (zh) | 法律案件知识图谱查询方法、装置、设备及存储介质 | |
US20060288275A1 (en) | Method for classifying sub-trees in semi-structured documents | |
CN117271767B (zh) | 基于多智能体的运维知识库的建立方法 | |
CN111881290A (zh) | 一种基于加权语义相似度的配网多源网架实体融合方法 | |
CN113535917A (zh) | 基于旅游知识图谱的智能问答方法及系统 | |
KR20130060720A (ko) | 목적 기반 시맨틱 서비스 디스커버리를 위한 서비스 목적 해석 장치 및 방법 | |
CN110097278B (zh) | 一种科技资源智能共享融合训练系统和应用系统 | |
CN115809345A (zh) | 一种基于知识图谱的多源数据差异溯源检索方法 | |
CN110633365A (zh) | 一种基于词向量的层次多标签文本分类方法及系统 | |
JP5057474B2 (ja) | オブジェクト間の競合指標計算方法およびシステム | |
US20220207240A1 (en) | System and method for analyzing similarity of natural language data | |
Leonov et al. | Architecture and self-learning concept of knowledge-based systems by use monitoring of internet network | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN117973519A (zh) | 一种基于知识图谱的数据处理方法 | |
KR20220074576A (ko) | 마케팅 지식 그래프 구축을 위한 딥러닝 기반 신조어 추출 방법 및 그 장치 | |
CN114118310A (zh) | 基于综合相似度的聚类方法和装置 | |
CN113032353A (zh) | 数据共享方法、系统、电子设备及介质 | |
Ye et al. | Learning object models from semistructured web documents | |
CN114880483A (zh) | 一种元数据知识图谱构建方法、存储介质及系统 | |
Stepaniak et al. | Technology of Text Content Topic Classification Based on Machine Learning Methods | |
Chen | English translation template retrieval based on semantic distance ontology knowledge recognition algorithm | |
KR20220066615A (ko) | 온톨로지에 기초한 데이터베이스 구축 방법, 이를 이용한 사용자 질의 응답 방법, 및 그 방법들이 구현된 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |