CN114530259A - 一种病理知识库构建方法及系统 - Google Patents
一种病理知识库构建方法及系统 Download PDFInfo
- Publication number
- CN114530259A CN114530259A CN202210158770.3A CN202210158770A CN114530259A CN 114530259 A CN114530259 A CN 114530259A CN 202210158770 A CN202210158770 A CN 202210158770A CN 114530259 A CN114530259 A CN 114530259A
- Authority
- CN
- China
- Prior art keywords
- data
- knowledge
- text
- knowledge base
- pathological
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/60—ICT specially adapted for the handling or processing of medical references relating to pathologies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明提出了一种病理知识库构建方法及系统,包括:接收上传的知识图谱资料数据;针对知识图谱资料数据中的图像数据进行特征提取,针对文本数据利用分词字典进行知识提取;将提取的图像中的特征及文本中的知识进行存储,形成病理知识库。本发明所构建的数据库通过可视化的知识图谱、以图搜图、智能推送能够大量节约一线医务人员的时间,提高效率,在最短时间内实现信息共享。
Description
技术领域
本发明属于数据库构建技术领域,尤其涉及一种病理知识库构建方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
在医学诊断流程中,病理诊断称为临床诊断的“金标准“,是医生对病理判断的重要依据。
传统的病理知识库多为文献知识库,充当“电子词典”或“电子文献库”的功能,供一线医务人员检索,服务与诊疗研究,但这类文献知识库较少有自主的深度学习和知识更新能力,其知识重用的效率和共享程度不高,不能为一线医务人员提供长期、动态、全面的知识源,更难以适应复杂临床问题的处理,这就导致了传统医学知识库的服务能力,与临床业务和医疗管理的需求之间存在着巨大的差距。
总之,传统的病理知识库在实际检索使用的过程中,需要一线医务人员耗费大量的时间和精力,效率低下。
随着AI技术和病理医学本身的快速进步,对具备知识推理和知识发现的病理知识图谱库需求日益增多,提高知识图谱库的标准程度与量级,是未来医学知识图谱库建设的重要前提和方向。
目前虽然存在病理知识图谱库技术的出现,但是,并没有相对成熟、完整的病理知识库来对医生进行辅助诊断,所以针对病理行业的知识图谱辅助诊,病理数据处理,病理知识库创建具有非常重要的前期和使用空间。
发明内容
为克服上述现有技术的不足,本发明提供了一种病理知识库构建方法,具备高性能搜索引擎及面向专家组丰富智库内容。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
第一方面,公开了一种病理知识库构建方法,包括:
接收上传的知识图谱资料数据;
针对知识图谱资料数据中的图像数据进行特征提取,针对文本数据利用分词字典进行知识提取;
将提取的图像中的特征及文本中的知识进行存储,形成病理知识库。
进一步的技术方案,还包括:病理知识库接收搜索指令,根据搜索类型输出对应的内容,若为关键词,则输出对应的文本内容,若为图片,则输出对应的图片数据。
进一步的技术方案,针对上传的知识图谱资料数据进行纠错处理,无误后进行下一步的处理。
进一步的技术方案,所述下一步的处理具体包括:
按知识图谱资料数据的分级分类标准划分,提取层级机构的关联关系,具体提取医学及病理关键词以丰富分词字典;
文本资料的结构化处理;
数据的分布式存储,包括:对切片、影像资料进行集群分布式文件存储及定时快照副本避免数据丢失;
针对图片进行特征提取:建立结构化数据与非结构化数据的关联关系以满足与知识图谱的多样化展示。
进一步的技术方案,所述搜索指令包括全文关键词搜索、高级搜索、以图搜图。
进一步的技术方案,所述全文关键词搜索,包括:
步骤1:采用索引病理分词的检索方式进行文献、病历资料的检索;
步骤2:根据预先建立的病理字典词库分别对关键词分词匹配及文本资料中出现的关键词分词的词频以及出现分词的短语长度输出检索结果;
步骤3:根据分词评分进行高亮及优先级的列表展示,便于筛选有用的信息;
步骤4:列表记录可以级联到文本详情便于查看文本资料、影像资料的详细内容,同时可以关注、收藏资料。
进一步的技术方案,所述高级搜索,包括:
步骤1:根据系统分类类型、症状、组织学特征、病理变化、鉴别诊断进行条件输入;
步骤2:根据预先建立的病理字典词库分别对分词匹配及文本资料中出现的分词的词频以及出现分词的短语长度输出检索结果;
步骤3:根据分词评分进行高亮及优先级的列表展示,便于筛选有用的信息;
步骤4:列表记录可以级联到文本详情便于查看文本资料、影像资料的详细内容,同时可以关注、收藏资料。
进一步的技术方案,所述以图搜图,包括:
采用深度学习神经网络提取特征进行相似度计算方式,根据相似度倒序展示结果图片数据,并对图片数据级联到详细资料包括但不限于文章、病历资料以及关注、收藏对应的影像资料。
进一步的技术方案,还包括智能推送步骤:
采用人工智能根据关注收藏浏览的资料以及检索条件、标签进行资料推送,以使检索对象及时收到感兴趣的内容,并且可以级联查询。
第二方面,公开了一种病理知识库构建系统,包括:
数据接收模块,被配置为:接收上传的知识图谱资料数据;
提取模块,被配置为:针对知识图谱资料数据中的图像数据进行特征提取,针对文本数据利用分词字典进行知识提取;
存储模块,被配置为:将提取的图像中的特征及文本中的知识进行存储,形成病理知识库。
以上一个或多个技术方案存在以下有益效果:
本发明提出系统及方法可以丰富现有的病理知识库,使病理诊断及信息有序化、可视化,通过一定的规则挖掘分析数据、建立分词字典及索引、图像的特征提取,经过这样处理以后,大量隐含的知识被数字化,信息和知识变得有序化,方便了信息和知识的检索,同时加快了知识和信息的流动,通过纠错技术能够实现及时的纠正现有文献资料的错误,更便于知识的有效使用,对病理诊断起到更加积极的效果。
本发明采用积分倒序方式实现信息有序化,通过知识库平台系统列表展示及图谱展示实现可视化。
另外,可视化的知识图谱、以图搜图、智能推送能够大量节约一线医务人员的时间,提高效率,在最短时间内实现信息共享。
本申请上传资料需要经过审核,并且有严格的纠错程序;知识图谱库通过分布式的文件存储及数据存储服务,基于高性能的设备,能够对大数据量的文件及数据进行存储,并且保证高可用、高可靠。最终提高知识图谱库的标准程度与量级。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例的方法流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
参见附图1所示,本实施例公开了一种病理知识库构建方法,能够通过知识图谱辅助病理医生病理诊断。
本发明中挖掘分析数据、建立分词字典及索引、图像的特征提取文献、病例、文章等资料通过知识库平台上传;根据医学关键词库进行关键词的提取;关键词入分词库;用户通过平台检索的方式获取想要的结果。
具体实现时至少需要包括以下几个步骤:
步骤1:丰富知识图谱内容,医院医生通过上传或者导入的方式,将病理相关医学书籍、知识文章、临床病历、论文、医书文章、病理切片、影像等病理知识资料进行上传并由专家对上传资料的有效性进行审核。
具体通过知识库平台上传,上传到后台存储。
步骤2:知识图谱资料纠错,医院医生、专家可以对知识库的历史资料进行纠错,审核确认后发布,丰富知识库。
上传的文档及文献资料判断是否有错,有错以后进行纠错,支持在线修改,经过审核后生效,并进行知识提取;其中,图像特征提取调用外部工具实现,知识提取得到文档结构化数据、关系、关键词等,知识库存储的是结构化数据、文档、影像,通过上述方式实现数据汇聚及知识图谱的多样化。
步骤3:病理资料处理,对上传资料进行预处理、分析、挖掘,按资料的分级分类标准划分,提取层级机构的关联关系,提取医学及病理关键词丰富分词字典;由于文档资料上传后会同时上传影像资料,比如病例上传时,会上传病例相关的影像资料,上述两次提取的数据中两者会建立一对多的关系。文本资料的结构化处理、数据的分布式存储,对切片、影像资料进行集群分布式文件存储及定时快照副本避免数据丢失;针对图片进行特征提取;建立结构化数据与非结构化数据的关联关系以满足与知识图谱的多样化展示。
分级分类标准包括:病理数据资产,比如鉴别与诊断:发病部位、诊断要点、病因、临床问题、组织学特征、实验室测试、免疫组化染色、分子标记、治疗、预后、辅助试验、鉴别诊断、诊断检查表、概述、病理变化、体检、肉眼所见、镜下所见等等。
在实施时,图像特征提取采用的是外部工具进行实现。
步骤4:数据检索
1)输入全文字符(关键词、症状、组织学特征等)或者图像;
2)针对文本进行分词查询、针对图像调用外部人工智能工具进行以图搜图;
3)结果根据命中积分值倒序展示。
全文关键词搜索
步骤1:采用索引病理分词的检索方式进行文献、病历等资料的检索;
步骤2:根据预先建立的病理字典词库分别对关键词分词匹配及文本资料中出现的关键词分词的词频以及出现分词的短语长度等维度输出检索结果;
步骤3:根据分词评分进行高亮及优先级的列表展示,便于一线医务工作人员迅速筛选有用的信息;
步骤4:列表记录可以级联到文本详情便于查看文本资料、影像资料的详细内容,同时可以关注、收藏资料。
高级搜索
步骤1:根据系统分类类型、症状、组织学特征、病理变化、鉴别诊断等维度进行条件输入;
步骤2:根据预先建立的病理字典词库分别对分词匹配及文本资料中出现的分词的词频以及出现分词的短语长度等维度输出检索结果;
步骤3:根据分词评分进行高亮及优先级的列表展示,便于一线医务工作人员迅速筛选有用的信息;
步骤4:列表记录可以级联到文本详情便于查看文本资料、影像资料的详细内容,同时可以关注、收藏资料。
以图搜图:
采用深度学习神经网络提取特征进行相似度计算方式,根据相似度倒序展示结果图片数据,并对图片数据级联到详细资料包括但不限于文章、病历等资料以及关注、收藏对应的影像资料,便于一线医务人员诊断病理。
步骤五:智能推送
采用人工智能根据关注收藏浏览的资料以及检索条件、标签进行资料推送,保证医务工作人员及时收到感兴趣的内容,并且可以级联查询,方便于一线医务人员病理诊断。
本发明将病理相关资料进行上传并由专家对上传资料的有效性进行审核,系统对上传资料进行数据清洗、挖掘分析提取到知识图谱库,并提供知识库的纠错功能,丰富知识库内容及准确性,通过全文检索、高级搜索、以图搜图、智能推送,助力一线医务人员病理诊断。
对上传资料进行数据清洗、挖掘分析提取到知识图谱库,具体步骤为:
1)资料上传时针对不同系统分类分开上传;
2)针对文档属性,根据数据资产提取关键词,进行图谱关系挖掘提取并与文档进行关联;
3)文档基本属性进行结构化存储,对文档、图像进行分布式文件存储;
4)通过平台实现数据共享。
实施例二
本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
实施例三
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行上述方法的步骤。
实施例四
本实施例的目的是提供了一种病理知识库构建系统,包括:
数据接收模块,被配置为:接收上传的知识图谱资料数据;
提取模块,被配置为:针对知识图谱资料数据中的图像数据进行特征提取,针对文本数据利用分词字典进行知识提取;
存储模块,被配置为:将提取的图像中的特征及文本中的知识进行存储,形成病理知识库。
以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种病理知识库构建方法,其特征是,包括:
接收上传的知识图谱资料数据;
针对知识图谱资料数据中的图像数据进行特征提取,针对文本数据利用分词字典进行知识提取;
将提取的图像中的特征及文本中的知识进行存储,形成病理知识库。
2.如权利要求1所述的一种病理知识库构建方法,其特征是,还包括:病理知识库接收搜索指令,根据搜索类型输出对应的内容,若为关键词,则输出对应的文本内容,若为图片,则输出对应的图片数据。
3.如权利要求1所述的一种病理知识库构建方法,其特征是,针对上传的知识图谱资料数据进行纠错处理,无误后进行下一步的处理;
优选的,所述下一步的处理具体包括:
按知识图谱资料数据的分级分类标准划分,提取层级机构的关联关系,具体提取医学及病理关键词以丰富分词字典;
文本资料的结构化处理;
数据的分布式存储,包括:对切片、影像资料进行集群分布式文件存储及定时快照副本避免数据丢失;
针对图片进行特征提取:建立结构化数据与非结构化数据的关联关系以满足与知识图谱的多样化展示。
4.如权利要求1所述的一种病理知识库构建方法,其特征是,所述搜索指令包括全文关键词搜索、高级搜索、以图搜图;
优选的,所述全文关键词搜索,包括:
步骤1:采用索引病理分词的检索方式进行文献、病历资料的检索;
步骤2:根据预先建立的病理字典词库分别对关键词分词匹配及文本资料中出现的关键词分词的词频以及出现分词的短语长度输出检索结果;
步骤3:根据分词评分进行高亮及优先级的列表展示,便于筛选有用的信息;
步骤4:列表记录可以级联到文本详情便于查看文本资料、影像资料的详细内容,同时可以关注、收藏资料。
5.如权利要求4所述的一种病理知识库构建方法,其特征是,所述高级搜索,包括:
步骤1:根据系统分类类型、症状、组织学特征、病理变化、鉴别诊断进行条件输入;
步骤2:根据预先建立的病理字典词库分别对分词匹配及文本资料中出现的分词的词频以及出现分词的短语长度输出检索结果;
步骤3:根据分词评分进行高亮及优先级的列表展示,便于筛选有用的信息;
步骤4:列表记录可以级联到文本详情便于查看文本资料、影像资料的详细内容,同时可以关注、收藏资料。
6.如权利要求4所述的一种病理知识库构建方法,其特征是,所述以图搜图,包括:
采用深度学习神经网络提取特征进行相似度计算方式,根据相似度倒序展示结果图片数据,并对图片数据级联到详细资料包括但不限于文章、病历资料以及关注、收藏对应的影像资料。
7.如权利要求4所述的一种病理知识库构建方法,其特征是,还包括智能推送步骤:
采用人工智能根据关注收藏浏览的资料以及检索条件、标签进行资料推送,以使检索对象及时收到感兴趣的内容,并且可以级联查询。
8.一种病理知识库构建系统,其特征是,包括:
数据接收模块,被配置为:接收上传的知识图谱资料数据;
提取模块,被配置为:针对知识图谱资料数据中的图像数据进行特征提取,针对文本数据利用分词字典进行知识提取;
存储模块,被配置为:将提取的图像中的特征及文本中的知识进行存储,形成病理知识库。
9.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现上述权利要求1-7任一所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时执行上述权利要求1-7任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210158770.3A CN114530259A (zh) | 2022-02-21 | 2022-02-21 | 一种病理知识库构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210158770.3A CN114530259A (zh) | 2022-02-21 | 2022-02-21 | 一种病理知识库构建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114530259A true CN114530259A (zh) | 2022-05-24 |
Family
ID=81624049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210158770.3A Pending CN114530259A (zh) | 2022-02-21 | 2022-02-21 | 一种病理知识库构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114530259A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117216002A (zh) * | 2023-08-30 | 2023-12-12 | 广州金域医学检验中心有限公司 | 一种病理资源智能归档方法、装置、电子设备及存储介质 |
-
2022
- 2022-02-21 CN CN202210158770.3A patent/CN114530259A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117216002A (zh) * | 2023-08-30 | 2023-12-12 | 广州金域医学检验中心有限公司 | 一种病理资源智能归档方法、装置、电子设备及存储介质 |
CN117216002B (zh) * | 2023-08-30 | 2024-04-09 | 太原金域临床检验所有限公司 | 一种病理资源智能归档方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9323794B2 (en) | Method and system for high performance pattern indexing | |
US20080195568A1 (en) | Methodologies and analytics tools for identifying white space opportunities in a given industry | |
WO2008063973A2 (en) | Method and system for high performance data metatagging and data indexing using coprocessors | |
Avasthi et al. | Techniques, applications, and issues in mining large-scale text databases | |
Clinchant et al. | Comparing machine learning approaches for table recognition in historical register books | |
US20190286753A1 (en) | System and methods for generating an enhanced output of relevant content to facilitate content analysis | |
Cao et al. | Multi-information source hin for medical concept embedding | |
Tito et al. | Document collection visual question answering | |
US11580100B2 (en) | Systems and methods for advanced query generation | |
CN115995281A (zh) | 一种基于数据治理的专病数据库的数据检索方法及装置 | |
CN113722472B (zh) | 一种技术文献信息提取方法、系统及存储介质 | |
CN114530259A (zh) | 一种病理知识库构建方法及系统 | |
Quemy et al. | ECHR-OD: On building an integrated open repository of legal documents for machine learning applications | |
CN115879901B (zh) | 一种智能人事自助服务平台 | |
Yang et al. | SYRIAC: The systematic review information automated collection system a data warehouse for facilitating automated biomedical text classification | |
CN113505117A (zh) | 基于数据指标的数据质量评估方法、装置、设备及介质 | |
CN114996400A (zh) | 裁判文书处理方法、装置、电子设备及存储介质 | |
Preethi et al. | A survey paper on text mining-techniques, applications, and issues | |
Nguyen et al. | Medical Prescription Recognition Using Heuristic Clustering and Similarity Search | |
Jiang et al. | A refinement strategy for identification of scientific software from bioinformatics publications | |
CN117198547B (zh) | 中医临床科研知识智能提取方法及系统 | |
CN113808758B (zh) | 一种检验数据标准化的方法、装置、电子设备和存储介质 | |
CN112541056B (zh) | 医学术语标准化方法、装置、电子设备及存储介质 | |
CN116595192B (zh) | 科技前沿信息获取方法、装置、电子设备和可读存储介质 | |
Isaeva | PERM UNIVERSITY HERALD. RUSSIAN AND FOREIGN PHILOLOGY |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |