CN116110570A - 糖尿病辅助诊断系统、文本处理法、图谱的构建方法 - Google Patents

糖尿病辅助诊断系统、文本处理法、图谱的构建方法 Download PDF

Info

Publication number
CN116110570A
CN116110570A CN202310071783.1A CN202310071783A CN116110570A CN 116110570 A CN116110570 A CN 116110570A CN 202310071783 A CN202310071783 A CN 202310071783A CN 116110570 A CN116110570 A CN 116110570A
Authority
CN
China
Prior art keywords
diabetes
knowledge
module
information
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310071783.1A
Other languages
English (en)
Inventor
崔洋洋
王松
刘伟强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Research Institute Tsinghua University
Original Assignee
Shenzhen Research Institute Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Research Institute Tsinghua University filed Critical Shenzhen Research Institute Tsinghua University
Priority to CN202310071783.1A priority Critical patent/CN116110570A/zh
Publication of CN116110570A publication Critical patent/CN116110570A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19153Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及医疗技术领域,尤其涉及一种糖尿病辅助诊断系统、文本处理法、图谱的构建方法,糖尿病辅助诊断系统包括医学文本系统,用于获取识别患者病历图像中的相关参数和特征信息,生成文本数据;知识图谱系统,用于对医学文本系统的文本数据及以糖尿病为核心延展的治疗方案、症状、方剂进行数据处理,构建知识图谱,并以知识图谱完成自动问答与智能推理。通过医学文本系统可以根据患者病历图像生成文本数据,由知识图谱系统对所述医学文本系统的文本数据及以糖尿病为核心延展的治疗方案、症状、方剂进行数据处理,构建知识图谱,并以知识图谱完成自动问答与智能推理,从而可以辅助医生完成对病人的病情的评估,帮助医生制定最佳的治疗方案。

Description

糖尿病辅助诊断系统、文本处理法、图谱的构建方法
技术领域
本发明涉及医疗技术领域,尤其涉及一种糖尿病辅助诊断系统、文本处理法、图谱的构建方法。
背景技术
糖尿病是世界三大慢性非传染疾病之一,严重危害人民群众的身体健康截至2009年,中国已经成为仅次于印度的糖尿病第二大国,糖尿病患者人数达到4315万,其中国内2019年有超过100万人死于糖尿病,其致病规模已经超过癌症成为危害人类健康的第一杀手,世界卫生组织(WHO)预测:2025年全球糖尿病人数将突破3亿。导致糖尿病重症的一个比较重要的因素就是长期未被确诊而导致病程特别长。据相关报道显示,糖尿病的致病机理比较复杂,因此有超过60%以上的患者实际患有糖尿病却没被诊断出来。这很大程度上归因于人类医生通常局限于自己的经验,而对于糖尿病这种致病机理复杂的疾病,个人经验的局限性可能会导致误诊。同时,我国糖尿病防治工作情势十分紧迫。糖尿病是一种终身性疾病,它的治疗管理存在周期长、花费大、监管困难,患者年龄大等特点,发病时需要及时控制。患者的自我诊断在糖尿病的整个治疗和康复过程中都是非常重要,缺乏有效的自我诊断还会增加患并发症的危险。
发明内容
针对现有技术的不足,本发明提供了一种糖尿病辅助诊断系统、文本处理法、图谱的构建方法,旨在能够帮助医生确诊患者以及制定最佳的治疗方案,同时使患者进行有效的自我诊断。
为实现上述目的,本发明提供了一种糖尿病辅助诊断系统,包括:
医学文本系统,用于获取识别患者病历图像中的相关参数和特征信息,生成文本数据;
知识图谱系统,用于对所述医学文本系统的所述文本数据及以糖尿病为核心延展的治疗方案、症状、方剂进行数据处理,构建知识图谱,并以所述知识图谱完成自动问答与智能推理。
作为优选方案,还包括基于所述知识图谱系统应用的诊断系统,所述诊断系统包括医生处理模块和患者使用模块;
所述医生处理模块用于将医生诊断的患者信息与所述糖尿病知识图谱进行匹配,确定所述患者信息处于所述糖尿病知识图谱中的位置及相关信息,并自动生成诊断结果及治疗方案报告;
所述患者使用模块用于将患者的当前状态信息与所述糖尿病知识图谱进行匹配,确定所述当前状态信息处于所述糖尿病知识图谱中的位置及相关信息,生成初步的患者自我评估报告。
作为优选方案,所述知识图谱系统包括对象化服务模块、对象化加工模块、数据处理模块和知识管理模块;所述数据处理模块向所述对象化加工模块输送高质量数据,经所述对象化加工模块加工过的数据经所述知识管理模块的查询、索引和存储后移送给所述对象化服务模块输出智能诊断、自动问答和持续优化的服务。
作为优选方案,所述对象化加工模块包括实体及关系获取模块、对象化表示模块、对象归一模块、质量评估模块、质量提升模块,数据经过所述实体及关系获取模块后依次输送所述对象化表示模块、所述对象归一模块、所述质量评估模块、所述质量提升模块后返回所述实体及关系获取模块;其中,所述实体及关系获取模块包括实体发现模块、关系发现模块和词汇挖掘模块;所述实体发现模块配置为用于实体抽取和实体分类;所述关系发现模块配置为用于关系抽取和关系分类;所述词汇挖掘模块配置为用于同义词挖掘和缩略词挖掘;
所述对象化表示模块的模式设计配置为用于概念分层体系定义、概念及属性定义、概念关系定义、约束/规则定义;所述概念分层体系定义为根据应用场景建立的,反映某个维度、某个视角、某个粒度对对象的抽象描述,形成的各种互相作用的抽象概念;所述概念及属性定义即实体及其相关“属性——值”对,实体间通过关系相互联结,构成网状的知识结构,实现真正意义上的语义检索;所述概念关系定义的基本组成单位是“实体——关系——实体”三元组;所述约束/规则定义为混合知识表示方法,将以往成熟的传统知识表示方法有效结合起来进行运用,谓词逻辑、产生式规则和过程式的结合;
所述对象归一模块配置为用于实体对齐、属性融合、值规范化、归一化建模;所述对象化归一化模块是将所述对象表示模块获得的数据进行归一化处理,其中,所述实体对齐是在获得不同来源的新知识之后,需要新知识其进行整合,以消除矛盾和歧义;所述属性融合是将相同意义的属性进行合并;所述值规范化是将数据和语法进行标准化和规范化;通过所述实体对齐、所述属性融合、所述值规范化后进行所述归一化建模,即将不同来源的知识映射至同一个向量空间里,通过计算向量相似度实现知识归一化;
所述质量评估模块配置为用于知识置信度评估、知识缺失评估;所述质量评估模块是将对象归一化模块中获得的数据进行质量评估后再加入知识库中,以确保知识库的质量,其中,所述知识置信度评估是对知识的可信度进行量化,通过舍弃置信度较低的知识,可以保障知识库的质量;所述知识缺失评估是用覆盖度/准确率/精确率/召回率/F-measure来作为衡量各阶段质量评估的指标之一;
所述质量提升模块配置为用于知识补全、知识纠错、同步更新;所述质量提升模块是将质量评估后数据库中的数据进行更新和优化,其中,所述知识补全为根据所述糖尿病知识图谱中已有的知识推理出新的知识,所述知识纠错为识别出错误知识并进行纠正,所述同步更新为经过知识补全和知识纠错后生成新的知识。
作为优选方案,所述医生处理模块配置为用于接收上传医生问诊报告,自动识别所述医生问诊报告,提取所述医生问诊报告中的所述患者信息,从所述糖尿病知识图谱系统中,匹配相关所述患者信息,解析出结果,自动生成诊断结果及治疗方案报告;所述患者使用模块配置为用于接收患者填写的当前状态及基本信息,并将填写的当前状态及基本信息中的非结构化信息转化成结构化信息,提取所述结构化信息中的医疗症状和患者状态信息,并与所述糖尿病知识图谱进行匹配,评估所述医疗症状和所述患者状态信息,自动生成自我评估报告。
为了实现上述目的,本发明还提供了一种基于上述糖尿病辅助诊断系统的医学文本处理方法,所述医学文本系统用于准确获取糖尿病相关参数与识别糖尿病类型并自动生成报告,所述医学文本系统的所述医学文本处理方法包括以下步骤:
⑴基于OCR识别技术,将病历图像信息转化为文本数据;
⑵所述OCR识别技术将医学文本中不需要的信息进行删除,并将所获取的信息输入基于二叉树的分段线性自动分类器,实现高精度的输出信息;
⑶将所述输出信息输入自适应词库的自然语言处理模型,通过自然语言处理技术将非结构化的所述文本数据变成结构化数据,实现系统输出文本的最优切分;
⑷若初始网络模型评估指标值满足预设条件,则将训练后所述初始网络模型作为目标基于规则的组合支持向量机模型,若所述初始网络模型评估指标值不满足预设条件,则对现有方法进行改进;其中,所述预设条件为所述初始网络模型预测糖尿病的精确度同时优于现有算法的精确度和人类医生预测的平均精确度,即所述评估指标值需要大于90%。
作为优选方案,所述步骤⑶中的自然语言处理模型,包括数据预处理、短语抽取、文本切分、词库建立、特征提取的操作,从而获得结构化的临床数据特征;基于样本数据,充分挖掘疾病之间的关联规则,分类器组合避免决策过程中的分类信息缺失问题。
作为优选方案,所述分类器组合,获取训练样本信息和验证样本信息,所述训练样本信息和所述验证样本信息均为具有标注信息的医学文本,将待分类信息输入至预设训练后的分类器模型中;将所述验证样本信息输入至所述训练后的所述初始网络模型中,以使所述初始网络模型对所述验证样本信息进行分类,并输出所述验证样本信息对应的预测结果;若所述初始网络模型评估指标值满足预设条件,则将训练后的所述初始网络模型作为目标基于规则的组合支持向量机模型,若所述初始网络模型评估指标值不满足预设条件,则对现有方法进行改进。
为了实现上述目的,本发明还提供了一种基于上述糖尿病辅助诊断系统的糖尿病知识图谱构建方法,其特征在于,包括以下步骤:
⑴在服务器存储所述糖尿病知识图谱,以及响应客户端的访问请求,将所述糖尿病知识图谱发送至所述客户端;响应所述客户端的维护请求,以及接收所述客户端发送的修改指令,对所述糖尿病知识图谱进行修改并存储;
⑵从存储所述糖尿病医学知识图谱的数据库中提取所述医学文本处理系统生成的所述诊断报告、糖尿病临床试验数据、糖尿病医学指南、糖尿病临床试验数据语义标注、糖尿病医学文献、糖尿病医学知识;
⑶将所述数据库中数据加以利用,以糖尿病为核心延展至治疗方案、症状、方剂的各类概念,形成所述糖尿病知识图谱,分析出内在联系,并以所述糖尿病知识图谱完成自动问答与智能推理;
⑷所述糖尿病知识图谱以有向图的形式存储在图数据库OrientDB中,所述有向图中节点和关系的定义与所述糖尿病知识图谱中节点和关系的定义相同;所述糖尿病知识图谱根据需求进行扩展,对所述有向图的节点和边进行更新;
⑸响应所述客户端的医疗方案推送请求,从患者信息中提取历史医疗操作和患者状态信息,以及相应的时间信息;
⑹若在匹配过程中发现存在一个或多个诊疗操作或患者状态无法匹配,即所述糖尿病知识图谱中有些无法在患者信息中找到,则提示医生补充缺失的治疗操作和医疗指标,待补全所有信息后再推荐下一步的诊疗操作;
⑺在用户模块提出问题,将问题通过解释接口传给推理机模块;
⑻通过所述推理机模块从数据库调取所述糖尿病知识图谱,根据所述糖尿病知识图谱中所表示的方向,将所述患者信息与所述糖尿病知识图谱进行匹配,自动生成所述诊断结果以及所述治疗方案。
作为优选方案,所述步骤⑴中所述客户端包括:知识图谱访问模块,接收用户对所述糖尿病知识图谱的访问请求并发送至服务器;接收所述服务器反馈的所述糖尿病知识图谱并进行可视化;将所述糖尿病知识图谱进行可视化,使医生和患者能够更快地理解和处理相关信息,同时,按照地图可视化,分析出患者与地域的关系;还包括知识图谱维护模块,所述知识图谱维护模块接收用户对所述糖尿病知识图谱的修改请求并发送至服务器;接收所述服务器反馈的所述糖尿病知识图谱,以及接收用户的修改指令发送至所述服务器。
本发明所阐述的糖尿病辅助诊断系统、文本处理法、图谱的构建方法,其有益效果在于:
(1)本发明公开的糖尿病辅助诊断系统,通过医学文本系统可以将根据患者病历图像生成文本数据,知识图谱系统对所述医学文本系统的文本数据及以糖尿病为核心延展的治疗方案、症状、方剂进行数据处理,构建知识图谱,并以知识图谱完成自动问答与智能推理,从而可以辅助医生完成对病人的病情的评估,帮助医生制定最佳的治疗方案。
(2)通过设置基于知识图谱系统应用的诊断系统,将诊断系统设置为医生处理模块与患者使用模块,将医生处理模块与患者使用模块得到的患者信息与知识图谱系统匹配,从而可以从而医生诊断与患者自我评估两个维度来判定患病情况,在结合医学文本系统的诊断报告,从而可以辅助医生进行准确的诊断,也可以使患者准确地进行自我评估。
(2)本发明公开的糖尿病辅助诊断系统,通过深度学习把糖尿病医学文本信息结合起来,构建糖尿病病理辅助诊断模型,可以提高临床糖尿病诊断率,而且早期通过医学文本信息快速获得病灶的病理诊断信息,让临床获得更有指向性的报告,更早期地有针对性的治疗,缩短诊断时间。
(3)本发明公开的糖尿病辅助诊断系统,通过机器学习建立糖尿病病理诊断模型,省去人工提取特征的过程,可为糖尿病的智能辅助诊断建立一套自主知识产权,填补国内相关技术领域的空白,其在糖尿病病理识别方向上的应用具有重要的临床意义和社会意义。
(4)本发明公开的糖尿病辅助诊断系统,将知识图谱和医疗大数据技术结合,极大提高了知识的存储量,有利于繁琐、多样信息的统一管理和使用,而且可以帮助患者自我评估病情,帮助医生找到最佳治疗方案,提高医生工作效率和诊疗质量,为糖尿病患者提供远程指导和干预。
(5)本发明公开的糖尿病辅助诊断系统,利用众包思想设计的辅助诊断系统,可以利用群体智慧解决补充辅助诊断系统数据量不足以及数据管理花费问题,同时验证辅助诊断系统结果的准确性,起到纠错和验证的作用,使得糖尿病辅助诊断系统通过不断的自我学习,迭代优化,可以使得智能推理检测的准确性接近百分之百。
附图说明
图1是本发明的糖尿病辅助诊断系统的架构图。
图2是本发明的糖尿病辅助诊断系统的知识系统构建图。
图3是本发明的糖尿病辅助诊断系统的诊断系统用户图。
图4是本发明的糖尿病辅助诊断系统的医学文本处理方法流程图。
图5是本发明的糖尿病辅助诊断系统的糖尿病知识图谱构建方法。
图6是本发明的糖尿病辅助诊断系统的诊断系统工作原理图。
具体实施方式
下面结合附图与具体实施例来对本发明做进一步描述。
参照图1至图3所示,本发明提供了一种糖尿病辅助诊断系统,包括:
医学文本系统,医学文本系统用于获取患者病历中的相关参数和特征信息,自动生成预测模型和诊断报告;
知识图谱系统,知识图谱系统以糖尿病为核心延展至治疗方案、症状、方剂的概念,分析出内在联系,形成糖尿病知识图谱,并以糖尿病知识图谱完成自动问答与智能推理;
特征信息可以包括年龄、性别、身高、体重等,相关参数可以包括家族病史、病程、并发症等。
诊断系统中与糖尿病知识图谱的匹配方法可以是匹配文本之间的相似度,也可以是计算文本向量之间的欧氏距离。
本发明公开的糖尿病辅助诊断系统,通过医学文本系统可以将根据患者病历图像生成文本数据,知识图谱系统对所述医学文本系统的文本数据及以糖尿病为核心延展的治疗方案、症状、方剂进行数据处理,构建知识图谱,并以知识图谱完成自动问答与智能推理,从而可以辅助医生完成对病人的病情的评估,帮助医生制定最佳的治疗方案。
本发明公开的糖尿病辅助诊断系统,通过深度学习把糖尿病医学文本信息结合起来,构建糖尿病病理辅助诊断模型,可以提高临床糖尿病诊断率,而且早期通过医学文本信息快速获得病灶的病理诊断信息,让临床获得更有指向性的报告,更早期地有针对性的治疗,缩短诊断时间。
本发明公开的糖尿病辅助诊断系统,通过机器学习建立糖尿病病理诊断模型,省去人工提取特征的过程,可为糖尿病的智能辅助诊断建立一套自主知识产权,填补国内相关技术领域的空白,其在糖尿病病理识别方向上的应用具有重要的临床意义和社会意义。
本发明公开的糖尿病辅助诊断系统,将知识图谱和医疗大数据技术结合,极大提高了知识的存储量,有利于繁琐、多样信息的统一管理和使用,而且可以帮助患者自我评估病情,帮助医生找到最佳治疗方案,提高医生工作效率和诊疗质量,为糖尿病患者提供远程指导和干预。
本发明公开的糖尿病辅助诊断系统,利用众包思想设计的辅助诊断系统,可以利用群体智慧解决补充辅助诊断系统数据量不足以及数据管理花费问题,同时验证辅助诊断系统结果的准确性,起到纠错和验证的作用,使得糖尿病辅助诊断系统通过不断的自我学习,迭代优化,可以使得智能推理检测的准确性接近百分之百。
具体地,还包括基于知识图谱系统应用的诊断系统,诊断系统包括医生处理模块和患者使用模块;医生处理模块用于将医生诊断的患者信息与糖尿病知识图谱进行匹配,确定患者信息处于糖尿病知识图谱中的位置及相关信息,并自动生成诊断结果及治疗方案报告;患者使用模块用于将患者的当前状态信息与糖尿病知识图谱进行匹配,确定当前状态信息处于糖尿病知识图谱中的位置及相关信息,生成初步的患者自我评估报告。
本发明公开的糖尿病辅助诊断系统,通过设置基于知识图谱系统应用的诊断系统,将诊断系统设置为医生处理模块与患者使用模块,将医生处理模块与患者使用模块得到的患者信息与知识图谱系统匹配,从而可以从而医生诊断与患者自我评估两个维度来判定患病情况,在结合医学文本系统的诊断报告,从而可以辅助医生进行准确的诊断,也可以使患者准确地进行自我评估。
具体地,知识图谱系统包括对象化服务模块、对象化加工模块、数据处理模块和知识管理模块;数据处理模块向对象化加工模块输送高质量数据,经对象化加工模块加工过的数据经知识管理模块的查询、索引和存储后移送给对象化服务模块输出智能诊断、自动问答和持续优化的服务。
具体地,对象化加工模块包括实体及关系获取模块、对象化表示模块、对象归一模块、质量评估模块、质量提升模块,数据经过实体及关系获取模块后依次输送对象化表示模块、对象归一模块、质量评估模块、质量提升模块后返回实体及关系获取模块;其中,实体及关系获取模块包括实体发现模块、关系发现模块和词汇挖掘模块;实体发现模块配置为用于实体抽取和实体分类;关系发现模块配置为用于关系抽取和关系分类;词汇挖掘模块配置为用于同义词挖掘和缩略词挖掘;
对象化表示模块的模式设计配置为用于概念分层体系定义、概念及属性定义、概念关系定义、约束/规则定义;概念分层体系定义为根据应用场景建立的,反映某个维度、某个视角、某个粒度对对象的抽象描述,形成的各种互相作用的抽象概念;概念及属性定义即实体及其相关“属性——值”对,实体间通过关系相互联结,构成网状的知识结构,实现真正意义上的语义检索;概念关系定义的基本组成单位是“实体——关系——实体”三元组;约束/规则定义为混合知识表示方法,将以往成熟的传统知识表示方法有效结合起来进行运用,谓词逻辑、产生式规则和过程式的结合;
对象归一模块配置为用于实体对齐、属性融合、值规范化、归一化建模;对象化归一化模块是将对象表示模块获得的数据进行归一化处理,其中,实体对齐是在获得不同来源的新知识之后,需要新知识其进行整合,以消除矛盾和歧义;属性融合是将相同意义的属性进行合并;值规范化是将数据和语法进行标准化和规范化;通过实体对齐、属性融合、值规范化后进行归一化建模,即将不同来源的知识映射至同一个向量空间里,通过计算向量相似度实现知识归一化;
质量评估模块配置为用于知识置信度评估、知识缺失评估;质量评估模块是将对象归一化模块中获得的数据进行质量评估后再加入知识库中,以确保知识库的质量,其中,知识置信度评估是对知识的可信度进行量化,通过舍弃置信度较低的知识,可以保障知识库的质量;知识缺失评估是用覆盖度/准确率/精确率/召回率/F-measure来作为衡量各阶段质量评估的指标之一;
质量提升模块配置为用于知识补全、知识纠错、同步更新;质量提升模块是将质量评估后数据库中的数据进行更新和优化,其中,知识补全为根据糖尿病知识图谱中已有的知识推理出新的知识,知识纠错为识别出错误知识并进行纠正,同步更新为经过知识补全和知识纠错后生成新的知识。
具体地,医生处理模块配置为用于接收上传医生问诊报告,自动识别医生问诊报告,提取医生问诊报告中的患者信息,从糖尿病知识图谱系统中,匹配相关患者信息,解析出结果,自动生成诊断结果及治疗方案报告;患者使用模块配置为用于接收患者填写的当前状态及基本信息,并将填写的当前状态及基本信息中的非结构化信息转化成结构化信息,提取结构化信息中的医疗症状和患者状态信息,并与所述糖尿病知识图谱进行匹配,评估医疗症状和患者状态信息,自动生成自我评估报告。
通过医生处理模块与患者使用模块的设定,可以从医生与患者两个维度对患者患病情况进行分析,从而使诊断结构更为精准。
参照图4所示,本发明还提供了一种基于上述糖尿病辅助诊断系统的医学文本处理方法,医学文本系统用于准确获取糖尿病相关参数与识别糖尿病类型并自动生成报告,医学文本系统的医学文本处理方法包括以下步骤:
⑴基于OCR识别技术,将病历图像信息转化为文本数据;
⑵OCR识别技术将医学文本中不需要的信息进行删除,并将所获取的信息输入基于二叉树的分段线性自动分类器,实现高精度的输出信息;
⑶将输出信息输入自适应词库的自然语言处理模型,通过自然语言处理技术将非结构化的文本数据变成结构化数据,实现系统输出文本的最优切分;
⑷若初始网络模型评估指标值满足预设条件,则将训练后初始网络模型作为目标基于规则的组合支持向量机模型,若初始网络模型评估指标值不满足预设条件,则对现有方法进行改进;其中,预设条件为初始网络模型预测糖尿病的精确度同时优于现有算法的精确度和人类医生预测的平均精确度,即评估指标值需要大于90%。
通过使用OCR识别技术从而可以将图像文本信息转化为文本数据,从而不需要用户进行填写,同时也滤除了不需要的信息,节省了时间,提高了效率,再通过自然语言处理技术将非结构化文本数据转化为结构化数据从而可以方便计算机系统进行处理。需要说明的是,预测模型可以是普通的神经网络模型,也可以是一个基于多因素的端到端的时域预测模型。
具体地,步骤⑶中的自然语言处理模型,包括数据预处理、短语抽取、文本切分、词库建立、特征提取的操作,从而获得结构化的临床数据特征;基于样本数据,充分挖掘疾病之间的关联规则,分类器组合避免决策过程中的分类信息缺失问题。
具体地,分类器组合,获取训练样本信息和验证样本信息,训练样本信息和验证样本信息均为具有标注信息的医学文本,将待分类信息输入至预设训练后的分类器模型中;将验证样本信息输入至训练后的初始网络模型中,以使初始网络模型对验证样本信息进行分类,并输出验证样本信息对应的预测结果;若初始网络模型评估指标值满足预设条件,则将训练后初始网络模型作为目标基于规则的组合支持向量机模型,若初始网络模型评估指标值不满足预设条件,则对现有方法进行改进。
参照图5与图6所示,本发明还提供了一种基于上述糖尿病辅助诊断系统的糖尿病知识图谱构建方法,其特征在于,包括以下步骤:
⑴在服务器存储糖尿病知识图谱,以及响应客户端的访问请求,将糖尿病知识图谱发送至客户端;响应客户端的维护请求,以及接收客户端发送的修改指令,对糖尿病知识图谱进行修改并存储;
⑵从存储糖尿病医学知识图谱的数据库中提取医学文本处理系统生成的诊断报告、糖尿病临床试验数据、糖尿病医学指南、糖尿病临床试验数据语义标注、糖尿病医学文献、糖尿病医学知识;
⑶将数据库中数据加以利用,以糖尿病为核心延展至治疗方案、症状、方剂的各类概念,形成糖尿病知识图谱,分析出内在联系,并以糖尿病知识图谱完成自动问答与智能推理;
⑷糖尿病知识图谱以有向图的形式存储在图数据库OrientDB中,有向图中节点和关系的定义与糖尿病知识图谱中节点和关系的定义相同;糖尿病知识图谱根据需求进行扩展,对有向图的节点和边进行更新;
⑸响应客户端的医疗方案推送请求,从患者信息中提取历史医疗操作和患者状态信息,以及相应的时间信息;
⑹若在匹配过程中发现存在一个或多个诊疗操作或患者状态无法匹配,即糖尿病知识图谱中有些无法在患者信息中找到,则提示医生补充缺失的治疗操作和医疗指标,待补全所有信息后再推荐下一步的诊疗操作;
⑺在用户模块提出问题,将问题通过解释接口传给推理机模块;
⑻通过推理机模块从数据库调取糖尿病知识图谱,根据糖尿病知识图谱中所表示的方向,将患者信息与糖尿病知识图谱进行匹配,自动生成诊断结果以及治疗方案。
具体地,步骤⑴中客户端包括:知识图谱访问模块,接收用户对糖尿病知识图谱的访问请求并发送至服务器;接收服务器反馈的糖尿病知识图谱并进行可视化;将糖尿病知识图谱进行可视化,使医生和患者能够更快地理解和处理相关信息,同时,按照地图可视化,分析出患者与地域的关系;还包括知识图谱维护模块,知识图谱维护模块接收用户对糖尿病知识图谱的修改请求并发送至服务器;接收服务器反馈的糖尿病知识图谱,以及接收用户的修改指令发送至服务器。
上述仅是本发明较佳实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所做的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种糖尿病辅助诊断系统,其特征在于,包括:
医学文本系统,用于获取识别患者病历图像中的相关参数和特征信息,生成文本数据;
知识图谱系统,用于对所述医学文本系统的所述文本数据及以糖尿病为核心延展的治疗方案、症状、方剂进行数据处理,构建知识图谱,并以所述知识图谱完成自动问答与智能推理。
2.根据权利要求1所述的糖尿病辅助诊断系统,其特征在于,还包括基于所述知识图谱系统应用的诊断系统,所述诊断系统包括医生处理模块和患者使用模块;
所述医生处理模块用于将医生诊断的患者信息与所述糖尿病知识图谱进行匹配,确定所述患者信息处于所述糖尿病知识图谱中的位置及相关信息,并自动生成诊断结果及治疗方案报告;
所述患者使用模块用于将患者的当前状态信息与所述糖尿病知识图谱进行匹配,确定所述当前状态信息处于所述糖尿病知识图谱中的位置及相关信息,生成初步的患者自我评估报告。
3.根据权利要求2所述糖尿病辅助诊断系统,其特征在于,所述医生处理模块配置为用于接收上传医生问诊报告,自动识别所述医生问诊报告,提取所述医生问诊报告中的所述患者信息,从所述糖尿病知识图谱系统中,匹配相关所述患者信息,解析出结果,自动生成诊断结果及治疗方案报告;所述患者使用模块配置为用于接收患者填写的当前状态及基本信息,并将填写的当前状态及基本信息中的非结构化信息转化成结构化信息,提取所述结构化信息中的医疗症状和患者状态信息,并与所述糖尿病知识图谱进行匹配,评估所述医疗症状和所述患者状态信息,自动生成自我评估报告。
4.根据权利要求1所述的糖尿病辅助诊断系统,其特征在于,所述知识图谱系统包括对象化服务模块、对象化加工模块、数据处理模块和知识管理模块;所述数据处理模块向所述对象化加工模块输送高质量数据,经所述对象化加工模块加工过的数据经所述知识管理模块的查询、索引和存储后移送给所述对象化服务模块输出智能诊断、自动问答和持续优化的服务。
5.根据权利要求4所述的糖尿病辅助诊断系统,其特征在于,所述对象化加工模块包括实体及关系获取模块、对象化表示模块、对象归一模块、质量评估模块、质量提升模块,数据经过所述实体及关系获取模块后依次输送所述对象化表示模块、所述对象归一模块、所述质量评估模块、所述质量提升模块后返回所述实体及关系获取模块;其中,所述实体及关系获取模块包括实体发现模块、关系发现模块和词汇挖掘模块;所述实体发现模块配置为用于实体抽取和实体分类;所述关系发现模块配置为用于关系抽取和关系分类;所述词汇挖掘模块配置为用于同义词挖掘和缩略词挖掘;
所述对象化表示模块的模式设计配置为用于概念分层体系定义、概念及属性定义、概念关系定义、约束/规则定义;所述概念分层体系定义为根据应用场景建立的,反映某个维度、某个视角、某个粒度对对象的抽象描述,形成的各种互相作用的抽象概念;所述概念及属性定义即实体及其相关“属性——值”对,实体间通过关系相互联结,构成网状的知识结构,实现真正意义上的语义检索;所述概念关系定义的基本组成单位是“实体——关系——实体”三元组;所述约束/规则定义为混合知识表示方法,将以往成熟的传统知识表示方法有效结合起来进行运用,谓词逻辑、产生式规则和过程式的结合;
所述对象归一模块配置为用于实体对齐、属性融合、值规范化、归一化建模;所述对象化归一化模块是将所述对象表示模块获得的数据进行归一化处理,其中,所述实体对齐是在获得不同来源的新知识之后,需要新知识其进行整合,以消除矛盾和歧义;所述属性融合是将相同意义的属性进行合并;所述值规范化是将数据和语法进行标准化和规范化;通过所述实体对齐、所述属性融合、所述值规范化后进行所述归一化建模,即将不同来源的知识映射至同一个向量空间里,通过计算向量相似度实现知识归一化;
所述质量评估模块配置为用于知识置信度评估、知识缺失评估;所述质量评估模块是将对象归一化模块中获得的数据进行质量评估后再加入知识库中,以确保知识库的质量,其中,所述知识置信度评估是对知识的可信度进行量化,通过舍弃置信度较低的知识,可以保障知识库的质量;所述知识缺失评估是用覆盖度/准确率/精确率/召回率/F-measure来作为衡量各阶段质量评估的指标之一;
所述质量提升模块配置为用于知识补全、知识纠错、同步更新;所述质量提升模块是将质量评估后数据库中的数据进行更新和优化,其中,所述知识补全为根据所述糖尿病知识图谱中已有的知识推理出新的知识,所述知识纠错为识别出错误知识并进行纠正,所述同步更新为经过知识补全和知识纠错后生成新的知识。
6.一种根据权利要求1所述糖尿病辅助诊断系统的医学文本处理方法,其特征在于,所述医学文本系统用于准确获取糖尿病相关参数与识别糖尿病类型并自动生成报告,所述医学文本系统的所述医学文本处理方法包括以下步骤:
⑴基于OCR识别技术,将病历图像信息转化为文本数据;
⑵所述OCR识别技术将医学文本中不需要的信息进行删除,并将所获取的信息输入基于二叉树的分段线性自动分类器,实现高精度的输出信息;
⑶将所述输出信息输入自适应词库的自然语言处理模型,通过自然语言处理技术将非结构化的所述文本数据变成结构化数据,实现系统输出文本的最优切分;
⑷若初始网络模型评估指标值满足预设条件,则将训练后所述初始网络模型作为目标基于规则的组合支持向量机模型,若所述初始网络模型评估指标值不满足预设条件,则对现有方法进行改进;其中,所述预设条件为所述初始网络模型预测糖尿病的精确度同时优于现有算法的精确度和人类医生预测的平均精确度,即所述评估指标值需要大于90%。
7.根据权利要求6所述糖尿病辅助诊断系统的医学文本处理方法,其特征在于,所述步骤⑶中的自然语言处理模型,包括数据预处理、短语抽取、文本切分、词库建立、特征提取的操作,从而获得结构化的临床数据特征;基于样本数据,充分挖掘疾病之间的关联规则,分类器组合避免决策过程中的分类信息缺失问题。
8.根据权利要求7所述糖尿病辅助诊断系统的医学文本处理方法,其特征在于,所述分类器组合,获取训练样本信息和验证样本信息,所述训练样本信息和所述验证样本信息均为具有标注信息的医学文本,将待分类信息输入至预设训练后的分类器模型中;将所述验证样本信息输入至所述训练后的所述初始网络模型中,以使所述初始网络模型对所述验证样本信息进行分类,并输出所述验证样本信息对应的预测结果;若所述初始网络模型评估指标值满足预设条件,则将训练后的所述初始网络模型作为目标基于规则的组合支持向量机模型,若所述初始网络模型评估指标值不满足预设条件,则对现有方法进行改进。
9.一种根据权利要求1所述糖尿病辅助诊断系统的糖尿病知识图谱构建方法,其特征在于,包括以下步骤:
⑴在服务器存储所述糖尿病知识图谱,以及响应客户端的访问请求,将所述糖尿病知识图谱发送至所述客户端;响应所述客户端的维护请求,以及接收所述客户端发送的修改指令,对所述糖尿病知识图谱进行修改并存储;
⑵从存储所述糖尿病医学知识图谱的数据库中提取所述医学文本处理系统生成的所述诊断报告、糖尿病临床试验数据、糖尿病医学指南、糖尿病临床试验数据语义标注、糖尿病医学文献、糖尿病医学知识;
⑶将所述数据库中数据加以利用,以糖尿病为核心延展至治疗方案、症状、方剂的各类概念,形成所述糖尿病知识图谱,分析出内在联系,并以所述糖尿病知识图谱完成自动问答与智能推理;
⑷所述糖尿病知识图谱以有向图的形式存储在图数据库OrientDB中,所述有向图中节点和关系的定义与所述糖尿病知识图谱中节点和关系的定义相同;所述糖尿病知识图谱根据需求进行扩展,对所述有向图的节点和边进行更新;
⑸响应所述客户端的医疗方案推送请求,从患者信息中提取历史医疗操作和患者状态信息,以及相应的时间信息;
⑹若在匹配过程中发现存在一个或多个诊疗操作或患者状态无法匹配,即所述糖尿病知识图谱中有些无法在患者信息中找到,则提示医生补充缺失的治疗操作和医疗指标,待补全所有信息后再推荐下一步的诊疗操作;
⑺在用户模块提出问题,将问题通过解释接口传给推理机模块;
⑻通过所述推理机模块从数据库调取所述糖尿病知识图谱,根据所述糖尿病知识图谱中所表示的方向,将所述患者信息与所述糖尿病知识图谱进行匹配,自动生成所述诊断结果以及所述治疗方案。
10.根据权利要求9所述糖尿病辅助诊断系统的糖尿病知识图谱构建方法,其特征在于,所述步骤⑷中所述客户端包括:知识图谱访问模块,接收用户对所述糖尿病知识图谱的访问请求并发送至服务器;接收所述服务器反馈的所述糖尿病知识图谱并进行可视化;将所述糖尿病知识图谱进行可视化,使医生和患者能够更快地理解和处理相关信息,同时,按照地图可视化,分析出患者与地域的关系;还包括知识图谱维护模块,所述知识图谱维护模块接收用户对所述糖尿病知识图谱的修改请求并发送至服务器;接收所述服务器反馈的所述糖尿病知识图谱,以及接收用户的修改指令发送至所述服务器。
CN202310071783.1A 2023-02-07 2023-02-07 糖尿病辅助诊断系统、文本处理法、图谱的构建方法 Pending CN116110570A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310071783.1A CN116110570A (zh) 2023-02-07 2023-02-07 糖尿病辅助诊断系统、文本处理法、图谱的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310071783.1A CN116110570A (zh) 2023-02-07 2023-02-07 糖尿病辅助诊断系统、文本处理法、图谱的构建方法

Publications (1)

Publication Number Publication Date
CN116110570A true CN116110570A (zh) 2023-05-12

Family

ID=86259411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310071783.1A Pending CN116110570A (zh) 2023-02-07 2023-02-07 糖尿病辅助诊断系统、文本处理法、图谱的构建方法

Country Status (1)

Country Link
CN (1) CN116110570A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116775911A (zh) * 2023-08-22 2023-09-19 北京六元空间信息科技有限责任公司 基于问卷和大模型的医学队列随访对话辅助方法及系统
CN116910172A (zh) * 2023-07-17 2023-10-20 杭州卓深科技有限公司 基于人工智能的随访量表生成方法及系统
CN117271804A (zh) * 2023-11-21 2023-12-22 之江实验室 一种共病特征知识库生成方法、装置、设备及介质
CN117725995A (zh) * 2024-02-18 2024-03-19 青岛海尔科技有限公司 一种基于大模型的知识图谱构建方法、装置及介质
CN117747096A (zh) * 2024-02-21 2024-03-22 神州医疗科技股份有限公司 一种基于病理组学知识库的辅助诊疗系统及构建方法
CN117995426A (zh) * 2024-04-07 2024-05-07 北京惠每云科技有限公司 医疗知识图谱构建方法、装置、电子设备及存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116910172A (zh) * 2023-07-17 2023-10-20 杭州卓深科技有限公司 基于人工智能的随访量表生成方法及系统
CN116910172B (zh) * 2023-07-17 2024-02-06 杭州卓深科技有限公司 基于人工智能的随访量表生成方法及系统
CN116775911A (zh) * 2023-08-22 2023-09-19 北京六元空间信息科技有限责任公司 基于问卷和大模型的医学队列随访对话辅助方法及系统
CN116775911B (zh) * 2023-08-22 2023-11-03 北京六元空间信息科技有限责任公司 基于问卷和大模型的医学队列随访对话辅助方法及系统
CN117271804A (zh) * 2023-11-21 2023-12-22 之江实验室 一种共病特征知识库生成方法、装置、设备及介质
CN117271804B (zh) * 2023-11-21 2024-03-01 之江实验室 一种共病特征知识库生成方法、装置、设备及介质
CN117725995A (zh) * 2024-02-18 2024-03-19 青岛海尔科技有限公司 一种基于大模型的知识图谱构建方法、装置及介质
CN117725995B (zh) * 2024-02-18 2024-05-24 青岛海尔科技有限公司 一种基于大模型的知识图谱构建方法、装置及介质
CN117747096A (zh) * 2024-02-21 2024-03-22 神州医疗科技股份有限公司 一种基于病理组学知识库的辅助诊疗系统及构建方法
CN117747096B (zh) * 2024-02-21 2024-06-07 神州医疗科技股份有限公司 一种基于病理组学知识库的辅助诊疗系统及构建方法
CN117995426A (zh) * 2024-04-07 2024-05-07 北京惠每云科技有限公司 医疗知识图谱构建方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN116110570A (zh) 糖尿病辅助诊断系统、文本处理法、图谱的构建方法
WO2021143779A1 (zh) 一种基于知识图谱的跨科室慢性肾病早期诊断决策支持系统
US20220044812A1 (en) Automated generation of structured patient data record
EP3895178A1 (en) System and method for providing health information
CN110111884B (zh) 一种基于cmkmc的人机协同智慧医疗辅助决策系统
US20200365239A1 (en) System and method for generating clinical trial protocol design document with selection of patient and investigator
CN113871003A (zh) 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统
CN110993093B (zh) 基于深度学习的眼科预问诊方法与装置
CN111666477A (zh) 一种数据处理方法、装置、智能设备及介质
CN110600121B (zh) 一种基于知识图谱病因初步诊断方法
CN110277167A (zh) 基于知识图谱的慢性非传染性疾病风险预测系统
Silvestri et al. A big data architecture for the extraction and analysis of EHR data
US20200265953A1 (en) Identifying Valid Medical Data for Facilitating Accurate Medical Diagnosis
CN112541066B (zh) 基于文本结构化的医技报告检测方法及相关设备
CN113707252B (zh) 一种智能病例质控方法及系统
CN114639479A (zh) 一种基于医疗知识图谱的智能诊断辅助系统
CN116910172B (zh) 基于人工智能的随访量表生成方法及系统
CN109213871A (zh) 患者信息知识图谱构建方法、可读存储介质和终端
CN113707339A (zh) 一种多源异质数据库间概念对齐与内容互译方法及系统
CN116541472A (zh) 一种医疗领域知识图谱构建的方法
CN116386805A (zh) 一种智能导诊报告生成方法
CN116168825A (zh) 基于知识图谱增强的自动可解释性疾病自动诊断装置
CN109192312B (zh) 一种心力衰竭患者不良事件智能管理系统及方法
Liao et al. Medical data inquiry using a question answering model
Jia et al. DKDR: An approach of knowledge graph and deep reinforcement learning for disease diagnosis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination