CN114528419A - 一种中医智能病案推荐方法及推荐系统 - Google Patents

一种中医智能病案推荐方法及推荐系统 Download PDF

Info

Publication number
CN114528419A
CN114528419A CN202210436297.0A CN202210436297A CN114528419A CN 114528419 A CN114528419 A CN 114528419A CN 202210436297 A CN202210436297 A CN 202210436297A CN 114528419 A CN114528419 A CN 114528419A
Authority
CN
China
Prior art keywords
medical record
symptom
data
patient
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210436297.0A
Other languages
English (en)
Inventor
李文友
赵静
董桂峰
尹杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Dajing Tcm Information Technology Co ltd
Original Assignee
Nanjing Dajing Tcm Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Dajing Tcm Information Technology Co ltd filed Critical Nanjing Dajing Tcm Information Technology Co ltd
Priority to CN202210436297.0A priority Critical patent/CN114528419A/zh
Publication of CN114528419A publication Critical patent/CN114528419A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Animal Behavior & Ethology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供了一种中医智能病案推荐系统,通过采用知识图谱技术对病案数据进行提取整合,让医生通过可视化的方式更加直观的了解病案的知识及相互关系;并对知识图谱提取的实体数据在不同维度下使用关联分析算法,让医生在进行临床操作、书写患者病历时,能够实时根据患者的病历情况推荐出比较相近的历史病案,以供给医生进行比较准确的诊疗方案的选择与运用。

Description

一种中医智能病案推荐方法及推荐系统
技术领域
本发明涉及医疗行业内容智能推荐领域,具体但不限于涉及一种中医智能病案推荐方法及推荐系统。
背景技术
中医是我国传统文化的瑰宝,近些年来国家也在大力提倡中医药的传承与发展。而传统的中医要在现代社会发展进步,就要走信息化的道路。在中医的信息化、智能化研究领域,有很大一部分工作都是对于中医病案的处理与分析,在我们上千年的历史中留下来大量的中医名家病案,尤其是近代与当代的名家病案,包括现代医疗卫生体系中的每一家中医院以及中西结合医院都有大量的中医病案。如何使用一个相对统一的标准对于这些病案进行分析研究及显示,以及在临床过程中如何对于这些病案进行智能的分析使用,是研究的难题。
有鉴于此,需要提供一种新的系统或方法,以期解决上述至少部分问题。
发明内容
针对现有技术中的一个或多个问题,本发明提出了一种中医智能病案推荐方法及推荐系统,通过采用知识图谱技术对病案数据进行提取整合,让医生通过可视化的方式更加直观的了解病案的知识及相互关系;并对知识图谱提取的实体数据在不同维度下使用关联分析算法,让医生在进行临床操作、书写患者病历时,能够实时根据患者的病历情况推荐出比较相近的历史病案,以供给医生进行比较准确的诊疗方案的选择与运用。
实现本发明目的的技术解决方案为:
一种中医智能病案推荐方法,包括:
S1、构建可视化的病案知识图谱数据库;
S2、在疾病维度、证型维度、病机维度、体质维度四个维度下,对病案知识图谱数据库中经过标准化处理的实体数据分别进行关联分析,获取不同维度下的症状-权重集合;
S3、输入患者的病历信息,并提取病历信息中标准化的疾病、证型、症状、体征等数据,组成患者病历症状集合A
Figure 543942DEST_PATH_IMAGE001
,其中,a表示症状,m表示症状个数;
S4、在疾病维度、证型维度、病机维度、体质维度四个维度下,分别将患者病历症状集合A
Figure 507087DEST_PATH_IMAGE001
与病案知识图谱数据库中各历史病案的症状集合S
Figure 817983DEST_PATH_IMAGE002
进行匹配,并根据症状结合对应症状的权重数值计算历史病案与患者病历症状集合匹配的推荐分值;
S5、根据4个维度下推荐分值的高低排序,推荐出数据库中关联度最高的历史病案。
进一步的,本发明的中医智能病案推荐方法,步骤S1中构建病案知识图谱数据库具体包括以下步骤:
S1-1、导入历史病案数据包;所述历史病案数据包包括结构化、半结构化或者非结构化的文本数据;
S1-2、对导入的病案文本数据进行向量化处理,得到词向量序列
Figure 744351DEST_PATH_IMAGE003
,其中m为文本长度;
并对词向量序列进行信息抽取,包括实体抽取和关系抽取,其中,实体抽取的数据包括疾病、证型、症状、体征等实体数据;
S1-3、对信息抽取后得到的实体数据和关系数据中的冗余数据进行融合处理,去除重复的数据,并对实体数据进行标准化处理;
S1-4、采用Neo4j图数据库对病案的实体数据和关系数据进行存储和可视化,形成通过实体和关系搜索的知识图谱。
进一步的,本发明的中医智能病案推荐方法,步骤S1-2中采用双向长短期记忆网络条件随机场BiLSTM-CRF对词向量序列进行实体抽取:词向量序列
Figure 89881DEST_PATH_IMAGE003
经过BiLSTM-CRF模块后得到一个标签序列y,y的分值计算公式为
Figure 459814DEST_PATH_IMAGE004
,其中A是BiLSTM-CRF模块中相邻状态转移矩阵的分数值,P是经过BiLSTM-CRF模块输出矩阵的分数值;根据
Figure 258006DEST_PATH_IMAGE005
的分数值选择y,得分最高的
Figure 988064DEST_PATH_IMAGE006
将作为最佳标签序列输出,
Figure 188101DEST_PATH_IMAGE007
Figure 961891DEST_PATH_IMAGE008
表示y所有可能的标签序列。
进一步的,本发明的中医智能病案推荐方法,步骤S1-2中采用双向长短期记忆网络BiLSTM对词向量序列进行关系抽取:词向量序列
Figure 247379DEST_PATH_IMAGE003
经过BiLSTM模块后得到特征向量
Figure 249970DEST_PATH_IMAGE009
,其中
Figure 304514DEST_PATH_IMAGE010
为输出给外部的状态,
Figure 999937DEST_PATH_IMAGE011
)为输出门状态,
Figure 523454DEST_PATH_IMAGE012
为记忆单元状态,
Figure 64157DEST_PATH_IMAGE013
为临时单元状态,
Figure 238786DEST_PATH_IMAGE014
为遗忘门状态,
Figure 105111DEST_PATH_IMAGE015
为记忆门状态,g()表示激活函数,
Figure 614458DEST_PATH_IMAGE016
为t时刻的输入向量,W为权重,b为偏差;将BiLSTM模块的输出
Figure 224431DEST_PATH_IMAGE017
作为softmax分类器的输入进行关系分类,关系分类概率为
Figure 987988DEST_PATH_IMAGE018
wb为权值参数。
进一步的,本发明的中医智能病案推荐方法,步骤S2中获取不同维度下的症状权重数值具体包括:
将病案的实体数据按照疾病维度、证型维度、病机维度、体质维度4个维度分别进行分类;
设置支持度、置信度、提升度的数值,采用Apriori算法分别从疾病维度、证型维度、病机维度、体质维度4个维度对实体数据进行关联分析计算,得到4个维度下症状-权重集合(
Figure 290793DEST_PATH_IMAGE019
),所述症状-权重集合由症状集合S
Figure 772590DEST_PATH_IMAGE002
及其对应的权重数值
Figure 671407DEST_PATH_IMAGE020
组成,其中,
Figure 289470DEST_PATH_IMAGE021
表示症状,
Figure 763177DEST_PATH_IMAGE020
表示
Figure 732270DEST_PATH_IMAGE021
对应的权重数值,n表示症状的个数。
进一步的,本发明的中医智能病案推荐方法,步骤S4中计算推荐分值具体为:
将患者病历症状集合A
Figure 418466DEST_PATH_IMAGE001
中的患者病历症状
Figure 156615DEST_PATH_IMAGE022
依次与一维度下历史病案的症状集合S
Figure 50491DEST_PATH_IMAGE002
及对应的症状权重数值
Figure 241301DEST_PATH_IMAGE020
进行匹配,得到症状向量X(
Figure 731188DEST_PATH_IMAGE023
)和对应症状的权重向量Y(
Figure 323843DEST_PATH_IMAGE024
),当患者病历症状
Figure 873773DEST_PATH_IMAGE022
出现在症状集合S
Figure 568191DEST_PATH_IMAGE002
中,则
Figure 861769DEST_PATH_IMAGE025
取值1、
Figure 308931DEST_PATH_IMAGE026
取值为对应的症状权重数值
Figure 29762DEST_PATH_IMAGE027
,否则
Figure 460743DEST_PATH_IMAGE025
取值0、
Figure 292433DEST_PATH_IMAGE026
取值为0;
计算症状向量X(
Figure 374528DEST_PATH_IMAGE023
)与权重向量Y(
Figure 681DEST_PATH_IMAGE024
)的数量积作为该历史病案的推荐分值Z,
Figure 918958DEST_PATH_IMAGE028
,其中,m表示症状的个数。
进一步的,本发明的中医智能病案推荐方法,步骤S3中的标准化处理具体包括以下步骤:
对患者的病历信息进行数据清洗,删除重复的内容、无用的标签、空格和空白行;
对患者的病历信息进行句子分割,将病案的内容分割成小文本的片段;
根据标准症状体系和疾病分类标准对患者的病历信息进行分词操作,获取病案数据中的症状信息;
对患者的病历信息中分出的症状相关信息进行提取,构造症状集合A
Figure 554339DEST_PATH_IMAGE001
,其中,a表示症状,m表示症状个数。
一种基于上述任一的中医智能病案推荐方法的推荐系统,包括:
病案知识图谱数据库,用于将历史病案的实体数据和关系数据进行可视化显示和存储;
症状权重模块,包括基于历史病案数据在多个维度下的症状-权重数值;
NLP模块,用于对输入的患者病历信息进行标准化处理后获取患者病历症状集合;
匹配计分模块,用于在多个维度下分别计算历史病案与患者病历症状集合匹配的推荐分值;
推荐模块,用于根据推荐分值推荐出关联度最高的病案。
进一步的,本发明的中医智能病案推荐系统,所述NLP模块包括:
数据清洗模块,用于对患者病历信息进行数据清洗,删除重复的内容、无用的标签、空格和空白行;
句子分割模块,用于对患者的病历信息进行句子分割,将病案的内容分割成小文本的片段;
分词模块,用于根据标准症状体系和疾病分类标准对患者的病历信息进行分词操作,获取病案数据中的症状信息;
症状提取模块,用于对患者的病历信息中分出的症状相关信息进行提取,构造症状集合。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、本发明的中医智能病案推荐方法和推荐系统,采用知识图谱技术对历史病案数据进行提取整合,实现了可视化的方式展示和存储,让医生通过可视化的方式更加直观的了解病案的知识及相互关系。
2、本发明的中医智能病案推荐方法和推荐系统,通过将知识图谱提取的实体数据在不同维度下使用关联分析算法,实现了当医生在临床操作或书写患者病历时,能够实时根据患者的病历情况推荐出比较相近的历史病案,以供给医生进行比较准确的诊疗方案的选择与运用。
附图说明
附图用来提供对本发明的进一步理解,与说明描述一起用于解释本发明的实施例,并不构成对本发明的限制。在附图中:
图1示出了构建可视化的病案知识图谱数据库和获取症状-权重集合的流程图。
图2示出了一实施例的在疾病维度下症状与疾病间的支持度、置信度和提升度。
图3示出了一实施例的在疾病维度下疾病中各症状的权重数值。
图4示出了根据患者病历信息推荐关联度高的病案流程示意图。
图5示出了中医智能病案推荐系统中NLP模块的示意图。
具体实施方式
为了进一步理解本发明,下面结合实施例对本发明优选实施方案进行描述,但是应当理解,这些描述只是为进一步说明本发明的特征和优点,而不是对本发明权利要求的限制。
该部分的描述只针对几个典型的实施例,本发明并不仅局限于实施例描述的范围。不同实施例的组合、不同实施例中的一些技术特征进行相互替换,相同或相近的现有技术手段与实施例中的一些技术特征进行相互替换也在本发明描述和保护的范围内。
说明书中的“耦接”或“连接”既包含直接连接,也包含间接连接。间接连接为通过中间媒介进行的连接,如通过电传导媒介如导体的连接,其中电传导媒介可含有寄生电感或寄生电容,也可通过说明书中实施例所描述的中间电路或部件的连接;间接连接还可包括可实现相同或相似功能的基础上通过其他有源器件或无源器件的连接,如通过开关、信号放大电路、跟随电路等电路或部件的连接。“多个”或“多”表示两个或两个以上。
根据本发明的一个方面,一种中医智能病案推荐方法,包括:
S1、构建可视化的病案知识图谱数据库。在一个实施例中,步骤S1中构建病案知识图谱数据库具体包括以下步骤:
S1-1、导入历史病案数据包;所述历史病案数据包包括结构化、半结构化或者非结构化的文本数据。
S1-2、对导入的病案文本数据进行向量化处理,得到词向量序列
Figure 976093DEST_PATH_IMAGE003
,其中m为文本长度;并对词向量序列进行信息抽取,包括实体抽取和关系抽取,其中,实体抽取的数据包括疾病、证型、症状、体征等实体数据。在一个实施例中,采用双向长短期记忆网络条件随机场BiLSTM-CRF对词向量序列进行实体抽取:词向量序列
Figure 789460DEST_PATH_IMAGE003
经过BiLSTM-CRF模块后得到一个标签序列y,y的分值计算公式为
Figure 663875DEST_PATH_IMAGE004
,其中A是BiLSTM-CRF模块中相邻状态转移矩阵的分数值,P是经过BiLSTM-CRF模块输出矩阵的分数值;根据
Figure 368526DEST_PATH_IMAGE005
的分数值选择y,得分最高的
Figure 644786DEST_PATH_IMAGE006
将作为最佳标签序列输出,
Figure 143901DEST_PATH_IMAGE007
Figure 505612DEST_PATH_IMAGE008
表示y所有可能的标签序列。在另一个实施例中,采用双向长短期记忆网络BiLSTM对词向量序列进行关系抽取:词向量序列
Figure 732063DEST_PATH_IMAGE003
经过BiLSTM模块后得到特征向量
Figure 128409DEST_PATH_IMAGE009
,其中
Figure 532845DEST_PATH_IMAGE010
为输出给外部的状态,
Figure 647432DEST_PATH_IMAGE011
)为输出门状态,
Figure 162727DEST_PATH_IMAGE012
为记忆单元状态,
Figure 429891DEST_PATH_IMAGE013
为临时单元状态,
Figure 5229DEST_PATH_IMAGE014
为遗忘门状态,
Figure 341533DEST_PATH_IMAGE015
为记忆门状态,g()表示激活函数,
Figure 926098DEST_PATH_IMAGE016
为t时刻的输入向量,W为权重,b为偏差;将BiLSTM模块的输出
Figure 297036DEST_PATH_IMAGE017
作为softmax分类器的输入进行关系分类,关系分类概率为
Figure 43275DEST_PATH_IMAGE018
wb为权值参数。
S1-3、对信息抽取后得到的实体数据和关系数据中的冗余数据进行融合处理,去除重复的数据,并对实体数据进行标准化处理。
S1-4、采用Neo4j图数据库对病案的实体数据和关系数据进行存储和可视化,形成通过实体和关系搜索的知识图谱。
S2、在疾病维度、证型维度、病机维度、体质维度四个维度下,对病案知识图谱数据库中经过标准化处理的实体数据分别进行关联分析,获取4个维度下历史病案的症状-权重集合。在一个实施例中,步骤S2中获取不同维度下的症状权重数值具体包括:
将病案的实体数据按照疾病维度、证型维度、病机维度、体质维度4个维度分别进行分类;
设置支持度、置信度、提升度的数值,采用Apriori算法分别从疾病维度、证型维度、病机维度、体质维度4个维度对实体数据进行关联分析计算,得到4个维度下历史病案的症状-权重集合(
Figure 116142DEST_PATH_IMAGE019
),所述症状-权重集合由症状集合S
Figure 238819DEST_PATH_IMAGE002
及其对应的权重数值
Figure 198685DEST_PATH_IMAGE020
组成,其中,
Figure 381405DEST_PATH_IMAGE021
表示症状,
Figure 692300DEST_PATH_IMAGE020
表示
Figure 369400DEST_PATH_IMAGE021
对应的权重数值,n表示症状的个数。
S3、输入患者的病历信息,并提取病历信息中标准化的疾病、证型、症状、体征等数据,组成患者病历症状集合A
Figure 183773DEST_PATH_IMAGE001
,其中,a表示症状,m表示症状个数。在一个实施例中,步骤S3中的标准化处理具体包括以下步骤:
对患者的病历信息进行数据清洗,删除重复的内容、无用的标签、空格和空白行;
对患者的病历信息进行句子分割,将病案的内容分割成小文本的片段;
根据标准症状体系和疾病分类标准对患者的病历信息进行分词操作,获取病案数据中的症状信息;
对患者的病历信息中分出的症状相关信息进行提取,构造症状集合A
Figure 537393DEST_PATH_IMAGE001
,其中,a表示症状,m表示症状个数。
S4、在疾病维度、证型维度、病机维度、体质维度四个维度下,分别将患者病历症状集合A
Figure 335585DEST_PATH_IMAGE001
与病案知识图谱数据库中各历史病案的症状集合S
Figure 65644DEST_PATH_IMAGE002
进行匹配,并根据症状结合对应症状的权重数值计算历史病案与患者病历症状集合匹配的推荐分值。在一个实施例中,步骤S4中计算患者病历症状集合的推荐分值具体为:
将患者病历症状集合A
Figure 734523DEST_PATH_IMAGE001
中的患者病历症状
Figure 508312DEST_PATH_IMAGE022
依次与一维度下历史病案的症状集合S
Figure 793800DEST_PATH_IMAGE002
及对应的症状权重数值
Figure 796391DEST_PATH_IMAGE020
进行匹配,得到相应的症状向量X(
Figure 585356DEST_PATH_IMAGE023
)和对应症状的权重向量Y(
Figure 546358DEST_PATH_IMAGE024
),当患者病历症状
Figure 787984DEST_PATH_IMAGE022
出现在症状集合S
Figure 610578DEST_PATH_IMAGE002
中,则
Figure 785207DEST_PATH_IMAGE025
取值1、
Figure 385953DEST_PATH_IMAGE026
取值为对应的症状权重数值
Figure 380453DEST_PATH_IMAGE027
,否则
Figure 990426DEST_PATH_IMAGE025
取值0、
Figure 292267DEST_PATH_IMAGE026
取值为0;
计算症状向量X(
Figure 63914DEST_PATH_IMAGE023
)与权重向量Y(
Figure 811290DEST_PATH_IMAGE024
)的数量积作为该历史病案的推荐分值Z,
Figure 224954DEST_PATH_IMAGE028
,其中,m表示症状的个数。
S5、根据4个维度的推荐分值进行排序,将4个维度中推荐分值最高的历史病案作为关联度最高的病案进行推荐。
根据本发明的另一个方面,一种基于上述中医智能病案推荐方法的推荐系统,包括:
病案知识图谱数据库,用于将历史病案的实体数据和关系数据进行可视化显示和存储。
症状权重模块,包括基于历史病案数据在多个维度下的症状-权重数值。
NLP模块,用于对输入的患 者病历信息进行标准化处理后获取患者病历症状集合;所述NLP模块包括:数据清洗模块,用于对患者病历信息进行数据清洗,删除重复的内容、无用的标签、空格和空白行;句子分割模块,用于对患者的病历信息进行句子分割,将病案的内容分割成小文本的片段;分词模块,用于根据标准症状体系和疾病分类标准对患者的病历信息进行分词操作,获取病案数据中的症状信息;症状提取模块,用于对患者的病历信息中分出的症状相关信息进行提取,构造症状集合。
匹配计分模块,用于在不同维度下分别计算历史病案与患者病历症状集合匹配的推荐分值。
推荐模块,用于根据推荐分值推荐出关联度最高的历史病案。
本发明提出的中医智能病案推荐系统主要包括病案数据处理和病案推荐两大处理流程,其中,病案数据处理主要包括病案知识图谱的构建以及不同维度下症状权重的获取。
首先进行病案知识图谱的构建工作。病案数据由历代名家病案和医院积累的历史病案组成。如图1所示,病案知识图谱的构建主要包括以下处理步骤:
1)导入历史病案数据包,这个数据可以是结构化数据,也可以是半结构化或者非结构化的文本数据。根据目前医院的实际情况,半结构化与非结构化的数据是比较普遍的情况。
2)对导入的病案文本数据进行向量化处理,得到词向量序列
Figure 843017DEST_PATH_IMAGE003
,其中m为文本长度。对获得的词向量数据进行信息抽取,信息抽取包括实体抽取以及关系抽取。其中,实体抽取采用双向长短期记忆网络条件随机场(BiLSTM-CRF)的方法,词向量序列
Figure 67456DEST_PATH_IMAGE003
经过BiLSTM-CRF模块后得到一个标签序列y,y的分值计算公式为
Figure 770970DEST_PATH_IMAGE029
,其中A是CRF模块中相邻状态转移矩阵的分数值,P是经过BiLSTM模块输出矩阵的分数值。根据
Figure 722746DEST_PATH_IMAGE030
的分数值选择y,得分最高的
Figure 726474DEST_PATH_IMAGE006
将作为最佳标签序列输出,
Figure 839923DEST_PATH_IMAGE031
Figure 545580DEST_PATH_IMAGE008
表示y所有可能的标签序列。关系抽取采用双向长短期记忆网络(BiLSTM)的方法,词向量序列
Figure 35467DEST_PATH_IMAGE003
经过BiLSTM模块后得到特征向量
Figure 893702DEST_PATH_IMAGE009
,其中
Figure 443632DEST_PATH_IMAGE010
为输出给外部的状态,
Figure 387317DEST_PATH_IMAGE011
)为输出门状态,
Figure 166048DEST_PATH_IMAGE012
为记忆单元状态,
Figure 878789DEST_PATH_IMAGE013
为临时单元状态,
Figure 599621DEST_PATH_IMAGE014
为遗忘门状态,
Figure 765023DEST_PATH_IMAGE015
为记忆门状态,g()表示激活函数,
Figure 862292DEST_PATH_IMAGE016
为t时刻的输入向量,W为权重,b为偏差。将BiLSTM模块的输出
Figure 163960DEST_PATH_IMAGE017
作为softmax分类器的输入进行关系分类,最后关系分类概率为
Figure 570540DEST_PATH_IMAGE018
wb为权值参数。
3)由于本文的病案数据由历代名家病案和医院积累的历史病案组成,信息抽取后得到的知识信息可能会存在冗余的情况,需要进行知识融合处理。对信息抽取后数据中的疾病、证型、症状、体征等进行标准化处理。疾病及证型数据依照国际疾病分类(international Classification of diseases ,ICD-10)进行标准化替换处理。症状及体征数据依据《中医临床基本症状信息分类与代码(TCIATCM 020-2019)》进行标准化替换处理。
4)将处理好的实体和关系数据以能导入图数据库Neo4j的格式存储,形成可以通过实体和关系快速搜索的知识图谱,即采用Neo4j图数据库对病案的知识图谱进行存储和可视化,有利于医生更直观的发现及运用病案实体数据之间的潜在关系。
其次,如图1所示,对病案知识图谱提取的实体数据在不同维度下使用关联分析算法,获取不同维度下的症状权重数值。
从临床层面出发,医生对于患者的病情判断会从多个维度出发,最终得到的是一个综合判断的结果。本发明对于知识图谱提取出的标准化疾病、证型、症状、体征等实体数据处理也从多个维度出发,分别是疾病维度、证型维度、病机维度以及体质维度。从不同的维度出发对病案数据进行关联分析计算,得到不同维度下症状的权重数值((
Figure 223238DEST_PATH_IMAGE019
),由症状集合S
Figure 593039DEST_PATH_IMAGE002
及症状权重数值组成,其中s表示症状,w表示权重数值,n表示症状的个数)。其中从不同维度出发,先将病案数据按照不同维度进行分类处理,例如,疾病维度的病案数据按照不同的疾病进行分类,然后对该维度下数据进行关联分析处理,通过支持度、置信度、提升度的数值设置调整,计算该维度下症状的权重数值。例如,疾病维度下计算每个疾病下症状与疾病间的关系如图2所示,计算出疾病中症状的权重配比,如图3示出了舌淡的权重数值为45。其中,关联分析处理使用关联分析算法,关联分析算法也叫关联规则挖掘,它是属于无监督算法的一种,主要用于从大量的数据中挖掘出潜在的关联关系,本发明的关联分析处理采用Apriori算法,可以高效自动地从数据集中挖掘出潜在的属性关联组合。其中,支持度:表示事务A与事务B在一个数据集中同时出现的频率,支持度是没有方向概念的,可以用于数据初步过滤,以及权重初始设置;置信度:是指表示使用包含A的事务中同时包含B事务的比例,即同时包含A和B的事务占包含A事务的比例,可以处理成疾病、证型与症状之间的详细关系设置;提升度:表示含有A的条件下,同时含有B的概率,并且与B总体发生的概率做比值,如果提升度>1,则关联规则是一个强关联规则,如果提升度小于等于1,则为无效的关联规则,如果提升度=1,则A与B相互独立,可以用于数据关系强化设置。
病案数据处理结束后,进入中医智能病案推荐,如图4所示:
1)医生在前端输入患者的病历信息,包括主诉、现病史、既往史等内容。
2)由后端的NLP模块进行病案内容的分析处理,提取出标准化的疾病、证型、症状、体征等数据,组成患者病历症状集合A
Figure 280373DEST_PATH_IMAGE001
,其中a表示症状,m表示症状个数。如图5所示,NLP模块主要包括以下4个部分:数据清洗、句子分割、分词操作和症状提取。(1)通过数据清洗处理病案中重复的内容,删除无用的标签、空格和空白行。(2)通过句子的分割操作,病案的内容被标点符号如逗号、句号等分割成小文本的片段。(3)由于医生对于病症描述的专业性,一般的词库满足不了分词的准确性,因此本发明的分词操作在中医标准症状体系及疾病分类标准的基础上进行。我们这里采用的是中国中医药信息学会2019年3月份发布的团标《中医临床基本症状信息分类与代码(TCIATCM 020-2019)》及国际疾病分类(international Classification of diseases ,ICD-10)。(4)最后对病案中分出的症状相关信息进行提取,构造出一个症状集合A
Figure 343006DEST_PATH_IMAGE001
,其中m表示症状个数。
3)在疾病维度、证型维度、病机维度、体质维度四个维度下,将患者的病历症状集合与不同维度下获得的症状集合进行匹配,再根据不同维度下获得的症状权重进行计算得到相应的分值。
不同维度下症状的权重由症状集合S
Figure 217422DEST_PATH_IMAGE002
及症状权重数值组成:(
Figure 672805DEST_PATH_IMAGE019
),其中s表示症状,w表示权重数值,n表示症状个数。
患者的病历症状集合A
Figure 214645DEST_PATH_IMAGE001
分别与不同维度下获得的症状集合S
Figure 448180DEST_PATH_IMAGE002
进行匹配,当病历症状集合中症状
Figure 75470DEST_PATH_IMAGE032
出现在该维度下的症状集合S
Figure 787074DEST_PATH_IMAGE002
中时,
Figure 963847DEST_PATH_IMAGE033
取值为1,否则取值为0,得到相应的症状向量X(
Figure 368283DEST_PATH_IMAGE023
)。
同时按照患者病历症状的顺序获得该维度下对应症状的权重向量Y(
Figure 482870DEST_PATH_IMAGE024
),当病历症状集合中症状
Figure 998165DEST_PATH_IMAGE032
出现在该维度下的症状集合S
Figure 249017DEST_PATH_IMAGE002
中时,
Figure 840667DEST_PATH_IMAGE034
的值为集合S
Figure 176970DEST_PATH_IMAGE002
中对应症状的权重数值
Figure 761535DEST_PATH_IMAGE027
(k为对应症状的下标数值),否则取值为0。
最后通过症状向量X(
Figure 866895DEST_PATH_IMAGE023
)与权重向量Y(
Figure 613134DEST_PATH_IMAGE024
)的数量积计算推荐分值,其中m表示症状的个数,即
Figure 686001DEST_PATH_IMAGE035
4)根据推荐分值的高低排序,推荐出关联度最高的病案。
本领域技术人员应当知道,说明书或附图所涉逻辑控制中的“高电平”与“低电平”、“置位”与“复位”、“与门”与“或门”、“同相输入端”与“反相输入端”等逻辑控制可相互调换或改变,通过调节后续逻辑控制而实现与上述实施例相同的功能或目的。
这里本发明的描述和应用是说明性的,并非想将本发明的范围限制在上述实施例中。说明书中所涉及的效果或优点等相关描述可因具体条件参数的不确定或其它因素影响而可能在实际实验例中不能体现,效果或优点等相关描述不用于对发明范围进行限制。这里所披露的实施例的变形和改变是可能的,对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是,在不脱离本发明的精神或本质特征的情况下,本发明可以以其它形式、结构、布置、比例,以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下,可以对这里所披露的实施例进行其它变形和改变。

Claims (9)

1.一种中医智能病案推荐方法,其特征在于,包括:
S1、构建可视化的病案知识图谱数据库;
S2、在疾病维度、证型维度、病机维度、体质维度四个维度下,对病案知识图谱数据库中经过标准化处理的实体数据分别进行关联分析,获取4个维度下各历史病案的症状-权重集合;
S3、输入患者的病历信息,并提取病历信息中标准化的疾病、证型、症状、体征数据,组成患者病历症状集合A
Figure 163395DEST_PATH_IMAGE001
,其中,a表示症状,m表示症状个数;
S4、在疾病维度、证型维度、病机维度、体质维度四个维度下,分别将患者病历症状集合A
Figure 473022DEST_PATH_IMAGE001
与病案知识图谱数据库中各历史病案的症状集合S
Figure 636151DEST_PATH_IMAGE002
进行匹配,并根据症状结合对应症状的权重数值计算历史病案与患者病历症状集合匹配的推荐分值;
S5、根据4个维度下推荐分值的高低排序,推荐出数据库中关联度最高的历史病案。
2.根据权利要求1所述的中医智能病案推荐方法,其特征在于,步骤S1中构建病案知识图谱数据库具体包括以下步骤:
S1-1、导入历史病案数据包;所述历史病案数据包包括结构化、半结构化或者非结构化的文本数据;
S1-2、对导入的病案文本数据进行向量化处理,得到词向量序列
Figure 818870DEST_PATH_IMAGE003
,其中m为文本长度;
并对词向量序列进行信息抽取,包括实体抽取和关系抽取,其中,实体抽取的数据包括疾病、证型、症状、体征实体数据;
S1-3、对信息抽取后得到的实体数据和关系数据中的冗余数据进行融合处理,去除重复的数据,并对实体数据进行标准化处理;
S1-4、采用Neo4j图数据库对病案的实体数据和关系数据进行存储和可视化,形成通过实体和关系搜索的知识图谱。
3.根据权利要求2所述的中医智能病案推荐方法,其特征在于,步骤S1-2中采用双向长短期记忆网络条件随机场BiLSTM-CRF对词向量序列进行实体抽取:词向量序列
Figure 67449DEST_PATH_IMAGE003
经过BiLSTM-CRF模块后得到一个标签序列y,y的分值计算公式为
Figure 665920DEST_PATH_IMAGE004
,其中A是BiLSTM-CRF模块中相邻状态转移矩阵的分数值,P是经过BiLSTM-CRF模块输出矩阵的分数值;根据
Figure 198402DEST_PATH_IMAGE005
的分数值选择y,得分最高的
Figure 286444DEST_PATH_IMAGE006
将作为最佳标签序列输出,
Figure 22318DEST_PATH_IMAGE007
Figure 424481DEST_PATH_IMAGE008
表示y所有可能的标签序列。
4.根据权利要求2所述的中医智能病案推荐方法,其特征在于,步骤S1-2中采用双向长短期记忆网络BiLSTM对词向量序列进行关系抽取:词向量序列
Figure 562201DEST_PATH_IMAGE003
经过BiLSTM模块后得到特征向量
Figure 821144DEST_PATH_IMAGE009
,其中
Figure 28004DEST_PATH_IMAGE010
为输出给外部的状态,
Figure 233857DEST_PATH_IMAGE011
)为输出门状态,
Figure 22821DEST_PATH_IMAGE012
为记忆单元状态,
Figure 921507DEST_PATH_IMAGE013
为临时单元状态,
Figure 366395DEST_PATH_IMAGE014
为遗忘门状态,
Figure 907098DEST_PATH_IMAGE015
为记忆门状态,g()表示激活函数,
Figure 26536DEST_PATH_IMAGE016
为t时刻的输入向量,W为权重,b为偏差;将BiLSTM模块的输出
Figure 830544DEST_PATH_IMAGE017
作为softmax分类器的输入进行关系分类,关系分类概率为
Figure 825045DEST_PATH_IMAGE018
wb为权值参数。
5.根据权利要求1所述的中医智能病案推荐方法,其特征在于,步骤S2中获取不同维度下的症状权重数值具体包括:
将病案的实体数据按照疾病维度、证型维度、病机维度、体质维度4个维度分别进行分类;
设置支持度、置信度、提升度的数值,采用Apriori算法分别从疾病维度、证型维度、病机维度、体质维度4个维度对实体数据进行关联分析计算,分别得到4个维度下症状-权重集合(
Figure 372701DEST_PATH_IMAGE019
),所述症状-权重集合由症状集合S
Figure 73941DEST_PATH_IMAGE002
及其对应的权重数值
Figure 111167DEST_PATH_IMAGE020
组成,其中,
Figure 514335DEST_PATH_IMAGE021
表示症状,
Figure 865682DEST_PATH_IMAGE020
表示
Figure 483745DEST_PATH_IMAGE021
对应的权重数值,n表示症状的个数。
6.根据权利要求1所述的中医智能病案推荐方法,其特征在于,步骤S4中计算推荐分值具体为:
将患者病历症状集合A
Figure 895135DEST_PATH_IMAGE001
中的患者病历症状
Figure 536332DEST_PATH_IMAGE022
依次与一维度下历史病案的症状集合S
Figure 222528DEST_PATH_IMAGE002
及对应的症状权重数值
Figure 413207DEST_PATH_IMAGE020
进行匹配,得到症状向量X(
Figure 729919DEST_PATH_IMAGE023
)和对应症状的权重向量Y(
Figure 123991DEST_PATH_IMAGE024
),当患者病历症状
Figure 613878DEST_PATH_IMAGE022
出现在症状集合S
Figure 878637DEST_PATH_IMAGE002
中,则
Figure 881097DEST_PATH_IMAGE025
取值1、
Figure 559203DEST_PATH_IMAGE026
取值为对应的症状权重数值
Figure 790465DEST_PATH_IMAGE027
,否则
Figure 440889DEST_PATH_IMAGE025
取值0、
Figure 896141DEST_PATH_IMAGE026
取值为0;
计算症状向量X(
Figure 999226DEST_PATH_IMAGE023
)与权重向量Y(
Figure 283446DEST_PATH_IMAGE024
)的数量积作为该历史病案的推荐分值Z,
Figure 850693DEST_PATH_IMAGE028
,其中,m表示症状的个数。
7.根据权利要求1所述的中医智能病案推荐方法,其特征在于,步骤S3中的标准化处理具体包括以下步骤:
对患者的病历信息进行数据清洗,删除重复的内容、无用的标签、空格和空白行;
对患者的病历信息进行句子分割,将病案的内容分割成小文本的片段;
根据标准症状体系和疾病分类标准对患者的病历信息进行分词操作,获取病案数据中的症状信息;
对患者的病历信息中分出的症状相关信息进行提取,构造症状集合A
Figure 680109DEST_PATH_IMAGE001
,其中,a表示症状,m表示症状个数。
8.一种基于权利要求1-7中任一的中医智能病案推荐方法的推荐系统,其特征在于,包括:
病案知识图谱数据库,用于将历史病案的实体数据和关系数据进行可视化显示和存储;
症状权重模块,包括基于历史病案数据在多个维度下的症状-权重数值;
NLP模块,用于对输入的患者病历信息进行标准化处理后获取患者病历症状集合;
匹配计分模块,用于在多个维度下分别计算历史病案与患者病历症状集合匹配的推荐分值;
推荐模块,用于根据推荐分值推荐出关联度最高的历史病案。
9.根据权利要求8所述的中医智能病案推荐系统,其特征在于,所述NLP模块包括:
数据清洗模块,用于对患者病历信息进行数据清洗,删除重复的内容、无用的标签、空格和空白行;
句子分割模块,用于对患者的病历信息进行句子分割,将病案的内容分割成小文本的片段;
分词模块,用于根据标准症状体系和疾病分类标准对患者的病历信息进行分词操作,获取病案数据中的症状信息;
症状提取模块,用于对患者的病历信息中分出的症状相关信息进行提取,构造症状集合。
CN202210436297.0A 2022-04-25 2022-04-25 一种中医智能病案推荐方法及推荐系统 Pending CN114528419A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210436297.0A CN114528419A (zh) 2022-04-25 2022-04-25 一种中医智能病案推荐方法及推荐系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210436297.0A CN114528419A (zh) 2022-04-25 2022-04-25 一种中医智能病案推荐方法及推荐系统

Publications (1)

Publication Number Publication Date
CN114528419A true CN114528419A (zh) 2022-05-24

Family

ID=81627977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210436297.0A Pending CN114528419A (zh) 2022-04-25 2022-04-25 一种中医智能病案推荐方法及推荐系统

Country Status (1)

Country Link
CN (1) CN114528419A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116453641A (zh) * 2023-06-19 2023-07-18 潍坊医学院附属医院 一种中医辅助分析信息的数据处理方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407349A (zh) * 2016-09-06 2017-02-15 北京三快在线科技有限公司 一种产品推荐方法及装置
CN107220484A (zh) * 2017-05-10 2017-09-29 山东中医药大学 一种中医方药数据分析挖掘系统
CN109559822A (zh) * 2018-11-12 2019-04-02 平安科技(深圳)有限公司 智能初诊方法、装置、计算机设备及存储介质
CN110334211A (zh) * 2019-06-14 2019-10-15 电子科技大学 一种基于深度学习的中医诊疗知识图谱自动构建方法
CN111538845A (zh) * 2020-04-03 2020-08-14 肾泰网健康科技(南京)有限公司 一种构建肾病专科医学知识图谱的方法、模型及系统
CN113077873A (zh) * 2021-05-06 2021-07-06 井颐医疗信息技术(杭州)有限公司 一种中医临床决策支持系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407349A (zh) * 2016-09-06 2017-02-15 北京三快在线科技有限公司 一种产品推荐方法及装置
CN107220484A (zh) * 2017-05-10 2017-09-29 山东中医药大学 一种中医方药数据分析挖掘系统
CN109559822A (zh) * 2018-11-12 2019-04-02 平安科技(深圳)有限公司 智能初诊方法、装置、计算机设备及存储介质
CN110334211A (zh) * 2019-06-14 2019-10-15 电子科技大学 一种基于深度学习的中医诊疗知识图谱自动构建方法
CN111538845A (zh) * 2020-04-03 2020-08-14 肾泰网健康科技(南京)有限公司 一种构建肾病专科医学知识图谱的方法、模型及系统
CN113077873A (zh) * 2021-05-06 2021-07-06 井颐医疗信息技术(杭州)有限公司 一种中医临床决策支持系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116453641A (zh) * 2023-06-19 2023-07-18 潍坊医学院附属医院 一种中医辅助分析信息的数据处理方法及系统
CN116453641B (zh) * 2023-06-19 2023-09-05 潍坊医学院附属医院 一种中医辅助分析信息的数据处理方法及系统

Similar Documents

Publication Publication Date Title
CN109460473B (zh) 基于症状提取和特征表示的电子病历多标签分类方法
CN106919671B (zh) 一种中医文本病案挖掘与辅助决策智能系统
CN108595614A (zh) 应用于his系统的数据表映射方法
CN108182262A (zh) 基于深度学习和知识图谱的智能问答系统构建方法和系统
CN111916215B (zh) 一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统
Fang et al. Feature Selection Method Based on Class Discriminative Degree for Intelligent Medical Diagnosis.
CN113535974B (zh) 诊断推荐方法及相关装置、电子设备、存储介质
CN106776711A (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN108520778A (zh) 一种基于大数据的肺癌筛查系统及方法
CN111475713A (zh) 医生信息推荐方法、装置、电子设备、系统及存储介质
CN109378066A (zh) 一种基于特征向量实现疾病预测的控制方法及控制装置
CN110911009A (zh) 一种临床诊断辅助决策系统和医学知识图谱积累方法
CN112635011A (zh) 疾病诊断方法、疾病诊断系统和可读存储介质
CN111191048A (zh) 基于知识图谱的急诊问答系统构建方法
CN110600123A (zh) 一种中医临床辅助诊断方法
CN108320798A (zh) 病症结果生成方法与装置
CN114528419A (zh) 一种中医智能病案推荐方法及推荐系统
CN111061835B (zh) 查询方法及装置、电子设备和计算机可读存储介质
Séverac et al. Non-redundant association rules between diseases and medications: an automated method for knowledge base construction
CN116578654A (zh) 一种面向领域知识图谱的实体对齐方法
CN110164519B (zh) 一种基于众智网络的用于处理电子病历混合数据的分类方法
CN114238639A (zh) 一种医学术语标准化框架的构建方法、装置、电子设备
Lin et al. Intelligent physician segmentation and management based on KDD approach
CN114496170A (zh) 藏药显示推荐方法、系统、计算机设备和可读存储介质
CN110033862B (zh) 一种基于加权有向图的中医量化诊断系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220524