CN112734202B - 基于电子病历的医疗能力评价方法、装置、设备及介质 - Google Patents

基于电子病历的医疗能力评价方法、装置、设备及介质 Download PDF

Info

Publication number
CN112734202B
CN112734202B CN202011633069.XA CN202011633069A CN112734202B CN 112734202 B CN112734202 B CN 112734202B CN 202011633069 A CN202011633069 A CN 202011633069A CN 112734202 B CN112734202 B CN 112734202B
Authority
CN
China
Prior art keywords
text
section
electronic medical
feature vector
medical record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011633069.XA
Other languages
English (en)
Other versions
CN112734202A (zh
Inventor
郭海山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ping An Medical Health Technology Service Co Ltd
Original Assignee
Shenzhen Ping An Medical Health Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ping An Medical Health Technology Service Co Ltd filed Critical Shenzhen Ping An Medical Health Technology Service Co Ltd
Priority to CN202011633069.XA priority Critical patent/CN112734202B/zh
Publication of CN112734202A publication Critical patent/CN112734202A/zh
Application granted granted Critical
Publication of CN112734202B publication Critical patent/CN112734202B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06398Performance of employee with respect to a job function
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Public Health (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Game Theory and Decision Science (AREA)
  • Epidemiology (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请揭示了一种基于电子病历的医疗能力评价方法、装置、设备及介质,其中方法包括:获取待评价医生的开具的电子病历初始文本;对所述初始文本进行文本预处理;利用预设的规则模板进行章节划分;利用预训练的深度学习模型进行实体特征抽取,得到对应的实体特征抽取结果;对所述实体特征抽取结果进行向量化编码,得到特征向量;将特征向量输入到预设的逻辑回归模型中,得到医生的诊疗能力评分。本申请通过模型实现对电子病历中的特征实体抽取,然后利用逻辑回归模型实现对医生治疗能力的评价,可以减少人力成本,可迁移性能好,能够为医务人员进行诊疗方面的指导。本申请还涉及区块链在区块链网络中实现上述的基于电子病历的医疗能力评价方法。

Description

基于电子病历的医疗能力评价方法、装置、设备及介质
技术领域
本申请涉及到智慧医疗技术领域,特别是涉及到一种基于电子病历的医疗能力评价方法、装置、计算机设备及可读存储介质。
背景技术
在医学临床实践中,对于医务人员来说,尤其作为经验不够丰富的医生,在医学实践中难免会犯错,这可能导致医患双方关系的紧张,甚至威胁病人甚至自己的生命健康。为了降低出错的概率以及提高工作效率,医疗能力评价系统应运而生,它可以对医务人员进行诊疗方面的指导。
现有市面上的基于电子病历的医疗能力评价方案多是基于知识规则抽取的模型方案,此类模型基于医学规则抽取病例描述特征进行诊疗能力评价,并未将大数据AI算法尤其是NLP技术应用于电子病例非结构化数据的信息抽取中,这种传统的规则评价模型方案往往依赖于专家知识,人力成本较高,同时方案的可迁移性能较差。
发明内容
本申请的主要目的为提供一种基于电子病历的医疗能力评价方法、装置、计算机设备及可读存储介质,旨在解决目前传统的利用规则来评价医生诊疗能力的方案成本高、可迁移性能差的技术问题。
为了实现上述发明目的,本申请提出一种基于电子病历的医疗能力评价方法,包括:
获取待评价医生的开具的电子病历初始文本;
对所述初始文本进行文本预处理,得到目标文本;
利用预设的规则模板对所述目标文本进行章节划分,得到第一章节文本、第二章节文本和第三章节文本,其中所述第一章节文本包括电子病历中的病人主诉、检验检查结果,第二章节文本包括电子病历的诊断结果,第三章节信息包括电子病历中的治疗方案;
利用预训练的深度学习模型分别对所述第一章节文本、第二章节文本、第三章节文本进行实体特征抽取,得到对应的实体特征抽取结果;
对所述实体特征抽取结果进行向量化编码,得到第一章节特征向量,第二章节特征向量和第三章节特征向量;
将所述第一章节特征向量、所述第二章节特征向量、所述第三章节特征向量输入到预设的逻辑回归模型中,得到医生的诊疗能力评分。
进一步地,所述对所述初始文本进行文本预处理,得到目标文本的步骤,包括:
对所述电子病历初始文本进行数据清洗,得到清洗过的文本数据;
对所述清洗过的文本数据进行分词处理,得到所述目标文本。
进一步地,所述对所述清洗过的文本数据进行分词处理,得到所述目标文本的步骤包括:
根据所述电子病历初始文本确定医生所属的科室信息;
根据所述科室信息在科室对应的医学用词词库中获取预所述科室信息相关联的医学用词词汇,构建与科室对应的医学用词词典;
将所述医学用词词典导入到分词工具的自定义词典中;
利用导入了医学用词词典的分词工具对所述清洗过的文本数据进行分词处理。
进一步地,所述利用预训练的深度学习模型分别对所述第一章节文本、第二章节文本、第三章节文本进行实体特征抽取,得到对应的实体特征抽取结果的步骤之前还包括对所述预训练的深度学习模型进行训练的过程,包括:
获取电子病历数据,将电子病历数据分为训练数据和测试数据两部分,并对电子病历数据进行标注,标注后的数据中包含病例原始文本和实体标注;
以双向长短时记忆网络为基础,引入上下文依赖,建立基于Bi-LSTM的医学命名实体识别模型,使用训练数据训练,得到训练后的医学命名实体识别模型;
将测试数据输入医学命名实体识别模型中,若测试结果符合预设的条件,则将所述训练后的医学命名实体识别模型作为所述预训练的深度学习模型。
进一步地,所述利用预训练的深度学习模型分别对所述第一章节文本、第二章节文本、第三章节文本进行实体特征抽取,得到对应的实体特征抽取结果的步骤之后还包括:
将抽取到的特定类型实体信息规范化。
进一步地,所述将所述第一章节特征向量、所述第二章节特征向量、所述第三章节特征向量输入到预设的逻辑回归模型中,得到医生的诊疗能力评分的步骤之前还包括对所述逻辑回归模型训练的过程,包括:
获取训练样本电子病历;
对所述训练样本电子病历进行标签标注;
将所述训练样本电子病历进行特征抽取及对特征抽取结果进行向量化;
利用机器学习的方法利用向量化电子病历特征抽取结果及其标签进行学习,得到所述预先训练的逻辑回归模型。
进一步地,所述将所述第一章节特征向量、所述第二章节特征向量、所述第三章节特征向量输入到预设的逻辑回归模型中,得到医生的诊疗能力评分的步骤包括:
利用所述预设的逻辑回归模型获取基于所述第一章节特征向量得到所述第二章节特征向量的第一概率值,将所述第一概率值转化为第一诊疗能力评分;
利用所述预设的逻辑回归模型获取基于所述第一章节特征向量得到所述第三章节特征向量的第二概率值,将所述第二概率值转化为第二诊疗能力评分;
根据所述第一诊疗能力评分和所述第二诊疗能力评分得到医生的诊疗能力评分。
本申请实施例还提供一种基于电子病历的医疗能力评价装置,包括:
获取单元,用于获取待评价医生的开具的电子病历初始文本;
预处理单元,用于对所述初始文本进行文本预处理,得到目标文本;
章节划分单元,用于利用预设的规则模板对所述目标文本进行章节划分,得到第一章节文本、第二章节文本和第三章节文本,其中所述第一章节文本包括电子病历中的病人主诉、检验检查结果,第二章节文本包括电子病历的诊断结果,第三章节信息包括电子病历中的治疗方案;
特征抽取单元,用于利用预训练的深度学习模型分别对所述第一章节文本、第二章节文本、第三章节文本进行实体特征抽取,得到对应的实体特征抽取结果;
向量化单元,用于对所述实体特征抽取结果进行向量化编码,得到第一章节特征向量,第二章节特征向量和三章节特征向量;
评分单元,用于将所述第一章节特征向量、所述第二章节特征向量、所述第三章节特征向量输入到预设的逻辑回归模型中,得到医生的诊疗能力评分。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的基于电子病历的医疗能力评价方法、装置、计算机设备及可读存储介质,通过深度学习模型实现对电子病历中的特征实体抽取,然后利用逻辑回归模型实现对医生治疗能力的评价,可以减少人力成本,方案的可迁移性能好,能够为医务人员进行诊疗方面的指导。
附图说明
图1为本申请一实施例的电子病历的医疗能力评价方法的流程示意图;
图2为本申请一实施例的电子病历的医疗能力评价装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例中提供一种电子病历的医疗能力评价方法,包括步骤:
S1、获取待评价医生的开具的电子病历初始文本;
S2、对所述初始文本进行文本预处理,得到目标文本;
S3、利用预设的规则模板对所述目标文本进行章节划分,得到第一章节文本、第二章节文本和第三章节文本,其中所述第一章节文本包括电子病历中的病人主诉、检验检查结果,第二章节文本包括电子病历的诊断结果,第三章节信息包括电子病历中的治疗方案;
S4、利用预训练的深度学习模型分别对所述第一章节文本、第二章节文本、第三章节文本进行实体特征抽取,得到对应的实体特征抽取结果;
S5、对所述实体特征抽取结果进行向量化编码,得到第一章节特征向量,第二章节特征向量和第三章节特征向量;
S6、将所述第一章节特征向量、所述第二章节特征向量、所述第三章节特征向量输入到预设的逻辑回归模型中,得到医生的诊疗能力评分。
如上述步骤S1所述,要评价一个医生的诊疗能力,可以通过其开具的电子病历来进行判断。一些权威的医生开具的电子病历可以作为“参考答案”,在针对相同疾病的诊断和治疗时,和待诊断医生开具的电子病历形成对比,通过预训练的模型来自动完成对待评价医生的诊疗能力评分。可以利用本方法对同一个待评价医生所开具的多个电子病历进行多次评分,从而使评价结果更加客观准确。
电子病历中一般必要地包括如下部分内容:1,患者的主诉信息,包括患者自述自己的症状和/或体征以及症状持续时间等内容;2,患者的检查结果,包括患者各项检查项目的数据参数等;3,医生的诊断结果;4,治疗措施,包括开具的药物名称、每日服用次数及数量等。通过这些内容可以获取到相关的信息,用于评价医生的诊疗能力。
如上述步骤S2所述,因为电子病历文本中可能存在一些乱码和不需要的文字如“的”、空格符等,需要对这些数据进行数据清洗,然后利用分词工具进行分词处理。
如上述步骤S3所述,电子病历一般可以分为三个部分,也就是三个章节,第一部分对应于病人主诉如症状、病史等和检查结果,这部分内容作为医生诊断的依据,第二部分对应于医生的诊断结果,第三部分对应于医生的治疗方案如处方药物、手术名称等。可以通过预设的规则模板对所述目标文本进行章节划分,例如利用关键词进行段落划分等。
如上述步骤S4所述,利用预先训练的深度学习模型分别对所述第一章节文本、第二章节文本、第三章节文本进行实体特征抽取,得到对应的实体特征抽取结果,所述实体特征抽取结果包括实体名称、实体类型以及实体特征值,其中实体类型可以包括如身体部位、症状、体征、药物等,实体特征值是指与实体相对应的特征值,可以分为数值和结论,如血压135/80,其中血压为体征实体,135/80为血压特征值。又例如淋巴结增大,其中淋巴结为身体部位实体,增大为实体特征值。目前有很多模型可以胜任实体抽取工作,在本方案中,优选为基于BI-LSTM+CRF的深度学习模型,基于Bi-LSTM+CRF的深度学习模型可以自动化的提取病例特征,更有效地将诊疗上下文内容利用起来。
如上述步骤S5所述,需要对所述实体特征抽取结果进行向量化编码,得到第一章节特征向量,第二章节特征向量,第三章节特征向量,可以利用Word2Vec模型对所述实体特抽收取结果进行向量编码,得到对应的章节特征向量。为了在采用word2vec向量表示方法得到准确的词向量,使用10000份
电子病历作为语料训练字向量,并采用word2vec中的Skip-Gram模型来训练。虽然在训练时Skip-Gram模型比CBOW模型要慢,但是Skip-Gram模型在包含稀有字符的语料上表现要比CBOW要好,所得到的字向量和电子病历的字符序列的匹配度更高。
如上述步骤S6所述,将所述第一章节特征向量、所述第二章节特征向量、所述第三章节特征向量输入到预设的逻辑回归模型中,可以得到模型的输出结果,并将模型的输出结果作为表征电子病历准确率的概率值。具体的,所述预设的逻辑回归模型基于机器学习进行训练,可以在大量的权威专家的电子病历学习到相关医学知识。利用预设的逻辑回归模型可以对医生电子病历中的诊断结果和治疗方案进行判断,基于所述第一章节特征向量得到所述第二章节特征向量的第一概率值,用于表征医生的诊断正确概率值,基于所述第一章节特征向量得到所述第三章节特征向量的第二概率值,用于表征医生的治疗方案准确的概率值,上述概率值为0-1之间的数值,然后将其对应地转换为0-100的评分,然后可以用求平均值的方法作为医生诊疗能力评分,也可以对为两个评分设置权重参数,加权求和作为医生诊疗能力评分。
在一个实施例中,所述对所述初始文本进行文本预处理,得到目标文本的步骤,包括:
S21、对所述电子病历初始文本进行数据清洗,得到清洗过的文本数据;
S22、对所述清洗过的文本数据进行分词处理,得到所述目标文本。
如上所述,所述数据清洗是指去除所述原始文本中的停用词、无用符号、编码格式不正确的文字,如“的”、空格符等,然后利用分词工具对文本数据进行分词,还可以结合每个词在原始文本中的上下文信息以及医学词典中的信息,借助最大熵模型对经过切分后的各个词的词性进行标注。
进行分词处理可以使用分词工具,如结巴分词。结巴分词为Python(计算机程序设计语言)中文分词组件。结巴分词可以进行分词,也可以支持自定义词典。上述的分词工具还可以选择ICTCLAS(Institute of Computing Technology,Chinese Lexical AnalysisSystem)分词系统,对此,本申请不作限定。
在一个实施例中,所述对所述清洗过的文本数据进行分词处理,得到所述目标文本的步骤包括:
S221、根据所述电子病历初始文本确定医生所属的科室信息;
S222、根据所述科室信息在科室对应的医学用词词库中获取预所述科室信息相关联的医学用词词汇,构建与科室对应的医学用词词典;
S223、将所述医学用词词典导入到分词工具的自定义词典中;
S224、利用导入了医学用词词典的分词工具对所述清洗过的文本数据进行分词处理。
如上所述,由于医学领域有许多生僻词和/或专有词汇,因此,预先创建好医学用词词典,若使用结巴分词工具,则将预先创建好的医学用词词典导入结巴分词的自定义词典中。比如,本申请实施例所提供的基于电子病历的医疗能力评价方法在具体用于眼科领域时,为了保证分词质量以及词向量的准确性,从眼科词库中获取并整合了相应的眼科医学词汇,构建眼科医学用词词典。词典中的词汇主要涉及疾病名称、检查名称、手术常用语、药品名称和症状描述的专业名称或通俗名称。在创建眼科医学用词词典后,将眼科医学用词词典导入结巴分词的自定义词典中,并设置优先基于眼科医学用词词典中的词汇来进行分词。
在一个实施例中,所述利用预训练的深度学习模型分别对所述第一章节文本、第二章节文本、第三章节文本进行实体特征抽取,得到对应的实体特征抽取结果的步骤之前还包括对所述预训练的深度学习模型进行训练的过程,包括:
S401、获取电子病历数据,将电子病历数据分为训练数据和测试数据两部分,并对电子病历数据进行标注,标注后的数据中包含病例原始文本和实体标注;
S402、以双向长短时记忆网络为基础,引入上下文依赖,建立基于Bi-LSTM的医学命名实体识别模型,使用训练数据训练,得到训练后的医学命名实体识别模型;
S403、将测试数据输入医学命名实体识别模型中,若测试结果符合预设的条件,则将所述训练后的医学命名实体识别模型作为所述预训练的深度学习模型。
如上所述,将电子病历录数据分为训练数据和测试数据两部分,并对训练数据进行标注,标注后的电子病历记录数据中包含病例原始文本、与之相对应的实体标注以及相应命名实体在原始文本中的位置;并对标注后的电子病历记录数据进行预处理,以得到可以输入医学命名实体识别模型所需要的数据文件格式。其中,可以选择BIESO标签的格式对病例原始文本进行实体标注,分别表示实体词的开始(Begin),内部(Inter),结束(End),单个字为一个实体(Single)以及其他的词(Other);同时在BIES后跟实体的类别,如B-Bodypart表示身体部位词的开始;从而得到标注相应的标签信息的中文字符。标注结果也就是实体类型包括身体部位、症状、体征、药物、手术5个类别。其中,双向长短时记忆网络可以自动化的提取病例特征,更有效地将诊疗上下文内容利用起来。
在一个实施例中,所述利用预训练的深度学习模型分别对所述第一章节文本、第二章节文本、第三章节文本进行实体特征抽取,得到对应的实体特征抽取结果的步骤之后还包括:
S41、将抽取到的特定类型实体信息规范化。
如上所述,可以对照SNOMED CT(Systematized Nomenclature of Medicine--Clinical Terms)医学规范术语集,将识别出的代表医疗疾病名称以及身体部位信息的词进一步替换为SNOMEDCT医学规范术语集中的词,提高实体信息的规范化,使后续模型的判断结果更加准确。
在一个实施例中,所述将所述第一章节特征向量、所述第二章节特征向量、所述第三章节特征向量输入到预设的逻辑回归模型中,得到医生的诊疗能力评分的步骤之前还包括对所述逻辑回归模型训练的过程,包括:
S601、获取训练样本电子病历;
S602、对所述训练样本电子病历进行标签标注;
S603、将所述训练样本电子病历进行特征抽取及对特征抽取结果进行向量化;
S604、利用机器学习的方法利用向量化电子病历特征抽取结果及及其标签进行学习,得到所述预先训练的逻辑回归模型。
如上所述,所述逻辑回归模型的训练过程是针对每一个疾病分别进行训练,训练样本电子病历包括多为医生针对特定疾病开具的多份电子病历。上述对训练样本电子病历进行标签标注的过程可以理解为对训练样本电子病历是否准确的标注,例如判断样本电子病历准确率大于50%则标签标注为1,反之则标注为0。其中给样本病历赋予准确率标签这一工作可以采用两种方式,第一种是请医学专家阅读已有病历,并给出标签。相较于这种耗费人力成本较高的方式,在分析过程中,可以采用另一种方式,即通过类似于专家的准确率判断标准,编写程序由计算机判别并赋予准确率标签,最后制定标准的专家对结果进行审阅,如果有需要可以对机器标注的标签进行修改。这种方式即有人工参与,同时也利用了计算机进行标注,这种半自动化的方式有利于节省人力。
在一个实施例中,所述将所述第一章节特征向量、所述第二章节特征向量、所述第三章节特征向量输入到预设的逻辑回归模型中,得到医生的诊疗能力评分的步骤包括:
利用所述预设的逻辑回归模型获取基于所述第一章节特征向量得到所述第二章节特征向量的第一概率值,将所述第一概率值转化为第一诊疗能力评分;
利用所述预设的逻辑回归模型获取基于所述第一章节特征向量得到所述第三章节特征向量的第二概率值,将所述第二概率值转化为第二诊疗能力评分;
根据所述第一诊疗能力评分和所述第二诊疗能力评分得到医生的诊疗能力评分。
如上所述,利用预设的逻辑回归模型可以对医生电子病历中的诊断结果和治疗方案进行判断,基于所述第一章节特征向量得到所述第二章节特征向量的第一概率值,用于表征医生的诊断正确概率值,基于所述第一章节特征向量得到所述第三章节特征向量的第二概率值,用于表征医生的治疗方案准确的概率值,上述概率值为0-1之间的数值,然后将其对应地转换为0-100的评分,然后可以用求平均值的方法作为医生诊疗能力评分,也可以对为两个评分设置权重参数,加权求和作为医生诊疗能力评分。
在一个实施例中,所述电子病历、所述预设的规则模板、所述预训练的深度学习模型和所述预设的逻辑回归模型等数据存储于区块链网络的节点中,在区块链中实现如上所述的基于电子病历的医疗能力评价方法。
如上所述,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层10等。区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身15份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约20模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、25监控网络情况、监控节点设备健康状态等。
本申请的基于电子病历的医疗能力评价方法,通过深度学习网络模型实现对电子病历中的特征实体抽取,然后利用逻辑回归模型实现对医生治疗能力的评价,可以减少人力成本,可迁移性能好,能够为医务人员进行诊疗方面的指导。
参照图2,本申请实施例中还提供一种基于电子病历的医疗能力评价装置,包括:
获取单元1,用于获取待评价医生的开具的电子病历初始文本;
预处理单元2,用于对所述初始文本进行文本预处理,得到目标文本;
章节划分单元3,用于利用预设的规则模板对所述目标文本进行章节划分,得到第一章节文本、第二章节文本和第三章节文本,其中所述第一章节文本包括电子病历中的病人主诉、检验检查结果,第二章节文本包括电子病历的诊断结果,第三章节信息包括电子病历中的治疗方案;
特征抽取单元4,用于利用预训练的深度学习模型分别对所述第一章节文本、第二章节文本、第三章节文本进行实体特征抽取,得到对应的实体特征抽取结果;
向量化单元5,用于对所述实体特征抽取结果进行向量化编码,得到第一章节特征向量,第二章节特征向量和三章节特征向量;
评分单元6,用于将所述第一章节特征向量、所述第二章节特征向量、所述第三章节特征向量输入到预设的逻辑回归模型中,得到医生的诊疗能力评分。
在一个实施例中,所述预处理单元2包括:
数据清洗模块,用于对所述电子病历初始文本进行数据清洗,得到清洗过的文本数据;
分词模块,用于对所述清洗过的文本数据进行分词处理,得到所述目标文本。
在一个实施例中,所述分词模块包括:
科室确定模块,用于根据所述电子病历初始文本确定医生所属的科室信息;
医用词典创建子模块,用于根据所述科室信息在科室对应的医学用词词库中获取预所述科室信息相关联的医学用词词汇,构建与科室对应的医学用词词典;
导入子模块,用于将所述医学用词词典导入到分词工具的自定义词典中;
分词处理子模块,用于利用导入了医学用词词典的分词工具对所述清洗过的文本数据进行分词处理。
在一个实施例中,所述基于电子病历的医疗能力评价装置还包括用于对所述预训练的深度学习模型进行训练的第一模型训练单元,所述第一模型训练单元包括:
数据获取模块,用于获取电子病历数据,将电子病历数据分为训练数据和测试数据两部分,并对电子病历数据进行标注,标注后的数据中包含病例原始文本和实体标注;
第一训练模块,用于以双向长短时记忆网络为基础,引入上下文依赖,建立基于Bi-LSTM的医学命名实体识别模型,使用训练数据训练,得到训练后的医学命名实体识别模型;
测试模块,用于将测试数据输入医学命名实体识别模型中,若测试结果符合预设的条件,则将所述训练后的医学命名实体识别模型作为所述预训练的深度学习模型。
在一个实施例中,所述基于电子病历的医疗能力评价装置还包括用于将抽取到的特定类型实体信息规范化的规范化单元。
在一个实施例中,所述基于电子病历的医疗能力评价装置还包括用于训练所述逻辑回归模型的第二模型训练单元,所述第二模型训练单元包括:
样本获取模块,用于获取训练样本电子病历;
标签标注模块,用于对所述训练样本电子病历进行标签标注;
数据处理模块,用于将所述训练样本电子病历进行特征抽取及对特征抽取结果进行向量化;
第二训练模块,用于利用机器学习的方法利用向量化的电子病历特征抽取结果及其标签进行学习,得到所述预先训练的逻辑回归模型。
在一个实施例中,所述评分单元6包括:
第一诊疗能力评分单元,用于利用所述预设的逻辑回归模型获取基于所述第一章节特征向量得到所述第二章节特征向量的第一概率值,将所述第一概率值转化为第一诊疗能力评分;
第二诊疗能力评分单元,用于利用所述预设的逻辑回归模型获取基于所述第一章节特征向量得到所述第三章节特征向量的第二概率值,将所述第二概率值转化为第二诊疗能力评分;
综合评分单元,用于根据所述第一诊疗能力评分和所述第二诊疗能力评分得到医生的诊疗能力评分。
如上所述,可以理解地,本申请中提出的所述基于电子病历的医疗能力评价装置的各组成部分可以实现如上所述电子病历的医疗能力评价方法任一项的功能,具体结构不再赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于电子病历、规则模板、深度学习模型和逻辑回归模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种电子病历的医疗能力评价方法。
上述处理器执行上述的电子病历的医疗能力评价方法,包括:
获取待评价医生的开具的电子病历初始文本;
对所述初始文本进行文本预处理,得到目标文本;
利用预设的规则模板对所述目标文本进行章节划分,得到第一章节文本、第二章节文本和第三章节文本,其中所述第一章节文本包括电子病历中的病人主诉、检验检查结果,第二章节文本包括电子病历的诊断结果,第三章节信息包括电子病历中的治疗方案;
利用预训练的深度学习模型分别对所述第一章节文本、第二章节文本、第三章节文本进行实体特征抽取,得到对应的实体特征抽取结果;
对所述实体特征抽取结果进行向量化编码,得到第一章节特征向量,第二章节特征向量和第三章节特征向量;
将所述第一章节特征向量、所述第二章节特征向量、所述第三章节特征向量输入到预设的逻辑回归模型中,得到医生的诊疗能力评分。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种基于电子病历的医疗能力评价方法,上述执行的基于电子病历的医疗能力评价方法,包括:
获取待评价医生的开具的电子病历初始文本;
对所述初始文本进行文本预处理,得到目标文本;
利用预设的规则模板对所述目标文本进行章节划分,得到第一章节文本、第二章节文本和第三章节文本,其中所述第一章节文本包括电子病历中的病人主诉、检验检查结果,第二章节文本包括电子病历的诊断结果,第三章节信息包括电子病历中的治疗方案;
利用预训练的深度学习模型分别对所述第一章节文本、第二章节文本、第三章节文本进行实体特征抽取,得到对应的实体特征抽取结果;
对所述实体特征抽取结果进行向量化编码,得到第一章节特征向量,第二章节特征向量和第三章节特征向量;
将所述第一章节特征向量、所述第二章节特征向量、所述第三章节特征向量输入到预设的逻辑回归模型中,得到医生的诊疗能力评分。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (7)

1.一种基于电子病历的医疗能力评价方法,其特征在于,包括:
获取待评价医生的开具的电子病历初始文本;
对所述初始文本进行文本预处理,得到目标文本;
利用预设的规则模板对所述目标文本进行章节划分,得到第一章节文本、第二章节文本和第三章节文本,其中所述第一章节文本包括电子病历中的病人主诉、检验检查结果,第二章节文本包括电子病历的诊断结果,第三章节信息包括电子病历中的治疗方案;
利用预训练的深度学习模型分别对所述第一章节文本、第二章节文本、第三章节文本进行实体特征抽取,得到对应的实体特征抽取结果;
对所述实体特征抽取结果进行向量化编码,得到第一章节特征向量,第二章节特征向量和第三章节特征向量;
将所述第一章节特征向量、所述第二章节特征向量、所述第三章节特征向量输入到预设的逻辑回归模型中,得到医生的诊疗能力评分;
所述对所述初始文本进行文本预处理,得到目标文本的步骤,包括:
对所述电子病历初始文本进行数据清洗,得到清洗过的文本数据;
对所述清洗过的文本数据进行分词处理,得到所述目标文本;
所述对所述清洗过的文本数据进行分词处理,得到所述目标文本的步骤包括:
根据所述电子病历初始文本确定医生所属的科室信息;
根据所述科室信息在科室对应的医学用词词库中获取预所述科室信息相关联的医学用词词汇,构建与科室对应的医学用词词典;
将所述医学用词词典导入到分词工具的自定义词典中;
利用导入了医学用词词典的分词工具对所述清洗过的文本数据进行分词处理;
所述将所述第一章节特征向量、所述第二章节特征向量、所述第三章节特征向量输入到预设的逻辑回归模型中,得到医生的诊疗能力评分的步骤包括:
利用所述预设的逻辑回归模型获取基于所述第一章节特征向量得到所述第二章节特征向量的第一概率值,将所述第一概率值转化为第一诊疗能力评分;
利用所述预设的逻辑回归模型获取基于所述第一章节特征向量得到所述第三章节特征向量的第二概率值,将所述第二概率值转化为第二诊疗能力评分;
根据所述第一诊疗能力评分和所述第二诊疗能力评分得到医生的诊疗能力评分。
2.根据权利要求1所述的基于电子病历的医疗能力评价方法,其特征在于,所述利用预训练的深度学习模型分别对所述第一章节文本、第二章节文本、第三章节文本进行实体特征抽取,得到对应的实体特征抽取结果的步骤之前还包括对所述预训练的深度学习模型进行训练的过程,包括:
获取电子病历数据,将电子病历数据分为训练数据和测试数据两部分,并对电子病历数据进行标注,标注后的数据中包含病例原始文本和实体标注;
以双向长短时记忆网络为基础,引入上下文依赖,建立基于Bi-LSTM的医学命名实体识别模型,使用训练数据训练,得到训练后的医学命名实体识别模型;
将测试数据输入医学命名实体识别模型中,若测试结果符合预设的条件,则将所述训练后的医学命名实体识别模型作为所述预训练的深度学习模型。
3.根据权利要求1所述的基于电子病历的医疗能力评价方法,其特征在于,所述利用预训练的深度学习模型分别对所述第一章节文本、第二章节文本、第三章节文本进行实体特征抽取,得到对应的实体特征抽取结果的步骤之后还包括:
将抽取到的特定类型实体信息规范化。
4.根据权利要求1所述的基于电子病历的医疗能力评价方法,其特征在于,所述将所述第一章节特征向量、所述第二章节特征向量、所述第三章节特征向量输入到预设的逻辑回归模型中,得到医生的诊疗能力评分的步骤之前还包括对所述逻辑回归模型训练的过程,包括:
获取训练样本电子病历;
对所述训练样本电子病历进行标签标注;
将所述训练样本电子病历进行特征抽取及对特征抽取结果进行向量化;
利用机器学习的方法利用向量化的电子病历特征抽取结果及其标签进行学习,得到所述预先训练的逻辑回归模型。
5.一种基于电子病历的医疗能力评价装置,用于执行权利要求1-4任一项所述的基于电子病历的医疗能力评价方法,其特征在于,包括:
获取单元,用于获取待评价医生的开具的电子病历初始文本;
预处理单元,用于对所述初始文本进行文本预处理,得到目标文本;
章节划分单元,用于利用预设的规则模板对所述目标文本进行章节划分,得到第一章节文本、第二章节文本和第三章节文本,其中所述第一章节文本包括电子病历中的病人主诉、检验检查结果,第二章节文本包括电子病历的诊断结果,第三章节信息包括电子病历中的治疗方案;
特征抽取单元,用于利用预训练的深度学习模型分别对所述第一章节文本、第二章节文本、第三章节文本进行实体特征抽取,得到对应的实体特征抽取结果;
向量化单元,用于对所述实体特征抽取结果进行向量化编码,得到第一章节特征向量,第二章节特征向量和三章节特征向量;
评分单元,用于将所述第一章节特征向量、所述第二章节特征向量、所述第三章节特征向量输入到预设的逻辑回归模型中,得到医生的诊疗能力评分。
6.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
CN202011633069.XA 2020-12-31 2020-12-31 基于电子病历的医疗能力评价方法、装置、设备及介质 Active CN112734202B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011633069.XA CN112734202B (zh) 2020-12-31 2020-12-31 基于电子病历的医疗能力评价方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011633069.XA CN112734202B (zh) 2020-12-31 2020-12-31 基于电子病历的医疗能力评价方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN112734202A CN112734202A (zh) 2021-04-30
CN112734202B true CN112734202B (zh) 2024-06-28

Family

ID=75608477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011633069.XA Active CN112734202B (zh) 2020-12-31 2020-12-31 基于电子病历的医疗能力评价方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN112734202B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113380363B (zh) * 2021-06-24 2023-04-07 湖南创星科技股份有限公司 基于人工智能的医疗数据质量评价方法及系统
CN113571167B (zh) * 2021-07-28 2024-04-19 重庆橡树信息科技有限公司 一种基于配置式评分知识模型的快捷分诊系统
CN115295134B (zh) * 2022-09-30 2023-03-24 北方健康医疗大数据科技有限公司 医学模型评价方法、装置和电子设备
CN115631868B (zh) * 2022-11-17 2023-04-21 神州医疗科技股份有限公司 一种基于提示学习模型的传染病预警直报方法和系统
CN117743567B (zh) * 2024-02-18 2024-05-07 成都帆点创想科技有限公司 长文本生成方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522546A (zh) * 2018-10-12 2019-03-26 浙江大学 基于上下文相关的医学命名实体识别方法
CN111723570A (zh) * 2020-06-09 2020-09-29 平安科技(深圳)有限公司 药品知识图谱的构建方法、装置和计算机设备
CN111737975A (zh) * 2020-05-14 2020-10-02 平安科技(深圳)有限公司 文本内涵质量的评估方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628824A (zh) * 2018-04-08 2018-10-09 上海熙业信息科技有限公司 一种基于中文电子病历的实体识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522546A (zh) * 2018-10-12 2019-03-26 浙江大学 基于上下文相关的医学命名实体识别方法
CN111737975A (zh) * 2020-05-14 2020-10-02 平安科技(深圳)有限公司 文本内涵质量的评估方法、装置、设备及存储介质
CN111723570A (zh) * 2020-06-09 2020-09-29 平安科技(深圳)有限公司 药品知识图谱的构建方法、装置和计算机设备

Also Published As

Publication number Publication date
CN112734202A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN112734202B (zh) 基于电子病历的医疗能力评价方法、装置、设备及介质
CN112786194B (zh) 基于人工智能的医学影像导诊导检系统、方法及设备
CN106682397B (zh) 一种基于知识的电子病历质控方法
WO2021068321A1 (zh) 基于人机交互的信息推送方法、装置和计算机设备
CN109670727A (zh) 一种基于众包的分词标注质量评估系统及评估方法
CN113707300B (zh) 基于人工智能的搜索意图识别方法、装置、设备及介质
CN110534185B (zh) 标注数据获取方法、分诊方法、装置、存储介质及设备
CN111984793A (zh) 文本情感分类模型训练方法、装置、计算机设备及介质
CN112016279A (zh) 电子病历结构化方法、装置、计算机设备和存储介质
CN111933291A (zh) 医疗信息推荐装置、方法、系统、设备及可读存储介质
CN113436723A (zh) 视频问诊方法、装置、设备及存储介质
CN111710383A (zh) 病历质控方法、装置、计算机设备和存储介质
CN111191415A (zh) 基于原始手术数据的手术分类编码方法
CN111259111B (zh) 基于病历的辅助决策方法、装置、电子设备和存储介质
WO2023178971A1 (zh) 就医的互联网挂号方法、装置、设备及存储介质
CN113724819B (zh) 医疗命名实体识别模型的训练方法、装置、设备及介质
CN112201359A (zh) 基于人工智能的重症问诊数据识别方法及装置
CN113724830A (zh) 基于人工智能的用药风险检测方法及相关设备
CN111145903A (zh) 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统
WO2023029510A1 (zh) 基于人工智能的远程问诊方法、装置、设备及介质
CN113111159A (zh) 问答记录生成方法、装置、电子设备及存储介质
CN112667878B (zh) 网页的文本内容提取方法、装置、电子设备及存储介质
CN112035619A (zh) 基于人工智能的医疗问诊单筛选方法、装置、设备和介质
CN111782821B (zh) 基于fm模型的医学热点的预测方法、装置和计算机设备
CN114743647A (zh) 医疗数据处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220601

Address after: 518000 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province

Applicant after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd.

Address before: Room 12G, Block H, 666 Beijing East Road, Huangpu District, Shanghai 200000

Applicant before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant