CN111538845A - 一种构建肾病专科医学知识图谱的方法、模型及系统 - Google Patents

一种构建肾病专科医学知识图谱的方法、模型及系统 Download PDF

Info

Publication number
CN111538845A
CN111538845A CN202010260450.XA CN202010260450A CN111538845A CN 111538845 A CN111538845 A CN 111538845A CN 202010260450 A CN202010260450 A CN 202010260450A CN 111538845 A CN111538845 A CN 111538845A
Authority
CN
China
Prior art keywords
entity
label
data
medical
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010260450.XA
Other languages
English (en)
Inventor
黎海源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shentai Health Technology Nanjing Co ltd
Original Assignee
Shentai Health Technology Nanjing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shentai Health Technology Nanjing Co ltd filed Critical Shentai Health Technology Nanjing Co ltd
Priority to CN202010260450.XA priority Critical patent/CN111538845A/zh
Publication of CN111538845A publication Critical patent/CN111538845A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Primary Health Care (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Pathology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

采用本发明方法训练后的BIO标注模型,能够批量自动提取肾病专科电子病历中的实体及关系,能够批量自动识别病例资料中的肾病、症状、检查、医疗等医学命名实体。采用肾病专科医学知识图谱的方式展现肾病医学大数据资料,更是能为肾病专科临床智能支持、循证医学研究和疾病监控等提供支持,从而提高医疗服务质量。

Description

一种构建肾病专科医学知识图谱的方法、模型及系统
技术领域
本发明涉及知识展示领域,具体的说是一种构建肾病专科医学知识图谱的方法、模型及系统。
背景技术
中文医学文本命名实体识别研究方法大致分为基于规则和词典的方法,以及基于机器学习的方法。基于规则和词典的方法是命名实体识别中最早使用的方法,该方法大多采用语言学专家手工构造规则模板,以模式和字符串相匹配为主要手段,这类系统大多依赖于知识库和词典的建立。
中文医学文本命名实体识别研究方法涉及两项重要任务:命名实体识别与命名实体关系提取。把命名实体识别任务看作是实体边界和实体类型的分类问题,可以使用支持向量机与贝叶斯等分类算法。把命名实体识别任务也可看作是序列标注问题,可以使用隐马尔可夫模型、马尔可夫随机场、条件随机场等概率图模型算法。把实体关系提取看作是非对称二元关系类型的分类问题,可以使用支持向量机与kNN等分类算法。
单纯的依赖于知识库和词典难以适用于复杂语境。因此基于机器学习的方法效果更加能够接受。
现在虽对医学知识结构化的研究不少,但是还是没有一个完备的肾病专科医学知识图谱,由于多数肾病的病程长、预后差、治疗周期长特点亟需一个完备的肾病专科医学知识图谱展示肾病大数据,便于辅助医学诊断。
发明内容
针对上述技术难题,本发明提供一种构建肾病专科医学知识图谱的方法,包括如下步骤:
S1、搜集电子病历语料;
将医院肾脏病专科电子病历导出,电子病历为TXT文本形式。人工将医院肾脏病专科电子病历导出,选择TXT文本格式,将各个患者的电子病历导出,得到诸多TXT文本格式的电子病历。目前,各医院均建有医院电子病历系统,电子病历系统属于现有技术,本发明所涉及的电子病历数据来源于合作医院。
进一步的,所述电子病历涵盖原发性肾小球疾病、代谢病相关肾损害、风湿病相关肾损害、感染性肾损害、急性肾损害与慢行肾衰竭等几十种慢性肾病患者的电子病历。所述电子病历具有较完整的人口学特征、身体测量特征、检验检查特征、症状特征、家族史、 既往史等信息。
S2、得到文本数据的步骤
对电子病历文本做医学词分词处理,分别定义命名实体类型、关系类型。
定义实体类型,实体类型包括:手术、药名、疾病、症状、程度、检查、结果、家族史、家族史属性、病史、病史属性、身高、体重、BMI、臀围、腰臀比、腰围、怀孕;
人工将每一份电子病历中出现的肾病相关的医学词进行实体类型标注,将肾病相关的医学词归类到所述各实体类型中;所述肾病相关的医学词为实体;
定义关系类型,关系类型包括:施加于、导致、结果、程度、家族史、病史;
人工对每一份电子病历中已经标注好的实体类型按照标注方式进行关系类型标注,标注方式采用BIO标注法,以B开头的标签表示一个实体的开头,以I开头的标签表示一个实体的剩余部分,标签O表示非实体;
对每一个医学词实体进行汉语拼音标注,汉语拼音为手术、药名、疾病、症状、程度、检查、结果、家族史、家族史属性、病史、病史属性、身高、体重、BMI、臀围、腰臀比、腰围、怀孕18个具体实体类型的汉语拼音;
此外,标注方式还可以采用BMES标注法定义命名实体类型和关系类型,B代表词语或命名实体的开头,M代表词语或命名实体的中间的字,E代表词语或命名实体的最后一个字,命名实体关系标注,记录实体在句子中的位置信息以及其前后位置关系。
给出所述实体类型之间存在的医学关系;所述医学关系为实体间关系;
记录各实体在电子病历中的位置信息,以及各实体间关系在电子病历中的位置信息;
得到文本数据,所述文本数据包括实体、实体类型、和实体位置信息的文本文件A1,以及,包括关系类型、和实体间关系位置信息的文本文件A2;一个文本文件A1中的内容为一个实体特征数据集,一个文本文件A2中的内容为一个关系特征数据集。
S3、得到训练数据的步骤
对步骤S2中得到的文本文件A1进行数据格式化,得到文本文件A11;数据格式化为将文本文件A1中的内容按照BIO竖向排列的方式,将文本文件A1中的横行转变成竖行,从而得到文本文件A11,所述文本文件A11的内容分成两列,第一列为文本文件A11中的每一个汉字字符或标点符号,第二列为实际标签,第一列与第二列以空格隔开;第二列实际标签包括B标签、或I标签、或O标签,每个实际标签后面为相应具体实体类型的汉语拼音;
B标签共有18种,分别为手术、药名、疾病、症状、程度、检查、结果、家族史、家族史属性、病史、病史属性、身高、体重、BMI、臀围、腰臀比、腰围、怀孕18个具体实体类型的汉语拼音;
I标签共有18种,分别为手术、药名、疾病、症状、程度、检查、结果、家族史、家族史属性、病史、病史属性、身高、体重、BMI、臀围、腰臀比、腰围、怀孕18个具体实体类型的汉语拼音;
O标签共有1种,
B、I、O标签共计37种;
将所有A11单个实体特征数据集,合并成一个总的实体特征数据集,从而形成总的实体特征数据集文本文件;总的实体特征数据集文本文件中各单个实体特征数据集之间用空格隔开;
S4、特征数据集拆分得到训练数据和测试数据的步骤
采用python的sklearn包的StratifiedShuffleSplit分层分割方法将步骤S3中得到的总的实体特征数据集分成N份,N>2;选取其中的N-1份作为模型的训练数据,得到训练集文本文件,训练集文本文件中的内容为训练数据;剩余的一份作为模型的测试数据,得到测试集文本文件,测试集文本文件中的内容为测试数据;
S5、代入训练数据训练BIO标注模型的步骤
采用python开发语言的sklearn包,选用BiLSTM长短期记忆神经网络和CRF条件随机场作为BIO标注模型。
BiLSTM长短期记忆神经网络,是一种现有技术,是python开发语言的sklearn包中的一个功能模。CRF条件随机场,也是一种现有技术,是python开发语言的sklearn包中的一个功能模。本发明的创新点在于选取了python开发语言的sklearn包中的BiLSTM长短期记忆神经网络模块和CRF条件随机场模块组合作为本发明的BIO标注模型,记忆神经网络模块和CRF条件随机场模块的工作原理和功能因为属于现有技术,本发明在此不做累述。
所述BiLSTM长短期记忆神经网络包括参数表D1,CRF条件随机场包括参数表D2;
BiLSTM长短期记忆神经网络包括数据输入端B1和结果输出端B2,CRF条件随机场包括数据输入端C1和结果输出端C2,将BiLSTM长短期记忆神经网络的结果输出端B2作为CRF条件随机场的数据输入端C1,从而建立起BIO标注模型;
将步骤S4中得到的训练数据通过数据输入端B1导入BIO标注模型,得到参数表D3、概率矩阵和转移矩阵;
BiLSTM长短期记忆神经网络对训练数据按照BiLSTM长短期记忆神经网络的计算规则进行计算,并通过调节参数表D1,得到概率矩阵;所述概率矩阵的列为标签,行为汉字字符或标点符号,概率矩阵中的内容代表汉字字符或标点所对应的标签的概率。
BiLSTM长短期记忆神经网络的计算规则属于BiLSTM长短期记忆神经网络模块中已经存在的计算规则,本发明只是调用BiLSTM长短期记忆神经网络模块,其BiLSTM长短期记忆神经网络模块的计算规则不在做累述。
CRF条件随机场对训练数据按照CRF条件随机的计算规则进行计算,并通过调节参数表D2,得到转移矩阵;所述转移矩阵的列为标签,行为标签,转移矩阵中的内容为行标签转移为列标签的概率。
CRF条件随机场的计算规则属于CRF条件随机场模块中已经存在的计算规则,本发明知识调用CRF条件随机场模块,其CRF条件随机场模块的计算规则不在做累述。
得到概率矩阵后的参数表D1和得到转移矩阵后的参数表D2成为参数表D3。
通过概率矩阵和转移矩阵中对应的分数加和得到每个序列标签的得分,得分最高的序列标签作为最终的输出标签;所述最终的输出标签包括B、I开头的标签和O标签;
将最终输出的标签与实际标签相比较,如果相同,则认为步骤S5中得到的有效的BIO标注模型达标,如果不相同,则返回步骤S5重新优化参数表D3后,再进行步骤S6测试,直至BIO标注模型达标。
S6、测试BIO标注模型的步骤
将步骤S4中的测试数据代入步骤S5中有效的BIO标注模型,进行数据测试,得到序列标签,该序列标签与测试数据的实际标签相比较,如果相同,则认为步骤S5中得到的有效的BIO标注模型达标,如果不相同,则返回步骤S5重新优化参数表D3后,再进行步骤S6测试,直至BIO标注模型达标;
S7、自动识别命名实体与关系的步骤
以电子病历文本作为训练数据,代入步骤S5,将步骤S5最终的输出标签的B、I开头的标签作为自定义字典纳入结巴分词工具包,通过结巴分词工具包对电子病历文本进行分词得到词列表,利用python开发语言的Gensim库中的Word2Vec模型,采用skip-gram方法训练出词向量并保存,得到词向量文件。
结巴分词工具包,是一种分词工具,是python开发语言的一种中文分析模块,属于现有技术,本发明仅使用该结巴分词工具包,并未对该结巴分词工具包进行创新,在此不做累述。
Gensim库中的Word2Vec模型是python开发语言的一个工具包,属于现有技术,本发明仅使用该Gensim库中的Word2Vec模型,并为对该Gensim库中的Word2Vec模型进行创新,在此不做累述。
采用skip-gram方法是Gensim库中的Word2Vec模型中自带的一种词向量计算模块,本发明知识采用了该计算模块,并为对该计算模块进行创新,在此不做累述。
采用python开发语言的keras库的CNN卷积神经网络和BILSTM模型长短期记忆神经网络为实体关系识别模型。
采用python开发语言的keras库的CNN卷积神经网络和BILSTM模型长短期记忆神经网络是python开发语言的功能模块,属于现有技术。本发明知识采用了该计算模块,并为对该计算模块进行创新,在此不做累述。
将步骤S2中文本文件A1的第一列中内容拼接成一个文本,对文本使用结巴分词工具包进行分词处理,从词向量文件中找到分词对应的词向量作为模型的输入,对文本的每个汉字字符和标点符号用数值替换作为字向量输入实体关系识别模型,得到文件中的实体、以及实体类型、关系;
将步骤S2中文本文件A1的第一列中内容拼接成一个文本,输入到S5中的BIO标注模型,得到包括B、I开头的标签和O标签,将B、I开头的标签对应的汉字字符和标点符号与实体关系识别模型中得到的实体做比较,删除掉BIO标注模型得到的B、I、O标签中,实体关系识别模型得到的文件中的出现的实体,但在BIO标注模型得到的B、I、O标签中未出现的实体,得到BIO文件,所述BIO文件包括实体、以及实体类型、关系;
S8、实体标准化处理;
建立标准库和慢性肾脏病专业数据库,采用图像识别软件对慢性肾脏病专业书籍与文献进行识别,存储到慢性肾脏病专业数据库中,同时将慢性肾脏病专业电子书籍与电子文献也存储到慢性肾脏病专业数据库中,基于慢性肾脏病专业数据库人工构建血液检查项目、尿液检查项目、症状及其他医学实体名词标准库,标准库中包含每个医学名词的标准名称及出现过的相似名称,并进行编码便于唯一标识,形成实体标准库;
对步骤S7提取的实体,将其中同一种实体不同的表述对照实体标准库进行替换,统一实体描述,对实体的替换,为符号、字母、文字、单位、医学代码的替换,统一符号、字母、文字、单位、医学代码;得到标准化的实体数据;
S9、构建肾病医学知识图谱
将步骤S8中标准化的实体数据和S7中得到的实体类型、关系,存入Neo4j数据库形成肾病专科知识图谱。
Neo4j数据库为现有技术,属于市场成熟软件产品。Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎,但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态的表中。
本发明还提出一种自动识别肾病医学命名实体、实体关系、位置的模型,选用BiLSTM长短期记忆神经网络和CRF条件随机场作为BIO标注模型;BiLSTM长短期记忆神经网络包括数据输入端B1和结果输出端B2,CRF条件随机场包括数据输入端C1和结果输出端C2,将BiLSTM长短期记忆神经网络的结果输出端B2作为CRF条件随机场的数据输入端C1,从而建立起BIO标注模型。
本发明还提出一种肾病医学知识图谱生成工具,采用本发明构建肾病专科医学知识图谱的方法命名实体、及实体关系、实体位置信息,进行实体标准化,生成知识图谱。
有益效果:采用本发明方法训练后的BIO标注模型,能够自动提取肾病专科电子病历中的实体及关系,能够批量自动识别病例资料中的肾病、症状、检查、医疗等医学命名实体。采用肾病专科医学知识图谱的方式展现肾病医学大数据资料,能为肾病专科临床智能支持、循证医学研究和疾病监控等提供支持, 从而提高医疗服务质量。
附图说明
图1为本发明构建肾病专科医学知识图谱的方法流程示意图;
图2为文本文件A1进行数据格式化得到格式化的文本文件A11截图;
图3为构建肾病知识图谱任务流程;
图4为定义实体类型和关系类型示意图;
图5为标注实体和实体关系示意图;
图6为部分肾脏病医学知识图谱的展示。
具体实施方式
实施例1:如图1所示,一种构建肾病专科医学知识图谱的方法,包括如下步骤:
S1,搜集电子病历语料;
将医院肾脏病专科电子病历导出,电子病历为TXT文本形式。人工将医院肾脏病专科电子病历导出,选择TXT文本格式,将各个患者的电子病历导出,得到诸多TXT文本格式的电子病历。目前,各医院均建有医院电子病历系统,电子病历系统属于现有技术,本发明所涉及的电子病历数据来源于合作医院。
进一步的,所述电子病历涵盖原发性肾小球疾病、代谢病相关肾损害、风湿病相关肾损害、感染性肾损害、急性肾损害与慢行肾衰竭等几十种慢性肾病患者的电子病历。所述电子病历具有较完整的人口学特征、身体测量特征、检验检查特征、症状特征、家族史、 既往史等信息。
S2,得到文本数据的步骤
对电子病历文本做医学词分词处理,分别定义命名实体类型、关系类型。
定义实体类型,实体类型包括:手术、药名、疾病、症状、程度、检查、结果、家族史、家族史属性、病史、病史属性、身高、体重、BMI、臀围、腰臀比、腰围、怀孕;
人工将每一份电子病历中出现的肾病相关的医学词进行实体类型标注,将肾病相关的医学词归类到所述各实体类型中;所述肾病相关的医学词为实体;
定义关系类型,关系类型包括:施加于、导致、结果、程度、家族史、病史;
人工对每一份电子病历中已经标注好的实体类型按照标注方式进行关系类型标注,标注方式采用BIO标注法,以B开头的标签表示一个实体的开头,以I开头的标签表示一个实体的剩余部分,标签O表示非实体;
对每一个医学词实体进行汉语拼音标注,汉语拼音为手术、药名、疾病、症状、程度、检查、结果、家族史、家族史属性、病史、病史属性、身高、体重、BMI、臀围、腰臀比、腰围、怀孕18个具体实体类型的汉语拼音;
给出所述实体类型之间存在的医学关系;所述医学关系为实体间关系;
记录各实体在电子病历中的位置信息,以及各实体间关系在电子病历中的位置信息;
得到文本数据,所述文本数据包括实体、实体类型、和实体位置信息的文本文件A1,以及,包括关系类型、和实体间关系位置信息的文本文件A2;一个文本文件A1中的内容为一个实体特征数据集,一个文本文件A2中的内容为一个关系特征数据集。
S3、得到训练数据的步骤
对步骤S2中得到的文本文件A1进行数据格式化,得到文本文件A11;数据格式化为将文本文件A1中的内容按照BIO竖向排列的方式,将文本文件A1中的横行转变成竖行,从而得到文本文件A11,所述文本文件A11的内容分成两列,第一列为文本文件A11中的每一个汉字字符或标点符号,第二列为实际标签,第一列与第二列以空格隔开;第二列实际标签包括B标签、或I标签、或O标签,每个实际标签后面为相应具体实体类型的汉语拼音;
如图2所示,图2为文本文件A1进行数据格式化得到格式化的文本文件A11截图。文本文件A1进行数据格式化得到格式化的文本文件A11,其中,文字代表实体,B代表实体的开头,I代表实体的剩余部分,O代表非实体。
B标签共有18种,分别为手术、药名、疾病、症状、程度、检查、结果、家族史、家族史属性、病史、病史属性、身高、体重、BMI、臀围、腰臀比、腰围、怀孕18个具体实体类型的汉语拼音;
I标签共有18种,分别为手术、药名、疾病、症状、程度、检查、结果、家族史、家族史属性、病史、病史属性、身高、体重、BMI、臀围、腰臀比、腰围、怀孕18个具体实体类型的汉语拼音;
O标签共有1种,
B、I、O标签共计37种;
将所有A11单个实体特征数据集,合并成一个总的实体特征数据集,从而形成总的实体特征数据集文本文件;总的实体特征数据集文本文件中各单个实体特征数据集之间用空格隔开;
S4 特征数据集拆分得到训练数据和测试数据的步骤
采用python的sklearn包的StratifiedShuffleSplit分层分割方法将步骤S3中得到的总的实体特征数据集分成N份,N>2;选取其中的N-1份作为模型的训练数据,得到训练集文本文件,训练集文本文件中的内容为训练数据;剩余的一份作为模型的测试数据,得到测试集文本文件,测试集文本文件中的内容为测试数据;
S5 代入训练数据训练BIO标注模型的步骤
采用python开发语言的sklearn包,选用BiLSTM长短期记忆神经网络和CRF条件随机场作为BIO标注模型。
BiLSTM长短期记忆神经网络,是一种现有技术,是python开发语言的sklearn包中的一个功能模。CRF条件随机场,也是一种现有技术,是python开发语言的sklearn包中的一个功能模。本发明的创新点在于选取了python开发语言的sklearn包中的BiLSTM长短期记忆神经网络模块和CRF条件随机场模块组合作为本发明的BIO标注模型,记忆神经网络模块和CRF条件随机场模块的工作原理和功能因为属于现有技术,本发明在此不做累述。
所述BiLSTM长短期记忆神经网络包括参数表D1,CRF条件随机场包括参数表D2;
BiLSTM长短期记忆神经网络包括数据输入端B1和结果输出端B2,CRF条件随机场包括数据输入端C1和结果输出端C2,将BiLSTM长短期记忆神经网络的结果输出端B2作为CRF条件随机场的数据输入端C1,从而建立起BIO标注模型;
将步骤S4中得到的训练数据通过数据输入端B1导入BIO标注模型,得到参数表D3、概率矩阵和转移矩阵;
BiLSTM长短期记忆神经网络对训练数据按照BiLSTM长短期记忆神经网络的计算规则进行计算,并通过调节参数表D1,得到概率矩阵;所述概率矩阵的列为标签,行为汉字字符或标点符号,概率矩阵中的内容代表汉字字符或标点所对应的标签的概率。
BiLSTM长短期记忆神经网络的计算规则属于BiLSTM长短期记忆神经网络模块中已经存在的计算规则,本发明只是调用BiLSTM长短期记忆神经网络模块,其BiLSTM长短期记忆神经网络模块的计算规则不在做累述。
CRF条件随机场对训练数据按照CRF条件随机的计算规则进行计算,并通过调节参数表D2,得到转移矩阵;所述转移矩阵的列为标签,行为标签,转移矩阵中的内容为行标签转移为列标签的概率。
CRF条件随机场的计算规则属于CRF条件随机场模块中已经存在的计算规则,本发明知识调用CRF条件随机场模块,其CRF条件随机场模块的计算规则不在做累述。
得到概率矩阵后的参数表D1和得到转移矩阵后的参数表D2成为参数表D3。
通过概率矩阵和转移矩阵中对应的分数加和得到每个序列标签的得分,得分最高的序列标签作为最终的输出标签;所述最终的输出标签包括B、I开头的标签和O标签;
将最终输出的标签与实际标签相比较,如果相同,则认为步骤S5中得到的有效的BIO标注模型达标,如果不相同,则返回步骤S5重新优化参数表D3后,再进行步骤S6测试,直至BIO标注模型达标。
S6 测试BIO标注模型的步骤
将步骤S4中的测试数据代入步骤S5中有效的BIO标注模型,进行数据测试,得到序列标签,该序列标签与测试数据的实际标签相比较,如果相同,则认为步骤S5中得到的有效的BIO标注模型达标,如果不相同,则返回步骤S5重新优化参数表D3后,再进行步骤S6测试,直至BIO标注模型达标;
S7 自动识别命名实体与关系的步骤
以电子病历文本作为训练数据,代入步骤S5,将步骤S5最终的输出标签的B、I开头的标签作为自定义字典纳入结巴分词工具包,通过结巴分词工具包对电子病历文本进行分词得到词列表,利用python开发语言的Gensim库中的Word2Vec模型,采用skip-gram方法训练出词向量并保存,得到词向量文件。
结巴分词工具包,是一种分词工具,是python开发语言的一种中文分析模块,属于现有技术,本发明仅使用该结巴分词工具包,并未对该结巴分词工具包进行创新,在此不做累述。
Gensim库中的Word2Vec模型是python开发语言的一个工具包,属于现有技术,本发明仅使用该Gensim库中的Word2Vec模型,并为对该Gensim库中的Word2Vec模型进行创新,在此不做累述。
采用skip-gram方法是Gensim库中的Word2Vec模型中自带的一种词向量计算模块,本发明知识采用了该计算模块,并为对该计算模块进行创新,在此不做累述。
采用python开发语言的keras库的CNN卷积神经网络和BILSTM模型长短期记忆神经网络为实体关系识别模型。
采用python开发语言的keras库的CNN卷积神经网络和BILSTM模型长短期记忆神经网络是python开发语言的功能模块,属于现有技术。本发明知识采用了该计算模块,并为对该计算模块进行创新,在此不做累述。
将步骤S2中文本文件A1的第一列中内容拼接成一个文本,对文本使用结巴分词工具包进行分词处理,从词向量文件中找到分词对应的词向量作为模型的输入,对文本的每个汉字字符和标点符号用数值替换作为字向量输入实体关系识别模型,得到文件中的实体、以及实体类型、关系;
将步骤S2中文本文件A1的第一列中内容拼接成一个文本,输入到S5中的BIO标注模型,得到包括B、I开头的标签和O标签,将B、I开头的标签对应的汉字字符和标点符号与实体关系识别模型中得到的实体做比较,删除掉BIO标注模型得到的B、I、O标签中,实体关系识别模型得到的文件中的出现的实体,但在BIO标注模型得到的B、I、O标签中未出现的实体,得到BIO文件,所述BIO文件包括实体、以及实体类型、关系;
S8、实体标准化处理;
建立标准库和慢性肾脏病专业数据库,采用图像识别软件对慢性肾脏病专业书籍与文献进行识别,存储到慢性肾脏病专业数据库中,同时将慢性肾脏病专业电子书籍与电子文献也存储到慢性肾脏病专业数据库中,基于慢性肾脏病专业数据库人工构建血液检查项目、尿液检查项目、症状及其他医学实体名词标准库,标准库中包含每个医学名词的标准名称及出现过的相似名称,并进行编码便于唯一标识,形成实体标准库;
对步骤S7提取的实体,将其中同一种实体不同的表述对照实体标准库进行替换,统一实体描述,对实体的替换,为符号、字母、文字、单位、医学代码的替换,统一符号、字母、文字、单位、医学代码;得到标准化的实体数据;
S9、构建肾病医学知识图谱
将步骤S8中标准化的实体数据和S7中得到的实体类型、关系,存入Neo4j数据库形成肾病专科知识图谱。
Neo4j数据库为现有技术,属于市场成熟软件产品。Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎,但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态的表中。
实施例2:
本发明还提出一种自动识别肾病医学命名实体、实体关系、位置的模型,选用BiLSTM长短期记忆神经网络和CRF条件随机场作为BIO标注模型;BiLSTM长短期记忆神经网络包括数据输入端B1和结果输出端B2,CRF条件随机场包括数据输入端C1和结果输出端C2,将BiLSTM长短期记忆神经网络的结果输出端B2作为CRF条件随机场的数据输入端C1,从而建立起BIO标注模型。
实施例3:
本发明还提出一种肾病医学知识图谱生成工具,采用本发明构建肾病专科医学知识图谱的方法命名实体、及实体关系、实体位置信息,进行实体标准化,生成知识图谱。
实施例4:
采用机器学习的方法识别命名实体通常被做为序列标注问题来研究,序列标注是指对序列中的每个符号赋予一个特定的标签,输入是一些词序列,输出是实体加预测结果。机器学习方法主要解决两个问题,实体边界的确立,以及实体类型的预测标注。如“门诊行CT检查,显示脑萎缩”。其中“CT”是检查实体,“脑萎缩”是症状实体。对每个实体给出特定的标签来表明实体的开始中间和结束等词位信息,现有BIO、BMES等标注方法。识别命名实体的机器学习方法大致分为3类:有监督学习方法、半监督学习方法和无监督学习方法。
图3展示了构建肾病知识图谱任务流程。先对电子病历语料分词,然后标注实体及其关系,在识别关系任务中增加了实体类型特征和语料词性特征,再分别训练BiLSTM-CRF网络模型和BiGRU-Att网络模型,然后使用测试集测试模型性能,选取最优模型来应用于命名实体及其关系的自动识别提取。从电子病历中提取的命名实体及其关系经过标准化处理后应用于医学知识图谱的创建。
首先,搜集样本,即搜集电子病历语料,搜集了近百万份具有代表性的慢性肾病资料数据。涵盖原发性肾小球疾病、代谢病相关肾损害、风湿病相关肾损害、感染性肾损害、急性肾损害与慢行肾衰竭等几十种慢性肾病。本发明电子病历语料具有较完整的人口学特征、身体测量特征、检验检查特征、症状特征、家族史、 既往史等信息。资料包含约两千万个句子,10%的病例资料需要人工标注命名的实体和关系,将其作为训练与测试自动识别命名实体和关系的样本数据。训练得到一个有效识别命名实体关系模型后,对剩余90%的病例资料进行提取数据。
其次,对样本进行预处理,即对电子病历文本做分词处理。分词是中文自然语言处理的基础。中文病历的语言常常不同于规范的中文句子结构,具有领域性强,句子凝练的特点。常用的分词工具在开放领域中有比较好的应用,但无法满足电子病历中特定表达的分词,例如:“肝细胞癌”作为一个独立的表达,往往被分为“肝细胞”、“癌”,这意味着命名实体识别将纳入分词的误差。在该研究中,希望抽取有意义的信息表达,而不仅限于医学术语。为了解决这个问题,收集现有医学术语以建立一个专用字典,包括国际疾病分类编码第十版(international Classification of diseases,ICD-10)和医学网站的常用疾病描述,此外,还纳入了数据集中的标注实体,基于结巴分词或者哈工大分词工具等,对语料进行分词。
词向量也叫做词语的分布式表示,通过词向量技术能够将表示词语之间的语义关系。在one-hot向量表示方法中,任意2个词之间是孤立的,没有联系的,一般会出现维灾难和矩阵稀疏的问题。词嵌入通过训练神经网络语言模型得到词语的低维连续实数向量,以向量之间的距离衡量词语之间的相关性。利用word2vector工具基于skip-gram方法训练字向量,以500份分词的病历文本训练出n维词向量,词向量维度可以灵活选择,一般采用100、200或300,窗口大小也可以灵活选择。
需要定义命名实体类型和关系类型,并且需要指定一系列的标注标准,主要参考的是哈工大发表的电子病历命名实体及关系标注标准。标注命名实体类型可以使用BIO、BMES等标注方法。其中B代表词语或命名实体的开头,I代表词语或命名实体的其他字,O和S都代表不是词语或命名实体,M代表词语或命名实体的中间的字,E代表词语或命名实体的最后一个字。为此开发了一个标注工具,如图4、5所示,该工具包含了实体类型和关系类型的定义以及对电子病历的标注,可以方便标注者标注并审核。命名实体关系标注,需要记录两个实体在句子中的位置信息以及其前后位置关系。
然后,命名实体识别算法模型。选用BiLSTM长短期记忆神经网络和CRF条件随机场作为BIO标注模型。
LSTM模型神经元信息只能从前向后传递,也就意味着,当前时刻的输入信息仅能利用之前时刻的信息。然而对于序列标注任务来说,当前状态之前的状态和之后的状态应该是平权的。命名实体的标签之间具有强烈的依赖关系,BiLSTM则既能利用当前时刻之前的信息,又能利用之后的信息,非常适用于命名实体识别任务。
BiLSTM-CRF网络包含one hot vecter输入层、look-up层、前向LSTM层、后向LSTM层、LSTM输出层和CRF输出层。look-up层是将one hot vecter转为词向量,BiLSTM层(双向LSTM层)能够有效的利用之前的输入信息和之后的输入信息来自动提取深层特征,CRF层是通过过去的输入以及输入所属的状态来预测当前输入所属的状态。最后,利用Adam优化器使整个模型的损失达到最小。Adam是一种基于低阶矩估计的参数优化方法,对内存的需求较小,能为不同的参数计算不同的自适应学习率。在预测阶段,利用Viterbi算法搜索转移评分最高的状态序列作为预测结果。命名实体识别任务选用的特征有词性、词向量、上下文特征。
接着,命名实体关系识别算法模型。
为了克服RNN无法很好处理远距离依赖而出现了LSTM,而GRU(Gated RecurrentUnit)则是LSTM的一个变体,GRU保持了LSTM的效果同时又使结构更加简单,所以它也非常流行。在这里采用的是基于注意力机制的双向GRU(Bi-GRU)神经网络模型,包含输入层、词向量层、Bi-GRU层、关注层、输出层。该网络的输入是每个参与训练的句子,词向量层是将输入的句子映射到一个低维向量,Bi-GRU层的作用是从输入的向量中得到该句子的强特征,关注层是产生一个权重向量,将Bi-GRU中的每一个时间节点通过这个权重向量联结起来,输出层是将前面得到的向量运用到命名实体关系分类任务上。为了完成命名实体关系分类任务,提取了句子中实体对的相对位置特征,并尝试增加了句子中实体的类型特征以及句子的词性特征。
最后,创建肾病专科医学知识图谱。
针对提取的实体需要进行标准化处理。首先构建检验检查、症状、药物名称、手术名称、慢性肾病名称等实体标准化库,还需要搜集检验检查不同单位之间的转换关系。
创建知识图谱的数据来源是从数量庞大的医学电子病历中提取的实体和实体关系,基于Neo4j图形数据库的独特优势因此选择它来存储这庞大的数据。数据库中的节点存储实体信息,连接节点的边存储实体之间的关系,是有方向的,可以是单向也可以是双向的,每个边包含“开始节点”和“结束节点”。构建医学知识图谱能够清晰的查看疾病与症状、检验检查、治疗等之间的关系。
结果评价。目前命名实体识别的一般评测标准是精确率(precision,P)、召回率(recall,R)和F值(F-score)。P是指系统正确识别的数量占识别出的实体总量的比例,P=TP/(TP+FP)。R是指系统正确识别出的命名实体数量占标准结果中命名实体总数的比例,R=TP/(TP+FN)。F值为P和R的调和平均值,能够更好的体现模型的性能,并已成为该领域默认的统一评估方法,F=2*P*R/(P+R)。识别命名实体关系的评测标准选用的是精确率(precision,P)。
应用效果。标注几百份电子病历中的实体及关系,采用前面所述的神经网络训练出性能比较好的模型,利用该模型可以自动提取电子病历中的实体及关系,实体和关系的提取准确率均可达80%以上。识别医学电子病历中的命名实体及关系的目的是挖掘医学知识,使用Neo4j图形数据库存储能够更便捷的展示疾病与症状、检验检查、治疗、家族史之间的关系,如图6所示。
电子病历系统是信息化技术在医疗领域的重要应用, 是临床使用最早也是最主要的一个工具。现已积累大量的电子病历,海量的电子病历数据堪称医疗领域的大数据,是座知识的宝库, 蕴含了大量的医疗知识和患者的健康信息。在当前大数据研究浪潮下,电子病历信息抽取和文本挖掘越来越吸引人们的目光。这些研究将为临床智能支持、循证医学研究和疾病监控等提供支持, 从而提高医疗服务质量。本发明方法构建的IBO模型能够自动识别病例资料中的肾病、症状、检查、医疗等医学命名实体,经过标准化处理后构建了一个完备的肾病专科医学知识图谱。
实施例5:
和机关单位进行合作,采集肾科电子病历数据,形成文本文件。将文本文件导入肾病知识图谱生成系统。使用BIO模型对电子病历进行命名实体、实体类型、关系的标注。对实体进行实体标准化。将标准化后的实体、实体类型和关系存入Neo4j图谱数据库中。以有向图的方式展现肾病医学专科知识及知识之间的关系。为肾病专科临床智能支持、循证医学研究和疾病监控等提供支持, 从而提高医疗服务质量。

Claims (6)

1.一种构建肾病专科医学知识图谱的方法,其特征在于包括如下步骤:
S1,搜集电子病历语料;
将医院肾脏病专科电子病历导出,电子病历为TXT文本形式;
S2,得到文本数据的步骤
对电子病历文本做医学词分词处理,定义命名实体类型、关系类型、
定义实体类型,实体类型包括:手术、药名、疾病、症状、程度、检查、结果、家族史、家族史属性、病史、病史属性、身高、体重、BMI、臀围、腰臀比、腰围、怀孕;
人工将每一份电子病历中出现的肾病相关的医学词进行实体类型标注,将肾病相关的医学词归类到所述各实体类型中;所述肾病相关的医学词为实体;
定义关系类型,关系类型包括:施加于、导致、结果、程度、家族史、病史;
人工对每一份电子病历中已经标注好的实体类型按照标注方式进行关系类型标注,标注方式采用BIO标注法,以B开头的标签表示一个实体的开头,以I开头的标签表示一个实体的剩余部分,标签O表示非实体;
对每一个医学词实体进行汉语拼音标注,汉语拼音为手术、药名、疾病、症状、程度、检查、结果、家族史、家族史属性、病史、病史属性、身高、体重、BMI、臀围、腰臀比、腰围、怀孕18个具体实体类型的汉语拼音;
给出所述实体类型之间存在的医学关系;所述医学关系为实体间关系;
记录各实体在电子病历中的位置信息,以及各实体间关系在电子病历中的位置信息;
得到文本数据,所述文本数据包括实体、实体类型、和实体位置信息的文本文件A1,以及,包括关系类型、和实体间关系位置信息的文本文件A2;一个文本文件A1中的内容为一个实体特征数据集,一个文本文件A2中的内容为一个关系特征数据集;
S3、得到训练数据的步骤
对步骤S2中得到的文本文件A1进行数据格式化,得到文本文件A11;数据格式化为将文本文件A1中的内容按照BIO竖向排列的方式,将文本文件A1中的横行转变成竖行,从而得到文本文件A11,所述文本文件A11的内容分成两列,第一列为文本文件A11中的每一个汉字字符或标点符号,第二列为实际标签,第一列与第二列以空格隔开;第二列实际标签包括B标签、或I标签、或O标签,每个实际标签后面为相应具体实体类型的汉语拼音;
B标签共有18种,分别为手术、药名、疾病、症状、程度、检查、结果、家族史、家族史属性、病史、病史属性、身高、体重、BMI、臀围、腰臀比、腰围、怀孕18个具体实体类型的汉语拼音;
I标签共有18种,分别为手术、药名、疾病、症状、程度、检查、结果、家族史、家族史属性、病史、病史属性、身高、体重、BMI、臀围、腰臀比、腰围、怀孕18个具体实体类型的汉语拼音;
O标签共有1种,
B、I、O标签共计37种;
将所有A11单个实体特征数据集,合并成一个总的实体特征数据集,从而形成总的实体特征数据集文本文件;总的实体特征数据集文本文件中各单个实体特征数据集之间用空格隔开;
S4 特征数据集拆分得到训练数据和测试数据的步骤
采用python的sklearn包的StratifiedShuffleSplit分层分割方法将步骤S3中得到的总的实体特征数据集分成N份,N>2;选取其中的N-1份作为模型的训练数据,得到训练集文本文件,训练集文本文件中的内容为训练数据;剩余的一份作为模型的测试数据,得到测试集文本文件,测试集文本文件中的内容为测试数据;
S5 代入训练数据训练BIO标注模型的步骤
采用python开发语言的sklearn包,选用BiLSTM长短期记忆神经网络和CRF条件随机场作为BIO标注模型;所述BiLSTM长短期记忆神经网络包括参数表D1,CRF条件随机场包括参数表D2;
BiLSTM长短期记忆神经网络包括数据输入端B1和结果输出端B2,CRF条件随机场包括数据输入端C1和结果输出端C2,将BiLSTM长短期记忆神经网络的结果输出端B2作为CRF条件随机场的数据输入端C1,从而建立起BIO标注模型;
将步骤S4中得到的训练数据通过数据输入端B1导入BIO标注模型,得到参数表D3、概率矩阵和转移矩阵;
BiLSTM长短期记忆神经网络对训练数据按照BiLSTM长短期记忆神经网络的计算规则进行计算,并通过调节参数表D1,得到概率矩阵;所述概率矩阵的列为标签,行为汉字字符或标点符号,概率矩阵中的内容代表汉字字符或标点所对应的标签的概率值;
CRF条件随机场对训练数据按照CRF条件随机的计算规则进行计算,并通过调节参数表D2,得到转移矩阵;所述转移矩阵的列为标签,行为标签,转移矩阵中的内容为行标签转移为列标签的概率值;
得到概率矩阵后的参数表D1和得到转移矩阵后的参数表D2成为参数表D3;
通过概率矩阵和转移矩阵中对应的分数加和得到每个序列标签的得分,得分最高的序列标签作为最终的输出标签;所述最终的输出标签包括B、I开头的标签和O标签;
将最终输出的标签与实际标签相比较,如果相同,则认为步骤S5中得到的有效的BIO标注模型达标,如果不相同,则返回步骤S5重新优化参数表D3后,再进行步骤S6测试,直至BIO标注模型达标;
S6 测试BIO标注模型的步骤
将步骤S4中的测试数据代入步骤S5中有效的BIO标注模型,进行数据测试,得到序列标签,该序列标签与测试数据的实际标签相比较,如果相同,则认为步骤S5中得到的有效的BIO标注模型达标,如果不相同,则返回步骤S5重新优化参数表D3后,再进行步骤S6测试,直至BIO标注模型达标;
S7 自动识别命名实体与关系的步骤
以电子病历文本作为训练数据,代入步骤S5,将步骤S5最终的输出标签的B、I开头的标签作为自定义字典纳入结巴分词工具包,通过结巴分词工具包对电子病历文本进行分词得到词列表,利用python开发语言的Gensim库中的Word2Vec模型,采用skip-gram方法训练出词向量并保存,得到词向量文件;
采用python开发语言的keras库的CNN卷积神经网络和BILSTM模型长短期记忆神经网络为实体关系识别模型
将步骤S2中文本文件A1的第一列中内容拼接成一个文本,对文本使用结巴分词工具包进行分词处理,从词向量文件中找到分词对应的词向量作为模型的输入,对文本的每个汉字字符和标点符号用数值替换作为字向量输入实体关系识别模型,得到文件中的实体、以及实体类型、关系;
将步骤S2中文本文件A1的第一列中内容拼接成一个文本,输入到S5中的BIO标注模型,得到包括B、I开头的标签和O标签,将B、I开头的标签对应的汉字字符和标点符号与实体关系识别模型中得到的实体做比较,删除掉BIO标注模型得到的B、I、O标签中,实体关系识别模型得到的文件中的出现的实体,但在BIO标注模型得到的B、I、O标签中未出现的实体,得到BIO文件,所述BIO文件包括实体、以及实体类型、关系;
S8、实体标准化处理;
建立标准库和慢性肾脏病专业数据库,采用图像识别软件对慢性肾脏病专业书籍与文献进行识别,存储到慢性肾脏病专业数据库中,同时将慢性肾脏病专业电子书籍与电子文献也存储到慢性肾脏病专业数据库中,基于慢性肾脏病专业数据库人工构建血液检查项目、尿液检查项目、症状及其他医学实体名词标准库,标准库中包含每个医学名词的标准名称及出现过的相似名称,并进行编码便于唯一标识,形成实体标准库;
对步骤S7提取的实体,将其中同一种实体不同的表述对照实体标准库进行替换,统一实体描述,对实体的替换,为符号、字母、文字、单位、医学代码的替换,统一符号、字母、文字、单位、医学代码;得到标准化的实体数据;
S9、构建肾病医学知识图谱
将步骤S8中标准化的实体数据和S7中得到的实体类型、关系,存入Neo4j数据库形成肾病专科知识图谱。
2.根据权利要求1所述的构建肾病专科医学知识图谱的方法,其特征在于:所述电子病历包括原发性肾小球疾病、代谢病相关肾损害、风湿病相关肾损害、感染性肾损害、急性肾损害与慢行肾衰竭,慢性肾病患者的电子病历。
3.根据权利要求1所述的构建肾病专科医学知识图谱的方法,其特征在于:标注方式采用BMES标注法定义命名实体类型和关系类型,B代表词语或命名实体的开头,M代表词语或命名实体的中间的字,E代表词语或命名实体的最后一个字,命名实体关系标注,记录实体在句子中的位置信息以及其前后位置关系。
4.根据权利要求1所述的构建肾病专科医学知识图谱的方法,其特征在于:所述肾病专科知识图谱包括肾病专科知识以及肾病专科知识之间的关系,以知识点关系有向图图形的形式展现,所述知识是指实体。
5.一种自动识别肾病医学命名实体、实体关系、位置的模型,其特征在于:选用BiLSTM长短期记忆神经网络和CRF条件随机场作为BIO标注模型;BiLSTM长短期记忆神经网络包括数据输入端B1和结果输出端B2,CRF条件随机场包括数据输入端C1和结果输出端C2,将BiLSTM长短期记忆神经网络的结果输出端B2作为CRF条件随机场的数据输入端C1,从而建立起BIO标注模型。
6.一种肾病医学知识图谱生成工具,其特征在于:采用权利要求1所述的构建肾病专科医学知识图谱的方法命名实体、及实体关系、实体位置信息,进行实体标准化,生成知识图谱。
CN202010260450.XA 2020-04-03 2020-04-03 一种构建肾病专科医学知识图谱的方法、模型及系统 Pending CN111538845A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010260450.XA CN111538845A (zh) 2020-04-03 2020-04-03 一种构建肾病专科医学知识图谱的方法、模型及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010260450.XA CN111538845A (zh) 2020-04-03 2020-04-03 一种构建肾病专科医学知识图谱的方法、模型及系统

Publications (1)

Publication Number Publication Date
CN111538845A true CN111538845A (zh) 2020-08-14

Family

ID=71975076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010260450.XA Pending CN111538845A (zh) 2020-04-03 2020-04-03 一种构建肾病专科医学知识图谱的方法、模型及系统

Country Status (1)

Country Link
CN (1) CN111538845A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101034A (zh) * 2020-09-09 2020-12-18 沈阳东软智能医疗科技研究院有限公司 一种判别医学实体的属性的方法、装置及相关产品
CN112151188A (zh) * 2020-10-19 2020-12-29 科技谷(厦门)信息技术有限公司 一种基于医疗知识图谱的智能疾病预测系统
CN112329471A (zh) * 2021-01-06 2021-02-05 科大讯飞(苏州)科技有限公司 基于配图的命名实体识别方法、装置以及设备
CN112489790A (zh) * 2020-11-30 2021-03-12 北京百度网讯科技有限公司 关键数据确定方法、装置、设备及存储介质
CN112509692A (zh) * 2020-12-01 2021-03-16 北京百度网讯科技有限公司 用于匹配医学表达的方法、装置、电子设备及存储介质
CN112542223A (zh) * 2020-12-21 2021-03-23 西南科技大学 一种从中文电子病历构建医疗知识图谱的半监督学习方法
CN112837765A (zh) * 2021-01-12 2021-05-25 山东众阳健康科技集团有限公司 一种用于疾病诊断的自动编码方法及系统
CN113205504A (zh) * 2021-05-12 2021-08-03 青岛大学附属医院 基于知识图谱的人工智能肾肿瘤预测系统
CN113221541A (zh) * 2021-07-09 2021-08-06 清华大学 一种数据提取方法及装置
WO2021159733A1 (zh) * 2020-09-07 2021-08-19 平安科技(深圳)有限公司 医学属性知识图谱构建方法、装置、设备及介质
CN113434700A (zh) * 2021-07-09 2021-09-24 大连海洋大学 水产动物疾病诊断与防治知识图谱构建方法
CN113823414A (zh) * 2021-08-23 2021-12-21 杭州火树科技有限公司 主诊断与主手术匹配检测方法、装置、计算设备和存储介质
CN114528419A (zh) * 2022-04-25 2022-05-24 南京大经中医药信息技术有限公司 一种中医智能病案推荐方法及推荐系统
CN115563286A (zh) * 2022-11-10 2023-01-03 东北农业大学 一种基于知识驱动的奶牛疾病文本分类方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021159733A1 (zh) * 2020-09-07 2021-08-19 平安科技(深圳)有限公司 医学属性知识图谱构建方法、装置、设备及介质
CN112101034B (zh) * 2020-09-09 2024-02-27 沈阳东软智能医疗科技研究院有限公司 一种判别医学实体的属性的方法、装置及相关产品
CN112101034A (zh) * 2020-09-09 2020-12-18 沈阳东软智能医疗科技研究院有限公司 一种判别医学实体的属性的方法、装置及相关产品
CN112151188A (zh) * 2020-10-19 2020-12-29 科技谷(厦门)信息技术有限公司 一种基于医疗知识图谱的智能疾病预测系统
CN112489790A (zh) * 2020-11-30 2021-03-12 北京百度网讯科技有限公司 关键数据确定方法、装置、设备及存储介质
CN112509692A (zh) * 2020-12-01 2021-03-16 北京百度网讯科技有限公司 用于匹配医学表达的方法、装置、电子设备及存储介质
CN112509692B (zh) * 2020-12-01 2024-05-28 北京百度网讯科技有限公司 用于匹配医学表达的方法、装置、电子设备及存储介质
CN112542223A (zh) * 2020-12-21 2021-03-23 西南科技大学 一种从中文电子病历构建医疗知识图谱的半监督学习方法
CN112329471A (zh) * 2021-01-06 2021-02-05 科大讯飞(苏州)科技有限公司 基于配图的命名实体识别方法、装置以及设备
CN112837765A (zh) * 2021-01-12 2021-05-25 山东众阳健康科技集团有限公司 一种用于疾病诊断的自动编码方法及系统
CN113205504A (zh) * 2021-05-12 2021-08-03 青岛大学附属医院 基于知识图谱的人工智能肾肿瘤预测系统
CN113221541A (zh) * 2021-07-09 2021-08-06 清华大学 一种数据提取方法及装置
CN113434700B (zh) * 2021-07-09 2023-07-11 大连海洋大学 水产动物疾病诊断与防治知识图谱构建方法
CN113434700A (zh) * 2021-07-09 2021-09-24 大连海洋大学 水产动物疾病诊断与防治知识图谱构建方法
CN113823414A (zh) * 2021-08-23 2021-12-21 杭州火树科技有限公司 主诊断与主手术匹配检测方法、装置、计算设备和存储介质
CN113823414B (zh) * 2021-08-23 2024-04-05 杭州火树科技有限公司 主诊断与主手术匹配检测方法、装置、计算设备和存储介质
CN114528419A (zh) * 2022-04-25 2022-05-24 南京大经中医药信息技术有限公司 一种中医智能病案推荐方法及推荐系统
CN115563286A (zh) * 2022-11-10 2023-01-03 东北农业大学 一种基于知识驱动的奶牛疾病文本分类方法
CN115563286B (zh) * 2022-11-10 2023-12-01 东北农业大学 一种基于知识驱动的奶牛疾病文本分类方法

Similar Documents

Publication Publication Date Title
CN111538845A (zh) 一种构建肾病专科医学知识图谱的方法、模型及系统
CN111540468B (zh) 一种诊断原因可视化的icd自动编码方法与系统
CN111274806B (zh) 分词和词性识别方法、装置及电子病历的分析方法、装置
US10929420B2 (en) Structured report data from a medical text report
CN111079377B (zh) 一种面向中文医疗文本命名实体识别的方法
CN107341264B (zh) 一种支持自定义实体的电子病历检索系统及方法
Li et al. WCP-RNN: a novel RNN-based approach for Bio-NER in Chinese EMRs: paper ID: FC_17_25
CN112597774B (zh) 中文医疗命名实体识别方法、系统、存储介质和设备
CN110705293A (zh) 基于预训练语言模型的电子病历文本命名实体识别方法
CN109871538A (zh) 一种中文电子病历命名实体识别方法
Wang et al. Cross-modal prototype driven network for radiology report generation
CN105404632B (zh) 基于深度神经网络对生物医学文本序列化标注的系统和方法
CN106844351B (zh) 一种面向多数据源的医疗机构组织类实体识别方法及装置
Moradi et al. A cross-modality neural network transform for semi-automatic medical image annotation
CN111611775B (zh) 一种实体识别模型生成方法、实体识别方法及装置、设备
CN106909783A (zh) 一种基于时间线的病历文本医学知识发现方法
CN111222340A (zh) 基于多标准主动学习的乳腺电子病历实体识别系统
CN112800766A (zh) 基于主动学习的中文医疗实体识别标注方法及系统
CN110444261B (zh) 序列标注网络训练方法、电子病历处理方法及相关装置
CN113343703B (zh) 医学实体的分类提取方法、装置、电子设备及存储介质
Hsu et al. Multi-label classification of ICD coding using deep learning
CN113343680A (zh) 一种基于多类型病历文本的结构化信息提取方法
CN111523320A (zh) 一种基于深度学习的中文病案分词方法
CN115841861A (zh) 一种相似病历推荐方法及系统
CN115482901A (zh) 用于将医学文本报告分割到区段中的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200814