CN115248842A - 一种基于知识图谱与检索引擎的icd智能编码的系统 - Google Patents

一种基于知识图谱与检索引擎的icd智能编码的系统 Download PDF

Info

Publication number
CN115248842A
CN115248842A CN202210698834.9A CN202210698834A CN115248842A CN 115248842 A CN115248842 A CN 115248842A CN 202210698834 A CN202210698834 A CN 202210698834A CN 115248842 A CN115248842 A CN 115248842A
Authority
CN
China
Prior art keywords
dimension
diagnosis
icd
module
diagnostic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210698834.9A
Other languages
English (en)
Inventor
肖尚华
唐厚强
张友书
程岚
祝伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yading Information Technology Co ltd
Original Assignee
Beijing Yading Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yading Information Technology Co ltd filed Critical Beijing Yading Information Technology Co ltd
Priority to CN202210698834.9A priority Critical patent/CN115248842A/zh
Publication of CN115248842A publication Critical patent/CN115248842A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Epidemiology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提出了一种基于知识图谱与检索引擎的ICD智能编码的系统,包括:数据获取模块用于从电子病历系统和医嘱系统中,获取电子病历数据;数据标准化模块用于将各个医院电子病历进行标准化处理;诊断名称识别模块用于构建医学领域语料,进行语言模型微调;训练模型;基于训练好的模型进行诊断命名实体识别;诊断临床术语维度分解模块用于建立基于维度的诊断知识图谱,利用LAC分词工具对输入诊断临床术语进行基础维度拆分;ICD编码匹配召回模块用于对临床术语Dt直接计算其笛卡尔积,对知识图谱中诊断维度建立倒排索引表;建立诊断检索引擎;对临床术语进行ICD编码检索;对原始诊断临床术语进行诊断数量分类;对召回结果进行选择和返回。

Description

一种基于知识图谱与检索引擎的ICD智能编码的系统
技术领域
本发明涉及ICD智能编码技术领域,特别涉及一种基于知识图谱与检索引擎的ICD智能编码的系统。
背景技术
计算机辅助编码,目前主要有三种技术方案:
第一种是关键词搜索提示方案,类似百度搜索的关键词提示,该方案基于医生输入的诊断关键字,搜索全部ICD编码名称,提示ICD名称和编码,引导编码人员一步步操作得出最终编码。
第二种是基于规则的编码系统,设置一定的编码逻辑规则,在一定条件下触发规则,提示正确的编码。
第三种是基于AI智能编码方案。应用先进的自然语言处理技术、深度学习模型及信息检索技术,无需人工干预,基于病历信息自动生成正确的ICD编码。
现有的ICD编码技术方案存在的问题:
1.仅依赖有监督学习方法训练得到主编码选择与漏诊检测,对训练数据构造质量依赖高,且无法融入具有高置信度、可灵活扩充的医学先验知识。
2.直接对病历文本使用textCNN进行漏诊检测,无法处理噪声较多的病历文本。以基于BERT的诊断命名实体识别结果为基础的ICD诊断识别则可很好利用大型医学预料的迁移学习能力。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的目的在于提出一种基于知识图谱与检索引擎的ICD智能编码的系统,以解决背景技术中所提到的问题,克服现有技术中存在的不足。
为了实现上述目的,本发明的实施例提供一种基于知识图谱与检索引擎的ICD智能编码的系统,包括:
数据获取模块、数据标准化模块、诊断名称识别模块、诊断临床术语维度分解模块和ICD编码匹配召回模块,其中,
所述数据获取模块用于从电子病历系统和医嘱系统中,获取电子病历数据;
所述数据标准化模块用于将各个医院电子病历进行标准化处理;
所述诊断名称识别模块用于构建医学领域语料,进行语言模型微调;构建训练集;基于所述训练集,训练模型;基于训练好的模型进行诊断命名实体识别,得到一段文本中的诊断临床术语名称;
所述诊断临床术语维度分解模块用于建立基于维度的诊断知识图谱,利用LAC分词工具对输入诊断临床术语进行基础维度拆分;
所述ICD编码匹配召回模块用于对临床术语Dt直接计算其笛卡尔积,得到Len(Dt)个维度组合;对知识图谱中诊断维度建立倒排索引表,并对不同维度类型分配权重,建立基于综合匹配分数的ICD10诊断检索引擎;对知识图谱中诊断维度建立倒排索引表,并对不同维度类型分配权重,建立基于综合匹配分数的ICD10诊断检索引擎;对临床术语进行ICD编码检索,对每个dsi的检索结果列表进行拼接,得到原始诊断临床术语Dt对应的检索召回列表Rt=Rank({S1,S2,S3,…,Sm}),其中Si表示被召回的标准ICD诊断;对原始诊断临床术语进行诊断数量分类;对召回结果进行选择和返回。
由上述任一方案优选的是,所述数据获取模块获取的电子病历数据,包括:入院记录、手术记录、出院记录、死亡记录、收费医嘱。
由上述任一方案优选的是,所述数据标准化模块对医院电子病历进行标准化处理,包括:对病历文书名称标准化、病历字段名称标准化和医嘱收费项目标准化。
由上述任一方案优选的是,所述诊断名称识别模块构建训练集,并训练模型,包括:
首先,基于过去的电子病历,选取包含诊断临床术语的电子病历文书字段,构造诊断、手术实体识别训练集;
基于训练集,采用BERT+BiLSTM+CRF训练诊断名称识别模型。
由上述任一方案优选的是,利用的医学领域RoBERTa语言模型对输入的文本进行字嵌入表示;将字嵌入表示作为BiLSTM输入,输出每个字符对BIO的概率;将字符BIO概率作为CRF输入,输出每个字符的BIO标签。
由上述任一方案优选的是,所述诊断临床术语维度分解模块建立基于维度的诊断知识图谱,包括:
定义维度:维度包括构成完整诊断名称的基础疾病名称、程度、解剖部位,用维度值<维度类型>表示;
诊断的维度表达:知识图谱中诊断表示为Ds={ds1,ds2,ds3,…,dsk},Ds为ICD10标准诊断名称;
建立维度层级树:建立从子节点指向父节点的层级树,使用H(dsi)表示对dsi查询得到其层级树中所有父节点维度列表;
建立维度同义词表:对于标准维度,构建其同义词维度,使用S(dsi)表示对dsi查询得到其同义词表中所有同义词维度列表。
由上述任一方案优选的是,所述诊断临床术语维度分解模块利用LAC分词工具对输入诊断临床术语进行基础维度拆分,包括:
对临床术语Dt拆分为Dt={dt1,dt2,dt3,…,dtn};使用基于TF-IDF算法的文本相似度将非标准维度dti映射到标准维度dsi,得到Dt对应的标准维度分解{ds1,ds2,ds3,…,dsn};
对每个dsi,根据维度层级树及维度同义词构建新的维度候选列表dsi,dsi={dsi}+H(dsi)+S(dsi),得到新的维度分解二维数组Dt={ds1,ds2,ds3,…,dsn}。
由上述任一方案优选的是,所述ICD编码匹配召回模块对原始诊断临床术语进行诊断数量分类,包括如下步骤:
基于过去的电子病历,构建输入为诊断文本,标签为对应ICD诊断数量的训练集;
使用基于字的TF-IDF向量化方法对输入诊断文本构建长度为预设值的向量特征,并使用一个多层感知机作为分类器进行数量分类,得到当前诊断临床术语文本中包含的ICD诊断数Ct
由上述任一方案优选的是,所述ICD编码匹配召回模块对召回结果进行选择和返回,包括如下步骤:
使用基于字符与维度实体的NMS方法对Rt进行过滤,保留非极大值抑制的ICD诊断召回项,得到Rt*
利用Ct对Rt*截断前Ct项,作为最终单条诊断临床术语Rt对应的标准ICD诊断返回。
本发明通过结合基于ICD编码库的知识图谱与检索引擎,提出了一种新的高扩展性、高解释性的智能编码方法。通过结合最新的深度学习模型RoBERTa与大规模医学语料,得到一种高准确率的诊断临床术语识别方法。
本发明实施例的基于知识图谱与检索引擎的ICD智能编码的系统,具有以下有益效果:
(1)无需人工干预,自动编码,极大地减轻医生和编码员的工作量。
(2)将编码环境前置,医生可以根据患者情况,利用本系统直接编码,能显著降低医生和编码沟通次数,提升编码工作效率,以及编码准确率。
(3)引入基于ICD10编码库构建的医学知识图谱,通过先验医学知识使智能编码过程具有了可解释性,并通过灵活的知识图谱维护使智能编码具有高扩展性与灵活性。
(4)使用大型医学预料预训练的RoBERTa模型,准确识别诊断临床术语文本,很大程度降低下游ICD智能编码的任务难度。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于知识图谱与检索引擎的ICD智能编码的系统的结构图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面首先对本发明涉及到的术语进行说明:
DRG:疾病诊断相关组(Diagnosis Related Groups,DRG)是用于衡量医疗服务质量效率以及进行医保支付的一个重要工具。DRG实质上是一种病例组合分类方案,即根据年龄、疾病诊断、合并症、并发症、治疗方式、病症严重程度及转归和资源消耗等因素,将患者分入若干诊断组进行管理的体系。
病案首页:住院病案首页是医务人员使用文字、符号、代码、数字等方式,将患者住院期间相关信息精炼汇总在特定的表格中,形成的病例数据摘要。住院病案首页包括患者基本信息、住院过程信息、诊疗信息、费用信息。其中诊断和手术操作ICD编码,是决定DRG分组器的最主要因素。
ICD编码:国际疾病分类(international Classification of diseases,ICD),是依据疾病的某些特征,按照规则将疾病分门别类,并用编码的方法来表示。ICD规则中规定当两个疾病诊断或者一个疾病诊断伴随有相关的临床表现时,使用一个合并编码来反映疾病的整体情况
如图1所示,本发明实施例的基于知识图谱与检索引擎的ICD智能编码的系统,包括:数据获取模块、数据标准化模块、诊断名称识别模块、诊断临床术语维度分解模块和ICD编码匹配召回模块。
具体的,数据获取模块用于从电子病历系统和医嘱系统中,获取电子病历数据。
在本发明的实施例中,数据获取模块获取的电子病历数据,包括:入院记录、手术记录、出院记录、死亡记录、收费医嘱等关键信息。
数据标准化模块用于将各个医院电子病历进行标准化处理。
具体的,数据标准化模块将各个医院电子病历文书标准化,便于后续统一处理识别。标准化包括:病历文书名称标准化、病历字段名称标准化、医嘱收费项目标准化。
诊断名称识别模块用于构建医学领域语料,进行语言模型微调;构建训练集;基于训练集,训练模型;基于训练好的模型进行诊断命名实体识别,得到一段文本中的诊断临床术语名称。
具体的,基于医学领域语料微调的RoBERTa的诊断名称识别模块,执行以下功能:
(1)构建医学领域语料,进行语言模型微调。基于过去半年的电子病历,使用Masked Language Model方法在RoBERTa基础上进行语言模型微调。同时使用同样电子病历进行RoBERTa未覆盖的中文词表补充。
(2)构建训练集。基于过去半年的电子病历,选取如诊疗经过、出院诊断等包含诊断临床术语的电子病历文书字段,构造诊断、手术实体识别训练集S={s1,s2,s3,…,sn}。其中si为一段文本,如“…故明确入院诊断为:原发性高血压3级,极高危组,治疗上拟予控制血压,故补充诊断:高脂血症,治疗上嘱患者…”,其中包含诊断:原发性高血压3级,极高危组、高脂血症。
(3)训练模型。基于训练集,采用BERT+BiLSTM+CRF训练诊断名称识别模型。
(3.1)使用(1)中得到的医学领域RoBERTa语言模型对输入的文本进行字嵌入表示;
(3.2)将字嵌入表示作为BiLSTM输入,输出每个字符对BIO的概率;
(3.3)将字符BIO概率作为CRF输入,输出每个字符的BIO标签。
(4)基于训练好的模型进行诊断命名实体识别,得到一段文本中的诊断临床术语名称。
诊断临床术语维度分解模块用于建立基于维度的诊断知识图谱,利用LAC分词工具对输入诊断临床术语进行基础维度拆分。
具体的,基于知识图谱的诊断临床术语维度分解模块,执行以下功能:
(1)根据ICD10国家临床2.0版编码库建立基于维度的诊断知识图谱。
(1.1)维度定义:维度包括构成完整诊断名称的基础疾病名称、程度、解剖部位等,用维度值<维度类型>表示;
(1.2)诊断的维度表达:知识图谱中诊断表示为Ds={ds 1,ds 2,ds 3,…,ds k},Ds为ICD10标准诊断名称,如“高血压病3级(高危)”,其对应三个维度:ds 1=“高血压病<disease>”,ds 2=“3级<degree>”,ds 3=“高危<degree>”;
(1.3)建立维度层级树:对于“右足<anatomy>”、“下肢<anatomy>”类的维度数据,建立从子节点“下肢<anatomy>”指向父节点“右足<anatomy>”的层级树。使用H(ds i)表示对ds i查询得到其层级树中所有父节点维度列表;
(1.4)建立维度同义词表:对于标准维度“口腔黏膜<anatomy>”,构建其同义词维度“口腔粘膜<anatomy>”。使用S(ds i)表示对ds i查询得到其同义词表中所有同义词维度列表;
(2)利用LAC分词工具对输入诊断临床术语进行基础维度拆分
(2.1)对临床术语Dt拆分为Dt={dt 1,dt 2,dt 3,…,dt n};使用基于TF-IDF算法的文本相似度将非标准维度dt i映射到标准维度ds i,得到Dt对应的标准维度分解{ds 1,ds 2,ds 3,…,ds n};
(2.2)对每个ds i,根据维度层级树及维度同义词构建新的维度候选列表ds i。ds i={ds i}+H(ds i)+S(ds i)。得到新的维度分解二维数组Dt={ds 1,ds 2,ds 3,…,ds n}。
ICD编码匹配召回模块用于对临床术语Dt直接计算其笛卡尔积,得到Len(Dt)个维度组合;对知识图谱中诊断维度建立倒排索引表,并对不同维度类型分配权重,建立基于综合匹配分数的ICD10诊断检索引擎;对知识图谱中诊断维度建立倒排索引表,并对不同维度类型分配权重,建立基于综合匹配分数的ICD10诊断检索引擎;对临床术语进行ICD编码检索,对每个dsi的检索结果列表进行拼接,得到原始诊断临床术语Dt对应的检索召回列表Rt=Rank({S1,S2,S3,…,Sm}),其中Si表示被召回的标准ICD诊断;对原始诊断临床术语进行诊断数量分类;对召回结果进行选择和返回。
具体的,基于检所引擎的ICD编码匹配召回模块,执行以下功能:
(1)对Dt直接计算其笛卡尔积,得到Len(Dt)个维度组合,每个维度组合长度为n。Len(Dt)的计算公式为:
Figure BDA0003703183390000061
(2)对知识图谱中诊断维度建立倒排索引表,并对不同维度类型分配权重,建立基于综合匹配分数的ICD10诊断检索引擎。其中匹配分数由维度类别权重、字符级IOU(Intersection Over Union)与维度实体级IOU共同加权计算得到;
(3)对Dt进行ICD编码检索,对每个ds i的检索结果列表进行拼接,得到原始诊断临床术语Dt对应的检索召回列表Rt=Rank({S1,S2,S3,…,Sm}),其中Si表示被召回的标准ICD诊断。并使用5.2中描述的检索方法进行召回排序。
(4)对原始诊断临床术语Dt进行诊断数量分类
(4.1)基于过去半年的电子病历,构建输入为诊断文本,标签为对应ICD诊断数量的训练集;
(4.2)使用基于字的TF-IDF向量化方法对输入诊断文本构建长度为100的向量特征,并使用一个多层感知机作为分类器进行数量分类,得到当前诊断临床术语文本中包含的ICD诊断数Ct
(5)对召回结果进行选择和返回
(5.1)使用基于字符与维度实体的NMS(None Max Suppression)方法对Rt进行过滤,保留非极大值抑制的ICD诊断召回项,得到Rt*
(5.2)使用得到的诊断Ct对Rt*截断前Ct项,作为最终单条诊断临床术语Rt对应的标准ICD诊断返回。
本发明通过结合基于ICD编码库的知识图谱与检索引擎,提出了一种新的高扩展性、高解释性的智能编码方法。通过结合最新的深度学习模型RoBERTa与大规模医学语料,得到一种高准确率的诊断临床术语识别方法。
本发明实施例的基于知识图谱与检索引擎的ICD智能编码的系统,具有以下有益效果:
(1)无需人工干预,自动编码,极大地减轻医生和编码员的工作量。
(2)将编码环境前置,医生可以根据患者情况,利用本系统直接编码,能显著降低医生和编码沟通次数,提升编码工作效率,以及编码准确率。
(3)引入基于ICD10编码库构建的医学知识图谱,通过先验医学知识使智能编码过程具有了可解释性,并通过灵活的知识图谱维护使智能编码具有高扩展性与灵活性。
(4)使用大型医学预料预训练的RoBERTa模型,准确识别诊断临床术语文本,很大程度降低下游ICD智能编码的任务难度。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
本领域技术人员不难理解,本发明包括上述说明书的发明内容和具体实施方式部分以及附图所示出的各部分的任意组合,限于篇幅并为使说明书简明而没有将这些组合构成的各方案一一描述。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims (9)

1.一种基于知识图谱与检索引擎的ICD智能编码的系统,其特征在于,包括:数据获取模块、数据标准化模块、诊断名称识别模块、诊断临床术语维度分解模块和ICD编码匹配召回模块,其中,
所述数据获取模块用于从电子病历系统和医嘱系统中,获取电子病历数据;
所述数据标准化模块用于将各个医院电子病历进行标准化处理;
所述诊断名称识别模块用于构建医学领域语料,进行语言模型微调;构建训练集;基于所述训练集,训练模型;基于训练好的模型进行诊断命名实体识别,得到一段文本中的诊断临床术语名称;
所述诊断临床术语维度分解模块用于建立基于维度的诊断知识图谱,利用LAC分词工具对输入诊断临床术语进行基础维度拆分;
所述ICD编码匹配召回模块用于对临床术语Dt直接计算其笛卡尔积,得到Len(Dt)个维度组合;对知识图谱中诊断维度建立倒排索引表,并对不同维度类型分配权重,建立基于综合匹配分数的ICD10诊断检索引擎;对知识图谱中诊断维度建立倒排索引表,并对不同维度类型分配权重,建立基于综合匹配分数的ICD10诊断检索引擎;对临床术语进行ICD编码检索,对每个dsi的检索结果列表进行拼接,得到原始诊断临床术语Dt对应的检索召回列表Rt=Rank({S1,S2,S3,…,Sm}),其中Si表示被召回的标准ICD诊断;对原始诊断临床术语进行诊断数量分类;对召回结果进行选择和返回。
2.如权利要求1所述的基于知识图谱与检索引擎的ICD智能编码的系统,其特征在于,所述数据获取模块获取的电子病历数据,包括:入院记录、手术记录、出院记录、死亡记录、收费医嘱。
3.如权利要求1所述的基于知识图谱与检索引擎的ICD智能编码的系统,其特征在于,所述数据标准化模块对医院电子病历进行标准化处理,包括:对病历文书名称标准化、病历字段名称标准化和医嘱收费项目标准化。
4.如权利要求1所述的基于知识图谱与检索引擎的ICD智能编码的系统,其特征在于,所述诊断名称识别模块构建训练集,并训练模型,包括:
首先,基于过去的电子病历,选取包含诊断临床术语的电子病历文书字段,构造诊断、手术实体识别训练集;
基于训练集,采用BERT+BiLSTM+CRF训练诊断名称识别模型。
5.如权利要求4所述的基于知识图谱与检索引擎的ICD智能编码的系统,其特征在于,利用的医学领域RoBERTa语言模型对输入的文本进行字嵌入表示;将字嵌入表示作为BiLSTM输入,输出每个字符对BIO的概率;将字符BIO概率作为CRF输入,输出每个字符的BIO标签。
6.如权利要求1所述的基于知识图谱与检索引擎的ICD智能编码的系统,其特征在于,所述诊断临床术语维度分解模块建立基于维度的诊断知识图谱,包括:
定义维度:维度包括构成完整诊断名称的基础疾病名称、程度、解剖部位,用维度值<维度类型>表示;
诊断的维度表达:知识图谱中诊断表示为Ds={ds1,ds2,ds3,…,dsk},Ds为ICD10标准诊断名称;
建立维度层级树:建立从子节点指向父节点的层级树,使用H(dsi)表示对dsi查询得到其层级树中所有父节点维度列表;
建立维度同义词表:对于标准维度,构建其同义词维度,使用S(dsi)表示对dsi查询得到其同义词表中所有同义词维度列表。
7.如权利要求1所述的基于知识图谱与检索引擎的ICD智能编码的系统,其特征在于,所述诊断临床术语维度分解模块利用LAC分词工具对输入诊断临床术语进行基础维度拆分,包括:
对临床术语Dt拆分为Dt={dt1,dt2,dt3,…,dtn};使用基于TF-IDF算法的文本相似度将非标准维度dti映射到标准维度dsi,得到Dt对应的标准维度分解{ds1,ds2,ds3,…,dsn};
对每个dsi,根据维度层级树及维度同义词构建新的维度候选列表dsi,dsi={dsi}+H(dsi)+S(dsi),得到新的维度分解二维数组Dt={ds1,ds2,ds3,…,dsn}。
8.如权利要求1所述的基于知识图谱与检索引擎的ICD智能编码的系统,其特征在于,所述ICD编码匹配召回模块对原始诊断临床术语进行诊断数量分类,包括如下步骤:
基于过去的电子病历,构建输入为诊断文本,标签为对应ICD诊断数量的训练集;
使用基于字的TF-IDF向量化方法对输入诊断文本构建长度为预设值的向量特征,并使用一个多层感知机作为分类器进行数量分类,得到当前诊断临床术语文本中包含的ICD诊断数Ct
9.如权利要求1所述的基于知识图谱与检索引擎的ICD智能编码的系统,其特征在于,所述ICD编码匹配召回模块对召回结果进行选择和返回,包括如下步骤:
使用基于字符与维度实体的NMS方法对Rt进行过滤,保留非极大值抑制的ICD诊断召回项,得到Rt*
利用Ct对Rt*截断前Ct项,作为最终单条诊断临床术语Rt对应的标准ICD诊断返回。
CN202210698834.9A 2022-06-20 2022-06-20 一种基于知识图谱与检索引擎的icd智能编码的系统 Pending CN115248842A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210698834.9A CN115248842A (zh) 2022-06-20 2022-06-20 一种基于知识图谱与检索引擎的icd智能编码的系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210698834.9A CN115248842A (zh) 2022-06-20 2022-06-20 一种基于知识图谱与检索引擎的icd智能编码的系统

Publications (1)

Publication Number Publication Date
CN115248842A true CN115248842A (zh) 2022-10-28

Family

ID=83699137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210698834.9A Pending CN115248842A (zh) 2022-06-20 2022-06-20 一种基于知识图谱与检索引擎的icd智能编码的系统

Country Status (1)

Country Link
CN (1) CN115248842A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541007A (zh) * 2023-07-04 2023-08-04 智慧中医科技(广东)有限公司 基于中医辨证论的体征可视化映射封装方法及系统
CN116561183A (zh) * 2023-07-10 2023-08-08 北京环球医疗救援有限责任公司 一种海量医疗保险数据智能信息检索系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541007A (zh) * 2023-07-04 2023-08-04 智慧中医科技(广东)有限公司 基于中医辨证论的体征可视化映射封装方法及系统
CN116541007B (zh) * 2023-07-04 2023-10-03 智慧中医科技(广东)有限公司 基于中医辨证论的体征可视化映射封装方法及系统
CN116561183A (zh) * 2023-07-10 2023-08-08 北京环球医疗救援有限责任公司 一种海量医疗保险数据智能信息检索系统
CN116561183B (zh) * 2023-07-10 2023-09-19 北京环球医疗救援有限责任公司 一种海量医疗保险数据智能信息检索系统

Similar Documents

Publication Publication Date Title
CN109299239B (zh) 一种基于es的电子病历检索方法
CN111950285B (zh) 多模态数据融合的医疗知识图谱智能自动构建系统和方法
CN111540468B (zh) 一种诊断原因可视化的icd自动编码方法与系统
WO2023029506A1 (zh) 病情分析方法、装置、电子设备及存储介质
CN115248842A (zh) 一种基于知识图谱与检索引擎的icd智能编码的系统
CN111949759A (zh) 病历文本相似度的检索方法、系统及计算机设备
US20190057773A1 (en) Method and system for performing triage
WO2007067703A2 (en) Search engine with increased performance and specificity
Almagro et al. ICD-10 coding of Spanish electronic discharge summaries: An extreme classification problem
Dessì et al. A recommender system of medical reports leveraging cognitive computing and frame semantics
CN113779179B (zh) 一种基于深度学习和知识图谱的icd智能编码的方法
CN113611401A (zh) 一种围术期血液管理的系统和方法
CN112037909A (zh) 诊断信息复核系统
CN115831380A (zh) 一种基于医疗知识图谱的智能医疗数据管理系统及方法
CN115862897A (zh) 一种基于临床数据的症候群监测方法及系统
CN116994689A (zh) 医疗数据的特征化处理方法、装置、设备、介质及产品
Kulkarni et al. Building the Knowledge Graph from Medical Conversational Text Data and its Applications
US20220165430A1 (en) Leveraging deep contextual representation, medical concept representation and term-occurrence statistics in precision medicine to rank clinical studies relevant to a patient
Zubke et al. Using openEHR archetypes for automated extraction of numerical information from clinical narratives
CN114068028A (zh) 医疗问诊数据处理方法及装置、可读存储介质及电子设备
CN113761899A (zh) 一种医疗文本生成方法、装置、设备及存储介质
CN110188169A (zh) 一种基于简化标签的知识匹配方法、系统及设备
Faisal et al. A framework for disease identification from unstructured data using text classification and disease knowledge base
Pakhomov et al. Identification of Patients with Congestive Heart Failure using a binary classifier: a case study.
Deshpande et al. Multimodal Ranked Search over Integrated Repository of Radiology Data Sources.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination