CN110852076B - 一种自动化疾病编码转换的方法及装置 - Google Patents
一种自动化疾病编码转换的方法及装置 Download PDFInfo
- Publication number
- CN110852076B CN110852076B CN201910969445.3A CN201910969445A CN110852076B CN 110852076 B CN110852076 B CN 110852076B CN 201910969445 A CN201910969445 A CN 201910969445A CN 110852076 B CN110852076 B CN 110852076B
- Authority
- CN
- China
- Prior art keywords
- disease
- information
- icd10
- name resolution
- extended version
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明公开了一种自动化疾病编码方法及装置,用以得到与疾病诊断信息相似的候选编码集,节省用户时间。方法包括:获取疾病诊断信息和ICD10扩展版疾病的名称解析信息;确定疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息;根据语义信息获取疾病诊断信息和ICD10扩展版疾病的名称解析信息的词向量;根据疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量计算疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度;根据疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度生成疾病诊断信息的候选编码集。采用本发明所提供的方案,能够得到与疾病诊断信息相似的候选编码集,节省用户时间。
Description
技术领域
本发明涉及互联网技术领域,特别涉及一种自动化疾病编码转换的方法及装置。
背景技术
国际疾病分类(International Classification of Diseases,ICD),是WHO制定的国际统一的疾病分类方法,其根据疾病的病因、病理、临床表现和解剖位置等特性,将疾病分门别类,使其成为一个有序的组合,并用编码的方法来表示的系统。全世界通用的是第10次修订本《疾病和有关健康问题的国际统计分类》,仍保留了ICD的简称,并被统称为ICD10。
现有技术中,在获取疾病信息对应的编码时,通常需要专业人员对照ICD10数据库中进行手动编码,要从海量的数据库中得到疾病编码,需要消耗大量的时间,因此,如果能够对数据库中的疾病编码进行初步筛选,过滤大量的无用信息,使用户在与疾病诊断信息相似的候选编码集中筛选得到疾病编码,无疑会节省很多的时间。
发明内容
本发明提供一种自动化疾病编码转换的方法,用以得到与疾病诊断信息相似的候选编码集,节省用户时间。
本发明提供一种自动化疾病编码方法,包括:
获取疾病诊断信息和ICD10扩展版疾病的名称解析信息;
确定疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息;
根据疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息获取疾病诊断信息和ICD10扩展版疾病的名称解析信息的词向量;
根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量计算疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度;
根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度生成疾病诊断信息的候选编码集。
本发明的有益效果在于:根据疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息和词向量计算疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度,从而利用疾病术语中的语义信息和顺序信息计算疾病术语间的相似度,准确率非常高;并且,生成的疾病诊断信息的候选编码集使用户能够直接在与疾病诊断信息相似的候选编码集中筛选得到疾病编码,节省了用户的时间。
在一个实施例中,根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度生成疾病诊断信息的候选编码集,包括:
判断所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度是否大于预设阈值;
当所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度大于预设阈值时保留所述ICD10扩展版疾病的名称解析信息;
当所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度小于预设阈值时删除所述ICD10扩展版疾病的名称解析信息;
根据保留的所述ICD10扩展版疾病的名称解析信息生成所述疾病诊断信息的候选编码集。
在一个实施例中,所述确定疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息,包括:
获取预先构建的医学词典;
使用分词工具对所述疾病诊断信息和ICD10扩展版疾病的名称解析信息进行分词以获取所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的语义信息。
在一个实施例中,根据疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息获取疾病诊断信息和ICD10扩展版疾病的名称解析信息的词向量,包括:
获取预先训练的医学词向量;
根据所述预先训练好的医学词向量对疾病诊断信息和ICD10扩展版疾病的名称解析信息进行向量化,以获得所述疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量。
在一个实施例中,根据语义信息和词向量计算疾病诊断信息第一目标数据和ICD10扩展版疾病的名称解析信息的相似度,包括:
获取疾病诊断信息对应的字符串A和ICD10扩展版疾病的名称解析信息对应的字符串B;
根据如下公式计算字符串A的第i个词语和字符串B的第j个词语的相似度:
其中,Ai表示字符串A的第i个词语,Bj字符串B的第j个词语,sim(Ai,Bj)表示Ai和Bj的相似度;
根据如下公式计算字符串A的第i个词语和字符串B的第j个词语之前最长公共子序列的长度:
其中,C[i,j]表示字符串A的第i个词语和B的第j个词语之前最长公共子序列的长度,ε表示相似度阈值;
根据公式(2)确定字符串A和B的最大公共子序列的长度LCSL;
根据如下公式计算字符串A和字符串B的相似度:
其中,sim(A,B)表示字符串A和B的相似度,LCSL表示字符串A和B的最大公共子序列的长度,L(A)表示字符串A分词后词语的数量,L(B)表示字符串B分词后词语的数量。
本发明还提供一种自动化疾病编码转换的装置,包括:
第一获取模块,用于获取疾病诊断信息和ICD10扩展版疾病的名称解析信息;
确定模块,用于确定疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息;
第二获取模块,根据疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息获取疾病诊断信息和ICD10扩展版疾病的名称解析信息的词向量;
计算模块,根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量计算疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度;
生成模块,用于根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度生成疾病诊断信息的候选编码集。
在一个实施例中,生成模块,包括:
判断子模块,用于判断所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度是否大于预设阈值;
保留子模块,用于当所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度大于预设阈值时保留所述ICD10扩展版疾病的名称解析信息;
删除子模块,用于当所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度小于预设阈值时删除所述ICD10扩展版疾病的名称解析信息;
生成子模块,用于根据保留的所述ICD10扩展版疾病的名称解析信息生成所述疾病诊断信息的候选编码集。
在一个实施例中,所述确定模块,包括:
第一获取子模块,用于获取预先构建的医学词典;
分词子模块,用于基于所述医学词典,使用分词工具对所述疾病诊断信息和ICD10扩展版疾病的名称解析信息进行分词以获取所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的语义信息。
在一个实施例中,所述第二获取模块,包括:
第二获取子模块,用于获取预先训练的医学词向量;
向量化子模块,用于根据所述预先训练好的医学词向量对疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息进行向量化,以获得所述疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量。
在一个实施例中,所述计算模块,包括:
第三获取子模块,用于获取疾病诊断信息对应的字符串A和ICD10扩展版疾病的名称解析信息对应的字符串B;
第一计算子模块,用于根据如下公式计算字符串A的第i个词语和字符串B的第j个词语的相似度:
其中,Ai表示字符串A的第i个词语,Bj字符串B的第j个词语,sim(Ai,Bj)表示Ai和Bj的相似度;
第二计算子模块,用于根据如下公式计算字符串A的第i个词语和字符串B的第j个词语之前最长公共子序列的长度:
其中,C[i,j]表示字符串A的第i个词语和B的第j个词语之前最长公共子序列的长度,ε表示相似度阈值;
确定子模块,用于根据公式(2)确定字符串A和B的最大公共子序列的长度LCSL;
第三计算子模块,用于根据如下公式计算字符串A和字符串B的相似度:
其中,sim(A,B)表示字符串A和B的相似度,LCSL表示字符串A和B的最大公共子序列的长度,L(A)表示字符串A分词后词语的数量,L(B)表示字符串B分词后词语的数量。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明一实施例中一种自动化疾病编码方法的流程图;
图2为本发明一实施例中一种自动化疾病编码方法的流程图;
图3为本发明一实施例中一种自动化疾病编码装置的框图;
图4为本发明一实施例中一种自动化疾病编码装置的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明一实施例中一种自动化疾病编码方法的流程图,如图1所示,该方法可被实施为以下步骤S101-S105:
在步骤S101中,获取疾病诊断信息和ICD10扩展版疾病的名称解析信息;
在步骤S102中,确定疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息;
在步骤S103中,根据疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息获取疾病诊断信息和ICD10扩展版疾病的名称解析信息的词向量;
在步骤S104中,根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量计算疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度;
在步骤S105中,根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度生成疾病诊断信息的候选编码集。
本发明的有益效果在于:根据疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息和词向量计算疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度,从而利用疾病术语中的语义信息和顺序信息计算疾病术语间的相似度,准确率非常高;并且,生成的疾病诊断信息的候选编码集使用户能够直接在与疾病诊断信息相似的候选编码集中筛选得到疾病编码,节省了用户的时间。
在一个实施例中,上述步骤S105可被实施为如下步骤S201-S204:
在步骤S201中,判断所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度是否大于预设阈值;
在步骤S202中,当所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度大于预设阈值时保留所述ICD10扩展版疾病的名称解析信息;
在步骤S203中,当所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度小于预设阈值时删除所述ICD10扩展版疾病的名称解析信息;
在步骤S204中,根据保留的所述ICD10扩展版疾病的名称解析信息生成所述疾病诊断信息的候选编码集。
在一个实施例中,上述步骤S102中可被实施为如下步骤A1-A2:
在步骤A1中,获取预先构建的医学词典;
在步骤A2中,使用分词工具对所述疾病诊断信息和ICD10扩展版疾病的名称解析信息进行分词以获取所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的语义信息。
在一个实施例中,上述步骤S103可被实施为如下步骤B1-B2:
在步骤B1中,获取预先训练的医学词向量;
在步骤B2中,根据所述预先训练好的医学词向量对疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息进行向量化,以获得所述疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量。
在一个实施例中,上述步骤S104可被实施为如下步骤C1-C5:
在步骤C1中,获取疾病诊断信息对应的字符串A和ICD10扩展版疾病的名称解析信息对应的字符串B;
在步骤C2中,根据如下公式计算字符串A的第i个词语和字符串B的第j个词语的相似度:
其中,Ai表示字符串A的第i个词语,Bj字符串B的第j个词语,sim(Ai,Bj)表示Ai和Bj的相似度;
在步骤C3中,根据如下公式计算字符串A的第i个词语和字符串B的第j个词语之前最长公共子序列的长度:
其中,C[i,j]表示字符串A的第i个词语和B的第j个词语之前最长公共子序列的长度,ε表示相似度阈值;
在步骤C4中,根据公式(2)计算字符串A和字符串B整体的最大公共子序列的长度LCSL;
在步骤C5中,根据如下公式计算字符串A和字符串B的相似度:
其中,sim(A,B)表示字符串A和B的相似度,LCSL表示字符串A和B的最大公共子序列的长度,L(A)表示字符串A分词后词语的数量,L(B)表示字符串B分词后词语的数量。
图3为本发明一实施例中一种自动化疾病编码装置的框图,如图3所示,该方法可被实施为以下模块:
第一获取模块31,用于获取疾病诊断信息和ICD10扩展版疾病的名称解析信息;
确定模块32,用于确定疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息;
第二获取模块33,用于根据疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息获取疾病诊断信息和ICD10扩展版疾病的名称解析信息的词向量;
计算模块34,用于根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量计算疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度;
生成模块35,用于根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度生成疾病诊断信息的候选编码集。
在一个实施例中,如图4所示,生成模块35,包括:
判断子模块41,用于判断所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度是否大于预设阈值;
保留子模块42,用于当所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度大于预设阈值时保留所述ICD10扩展版疾病的名称解析信息;
删除子模块43,用于当所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度小于预设阈值时删除所述ICD10扩展版疾病的名称解析信息;
生成子模块44,用于根据保留的所述ICD10扩展版疾病的名称解析信息生成所述疾病诊断信息的候选编码集。
在一个实施例中,所述确定模块,包括:
第一获取子模块,用于获取预先构建的医学词典;
分词子模块,用于基于所述医学词典,使用分词工具对所述疾病诊断信息和ICD10扩展版疾病的名称解析信息进行分词以获取所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的语义信息。
在一个实施例中,所述第二获取模块,包括:
第二获取子模块,用于获取预先训练的医学词向量;
向量化子模块,用于根据所述预先训练好的医学词向量对疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息进行向量化,以获得所述疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量。
在一个实施例中,所述计算模块,包括:
第三获取子模块,用于获取疾病诊断信息对应的字符串A和ICD10扩展版疾病的名称解析信息对应的字符串B;
第一计算子模块,用于根据如下公式计算字符串A的第i个词语和字符串B的第j个词语的相似度:
其中,Ai表示字符串A的第i个词语,Bj字符串B的第j个词语,sim(Ai,Bj)表示Ai和Bj的相似度;
第二计算子模块,用于根据如下公式计算字符串A的第i个词语和字符串B的第j个词语之前最长公共子序列的长度:
其中,C[i,j]表示字符串A的第i个词语和B的第j个词语之前最长公共子序列的长度,ε表示相似度阈值;
确定子模块,用于根据公式(2)确定字符串A和B的最大公共子序列的长度LCSL;
第三计算子模块,用于根据如下公式计算字符串A和字符串B的相似度:
其中,sim(A,B)表示字符串A和B的相似度,LCSL表示字符串A和B的最大公共子序列的长度,L(A)表示字符串A分词后词语的数量,L(B)表示字符串B分词后词语的数量。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (4)
1.一种自动化疾病编码转换的方法,其特征在于,包括:
获取疾病诊断信息和ICD10扩展版疾病的名称解析信息;
确定疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息;
根据疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息获取疾病诊断信息和ICD10扩展版疾病的名称解析信息的词向量;
根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量计算疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度;
根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度生成疾病诊断信息的候选编码集;
所述确定疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息,包括:
获取预先构建的医学词典;
使用分词工具对所述疾病诊断信息和ICD10扩展版疾病的名称解析信息进行分词以获取所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的语义信息;
根据疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息获取疾病诊断信息和ICD10扩展版疾病的名称解析信息的词向量,包括:
获取预先训练的医学词向量;
根据所述预先训练好的医学词向量对疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息进行向量化,以获得所述疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量;
根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量计算疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度,包括:
获取疾病诊断信息对应的字符串A和ICD10扩展版疾病的名称解析信息对应的字符串B;
根据如下公式计算字符串A的第i个词语和字符串B的第j个词语的相似度:
其中,Ai表示字符串A的第i个词语,Bj字符串B的第j个词语,sim(Ai,Bj)表示Ai和Bj的相似度;
根据如下公式计算字符串A的第i个词语和字符串B的第j个词语之前最长公共子序列的长度:
其中,C[i,j]表示字符串A的第i个词语和B的第j个词语之前最长公共子序列的长度,ε表示相似度阈值;
根据公式(2)确定字符串A和B的最大公共子序列的长度LCSL;
根据如下公式计算字符串A和字符串B的相似度:
其中,sim(A,B)表示字符串A和B的相似度,LCSL表示字符串A和B的最大公共子序列的长度,L(A)表示字符串A分词后词语的数量,L(B)表示字符串B分词后词语的数量。
2.如权利要求1所述的方法,其特征在于,根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度生成疾病诊断信息的候选编码集,包括:
判断所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度是否大于预设阈值;
当所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度大于预设阈值时保留所述ICD10扩展版疾病的名称解析信息;
当所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度小于预设阈值时删除所述ICD10扩展版疾病的名称解析信息;
根据保留的所述ICD10扩展版疾病的名称解析信息生成所述疾病诊断信息的候选编码集。
3.一种自动化疾病编码转换的装置,其特征在于,包括:
第一获取模块,用于获取疾病诊断信息和ICD10扩展版疾病的名称解析信息;
确定模块,用于确定疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息;
第二获取模块,根据疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息获取疾病诊断信息和ICD10扩展版疾病的名称解析信息的词向量;
计算模块,根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量计算疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度;
生成模块,用于根据所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度生成疾病诊断信息的候选编码集;
所述确定模块,包括:
第一获取子模块,用于获取预先构建的医学词典;
分词子模块,用于基于所述医学词典,使用分词工具对所述疾病诊断信息和ICD10扩展版疾病的名称解析信息进行分词以获取所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的语义信息;
所述第二获取模块,包括:
第二获取子模块,用于获取预先训练的医学词向量;
向量化子模块,用于根据所述预先训练好的医学词向量对疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的语义信息进行向量化,以获得所述疾病诊断信息和ICD10扩展版疾病的名称解析信息各自对应的词向量;
所述计算模块,包括:
第三获取子模块,用于获取疾病诊断信息对应的字符串A和ICD10扩展版疾病的名称解析信息对应的字符串B;
第一计算子模块,用于根据如下公式计算字符串A的第i个词语和字符串B的第j个词语的相似度:
其中,Ai表示字符串A的第i个词语,Bj字符串B的第j个词语,sim(Ai,Bj)表示Ai和Bj的相似度;
第二计算子模块,用于根据如下公式计算字符串A的第i个词语和字符串B的第j个词语之前最长公共子序列的长度:
其中,C[i,j]表示字符串A的第i个词语和B的第j个词语之前最长公共子序列的长度,ε表示相似度阈值;
确定子模块,用于根据公式(2)确定字符串A和B的最大公共子序列的长度LCSL;
第三计算子模块,用于根据如下公式计算字符串A和字符串B的相似度:
其中,sim(A,B)表示字符串A和B的相似度,LCSL表示字符串A和B的最大公共子序列的长度,L(A)表示字符串A分词后词语的数量,L(B)表示字符串B分词后词语的数量。
4.如权利要求3所述的装置,其特征在于,生成模块,包括:
判断子模块,用于判断所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度是否大于预设阈值;
保留子模块,用于当所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度大于预设阈值时保留所述ICD10扩展版疾病的名称解析信息;
删除子模块,用于当所述疾病诊断信息和ICD10扩展版疾病的名称解析信息的相似度小于预设阈值时删除所述ICD10扩展版疾病的名称解析信息;
生成子模块,用于根据保留的所述ICD10扩展版疾病的名称解析信息生成所述疾病诊断信息的候选编码集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910969445.3A CN110852076B (zh) | 2019-10-12 | 2019-10-12 | 一种自动化疾病编码转换的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910969445.3A CN110852076B (zh) | 2019-10-12 | 2019-10-12 | 一种自动化疾病编码转换的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110852076A CN110852076A (zh) | 2020-02-28 |
CN110852076B true CN110852076B (zh) | 2023-05-30 |
Family
ID=69597225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910969445.3A Active CN110852076B (zh) | 2019-10-12 | 2019-10-12 | 一种自动化疾病编码转换的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110852076B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111506673A (zh) * | 2020-03-27 | 2020-08-07 | 泰康保险集团股份有限公司 | 一种病案的分类码确定方法和装置 |
CN112992376A (zh) * | 2021-03-04 | 2021-06-18 | 山东大学 | 基于权重调整的疾病名称匹配方法及系统 |
CN113674824B (zh) * | 2021-07-09 | 2023-12-15 | 中电通商数字技术(上海)有限公司 | 一种基于区域医疗大数据的疾病编码方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069124A (zh) * | 2015-08-13 | 2015-11-18 | 易保互联医疗信息科技(北京)有限公司 | 一种自动化的国际疾病分类编码方法及系统 |
CN105354216A (zh) * | 2015-09-28 | 2016-02-24 | 哈尔滨工业大学 | 一种中文微博话题信息处理方法 |
CN108491718A (zh) * | 2018-02-13 | 2018-09-04 | 北京兰云科技有限公司 | 一种实现信息分类的方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8346754B2 (en) * | 2008-08-19 | 2013-01-01 | Yahoo! Inc. | Generating succinct titles for web URLs |
-
2019
- 2019-10-12 CN CN201910969445.3A patent/CN110852076B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069124A (zh) * | 2015-08-13 | 2015-11-18 | 易保互联医疗信息科技(北京)有限公司 | 一种自动化的国际疾病分类编码方法及系统 |
CN105354216A (zh) * | 2015-09-28 | 2016-02-24 | 哈尔滨工业大学 | 一种中文微博话题信息处理方法 |
CN108491718A (zh) * | 2018-02-13 | 2018-09-04 | 北京兰云科技有限公司 | 一种实现信息分类的方法及装置 |
Non-Patent Citations (2)
Title |
---|
郭武斌 ; 周宽久 ; 苏振魁 ; .基于词序方法的文本相似度计算模型.情报学报.2008,(06),全文. * |
鲍庆升 ; 程绍银 ; 蒋凡 ; .基于文本分析的自动化疾病编码方法.计算机系统应用.2015,(12),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN110852076A (zh) | 2020-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107731269B (zh) | 基于原始诊断数据和病历文件数据的疾病编码方法及系统 | |
CN110491465B (zh) | 基于深度学习的疾病分类编码方法、系统、设备及介质 | |
US11657230B2 (en) | Referring image segmentation | |
CN110032739B (zh) | 中文电子病历命名实体抽取方法及系统 | |
CN107705839B (zh) | 疾病自动编码方法及系统 | |
CN110852076B (zh) | 一种自动化疾病编码转换的方法及装置 | |
CN110532397B (zh) | 基于人工智能的问答方法、装置、计算机设备及存储介质 | |
CN110472049B (zh) | 疾病筛查文本分类方法、计算机设备和可读存储介质 | |
CN111180060B (zh) | 一种疾病诊断自动编码方法及装置 | |
CN112528030A (zh) | 一种用于文本分类的半监督学习方法和系统 | |
US20220067054A1 (en) | Automatically curating existing machine learning projects into a corpus adaptable for use in new machine learning projects | |
CN112800248A (zh) | 相似病例检索方法、装置、计算机设备及存储介质 | |
CN115457982A (zh) | 情感预测模型的预训练优化方法、装置、设备及介质 | |
CN115880317A (zh) | 一种基于多分支特征融合精炼的医学图像分割方法 | |
CN110147851B (zh) | 图像筛选方法、装置、计算机设备及存储介质 | |
CN113435499B (zh) | 标签分类方法、装置、电子设备和存储介质 | |
CN111046659A (zh) | 上下文信息生成方法、上下文信息生成装置及计算机可读记录介质 | |
CN114153995A (zh) | 医学术语的处理方法、装置、计算机设备和存储介质 | |
WO2014130287A1 (en) | Method and system for propagating labels to patient encounter data | |
CN113722507A (zh) | 基于知识图谱的住院费用预测方法、装置及计算机设备 | |
CN112784580A (zh) | 基于事件抽取的金融数据分析方法及装置 | |
CN110866172B (zh) | 一种面向区块链系统的数据分析方法 | |
CN109657710B (zh) | 数据筛选方法、装置、服务器及存储介质 | |
CN112416754B (zh) | 一种模型评测方法、终端、系统及存储介质 | |
CN112686306B (zh) | 基于图神经网络的icd手术分类自动匹配方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |