CN111696635A - 疾病名称标准化方法及装置 - Google Patents

疾病名称标准化方法及装置 Download PDF

Info

Publication number
CN111696635A
CN111696635A CN202010401370.1A CN202010401370A CN111696635A CN 111696635 A CN111696635 A CN 111696635A CN 202010401370 A CN202010401370 A CN 202010401370A CN 111696635 A CN111696635 A CN 111696635A
Authority
CN
China
Prior art keywords
preset
disease name
target
icd standard
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010401370.1A
Other languages
English (en)
Inventor
姚海申
蒋雪涵
徐卓扬
孙行智
胡岗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010401370.1A priority Critical patent/CN111696635A/zh
Priority to PCT/CN2020/099487 priority patent/WO2021114632A1/zh
Publication of CN111696635A publication Critical patent/CN111696635A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Machine Translation (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请涉及人工智能,提供一种疾病名称标准化方法及装置,方法包括:获取目标词典、当前诊断文本和预设ICD标准疾病名称集,基于目标词典,对当前诊断文本进行切词操作,得到待标准化疾病名称,基于预设ICD标准疾病名称集,构建目标字典树;基于目标字典树,将待标准化疾病名称与预设ICD标准疾病名称集中的多个预设ICD标准疾病名称进行匹配,得到多个第一匹配度,当多个第一匹配度中存在满足预设条件的目标第一匹配度时,获取该目标第一匹配度对应的目标预设ICD标准疾病名称,将目标预设ICD标准疾病名称确定为待标准化疾病名称的转换结果,如此,有利于提高转换效率与准确率。此外,本发明还涉及区块链技术,数据可存储于区块链节点中。

Description

疾病名称标准化方法及装置
技术领域
本申请涉及人工智能的疾病名称标准化技术领域,具体涉及一种疾病名称标准化方法及装置。
背景技术
近年来,随着智慧医疗的蓬勃发展,基于大数据的智能医疗技术对数据质量要求越来越高,而诊断疾病名称作为一个重要特征,其在医疗研究领域扮演着重要的角色。但是在医院里不同的医生有不同的书写习惯,对于同一疾病名称往往很难达到统一,如此,如何从病案中快速、有效地提取出医生的诊断疾病名称成为了一个需要解决的问题。
发明内容
本申请实施例提供一种疾病名称标准化方法及装置,有利于提高疾病名称标准化效率。
本申请实施例第一方面提供了一种疾病名称标准化方法,应用于服务器,包括:
获取目标词典、当前诊断文本和预设ICD(international Classification ofdiseases,国际疾病分类)标准疾病名称集,所述预设ICD标准疾病名称集包括多个预设ICD标准疾病名称;
基于所述目标词典,对所述当前诊断文本进行切词操作,得到所述当前诊断文本中包含的待标准化疾病名称;
基于所述预设ICD标准疾病名称集,构建目标字典树;
基于所述目标字典树,将所述待标准化疾病名称与所述预设ICD标准疾病名称集中的所述多个预设ICD标准疾病名称进行匹配,得到多个第一匹配度;
当所述多个第一匹配度中存在满足预设条件的目标第一匹配度时,获取所述目标第一匹配度对应的目标预设ICD标准疾病名称,将所述目标预设ICD标准疾病名称确定为所述待标准化疾病名称的转换结果。
本申请实施例第二方面提供了一种疾病名称标准化装置,应用于服务器,所述装置包括:获取单元、切词单元、构建单元、匹配单元和确定单元,其中,
所述获取单元,用于获取目标词典、当前诊断文本和预设ICD标准疾病名称集,所述预设ICD标准疾病名称集包括多个预设ICD标准疾病名称;
所述切词单元,用于基于所述目标词典,对所述当前诊断文本进行切词操作,得到所述当前诊断文本中包含的待标准化疾病名称;
所述构建单元,用于基于所述预设ICD标准疾病名称集,构建目标字典树;
所述匹配单元,用于基于所述目标字典树,将所述待标准化疾病名称与所述预设ICD标准疾病名称集中的所述多个预设ICD标准疾病名称进行匹配,得到多个第一匹配度;
所述确定单元,用于当所述多个第一匹配度中存在满足预设条件的目标第一匹配度时,获取所述目标第一匹配度对应的目标预设ICD标准疾病名称,将所述目标预设ICD标准疾病名称确定为所述待标准化疾病名称的转换结果。
本申请实施例的第三方面提供一种服务器,所述服务器包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行本申请实施例第一方面所述的方法。
本申请实施例的第四方面提供了一种计算机可读存储介质,包括存储数据区和存储程序区,存储数据区存储根据区块链节点的使用所创建的数据,存储程序区存储有计算机程序,其中,所述计算机程序包括程序指令,所述程序指令当被处理器执行执行如本申请实施例第一方面所描述的部分或全部步骤。
本申请实施例的第五方面提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
实施本申请实施例,至少具有如下有益效果:
通过本申请实施例,应用于服务器,上述方法包括:获取目标词典、当前诊断文本和预设ICD标准疾病名称集,预设ICD标准疾病名称集包括多个预设ICD标准疾病名称,基于目标词典,对当前诊断文本进行切词操作,得到当前诊断文本中包含的待标准化疾病名称,基于预设ICD标准疾病名称集,构建目标字典树,基于目标字典树,将待标准化疾病名称与预设ICD标准疾病名称集中的多个预设ICD标准疾病名称进行匹配,得到多个第一匹配度,当多个第一匹配度中存在满足预设条件的目标第一匹配度时,获取该目标第一匹配度对应的目标预设ICD标准疾病名称,将目标预设ICD标准疾病名称确定为待标准化疾病名称的转换结果,如此,可通过目标词典对当前诊断文本进行切词操作,以减少当前诊断文本中存在的存在的口语化、错别字、漏写、缩写等问题,另外,基于预设ICD标准疾病名称集构建的目标字典树,将多个预设ICD标准疾病名称与待标准化名称进行匹配,以得到转换结构,有利于提高转换效率与准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A为本申请实施例提供了一种疾病名称标准化方法的结构示意图;
图1B为本申请实施例提供了一种疾病名称标准化方法的流程示意图;
图1C为本申请实施例提供了一种待标准化疾病名称的抽取方法的结构示意图;
图1D为为本申请实施例提供了一种目标字典树的结构示意图;
图2为本申请实施例提供了一种疾病名称标准化方法的流程示意图;
图3为本申请实施例提供了一种疾病名称标准化方法的流程示意图;
图4为本申请实施例提供了一种服务器的结构示意图;
图5为本申请实施例提供了一种疾病名称标准化装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
为了能够更好地理解本申请实施例,下面将对应用本申请实施例的方法进行介绍。
本申请实施例中提到的疾病名称标准化系统可以包括但不限于后台服务器、组件服务器、云端服务器、服务系统服务器或软件服务器等,上述仅是举例,而非穷举,包含但不限于上述装置。
请参见图1A,图1A是本申请实施例提供的一种疾病名称标准化方法的结构示意图,可基于该结构示意图,获取目标词典、当前诊断文本和预设ICD标准疾病名称集,预设ICD标准疾病名称集包括多个预设ICD标准疾病名称,然后,可基于目标词典,对当前诊断文本进行切词操作,得到当前诊断文本中包含的待标准化疾病名称,并基于预设ICD标准疾病名称集,构建目标字典树,基于目标字典树,将待标准化疾病名称与预设ICD标准疾病名称集中的多个预设ICD标准疾病名称进行匹配,得到多个第一匹配度,最后,当多个第一匹配度中存在满足预设条件的目标第一匹配度时,获取该目标第一匹配度对应的目标预设ICD标准疾病名称,将目标预设ICD标准疾病名称确定为待标准化疾病名称的转换结果。
可以看出,通过本申请实施例提供的一种疾病名称标准化方法,可通过目标词典对当前诊断文本进行切词操作,以减少当前诊断文本中存在的存在的口语化、错别字、漏写、缩写等问题,另外,基于预设ICD标准疾病名称集构建的目标字典树,将多个预设ICD标准疾病名称与待标准化名称进行匹配,以得到转换结构,有利于提高转换效率与准确率。
请参见图1B,图1B是本申请实施例提供的一种疾病名称标准化方法的流程示意图,应用于服务器,上述方法包括以下步骤:
101、获取目标词典、当前诊断文本和预设ICD标准疾病名称集,所述预设ICD标准疾病名称集包括多个预设ICD标准疾病名称。
其中,本申请实施例可应用于服务器,在该服务器中可包括如图1A所示的疾病名称标准化系统,上述目标词典可由历史病情案例库中存储的多个患者的多个历史病情诊断病例经过数据处理得到,该目标词典中可包括多个历史疾病名称;上述预设ICD标准疾病名称集可由用户自行设置或者系统默认,该预设ICD标准疾病名称集中可包括多个预设ICD标准疾病名称,上述当前诊断文本可指在构建上述任意一个新的病情案例对应的诊断文本或者是需要进行疾病名称标准化的诊断文本,该当前诊断本文中可包括以下至少一种:处方信息、诊断信息、病症描述信息、出院小结信息、医院信息、科室信息、患者信息等等,在此不作限定。
在一种可能的示例中,上述步骤101之前,在获取目标词典之前,还可包括如下步骤:
A1、从历史病情案例库中提取历史诊断文本信息;
A2、对所述历史诊断文本信息进行数据清洗,得到历史疾病名称集;
A3、将所述历史疾病名称集与所述预设ICD标准疾病名称集进行数据处理,得到所述目标词典。
其中,上述历史病情案例库中可存储多个患者的多个历史病情诊断病例,该历史诊断病例中可包括以下至少一种:入院诊断信息和出院诊断信息等等,在此不做限定,另外,入院诊断信息和出院诊断信息中均可包括以下至少一项:处方信息、诊断信息、病症描述信息、出院小结信息、医院信息、科室信息、患者信息等等,在此不作限定;上述处方信息可包括以下至少一种:疾病名称、疾病症状、药物名称、药物剂量等等,在此不做限定。
具体实现中,可从历史病情案例库中提取多个历史案情诊断病例,并从中提取出历史诊断文本信息,在得到历史诊断文本信息以后,可对该历史诊断文本信息根据预设规则进行数据清洗,得到历史疾病名称集,另外,该预设规则可由用户自行设置或者系统默认,在此不做限定,例如,可将上述历史诊断文本信息进行信息剔除,以剔除不需要的字段(例如,非疾病名称的字段),进而,可基于经验知识对上述历史诊断文本信息中的缺失字段进行信息补充或者数据修改,最后,可得到历史疾病名称集,该历史疾病名称集中可包括多个历史病情诊断案例对应的多个疾病名称,进一步地,可将历史疾病名称集与预设ICD标准疾病名称集进行数据处理,如此,可得到扩充以后的目标词典,该目标词典中可包括多个疾病名称,采用预设的预设规则对数据进行清洗,有利于缓解使用规则提取的不准确性和不完整性,另外,抽取得到的疾病名称不需要再进行人工校正,有利于节省人力成本。
在一种可能的示例中,上述步骤A2,对所述历史诊断文本信息进行数据清洗,得到历史疾病名称集,可包括以下步骤:
A21、获取针对多个预设疾病名称的多个预设正则表达式,其中,每一预设疾病名称对应一个预设正则表达式;
A22、将所述历史诊断文本信息分别与所述多个预设正则表达式中的每一预设正则表达式进行匹配,得到多个第二匹配度,每一所述预设正则表达式对应一个第二匹配度;
A23、确定所述多个第二匹配度中超过第一预设阈值的至少一个第二匹配度对应的至少一个预设疾病名称,并将所述至少一个预设疾病名称作为所述疾病名称集。
其中,上述第一预设阈值可为用户自行设置或者系统默认,在此不做限定,服务器中可预先存储多个预设疾病名称,并针对每一预设疾病名称预设一个正则表达式,上述预设正则表达式可由普通字符和元字符组成,该预设正则表达式可体现其对应的预设疾病名称的每一字符之间的逻辑关系,由于上述历史诊断文本信息中可能包含大量的口语化、重复性名称或者一些缩写,错别字的情况,因此,可针对医学名词对应的构词法的特点,预先设置不同的预设正则表达式,例如,可根据实际中对应的疾病名称中包含的分隔符进行制定,如“(%s\s*\d+)|(%s\s*(\s*\d+)”等,如此,可根据预设正则表达式对上述诊断文本信息进行数据清洗,可实现对数据中无意义字符和重复的名称的剔除,以得到包含完整疾病名称的疾病名称集。
在具体实现中,可将历史诊断文本信息分别于每一预设正则表达式进行匹配,以对历史诊断文本信息进行逻辑过滤得到多个第二匹配度,每一预设正则表达式可对应一个第二匹配度,进而,可以从多个第二匹配度中筛选出大于第一预设阈值的至少一个第二匹配度对应的至少一个预设疾病名称,并将该至少一个预设疾病名称作为疾病名称集,如此,可得到完整、可靠的疾病名称集。
在一种可能的示例中,上述步骤A3,将所述历史疾病名称集与所述预设ICD标准疾病名称集进行数据处理,得到目标词典,可包括如下步骤:
A31、将所述疾病名称集与所述预设ICD标准疾病名称集进行合并,得到第一词典,所述第一词典中包括多个第一疾病名称;
A32、对所述多个第一疾病名称进行去重,得到所述目标词典。
其中,上述预设ICD标准疾病名称集可由用户自行设置或者系统默认,该预设ICD标准疾病名称集中可包括多个预设ICD标准疾病名称,该预设ICD标准疾病名称的表示方法可基于多个疾病的某些特征来确定,例如,可按照一定的规则将疾病分门别类,并用编码的方法来表示疾病名称,为了扩充疾病名称对应的词典,更加切合实际的数据,可将上述疾病名称集与预设ICD标准疾病名称集进行数据处理,以得到扩充以后的目标词典,该目标词典中仍旧可包括多个预设ICD标准疾病名称,如此,也有利于提高新的诊断文本(当前诊断文本)的切词的准确率。
具体实现中,可将上述疾病名称集与上述预设ICD标准疾病名称集进行合并,得到第一词典,再将该第一词典中相同的、重复的第一疾病名称进行去重,最终可得到上述目标词典。
如图1C所示,为一种待标准化疾病名称的抽取方法的结构示意图,如图中所示,可从历史病情案例库中提取历史诊断文本信息,对历史诊断文本信息进行数据清洗,得到历史疾病名称集,将历史疾病名称集与预设ICD标准疾病名称集进行数据处理,得到目标词典,获取当前诊断文本,基于目标词典,对当前诊断文本进行切词操作,得到当前诊断文本中包含的待标准化疾病名称,如此,可通过目标词典对当前诊断文本进行切词操作,以减少当前诊断文本中存在的存在的口语化、错别字、漏写、缩写等问题,抽取得到的疾病名称不需要再进行人工矫正,有利于节省人力成本。
102、基于所述目标词典,对所述当前诊断文本进行切词操作,得到所述当前诊断文本中包含的待标准化疾病名称。
其中,由于当前诊断文本中可能存在大量的口语化、重复性名称或者一些缩写名称,因此,可基于由历史病情案例库中的历史诊断信息处理得到的目标词典,对该当前诊断文本进行切词操作,以得到当前诊断文本中包含的待标准化疾病名称,该当前诊断文本可为任意一个新的诊断文本,如此,可基于目标词典,更快的从当前诊断文本中提取出疾病名称,可有效解决使用规则提取的不准确性和不完整性,如此,抽取的疾病名称不需要再进行人工矫正,有利于提高效率。
具体实现中,基于所述目标词典,对所述当前诊断文本进行切词操作,得到所述当前诊断文本中包含的待标准化疾病名称可包括以下步骤:可基于上述目标词典,以目标词典中对应的词为单位进行统计,统计出当前诊断文本中每个词出现的频率,也就是说,当出现当前诊断文本中任意一句待切分的句子时,将所有可能的分词结果统计出来,并将概率最大的分词结果作为上述待标准化疾病名称。
103、基于所述预设ICD标准疾病名称集,构建目标字典树。
其中,上述预设ICD标准疾病名称集中可包括多个预设ICD标准疾病名称,当出现新的诊断文本时,为了便于与目标词典中的文本信息进行匹配,或者查找预设ICD标准疾病名称集中的预设ICD标准疾病名称,服务器可基于上述预设ICD标准疾病名称集,构造目标字典树,该目标字典树可理解为任意一个或多个字符串构建而成的一颗字典树,用于存储上述预设ICD标准疾病名称集中的字符串。
在一种可能的示例中,上述步骤103,基于所述预设ICD标准疾病名称集,构建目标字典树,可包括如下步骤:
31、基于所述预设ICD标准疾病名称集,确定所述预设ICD标准疾病名称集中多个预设ICD标准疾病名称中每一预设ICD标准疾病名称对应的第一序列,得到多个第一序列,其中,每一第一序列中包括至少一个字符;
32、获取预设字典树,所述预设字典树中包括多个节点;
33、遍历所述多个第一序列,将每一所述第一序列与所述预设字典树对应的多个节点进行匹配,得到多个第三匹配度;
34、计算所述多个第三匹配度的均值;
35、若所述均值大于第二预设阈值,则不更新所述预设字典树,将所述预设字典树作为所述目标字典树;
36、若所述均值小于或等于所述第二预设阈值,则更新所述预设字典树,得到所述目标字典树。
其中,上述第二预设阈值可为用户自行设置或者系统默认,在此不做限定,上述预设字典树可由用户自行设置或者系统默认,在此不做限定,该预设字典树可理解为初始字典树,是还没有存储预设ICD标准疾病名称集中的多个字符串的字典树,该预设字典树中可包括多个节点,每一节点可对应一个字符,在构建预设字典树时,可基于国际疾病分类ICD编码来生成,例如,该预设字典树可以是两层结构,第一层是疾病大类,如A00.(霍乱),第二层是大类下包含的疾病名称,如A00.0(典型性霍乱)等等。
具体实现中,可根据预设ICD标准疾病名称集,确定其对应的多个预设ICD标准疾病名称中每一预设ICD标准疾病名称对应的第一序列,得到多个第一序列,其中,每一第一序列中包括至少一个字符,该字符可包括文本字符和特殊字符两类;进而,可基于预设字典树,遍历上述多个第一序列对应的每一第一序列,并将上述多个第一序列逐一与上述预设字典树对应的多个节点进行匹配,若匹配成功,则不更新上述预设字典树,若出现匹配失败的情况,则更新上述预设字典树,得到目标字典树,如此,可一步步的扩充上述预设字典树,以将预设ICD标准疾病名称集转换为目标字典树,有利于提高后续疾病名称标准化的效率,需要说明的是,也可预先基于预设的ICD标准疾病名称集,构建目标字典树,如此,在服务器获取到当前诊断文本时,可直接基于目标字典树,施行后续疾病名称标准化的步骤。
进一步地,在遍历多个第一序列中每一序列时,可得到多个第三匹配度,可计算多个第三匹配度的均值,若该均值大于第二预设阈值,则认为匹配成功,不更新上述预设字典树,反之,若该均值小于或是等于第二预设阈值,则认为匹配失败,则可更新上述预设字典树,得到目标字典树。
另外,也可在遍历的过程中进行逐步更新预设字典树的步骤,服务器中可预设第三预设阈值,该第三预设阈值可由用户自行设置或者系统默认,若出现第三匹配度大于第三预设阈值的情况,则可认为其对应的第一序列与预设字典树中的节点匹配成功,也就是出现匹配成功的情况,则不更新该预设字典树,若出现第三匹配度小于或等于第三预设阈值的情况,则可认为其对应的第一序列与预设字典树中的节点匹配失败,则可基于其对应的第一节点更新该预设字典树,如此,逐步遍历上述第一序列,并循环采用上述方法,可逐步更新上述预设字典树,以得到目标字典树。
在一种可能的示例中,上述步骤36,更新所述预设字典树,得到目标字典树,可包括如下步骤:
361、基于所述预设字典树,确定所述预设字典树中所述多个节点对应的初始映射;
362、若第一序列i中对应有字符i不存在于所述初始映射中,则重新添加一个映射i,在所述映射i中保存所述字符i,更新所述初始映射为所述映射i,其中,所述第一序列i为所述多个第一序列中任意一个,所述字符i为所述第一序列中任意一个字符;
363、基于所述映射i,更新所述预设字典树为所述目标字典树。
其中,由于上述步骤是基于多个第一序列所对应的多个第三匹配度的均值进行判定需不需要对预设字典树进行更新,并不明确具体需要更新预设字典树的哪一个节点,因此,在更新时,可基于每一第一序列进行判断,以逐步的更新上述预设字典树,如此,有利于提高构建出目标字典树的准确率。
具体实现中,服务器可基于上述预设字典树,确定该预设字典树对应的初始映射,该初始映射可为上述预设字典树对应的初始路径,该初始路径表明了上述预设字典树中每两两节点之间的映射关系,也体现了预设字典树中每一节点与其所对应存储的信息之间的映射关系;若存在第一序列i中对应的任意一个字符i不存在于上述多个节点对应的初始映射中的情况,则基于上述初始映射,重新添加一个映射i,用于保存该字符i,此时,该预设字典树更新为第一字典树,以此同时,基于映射i,可将上述初始映射也更新为包括上述映射i的第一映射,其中,上述字符i为上述第一序列中任意一个字符,上述第一序列i为多个第一序列中任意一个,如此,可针对第一序列中的其他字符,重复上述步骤,以逐步更新第一映射,最后,可针对所有的第一序列执行上述步骤,以对第一映射进行逐步的更新,当所有第一序列中的字符全部遍历完以后,可得到目标字典树。
如下图1D所示,为一种目标字典树的结构示意图,该目标字典树可基于预设ICD标准疾病名称集构建而成,如图所示,可根据预设ICD标准疾病名称“阿米巴性肠炎”、“阿米巴病”、“阿米巴性痢疾”、“阿狄森氏病”及“阿尔茨海默病”等预设ICD标准疾病名称构建如图所示的目标字典树,实心圆圈表示的是一个疾病名称路径的终点节点。
104、基于所述目标字典树,将所述待标准化疾病名称与所述预设ICD标准疾病名称集中的所述多个预设ICD标准疾病名称进行匹配,得到多个第一匹配度。
其中,在得到待标准化疾病名称以后,可基于上述目标字典树,对该待标准化疾病名称进行匹配查找,以得到待标准化疾病名称对应的ICD标准疾病名称,也就是说,可将待标准化疾病名称与预设ICD标准疾病名称集中的多个预设ICD标准疾病名称进行匹配,得到多个第一匹配度,可基于多个第一匹配度,得到待标准化疾病名称的转换结果。
在一种可能的示例中,上述步骤104,将所述待标准化疾病名称与所述预设ICD标准疾病名称集中的所述多个预设ICD标准疾病名称进行匹配,得到多个第一匹配度,可包括如下步骤:
41、确定所述目标字典树对应的目标映射表,所述目标映射表中多个预设路径,所述目标字典树中每一疾病名称对应一个预设路径;
42、基于所述目标字典树,从字符j开始,依据所述目标字典树对应的头节点依次向下查找,得到待匹配路径j以及所述待匹配路径在所述目标映射表中对应的预设路径j,其中,所述字符j为所述待标准化疾病名称中第一个字符;
43、将所述待匹配路径j与所述预设路径j进行匹配,得到所述字符j的第一匹配度j。
其中,服务器可确定目标字典树对应的目标映射表,该目标映射表中可包括目标字典树中每一疾病名称对应的预设路径,进而,可基于目标字典树,从待标准化疾病名称的第一个字符j开始,从上述目标字典树对应的头节点依次向下查找,得到待匹配路径j以及待匹配路径在映射表中对应的预设路径j,将待匹配路径j与该预设路径j进行匹配,得到第一匹配度,如此,直到该待标准化疾病名称对应的每一字符在上述目标字典树对应的每一路径循环完毕,得到多个第一匹配度。
105、当所述多个第一匹配度中存在满足预设条件的目标第一匹配度时,获取该目标第一匹配度对应的目标预设ICD标准疾病名称,将所述目标预设ICD标准疾病名称确定为所述待标准化疾病名称的转换结果。
其中,上述预设条件可为用户自行设置或者系统默认,在此不做限定,例如,可设置当第一匹配度为100%时,则可确定其匹配成功,则可确定匹配成功时,确定满足预设条件的目标第一匹配度对应的预设ICD标准疾病名称为待标准化疾病名称的转换结果,否则匹配失败。
可选地,若上述基于上述目标字典树,将待标准化疾病名称与上述预设ICD标准疾病名称集中的多个预设ICD标准疾病名称进行匹配时,若上述待标准化疾病名称对应的字符无法在上述目标字典树中完全匹配,也就是不满足上述预设条件时,服务器可基于目标字典树的路径相似度和语义相似度,将待标准化疾病名称与上述预设ICD标准疾病名称集中的多个预设ICD标准疾病名称进行匹配,以得到待标准化疾病名称的转换结果,如此,可在上述待标准化疾病名称对应的字符在上述目标字典树中不完全匹配时,仍然能够实现上述待标准化疾病名称的转换,有利于提高匹配的准确率。
具体实现中,上述目标字典树可包括根节点,则可确定上述待标准化疾病名称对应的第二序列;以上述目标字典树对应的根节点为起始点开始遍历,得到上述第二序列在上述目标字典树中匹配得到的多个第二路径;计算上述多个第二路径分别对应的语义相似度,得到多个语义相似度;选取上述多个语义相似度中的最大值对应第二路径为目标路径;确定该目标路径在上述目标字典树中对应的字符为上述待标准化疾病名称的转换结果。
其中,上述计算多个第二路径分别对应的语义相似度可采用以下公式:
X=a×X1+b×X2
Figure BDA0002489603780000121
其中,wi=(a1,a2,…,an),wj=(b1,b2,…,bn),n为词向量维度。上述X1表示每一第二路径对应的路径长度,也可以理解为每一次遍历的深度,上述a、b分别为实数,可通过调节a和b的值调整X1和X2在计算语义相似度时的权重。
此外,在以上述目标字典树对应的根节点为起始点开始遍历,得到上述第二序列在上述目标字典树中匹配得到的多个第二路径时,可包括以下步骤:以根节点为起始点,选取一条路径m(m为正整数)为当前子树,该路径m为以根节点为起始点的任意一个路径;在该当前子树对应的任意一层中查找上述待标准化疾病名称对应的第一个字符,若该字符被查找到,则在上述任意一层的下一层查找上述待标准化疾病名称对应的第二个字符,如此,重复查找上述待标准化疾病名称对应的第三个字符,若上述当前子树中未查找到,则选取除该路径m以外的另外一条路径重复上述步骤进行遍历,如此,可得到多个第二路径,该第二路径中可完全包括或者不可完全包括上述待标准化疾病名称对应的所有字符,如此,通过上述方法将路径相似度和语义相似度相结合的匹配方法,有利于提高匹配的准确率,以快速将待标准化疾病名称转换为标准化疾病名称。
可以看出,本申请实施例中所描述的疾病名称标准化方法,应用于服务器,本发明可应用于智慧医疗领域中,从而推动智慧城市的建设。上述方法包括:获取目标词典、当前诊断文本和预设ICD标准疾病名称集,预设ICD标准疾病名称集包括多个预设ICD标准疾病名称,基于目标词典,对当前诊断文本进行切词操作,得到当前诊断文本中包含的待标准化疾病名称,基于预设ICD标准疾病名称集,构建目标字典树,基于目标字典树,将待标准化疾病名称与预设ICD标准疾病名称集中的多个预设ICD标准疾病名称进行匹配,得到多个第一匹配度,当多个第一匹配度中存在满足预设条件的目标第一匹配度时,获取该目标第一匹配度对应的目标预设ICD标准疾病名称,将目标预设ICD标准疾病名称确定为待标准化疾病名称的转换结果,如此,可通过目标词典对当前诊断文本进行切词操作,以减少当前诊断文本中存在的存在的口语化、错别字、漏写、缩写等问题,另外,基于预设ICD标准疾病名称集构建的目标字典树,将多个预设ICD标准疾病名称与待标准化名称进行匹配,以得到转换结构,有利于提高转换效率与准确率。
与上述一致地,请参阅图2,图2是本申请实施例公开的一种疾病名称标准化方法的流程示例图,应用于服务器,该疾病名称标准化方法可包括如下步骤:
201、获取预设ICD标准疾病名称集,所述预设ICD标准疾病名称集包括多个预设ICD标准疾病名称。
202、从历史病情案例库中提取历史诊断文本信息。
203、对所述历史诊断文本信息进行数据清洗,得到历史疾病名称集。
204、将所述历史疾病名称集与所述预设ICD标准疾病名称集进行数据处理,得到所述目标词典。
205、获取当前诊断文本。
206、基于所述目标词典,对所述当前诊断文本进行切词操作,得到所述当前诊断文本中包含的待标准化疾病名称。
207、基于所述预设ICD标准疾病名称集,构建目标字典树。
208、基于所述目标字典树,将所述待标准化疾病名称与所述预设ICD标准疾病名称集中的所述多个预设ICD标准疾病名称进行匹配,得到多个第一匹配度。
209、当所述多个第一匹配度中存在满足预设条件的目标第一匹配度时,获取所述目标第一匹配度对应的目标预设ICD标准疾病名称,将所述目标预设ICD标准疾病名称确定为所述待标准化疾病名称的转换结果。
其中,上述步骤201-步骤209所描述的疾病名称标准化方法可参考图1B所描述的疾病名称标准化方法的对应步骤。
可以看出,本申请实施例所描述的疾病名称标准化方法,获取预设ICD标准疾病名称集,预设ICD标准疾病名称集包括多个预设ICD标准疾病名称,从历史病情案例库中提取历史诊断文本信息,对历史诊断文本信息进行数据清洗,得到历史疾病名称集,将历史疾病名称集与预设ICD标准疾病名称集进行数据处理,得到目标词典,获取当前诊断文本,基于目标词典,对当前诊断文本进行切词操作,得到当前诊断文本中包含的待标准化疾病名称,基于预设ICD标准疾病名称集,构建目标字典树,基于目标字典树,将待标准化疾病名称与预设ICD标准疾病名称集中的多个预设ICD标准疾病名称进行匹配,得到多个第一匹配度,当多个第一匹配度中存在满足预设条件的目标第一匹配度时,获取该目标第一匹配度对应的目标预设ICD标准疾病名称,将目标预设ICD标准疾病名称确定为待标准化疾病名称的转换结果,如此,可将历史病情库中的历史诊断文本经过一系列处理得到更切合实际应用的扩充以后的目标词典,并通过该目标词典对当前诊断文本进行切词操作,以减少当前诊断文本中存在的存在的口语化、错别字、漏写、缩写等问题,另外,基于预设ICD标准疾病名称集构建的目标字典树,将多个预设ICD标准疾病名称与待标准化名称进行匹配,以得到转换结构,有利于提高转换效率与准确率。
与上述一致地,请参阅图3,图3是本申请实施例公开的一种疾病名称标准化方法的流程示例图,应用于服务器,该疾病名称标准化方法可包括如下步骤:
301、获取目标词典、当前诊断文本和预设ICD标准疾病名称集,所述预设ICD标准疾病名称集包括多个预设ICD标准疾病名称;
302、基于所述目标词典,对所述当前诊断文本进行切词操作,得到所述当前诊断文本中包含的待标准化疾病名称。
303、基于所述预设ICD标准疾病名称集,确定所述预设ICD标准疾病名称集中多个预设ICD标准疾病名称中每一预设ICD标准疾病名称对应的第一序列,得到多个第一序列,其中,每一第一序列中包括至少一个字符。
304、获取预设字典树,所述预设字典树中包括多个节点。
305、遍历所述多个第一序列,将每一所述第一序列与所述预设字典树对应的多个节点进行匹配,得到多个第三匹配度。
306、计算所述多个第三匹配度的均值。
307、若所述均值大于第二预设阈值,则不更新所述预设字典树,将所述预设字典树作为所述目标字典树。
308、若所述均值小于或等于所述第二预设阈值,则更新所述预设字典树,得到所述目标字典树。
309、基于所述目标字典树,将所述待标准化疾病名称与所述预设ICD标准疾病名称集中的所述多个预设ICD标准疾病名称进行匹配,得到多个第一匹配度。
310、当所述多个第一匹配度中存在满足预设条件的目标第一匹配度时,获取所述目标第一匹配度对应的目标预设ICD标准疾病名称,将所述目标预设ICD标准疾病名称确定为所述待标准化疾病名称的转换结果。
其中,上述步骤301-步骤310所描述的疾病名称标准化方法可参考图1B所描述的疾病名称标准化方法的对应步骤。
可以看出,本申请实施例所描述的疾病名称标准化方法,服务器可获取目标词典、当前诊断文本和预设ICD标准疾病名称集,预设ICD标准疾病名称集包括多个预设ICD标准疾病名称,基于目标词典,对当前诊断文本进行切词操作,得到当前诊断文本中包含的待标准化疾病名称,基于预设ICD标准疾病名称集,确定预设ICD标准疾病名称集中多个预设ICD标准疾病名称中每一预设ICD标准疾病名称对应的第一序列,得到多个第一序列,其中,每一第一序列中包括至少一个字符,获取预设字典树,预设字典树中包括多个节点,遍历多个第一序列,将每一第一序列与预设字典树对应的多个节点进行匹配,得到多个第三匹配度,计算多个第三匹配度的均值,若均值大于第二预设阈值,则不更新预设字典树,将预设字典树作为目标字典树,若均值小于或等于第二预设阈值,则更新预设字典树,得到目标字典树,基于目标字典树,将待标准化疾病名称与预设ICD标准疾病名称集中的多个预设ICD标准疾病名称进行匹配,得到多个第一匹配度,当多个第一匹配度中存在满足预设条件的目标第一匹配度时,获取该目标第一匹配度对应的目标预设ICD标准疾病名称,将目标预设ICD标准疾病名称确定为待标准化疾病名称的转换结果,如此,可通过目标词典对当前诊断文本进行切词操作,以减少当前诊断文本中存在的存在的口语化、错别字、漏写、缩写等问题,并通过对国际标准下的预设预设ICD标准疾病名称集进行处理,得到目标字典树,基于该目标字典树,对待标准化疾病名称进行处理,得到该待标准化疾病名称的转换结果,有利于提高转换准确率。
与上述一致地,请参阅图4,图4为本申请实施例提供的一种服务器的结构示意图,如图4所示,包括处理器、通信接口、存储器以及一个或多个程序,所述处理器、通信接口和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,上述一个或多个程序程序包括用于执行以下步骤的指令:
获取目标词典、当前诊断文本和预设ICD标准疾病名称集,所述预设ICD标准疾病名称集包括多个预设ICD标准疾病名称;
基于所述目标词典,对所述当前诊断文本进行切词操作,得到所述当前诊断文本中包含的待标准化疾病名称;
基于所述预设ICD标准疾病名称集,构建目标字典树;
基于所述目标字典树,将所述待标准化疾病名称与所述预设ICD标准疾病名称集中的所述多个预设ICD标准疾病名称进行匹配,得到多个第一匹配度;
当所述多个第一匹配度中存在满足预设条件的目标第一匹配度时,获取所述目标第一匹配度对应的目标预设ICD标准疾病名称,将所述目标预设ICD标准疾病名称确定为所述待标准化疾病名称的转换结果。
可以看出,本申请实施例中所描述的服务器,该服务器可获取目标词典、当前诊断文本和预设ICD标准疾病名称集,预设ICD标准疾病名称集包括多个预设ICD标准疾病名称,基于目标词典,对当前诊断文本进行切词操作,得到当前诊断文本中包含的待标准化疾病名称,基于预设ICD标准疾病名称集,构建目标字典树,基于目标字典树,将待标准化疾病名称与预设ICD标准疾病名称集中的多个预设ICD标准疾病名称进行匹配,得到多个第一匹配度,当多个第一匹配度中存在满足预设条件的目标第一匹配度时,获取该目标第一匹配度对应的目标预设ICD标准疾病名称,将目标预设ICD标准疾病名称确定为待标准化疾病名称的转换结果,如此,可通过目标词典对当前诊断文本进行切词操作,以减少当前诊断文本中存在的存在的口语化、错别字、漏写、缩写等问题,另外,基于预设ICD标准疾病名称集构建的目标字典树,将多个预设ICD标准疾病名称与待标准化名称进行匹配,以得到转换结构,有利于提高转换效率与准确率。
在一种可能的示例中,在所述获取目标词典之前,上述处理器具体还用于:
从历史病情案例库中提取历史诊断文本信息;
对所述历史诊断文本信息进行数据清洗,得到历史疾病名称集;
将所述历史疾病名称集与所述预设ICD标准疾病名称集进行数据处理,得到所述目标词典。
在一个可能的示例中,在所述对所述历史诊断文本信息进行数据清洗,得到历史疾病名称集方面,上述处理器具体用于:
获取针对多个预设疾病名称的多个预设正则表达式,其中,每一预设疾病名称对应一个预设正则表达式;
将所述历史诊断文本信息分别与所述多个预设正则表达式中的每一预设正则表达式进行匹配,得到多个第二匹配度,每一所述预设正则表达式对应一个第二匹配度;
确定所述多个第二匹配度中超过第一预设阈值的至少一个第二匹配度对应的至少一个预设疾病名称,并将所述至少一个预设疾病名称作为所述疾病名称集。
在一个可能的示例中,在所述将所述历史疾病名称集与所述预设ICD标准疾病名称集进行数据处理,得到目标词典方面,上述处理器具体用于:
将所述疾病名称集与所述预设ICD标准疾病名称集进行合并,得到第一词典,所述第一词典中包括多个第一疾病名称;
对所述多个第一疾病名称进行去重,得到所述目标词典。
在一个可能的示例中,在所述基于所述预设ICD标准疾病名称集,构建目标字典树方面,上述处理器具体用于:
基于所述预设ICD标准疾病名称集,确定所述预设ICD标准疾病名称集中多个预设ICD标准疾病名称中每一预设ICD标准疾病名称对应的第一序列,得到多个第一序列,其中,每一第一序列中包括至少一个字符;
获取预设字典树,所述预设字典树中包括多个节点;
遍历所述多个第一序列,将每一所述第一序列与所述预设字典树对应的多个节点进行匹配,得到多个第三匹配度;
计算所述多个第三匹配度的均值;
若所述均值大于第二预设阈值,则不更新所述预设字典树,将所述预设字典树作为所述目标字典树;
若所述均值小于或等于所述第二预设阈值,则更新所述预设字典树,得到所述目标字典树。
在一个可能的示例中,在所述更新所述预设字典树,得到目标字典树方面,上述处理器具体用于:
基于所述预设字典树,确定所述预设字典树中所述多个节点对应的初始映射;
若第一序列i中对应有字符i不存在于所述初始映射中,则重新添加一个映射i,在所述映射i中保存所述字符i,其中,所述第一序列i为所述多个第一序列中任意一个,所述字符i为所述第一序列中任意一个字符,i为正整数;
基于所述映射i,更新所述预设字典树为所述目标字典树。
在一个可能的示例中,在所述将所述待标准化疾病名称与所述预设ICD标准疾病名称集中的所述多个预设ICD标准疾病名称进行匹配,得到多个第一匹配度方面,上述处理器具体用于:
确定所述目标字典树对应的目标映射表,所述目标映射表中多个预设路径,所述目标字典树中每一疾病名称对应一个预设路径;
基于所述目标字典树,从字符j开始,依据所述目标字典树对应的头节点依次向下查找,得到待匹配路径j以及所述待匹配路径在所述目标映射表中对应的预设路径j,其中,所述字符j为所述待标准化疾病名称中第一个字符;
将所述待匹配路径j与所述预设路径j进行匹配,得到所述字符j的第一匹配度j。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,服务器为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对服务器进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
与上述一致地,请参阅图5,图5是本申请实施例公开的一种疾病名称标准化装置的结构示意图,应用于服务器,该装置包括:获取单元501、切词单元502、构建单元503、匹配单元504和确定单元505,其中,
所述获取单元501,用于获取目标词典、当前诊断文本和预设ICD标准疾病名称集,所述预设ICD标准疾病名称集包括多个预设ICD标准疾病名称;
所述切词单元502,用于基于所述目标词典,对所述当前诊断文本进行切词操作,得到所述当前诊断文本中包含的待标准化疾病名称;
所述构建单元503,用于基于所述预设ICD标准疾病名称集,构建目标字典树;
所述匹配单元504,用于基于所述目标字典树,将所述待标准化疾病名称与所述预设ICD标准疾病名称集中的所述多个预设ICD标准疾病名称进行匹配,得到多个第一匹配度;
所述确定单元505,用于当所述多个第一匹配度中存在满足预设条件的目标第一匹配度时,获取所述目标第一匹配度对应的目标预设ICD标准疾病名称,将所述目标预设ICD标准疾病名称确定为所述待标准化疾病名称的转换结果。
可以看出,本申请实施例中所描述的疾病名称标准化装置,应用于服务器,该装置可获取目标词典、当前诊断文本和预设ICD标准疾病名称集,预设ICD标准疾病名称集包括多个预设ICD标准疾病名称,基于目标词典,对当前诊断文本进行切词操作,得到当前诊断文本中包含的待标准化疾病名称,基于预设ICD标准疾病名称集,构建目标字典树,基于目标字典树,将待标准化疾病名称与预设ICD标准疾病名称集中的多个预设ICD标准疾病名称进行匹配,得到多个第一匹配度,当多个第一匹配度中存在满足预设条件的目标第一匹配度时,获取该目标第一匹配度对应的目标预设ICD标准疾病名称,将目标预设ICD标准疾病名称确定为待标准化疾病名称的转换结果,如此,可通过目标词典对当前诊断文本进行切词操作,以减少当前诊断文本中存在的存在的口语化、错别字、漏写、缩写等问题,另外,基于预设ICD标准疾病名称集构建的目标字典树,将多个预设ICD标准疾病名称与待标准化名称进行匹配,以得到转换结构,有利于提高转换效率与准确率。
在一个可能的示例中,在所述基于所述预设ICD标准疾病名称集,构建目标字典树方面,上述构建单元503具体用于:
基于所述预设ICD标准疾病名称集,确定所述预设ICD标准疾病名称集中多个预设ICD标准疾病名称中每一预设ICD标准疾病名称对应的第一序列,得到多个第一序列,其中,每一第一序列中包括至少一个字符;
获取预设字典树,所述预设字典树中包括多个节点;
遍历所述多个第一序列,将每一所述第一序列与所述预设字典树对应的多个节点进行匹配,得到多个第三匹配度;
计算所述多个第三匹配度的均值;
若所述均值大于第二预设阈值,则不更新所述预设字典树,将所述预设字典树作为所述目标字典树;
若所述均值小于或等于所述第二预设阈值,则更新所述预设字典树,得到所述目标字典树。
在一个可能的示例中,在所述更新所述预设字典树,得到目标字典树方面,上述构建单元503具体还用于:
基于所述预设字典树,确定所述预设字典树中所述多个节点对应的初始映射;
若第一序列i中对应有字符i不存在于所述初始映射中,则重新添加一个映射i,在所述映射i中保存所述字符i,其中,所述第一序列i为所述多个第一序列中任意一个,所述字符i为所述第一序列中任意一个字符,i为正整数;
基于所述映射i,更新所述预设字典树为所述目标字典树。
在一个可能的示例中,在所述将所述待标准化疾病名称与所述预设ICD标准疾病名称集中的所述多个预设ICD标准疾病名称进行匹配,得到多个第一匹配度方面,上述匹配单元504具体用于:
确定所述目标字典树对应的目标映射表,所述目标映射表中多个预设路径,所述目标字典树中每一疾病名称对应一个预设路径;
基于所述目标字典树,从字符j开始,依据所述目标字典树对应的头节点依次向下查找,得到待匹配路径j以及所述待匹配路径在所述目标映射表中对应的预设路径j,其中,所述字符j为所述待标准化疾病名称中第一个字符;
将所述待匹配路径j与所述预设路径j进行匹配,得到所述字符j的第一匹配度j。
本申请实施例还提供一种计算机可读存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种疾病名称标准化方法的部分或全部步骤。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种疾病名称标准化方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种疾病名称标准化方法,其特征在于,应用于服务器,包括:
获取目标词典、当前诊断文本和预设ICD标准疾病名称集,所述预设ICD标准疾病名称集包括多个预设ICD标准疾病名称;
基于所述目标词典,对所述当前诊断文本进行切词操作,得到所述当前诊断文本中包含的待标准化疾病名称;
基于所述预设ICD标准疾病名称集,构建目标字典树;
基于所述目标字典树,将所述待标准化疾病名称与所述预设ICD标准疾病名称集中的所述多个预设ICD标准疾病名称进行匹配,得到多个第一匹配度;
当所述多个第一匹配度中存在满足预设条件的目标第一匹配度时,获取所述目标第一匹配度对应的目标预设ICD标准疾病名称,将所述目标预设ICD标准疾病名称确定为所述待标准化疾病名称的转换结果。
2.根据权利要求1所述的方法,其特征在于,在所述获取目标词典之前,所述方法还包括:
从历史病情案例库中提取历史诊断文本信息;
对所述历史诊断文本信息进行数据清洗,得到历史疾病名称集;
将所述历史疾病名称集与所述预设ICD标准疾病名称集进行数据处理,得到所述目标词典。
3.根据权利要求2所述的方法,其特征在于,所述对所述历史诊断文本信息进行数据清洗,得到历史疾病名称集,包括:
获取针对多个预设疾病名称的多个预设正则表达式,其中,每一预设疾病名称对应一个预设正则表达式;
将所述历史诊断文本信息分别与所述多个预设正则表达式中的每一预设正则表达式进行匹配,得到多个第二匹配度,每一所述预设正则表达式对应一个第二匹配度;
确定所述多个第二匹配度中超过第一预设阈值的至少一个第二匹配度对应的至少一个预设疾病名称,并将所述至少一个预设疾病名称作为所述疾病名称集。
4.根据权利要求2或3所述的方法,其特征在于,所述将所述历史疾病名称集与所述预设ICD标准疾病名称集进行数据处理,得到目标词典,包括:
将所述疾病名称集与所述预设ICD标准疾病名称集进行合并,得到第一词典,所述第一词典中包括多个第一疾病名称;
对所述多个第一疾病名称进行去重,得到所述目标词典。
5.根据权利要求1所述的方法,其特征在于,所述基于所述预设ICD标准疾病名称集,构建目标字典树,包括:
基于所述预设ICD标准疾病名称集,确定所述预设ICD标准疾病名称集中多个预设ICD标准疾病名称中每一预设ICD标准疾病名称对应的第一序列,得到多个第一序列,其中,每一第一序列中包括至少一个字符;
获取预设字典树,所述预设字典树中包括多个节点;
遍历所述多个第一序列,将每一所述第一序列与所述预设字典树对应的多个节点进行匹配,得到多个第三匹配度;
计算所述多个第三匹配度的均值;
若所述均值大于第二预设阈值,则不更新所述预设字典树,将所述预设字典树作为所述目标字典树;
若所述均值小于或等于所述第二预设阈值,则更新所述预设字典树,得到所述目标字典树。
6.根据权利要求5所述的方法,其特征在于,所述更新所述预设字典树,得到目标字典树,包括:
基于所述预设字典树,确定所述预设字典树中所述多个节点对应的初始映射;
若第一序列i中对应有字符i不存在于所述初始映射中,则重新添加一个映射i,在所述映射i中保存所述字符i,其中,所述第一序列i为所述多个第一序列中任意一个,所述字符i为所述第一序列中任意一个字符,i为正整数;
基于所述映射i,更新所述预设字典树为所述目标字典树。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述将所述待标准化疾病名称与所述预设ICD标准疾病名称集中的所述多个预设ICD标准疾病名称进行匹配,得到多个第一匹配度,包括:
确定所述目标字典树对应的目标映射表,所述目标映射表中多个预设路径,所述目标字典树中每一疾病名称对应一个预设路径;
基于所述目标字典树,从字符j开始,依据所述目标字典树对应的头节点依次向下查找,得到待匹配路径j以及所述待匹配路径在所述目标映射表中对应的预设路径j,其中,所述字符j为所述待标准化疾病名称中第一个字符;
将所述待匹配路径j与所述预设路径j进行匹配,得到所述字符j的第一匹配度j。
8.一种疾病名称标准化装置,其特征在于,应用于服务器,所述装置包括:获取单元、切词单元、构建单元、匹配单元和确定单元,其中,
所述获取单元,用于获取目标词典、当前诊断文本和预设ICD标准疾病名称集,所述预设ICD标准疾病名称集包括多个预设ICD标准疾病名称;
所述切词单元,用于基于所述目标词典,对所述当前诊断文本进行切词操作,得到所述当前诊断文本中包含的待标准化疾病名称;
所述构建单元,用于基于所述预设ICD标准疾病名称集,构建目标字典树;
所述匹配单元,用于基于所述目标字典树,将所述待标准化疾病名称与所述预设ICD标准疾病名称集中的所述多个预设ICD标准疾病名称进行匹配,得到多个第一匹配度;
所述确定单元,用于当所述多个第一匹配度中存在满足预设条件的目标第一匹配度时,获取所述目标第一匹配度对应的目标预设ICD标准疾病名称,将所述目标预设ICD标准疾病名称确定为所述待标准化疾病名称的转换结果。
9.一种服务器,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,包括存储数据区和存储程序区,存储数据区存储根据区块链节点的使用所创建的数据,存储程序区存储有计算机程序,其特征在于,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
CN202010401370.1A 2020-05-13 2020-05-13 疾病名称标准化方法及装置 Pending CN111696635A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010401370.1A CN111696635A (zh) 2020-05-13 2020-05-13 疾病名称标准化方法及装置
PCT/CN2020/099487 WO2021114632A1 (zh) 2020-05-13 2020-06-30 疾病名称标准化方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010401370.1A CN111696635A (zh) 2020-05-13 2020-05-13 疾病名称标准化方法及装置

Publications (1)

Publication Number Publication Date
CN111696635A true CN111696635A (zh) 2020-09-22

Family

ID=72477704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010401370.1A Pending CN111696635A (zh) 2020-05-13 2020-05-13 疾病名称标准化方法及装置

Country Status (2)

Country Link
CN (1) CN111696635A (zh)
WO (1) WO2021114632A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131339A (zh) * 2020-09-28 2020-12-25 上海梅斯医药科技有限公司 名称标准化规范处理方法、装置、计算机及存储介质
CN112527970A (zh) * 2020-12-24 2021-03-19 上海浦东发展银行股份有限公司 数据字典标准化处理方法、装置、设备及存储介质
CN112786206A (zh) * 2021-01-28 2021-05-11 山东众阳健康科技集团有限公司 用于医疗机构信息标准化的数据处理方法及系统
CN112836055A (zh) * 2021-03-12 2021-05-25 云知声智能科技股份有限公司 一种临床术语标准化的数量预测方法及装置
CN113823404A (zh) * 2021-08-26 2021-12-21 山东健康医疗大数据有限公司 基于医疗大数据的专病建设医疗术语标准化的方法
CN113987113A (zh) * 2021-06-25 2022-01-28 四川大学 一种多站点定名服务融合方法、装置、存储介质及服务器
CN114358001A (zh) * 2021-11-16 2022-04-15 安徽科大讯飞医疗信息技术有限公司 诊断结果的标准化方法及其相关装置、设备和存储介质
CN114708603A (zh) * 2022-05-25 2022-07-05 杭州咏柳科技有限公司 对医疗票据中关键信息的识别方法、系统、设备和介质
CN116361517A (zh) * 2023-05-29 2023-06-30 北京拓普丰联信息科技股份有限公司 一种企业字号查重方法、装置、设备和介质
CN116562271A (zh) * 2023-07-10 2023-08-08 之江实验室 一种电子病历的质控方法、装置、存储介质及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095665A (zh) * 2015-08-13 2015-11-25 易保互联医疗信息科技(北京)有限公司 一种中文疾病诊断信息的自然语言处理方法及系统
CN106919793A (zh) * 2017-02-24 2017-07-04 黑龙江特士信息技术有限公司 一种医疗大数据的数据标准化处理方法及装置
CN108021553A (zh) * 2017-09-30 2018-05-11 北京颐圣智能科技有限公司 疾病术语的词处理方法、装置及计算机设备
CN108922633A (zh) * 2018-06-22 2018-11-30 北京海德康健信息科技有限公司 一种疾病名称标准化规范方法及规范系统
CN109033080A (zh) * 2018-07-12 2018-12-18 上海金仕达卫宁软件科技有限公司 基于概率转移矩阵的医疗术语标准化方法及系统
CN110851595A (zh) * 2019-10-08 2020-02-28 云知声智能科技股份有限公司 一种疾病术语核心词汇的标识方法及装置
WO2020052162A1 (zh) * 2018-09-10 2020-03-19 平安科技(深圳)有限公司 疾病数据映射方法、装置、计算机设备和存储介质
CN111078639A (zh) * 2019-12-03 2020-04-28 望海康信(北京)科技股份公司 数据标准化方法、装置以及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6679954B2 (ja) * 2016-01-28 2020-04-15 富士通株式会社 属性付与制御プログラム、情報処理装置および属性付与制御方法
CN106682411B (zh) * 2016-12-22 2019-04-16 浙江大学 一种将体检诊断数据转化为疾病标签的方法
CN106951684B (zh) * 2017-02-28 2020-10-09 北京大学 一种医学疾病诊断记录中实体消歧的方法
CN110008473B (zh) * 2019-04-01 2022-11-25 云知声(上海)智能科技有限公司 一种基于迭代方法的医疗文本命名实体识别标注方法
CN111046882B (zh) * 2019-12-05 2023-01-24 清华大学 基于剖面隐式马尔科夫模型的疾病名称标准化方法和系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095665A (zh) * 2015-08-13 2015-11-25 易保互联医疗信息科技(北京)有限公司 一种中文疾病诊断信息的自然语言处理方法及系统
CN106919793A (zh) * 2017-02-24 2017-07-04 黑龙江特士信息技术有限公司 一种医疗大数据的数据标准化处理方法及装置
CN108021553A (zh) * 2017-09-30 2018-05-11 北京颐圣智能科技有限公司 疾病术语的词处理方法、装置及计算机设备
CN108922633A (zh) * 2018-06-22 2018-11-30 北京海德康健信息科技有限公司 一种疾病名称标准化规范方法及规范系统
CN109033080A (zh) * 2018-07-12 2018-12-18 上海金仕达卫宁软件科技有限公司 基于概率转移矩阵的医疗术语标准化方法及系统
WO2020052162A1 (zh) * 2018-09-10 2020-03-19 平安科技(深圳)有限公司 疾病数据映射方法、装置、计算机设备和存储介质
CN110851595A (zh) * 2019-10-08 2020-02-28 云知声智能科技股份有限公司 一种疾病术语核心词汇的标识方法及装置
CN111078639A (zh) * 2019-12-03 2020-04-28 望海康信(北京)科技股份公司 数据标准化方法、装置以及电子设备

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131339A (zh) * 2020-09-28 2020-12-25 上海梅斯医药科技有限公司 名称标准化规范处理方法、装置、计算机及存储介质
CN112527970A (zh) * 2020-12-24 2021-03-19 上海浦东发展银行股份有限公司 数据字典标准化处理方法、装置、设备及存储介质
CN112786206A (zh) * 2021-01-28 2021-05-11 山东众阳健康科技集团有限公司 用于医疗机构信息标准化的数据处理方法及系统
CN112836055A (zh) * 2021-03-12 2021-05-25 云知声智能科技股份有限公司 一种临床术语标准化的数量预测方法及装置
CN113987113B (zh) * 2021-06-25 2023-09-22 四川大学 一种多站点定名服务融合方法、装置、存储介质及服务器
CN113987113A (zh) * 2021-06-25 2022-01-28 四川大学 一种多站点定名服务融合方法、装置、存储介质及服务器
CN113823404A (zh) * 2021-08-26 2021-12-21 山东健康医疗大数据有限公司 基于医疗大数据的专病建设医疗术语标准化的方法
CN114358001A (zh) * 2021-11-16 2022-04-15 安徽科大讯飞医疗信息技术有限公司 诊断结果的标准化方法及其相关装置、设备和存储介质
CN114708603A (zh) * 2022-05-25 2022-07-05 杭州咏柳科技有限公司 对医疗票据中关键信息的识别方法、系统、设备和介质
CN116361517A (zh) * 2023-05-29 2023-06-30 北京拓普丰联信息科技股份有限公司 一种企业字号查重方法、装置、设备和介质
CN116361517B (zh) * 2023-05-29 2023-08-25 北京拓普丰联信息科技股份有限公司 一种企业字号查重方法、装置、设备和介质
CN116562271A (zh) * 2023-07-10 2023-08-08 之江实验室 一种电子病历的质控方法、装置、存储介质及电子设备
CN116562271B (zh) * 2023-07-10 2023-10-10 之江实验室 一种电子病历的质控方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
WO2021114632A1 (zh) 2021-06-17

Similar Documents

Publication Publication Date Title
CN111696635A (zh) 疾病名称标准化方法及装置
CN111414393B (zh) 一种基于医学知识图谱的语义相似病例检索方法及设备
CN107731269B (zh) 基于原始诊断数据和病历文件数据的疾病编码方法及系统
CN107705839B (zh) 疾病自动编码方法及系统
EP3654227A1 (en) System for extracting semantic triples for building a knowledge base
CN113707297B (zh) 医疗数据的处理方法、装置、设备及存储介质
CN110189831B (zh) 一种基于动态图序列的病历知识图谱构建方法及系统
US8239349B2 (en) Extracting data
CN110362824B (zh) 一种自动纠错的方法、装置、终端设备及存储介质
KR102491172B1 (ko) 자연어 질의응답 시스템 및 그 학습 방법
JP2020027649A (ja) エンティティ関係データ生成方法、装置、機器、及び記憶媒体
CN106844723A (zh) 基于问答系统的医学知识库构建方法
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
CN111460170B (zh) 一种词语识别方法、装置、终端设备及存储介质
CN111695336A (zh) 疾病名称对码方法、装置、计算机设备及存储介质
CN111126065A (zh) 一种自然语言文本的信息提取方法及装置
CN108427702B (zh) 目标文档获取方法及应用服务器
CN112885478B (zh) 医疗文献的检索方法、装置、电子设备及存储介质
CN112257422A (zh) 命名实体归一化处理方法、装置、电子设备及存储介质
CN109299227B (zh) 基于语音识别的信息查询方法和装置
CN113764112A (zh) 一种在线医疗问答方法
CN111177375A (zh) 一种电子文档分类方法及装置
CN114358001A (zh) 诊断结果的标准化方法及其相关装置、设备和存储介质
US7912703B2 (en) Unsupervised stemming schema learning and lexicon acquisition from corpora
CN113032371A (zh) 数据库语法分析方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40030004

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination