CN112562807A - 医疗数据分析方法、装置、设备、存储介质和程序产品 - Google Patents

医疗数据分析方法、装置、设备、存储介质和程序产品 Download PDF

Info

Publication number
CN112562807A
CN112562807A CN202011441333.XA CN202011441333A CN112562807A CN 112562807 A CN112562807 A CN 112562807A CN 202011441333 A CN202011441333 A CN 202011441333A CN 112562807 A CN112562807 A CN 112562807A
Authority
CN
China
Prior art keywords
target object
medical
data
objects
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011441333.XA
Other languages
English (en)
Other versions
CN112562807B (zh
Inventor
王春宇
夏源
施振辉
黄海峰
陆超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011441333.XA priority Critical patent/CN112562807B/zh
Publication of CN112562807A publication Critical patent/CN112562807A/zh
Application granted granted Critical
Publication of CN112562807B publication Critical patent/CN112562807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本公开公开了一种医疗数据的分析方法,涉及深度学习领域,具体的,涉及自然语言处理领域。该医疗数据的分析方法包括从医疗数据中提取多个目标对象;针对每个目标对象,基于目标对象与预设的多个参考对象之间的语义相似度和医学术语相关性,从多个参考对象中选择至少一个参考对象,并将所选择的至少一个参考对象与目标对象相关联;以及接收包含至少一个目标对象的待分析数据,并基于待分析数据中的目标对象所关联的参考对象的参考信息,对待分析数据进行分析。本公开还公开了一种医疗数据的分析装置、设备、存储介质和程序产品。

Description

医疗数据分析方法、装置、设备、存储介质和程序产品
技术领域
本公开涉及深度学习领域,具体的,涉及自然语言处理领域,更具体的,涉及一种医疗数据的分析方法、装置、设备、存储介质和计算机程序产品。
背景技术
医疗报告中包括大量的医学术语和数据指标,需要专业的医学人员对其进行解读才能传递出医疗报告中的信息。随着医疗信息化的快速建设,以电子病历为核心的医院信息化建设已经成为新医改革的重要内容之一,因此,对医疗报告进行自动化解读的需求也日益迫切。
发明内容
有鉴于此,本公开提供了一种医疗数据的分析方法、装置、设备、存储介质和计算机程序产品。
根据第一方面,提供了一种医疗数据的分析方法,包括:
从医疗数据中提取多个目标对象;
针对每个目标对象,基于所述目标对象与预设的多个参考对象之间的语义相似度和医学术语相关性,从所述多个参考对象中选择至少一个参考对象,并将所选择的至少一个参考对象与所述目标对象相关联;以及
接收包含至少一个所述目标对象的待分析数据,并基于待分析数据中的目标对象所关联的参考对象的参考信息,对待分析数据进行分析。
根据第二方面,还提供了一种医疗数据的分析装置,包括:
提取模块,用于从医疗数据中提取多个目标对象;
对照模块,用于针对每个目标对象,基于所述目标对象与预设的多个参考对象之间的语义相似度和医学术语相关性,从所述多个参考对象中选择至少一个参考对象,并将所选择的至少一个参考对象与所述目标对象相关联;以及
分析模块,用于接收包含至少一个所述目标对象的待分析数据,并基于待分析数据中的目标对象所关联的参考对象的参考信息,对待分析数据进行分析。
根据第三方面,还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行根据第一方面所述的方法。
根据第四方面,还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据第一方面所述的方法。
根据第五方面,还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据第一方面所述的方法。
根据本公开的实施例,通过从医疗数据中提取多个目标对象,并基于语义相似度和医学术语相关性来将目标对象与预设的参考对象相关联,实现了对医疗数据的自动化解读,降低了解读医疗报告所耗费的人力和时间成本,同时提高了解读的准确性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开的实施例的医疗数据的分析方法的流程图;
图2是根据本公开的实施例的医疗数据和目标对象的示例;
图3是根据本公开的实施例的将目标对象和参考对象相关联的示意图;
图4是根据本公开的实施例的对医疗数据进行分析的示例架构;
图5是根据本公开的另一实施例的医疗数据的分析装置的框图;
图6是可以用来实施本公开实施例的医疗数据的分析方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开实施例的医疗数据的分析方法100的流程图。如图1所示,根据本公开实施例的医疗数据的分析方法100包括以下步骤:
在步骤S110中,从医疗数据中提取多个目标对象。
在步骤S120中,针对每个目标对象,基于目标对象与预设的多个参考对象之间的语义相似度和医学术语相关性,从多个参考对象中选择至少一个参考对象,并将所选择的至少一个参考对象与目标对象相关联。
在步骤S130中,接收包含至少一个目标对象的待分析数据,并基于待分析数据中的目标对象所关联的参考对象的参考信息,对待分析数据进行分析。
具体的,医疗数据包括各种医疗报告,医疗报告也称为医疗检验检查报告,包括医疗检验报告和医疗检查报告中的至少一种。其中,医疗检验报告包括例如血常规、尿常规等检验,医疗检查报告包括例如X光、B超等检查。对医疗数据进行分析可以包括对医疗报告进行解读,其涉及各种不同的数据分析和处理,例如用药推荐功能、药物实体的对照、诊断理由推荐功能等。也会涉及到一些高亮元素的对照,例如诊断疾病、症状、体征等所需要的数据分析。在实现医疗报告的自动化解读过程中,不同医院的医疗报告通常可以包括不同的检查类型、检查值或检查结果指标等。根据实施例,可以从海量医疗数据中提取这些信息,根据预设的结构来基于这些信息生成对象(也称作实体),对象的结构可以根据需要来设置,例如可以将一个检查类型以及该检查类型下的一个检查项目作为一个对象(也称作实体)。根据实施例,将从医疗数据中提取的对象称作目标对象,可以针对医疗数据预设多个作为对照标准的对象(称作参考对象)。可以基于作为对照标准的参考对象来对医疗数据进行分析。在本公开的实施例中,在步骤S110中,可以获取来自医院的设定时间段内的医疗数据。例如,可以获取医院在一年或一年以上的时间内的全部医疗数据。根据实施例,医疗数据可以包括但不限于医疗报告。
根据实施例,多个作为对照标准的参考对象可以包括与目标对象相同的表达,也可以包括与目标对象不同的表达。例如,在从医疗数据中提取出的目标对象是“骨科”的情况下,预设的参考对象可以是相同的表达,例如“骨科”,也可以是不同的表达,例如“骨外科”。又例如,在从医疗数据中提取出的目标对象是“肠道门诊”的情况下,预设的参考对象可以是相同的表达,例如“肠道门诊”,也可以是不同的表达,例如“肠道科室门诊”。可以通过基于样本数据对模型进行训练来获得预设的参考对象。
根据实施例,在步骤S120中,可以基于目标对象和参考对象之间的语义相似度和医学术语相关性来确定目标对象和参考对象之间的对应关系。例如,在医学上,“骨科”和“骨外科”表达的是相同的含义,在本公开的实施例中,可以基于目标对象和参考对象之间的语义相似度和医学术语相关性确定“骨科”和“骨外科”之间的对应关系。又例如,可以基于目标对象和参考对象之间的语义相似度和医学术语相关性确定“背痛”、“背部隐痛”和“背部有痛感”是具有相同含义的医学表达。即在本公开的实施例中,可以针对所提取的每个目标对象,从预设的参考对象中选择至少一个参考对象与该目标对象相关联。
经过步骤S110和步骤S120,可以从预设的参考对象中选定与设定时间段内的全部医疗数据相关联的参考对象,由此构建了符合医院实际情况的应用场景。接下来,可以基于选定的关联参考对象对医院其他的待分析医疗数据进行分析。根据实施例,可以与预设的参考对象一起存储有参考对象的参考信息。在步骤S130中,包含至少一个目标对象的待分析数据可以是用于构建符合医院实际情况的应用场景的设定时间段内的全部医疗数据中的一部分,例如多个医疗报告中的一个或多个。或者,待分析数据也可以是其他时段的医疗数据,例如新产生的除了上述多个医疗报告之外的一个或多个医疗报告。在获得目标对象与参考对象的对应关系之后,可以将与目标对象关联的参考对象的参考信息用于对待分析数据进行分析。例如,如果医疗报告中的目标对象为<眼科,左眼视力,右眼视力>,所确定的关联参考对象为<眼科,左眼矫正视力,右眼矫正视力>,与关联参考对象一起存储有参考对象的参考信息包括:若矫正视力等于1.0,则认为视力为标准视力;若矫正视力在0.8-1.0之间,则认为视力正常;若矫正视力小于0.8或大于1.2,则认为视力欠矫正或过矫正。可以基于这些信息对医疗报告中的目标对象进行分析。
根据本公开的实施例,可以根据医院的实际医疗数据来设置符合医院实际情况的应用场景,并且可以通过基于目标对象与预设的参考对象之间的语义相似度和医学术语相关性来将目标对象关联到至少一个参考对象,从而实现对医疗数据中所包含的医疗数据的自动解读,降低了对医疗报告进行解读所耗费的人力和物力成本,并提高了医院的医疗自动化水平。
图2是根据本公开的实施例的医疗数据和目标对象的示例。根据实施例,医疗数据可以包括但不限于医疗报告。如图2所示,是一个医疗报告的片段。该医疗报告包括检查类型以及检查类型下的至少一个检查项目。如图2所示,血常规是检查类型的示例,红细胞计数(RBC)、血红蛋白(HGB)等是检查项目的示例。根据实施例,可以基于医疗报告中的检查类型以及检查类型下的至少一个检查项目构建目标对象。如图2所示,可以构建目标对象例如<血常规,红细胞计数(RBC)>、<血常规,血红蛋白(HGB)>或<血常规,红细胞计数(RBC),血红蛋白(HGB)>等。如图2所示,在医疗报告中还包括与检查项目相对应的结果和单位,可以作为目标对象的目标信息。如图2所示,检查项目“红细胞计数(RBC)”的对应结果和单位是“4.42 10^12/L”,则目标对象<血常规,红细胞计数(RBC)>的目标信息包括“4.42 10^12/L”。
图3是根据本公开的实施例的将目标对象和参考对象相关联的示意图。如图3所示,左侧表示接收的多个医疗报告F1、F2、……、FN。每个医疗报告可以包括多个目标对象。例如,如图3所示,在医疗报告F1中包括检查类型A1,在检查类型A1之下还包括检查项目a1、a2。在医疗报告F2中包括检查类型A1和A2,在检查类型A1之下包括检查项目a1、a2,在检查类型A2之下包括检查项目a3。在医疗报告F3中包括检查类型A3,在检查类型A3之下包括检查项目a4、a5和a6。如图3所示,右侧表示预设的参考对象的存储列表。基于目标对象与预设的多个参考对象之间的语义相似度和医学术语相关性,可以确定医疗报告F1中的目标对象<A1,a1>可以与存储列表中的参考对象<A’1,a’1>,医疗报告F1中的目标对象<A1,a2>可以与存储列表中的参考对象<A’1,a’2>。可以确定医疗报告F2中的目标对象<A2,a3>可以与存储列表中的参考对象<A’2,a’3>,医疗报告F2中的目标对象<A1,a1>和<A1,a2>与医疗报告F1中的目标对象相同,因此关联到相同的参考对象。医疗报告F3中的目标对象<A3,a4>可以与存储列表中的参考对象<A’3,a’4>。可以基于上述方式将医疗报告F1、F2、……、FM(M为大于等于1的自然数)中的每个医疗报告所包括的目标对象与存储列表中的参考对象相关联,接下来,便可以在所关联的多个参考对象的范围内对其他医疗数据中所包括的目标对象进行匹配和分析。
根据实施例,在基于目标对象与预设的多个参考对象之间的语义相似度和医学术语相关性,从多个参考对象中选择至少一个参考对象的过程中,可以使用第一神经网络模型从预设的多个参考对象中选择与目标对象之间的语义相似度符合预设条件的N个参考对象,并使用第二神经网络模型从所选择的N个参考对象中选择K个参考对象,该K个参考对象涉及的医学术语是目标对象涉及的医学术语的医学近义词,其中N和K均为整数,1≤K<N。
根据实施例,使用第一神经网络模型从预设的多个参考对象中选择与目标对象之间的语义相似度符合预设条件的N个参考对象包括:使用第一神经网络模型计算目标对象与多个参考对象中的每个参考对象的语义相似度,并基于计算的语义相似度将多个参考对象划分到多个置信区间,以及在多个置信区间中指定的置信区间中选择与目标对象之间语义相似度最高的N个参考对象。根据实施例,第一神经网络模型可以是语义相似度模型,第二神经网络模型可以是医学领域近义词模型。
例如,高置信区间可以是目标对象与参考对象之间的相似度大于或等于0.99的范围。相似度在该区间的准确率可以认为是100%。低置信区间可以是目标对象与参考对象之间的相似度大于或等于0.9且小于0.99的范围。相似度落在该区间内对绝大多数也都是正确的。未知置信区间可以是相似度小于0.9的范围。相似度处于该区间内一般认为相似度较低(据统计,相似度落在该区间的匹配结果属于少数)。并且,虽然有一些匹配结果属于该区间,但是映射关系未必是错误的。例如,<白内障专科门诊,眼科,0.748952313>,是由于标准科室列表未覆盖导致的,因此,虽然相似度小于0.9,但是也会将其加入目标对象的上位或下位和别名列表进来。根据实施例,通过第一神经网络模型可以与每个目标对象对应的一组候选参考对象。根据实施例,可以根据得到的每个目标对象对应的一组候选参考对象相似度进行倒排,保留排序最高的N个结果,作为后续第二神经网络模型的输入,基于第一神经网络模型的处理作为“粗排序”的过程,为后续的步骤过滤掉一大部分的不合理的候选,可以节省很多时间开销。
进一步地,根据实施例,在针对每个目标对象,基于目标对象与预设的多个参考对象之间的语义相似度和医学术语相关性,从多个参考对象中选择至少一个参考对象之前,还可以确定所提取的多个目标对象在医疗数据中的出现频率,并基于出现频率对所提取的多个目标对象进行筛选。这样可以事先过滤掉一大部分不经常出现或不太重要的目标对象,有利于进一步节省时间开销。
根据实施例,可以使用第三神经网络模型来对待分析数据进行分析。根据实施例,可以使用第三神经网络模型确定待分析数据中的每个目标对象的目标信息,查询与待分析数据中的每个目标对象关联的参考对象的参考信息,并基于参考信息来对每个目标对象的目标信息进行评价。根据实施例,可以基于对待分析数据中的每个目标对象进行评价的评价结果来进行综合评价。
在本公开的实施例中,提供针对单一指标的分析解读。在针对单一指标的分析解读中,首先根据医院方面传过来的医疗报告,通过自然语言理解解析出其中的检查类型、检查项目、检查项目的值、检查结果指标等,例如阴性/阳性、偏高/偏低等,通过第一神经网络模型和第二神经网络模型获取到的目标对象和参考对象的映射关系,可以精准的触发预设的系统检查项,结合知识图谱中该检查项对应的检查异常指标、医学话术,则可以触发对应的检查项的解读。
由于检查结果单一指标的解读具有解读话术较长的特点,虽然可以满足部分医院的需求,但为了实现更符合临床应用的体验,将检查解读功能升级,实现了多项复合判断。在本公开的实施例中,提供针对多个指标的多项目的复合分析解读。在针对多个指标的多项目的复合分析解读中,可以根据传过来的多个异常检查指标的组合,推荐对应的分析结果。例如,可以根据医院方面传过来的医疗报告,通过自然语言理解解析出其中的检查类型、检查项目、检查项目的值、检查结果指标等,例如阳性/阴性、+/++/+++、数值1~数值2(单位)、大于/小于/大于等于/小于等于某数值(单位)、纯文本表达(如:红色、白色)等。根据解析到的异常检查指标的组合,结合知识图谱,通过实现相关策略,推荐对应的分析结果。
在本公开的实施例中,还提供针对同一检查异常区间不同范围的解读。根据实施例,通过对医疗报告中的异常检查结果进行分析,发现其中存在更细粒度的情况,同一个检查区间中,不同的范围具有不同的临床意义。例如碱剩余(BE),正常人的BE值在0附近波动。动脉血的参考区间在-3~+3mmol/L,如果BE正值增加时,常提示代谢性碱中毒;如果BE负值增加时,常提示代谢性酸中毒。在本公开的实施例中,可以针对于该情况,结合知识图谱,实现相关策略,对该情况进行分析解读。在本公开的实施例中,可以确定每个目标对象的目标信息相对于参考信息的偏差,并基于偏差产生风险提示。
图4是根据本公开的实施例的对医疗数据进行分析的示例架构。如图4所示,该示例架构可以用于实现前述实施例的医疗数据的分析方法。如图4所示的架构主要包括两部分,一部分用于将海量医疗报告中包含各种表述形式的检验项目与系统支持的标准检验项目列表进行对照,以便从标准检验项目列表中确定与这些医疗报告中各种表述形式的检验项目匹配的标准检验项目,从而得到各种形式的检验项目与标准检验项目的对照表;另一部分用于根据该对照表从数据库中查找检验项目的参考信息,例如参考范围或参考值,从而基于参考信息对接收到的医疗报告进行分析。该架构中用于目标对象和参考对象进行对照的部分包括基于多特征的语义相似度模型(第一神经网络模型)和基于医学领域近义词模型(第二神经网络模型),用于对医疗报告进行分析的部分包括医疗数据分析模型(第三神经网络模型)。
如图4所示,基于多特征的语义相似度模型可以用于粗排序过程。基于多特征的语义相似度模型的训练过程包括获取多个第一样本,第一样本包括目标对象、参考对象以及目标对象与参考对象之间的相似度,并使用获取的多个第一样本来训练语义相似度模型(第一神经网络模型)。
第一样本可以是对象实体对的形式,对象实体对中的一个实体作为目标对象,另一个实体作为参考对象,除此之外第一样本还包括两个实体之间的相似度。根据实施例,可以对样本数据(例如多个医疗检验报告)分别进行多种特征提取,得到多种特征向量,并基于多种特征向量生成包括多个第一样本的特征矩阵。在具体的实施例中,基于已有的经过循证的医学对象实体对(例如疾病、手术、症状、科室名称等)和不相关的实体对按照一定比例构建正负样本。例如,骨科和骨外科、肠道科室门诊和肠道门诊、冠心病和冠状动脉粥样硬化性心脏病等。根据生成的对象实体对采用多种词向量集成的方式。例如,在具体的实施例中,所采用的三种特征向量获取的方式分别为Fasttext特征提取、Jaccard特征提取、ELMo特征提取。根据这三类特征向量生成对应的特征矩阵,并训练机器学习模型。
如图4所示,基于医学领域近义词模型可以用于精排序过程。基于医学领域近义词模型的训练过程包括获取多个第二样本,其中,多个第二样本中的至少一个包括医学术语以及医学术语的近义词,并且多个第二样本中的至少另一个包括医学术语以及医学术语的非近义词,并使用获取的多个第二样本来训练基于医学领域近义词模型(第二神经网络模型)。
第二样本也可以是医学近义词实体对的形式。在医学近义词实体对的构建过程中,基于多源结构化医学语料中的别名属性,获取到一部分疾病以及其别名作为近义词实体候选对。根据实施例,首先根据临床类别的医学书籍以及多源医学语料挖掘医学实体近义词对。在具体的实施例中,可以主要采用三种方式:1)根据多源医学语料当中的“别名”属性可以获取到医学实体近义词对,例如“打鼾”和“阻塞性睡眠呼吸暂停低通气综合征”、“鼾症”和“阻塞性睡眠呼吸暂停低通气综合征”、“弥漫性致密性骨病”和“周身性脆性硬化症”等。2)通过制定的规则模版,例如,XXX简称|俗称|又译|又译作|全称是|是……的缩写等。3)通过合成的方式,根据已有的医学实体列表以及对应的维度属性,例如频率、强度、颜色、持续时间、部位等,通过合成的方式构建候选的近义词对例如“背痛”和“背部隐痛”、“腹痛”和“持续性腹痛”等。由于该方式可以获取到一些不符合语法规则的实体,所以通过基于特征的验证方式进行过滤筛选出符合语法规则的近义词对作为部分近义词实体候选对。根据实施例,可以基于以下方式至少之一构建对象实体:两个对象实体的jaccard距离特征、cosine距离特征、jaro-wrinkler similarity、文本编辑距离等。根据以上几种方式构建对象实体对,生成对应的特征,并根据每种特征达到阈值的个数,进行筛选。
在一些实施例中,系统还可以包括近义词句子召回模型,或者可以由医学领域近义词模型来实现近义词句子召回模型的功能,其用于将医疗报告解读要使用的话术与系统支持的解读话术进行比照,从而在数据库中针对各种医疗报告找到合适的解读话术。在训练近义词句子召回模型之前,可以预先生成医学近义词-句子实体对。在近义词实体-句子对的生成过程中,将近义词对中的一个实体通过大量的临床医学语料进行检索,获取到包含该实体的句子,并结合另一个实体构建用于训练近义词句子召回模块的样本集合,该方式可以获得所需的正样本。对于负样本的构建,首先构建非近义词关系的实体对,然后检索医学语料获取到包含目标实体的句子,结合另一个实体构建负样本。根据获取到的近义词实体-句子生成候选对集合。可以基于前沿的自然语言处理预训练模型对近义词句子召回模块进行训练。
接下来,根据开源的ERNIE预训练语言模型,将之前构建好的近义词实体-句子候选对集合以及对应的标签(label),对医学领域句子对匹配的任务进行微调,以完成对医学领域近义词模型的训练。
如图4所示,可以使用训练好的多特征语义相似度模型和医学领域近义词模型以及医疗数据分析模型对医疗数据进行解读。首先,可以根据医院提供的检验报告中包括目标对象(例如检验项目)的医疗数据进行统计,根据每个检验项目触发的频数进行降序排列。统计的意义在于可以根据不同医院的定制化需求进行对照,如果医院只需要触发高频出现的检验项目,则对统计之后触发频数大于预设值(例如大于总频数80%)的检验项目与系统支持的检验项目(参考对象)进行对照。输入院方检验项目映射列表和系统检验项列表,将医院数据涉及的每个检验项目与系统支持的检验项目进行映射。首先通过语义相似度模型进行计算,得到每个检验项目与系统检验项的相似度并进行置信区间的划分,根据相似度进行降序排列,获取到排序最高的topN个映射,构成候选映射集合,该过程视为“粗排序”过程。目的是为了经过初步筛选获取到相对精确的映射关系,减少后续近义词模型的计算量以及系统的开销。将“粗排序”得到的候选集合作为医学近义词模型的输入,通过进一步计算得到相似度结果,再进一步排序,获取到排序最高的topK个结果(例如这里N>>K),作为最终对照结果。
在针对每个检验项目得到K个对照结果之后,可以利用设置好的架构对医疗数据进行分析。如图4所示,提供了两种模式的分析结果输出:单例对照模式(如检验项单一指标解读策略所示)和批量对照模式(如多项复合判断策略和同一检验异常区间不同范围解读所示)。其中单例对照模式兼容于图形化的接口测试工具,为使用者在检测几个实体对照关系时提供了便利,只需要发起HTTP请求即可在图形化界面查看到映射结果。批量对照模式则适用于不同医院大批量定制化的对照需求,同时还支持各种每个模型阈值的自定义。
如图4所示,在基于单例对照模式输出分析结果的情况下,可以输出包括例如结果偏高、急性化脓性细菌感染、粒细胞白血病、败血症等风险提示信息。在基于批量对照模式输出分析结果的情况下,可以输出包括可能患有原发性醛固酮增多症、代谢性碱中毒、代谢性酸中毒等风险提示信息。
图5是根据本公开的另一实施例的医疗数据的分析装置500的框图。如图5所示,该医疗数据的分析装置500包括提取模块510、对照模块520和分析模块530。
根据实施例,提取模块510被配置为从医疗数据中提取多个目标对象。对照模块520被配置为针对每个目标对象,基于目标对象与预设的多个参考对象之间的语义相似度和医学术语相关性,从多个参考对象中选择至少一个参考对象,并将所选择的至少一个参考对象与目标对象相关联。分析模块530被配置为接收包含至少一个目标对象的待分析数据,并基于待分析数据中的目标对象所关联的参考对象的参考信息,对待分析数据进行分析。
以上各功能模块的具体操作可以参考前述实施例中的医疗数据的分析方法100的操作步骤来获取,此处不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图6是可以用来实施本公开实施例的医疗数据的分析方法的电子设备600的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如医疗数据的分析方法。例如,在一些实施例中,医疗数据的分析方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的医疗数据的分析方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行医疗数据的分析方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (17)

1.一种医疗数据的分析方法,包括:
从医疗数据中提取多个目标对象;
针对每个目标对象,基于所述目标对象与预设的多个参考对象之间的语义相似度和医学术语相关性,从所述多个参考对象中选择至少一个参考对象,并将所选择的至少一个参考对象与所述目标对象相关联;以及
接收包含至少一个所述目标对象的待分析数据,并基于待分析数据中的目标对象所关联的参考对象的参考信息,对待分析数据进行分析。
2.根据权利要求1所述的方法,其中,所述基于所述目标对象与预设的多个参考对象之间的语义相似度和医学术语相关性,从所述多个参考对象中选择至少一个参考对象包括:
使用第一神经网络模型从所述预设的多个参考对象中选择与所述目标对象之间的语义相似度符合预设条件的N个参考对象;以及
使用第二神经网络模型从所述N个参考对象中选择K个参考对象,所述K个参考对象涉及的医学术语是所述目标对象涉及的医学术语的医学近义词,其中N和K均为整数,1≤K<N。
3.根据权利要求2所述的方法,其中,使用第一神经网络模型从所述预设的多个参考对象中选择与所述目标对象之间的语义相似度符合预设条件的N个参考对象包括:
使用第一神经网络模型计算所述目标对象与所述多个参考对象中的每个参考对象的语义相似度;
基于计算的语义相似度将所述多个参考对象划分到多个置信区间;
在所述多个置信区间中指定的置信区间中选择与所述目标对象之间语义相似度最高的N个参考对象。
4.根据权利要求1所述的方法,还包括:在针对每个目标对象,基于所述目标对象与预设的多个参考对象之间的语义相似度和医学术语相关性,从所述多个参考对象中选择至少一个参考对象之前,
确定所提取的多个目标对象在所述医疗数据中的出现频率;
基于所述出现频率对所提取的多个目标对象进行筛选。
5.根据权利要求1所述的方法,其中,所述对待分析数据进行分析包括使用第三神经网络模型执行以下操作:
确定所述待分析数据中的每个目标对象的目标信息;
查询与所述待分析数据中的每个目标对象关联的参考对象的参考信息;
基于所述参考信息来对所述每个目标对象的目标信息进行评价。
6.根据权利要求5所述的方法,还包括:
基于对待分析数据中的每个目标对象进行评价的评价结果来进行综合评价。
7.根据权利要求6所述的方法,还包括:
确定每个所述目标对象的目标信息相对于所述参考信息的偏差;
基于所述偏差产生风险提示。
8.根据权利要求2所述的方法,还包括:
获取多个第一样本,所述第一样本包括目标对象、参考对象以及目标对象与参考对象之间的相似度;
使用所述多个第一样本来训练所述第一神经网络模型。
9.根据权利要求8所述的方法,还包括:
对样本数据分别进行多种特征提取,得到多种特征向量;以及
基于所述多种特征向量生成包括所述多个第一样本的特征矩阵。
10.根据权利要求9所述的方法,其中,所述多种特征提取包括以下之中的至少两者:Fasttext特征提取、Jaccard特征提取和ELMo特征提取。
11.根据权利要求2所述的方法,还包括:
获取多个第二样本,所述多个第二样本中的至少一个包括医学术语以及所述医学术语的近义词,所述多个第二样本中的至少另一个包括医学术语以及所述医学术语的非近义词;以及
使用所述多个第二样本来训练所述第二神经网络模型。
12.根据权利要求1至11中任一项权利要求所述的方法,其中,
所述医疗数据包括多个医疗报告;
所述目标对象包括医疗报告中的检查类型以及所述检查类型下的至少一个检查项目,目标对象的目标信息包括所述至少一个检查项目的值;
所述待分析数据包括所述多个医疗报告中的一个或多个,或者除了所述多个医疗报告之外的一个或多个医疗报告。
13.根据权利要求12所述的方法,所述方法还包括:
获取目标对象涉及的话术信息;
使用第二神经网络模型从所述N个参考对象中选择M个参考对象,所述M个参考对象涉及的话术信息与所述目标对象的话术信息在语义上相匹配,其中M为整数,1≤M<N。
14.一种医疗数据的分析装置,包括:
提取模块,用于从医疗数据中提取多个目标对象;
对照模块,用于针对每个目标对象,基于所述目标对象与预设的多个参考对象之间的语义相似度和医学术语相关性,从所述多个参考对象中选择至少一个参考对象,并将所选择的至少一个参考对象与所述目标对象相关联;以及
分析模块,用于接收包含至少一个所述目标对象的待分析数据,并基于待分析数据中的目标对象所关联的参考对象的参考信息,对待分析数据进行分析。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至13中任一项权利要求所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至13中任一项权利要求所述的方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至13中任一项权利要求所述的方法。
CN202011441333.XA 2020-12-11 2020-12-11 医疗数据分析方法、装置、设备、存储介质和程序产品 Active CN112562807B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011441333.XA CN112562807B (zh) 2020-12-11 2020-12-11 医疗数据分析方法、装置、设备、存储介质和程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011441333.XA CN112562807B (zh) 2020-12-11 2020-12-11 医疗数据分析方法、装置、设备、存储介质和程序产品

Publications (2)

Publication Number Publication Date
CN112562807A true CN112562807A (zh) 2021-03-26
CN112562807B CN112562807B (zh) 2024-03-12

Family

ID=75062193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011441333.XA Active CN112562807B (zh) 2020-12-11 2020-12-11 医疗数据分析方法、装置、设备、存储介质和程序产品

Country Status (1)

Country Link
CN (1) CN112562807B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111625A (zh) * 2021-04-30 2021-07-13 善诊(上海)信息技术有限公司 一种医学文本标签生成系统、方法及计算机可读存储介质
CN113257371A (zh) * 2021-06-03 2021-08-13 中南大学 基于医学知识图谱的临床检验结果分析方法及系统
CN113626688A (zh) * 2021-07-21 2021-11-09 上海齐网网络科技有限公司 基于软件定义的智能化医疗数据采集方法及系统
CN114400062A (zh) * 2021-12-21 2022-04-26 广州金域医学检验中心有限公司 检验报告的解读方法及装置、计算机设备及存储介质
CN114912804A (zh) * 2022-05-17 2022-08-16 四川大学华西医院 一种科研数据相关性质控方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095665A (zh) * 2015-08-13 2015-11-25 易保互联医疗信息科技(北京)有限公司 一种中文疾病诊断信息的自然语言处理方法及系统
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其系统
CN109684445A (zh) * 2018-11-13 2019-04-26 中国科学院自动化研究所 口语化医疗问答方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095665A (zh) * 2015-08-13 2015-11-25 易保互联医疗信息科技(北京)有限公司 一种中文疾病诊断信息的自然语言处理方法及系统
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其系统
CN109684445A (zh) * 2018-11-13 2019-04-26 中国科学院自动化研究所 口语化医疗问答方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
范雪雪;王志荣;徐晤;梁银;马小虎;: "基于医学本体的术语相似度算法研究", 现代图书情报技术, no. 12 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111625A (zh) * 2021-04-30 2021-07-13 善诊(上海)信息技术有限公司 一种医学文本标签生成系统、方法及计算机可读存储介质
CN113257371A (zh) * 2021-06-03 2021-08-13 中南大学 基于医学知识图谱的临床检验结果分析方法及系统
CN113257371B (zh) * 2021-06-03 2022-02-15 中南大学 基于医学知识图谱的临床检验结果分析方法及系统
CN113626688A (zh) * 2021-07-21 2021-11-09 上海齐网网络科技有限公司 基于软件定义的智能化医疗数据采集方法及系统
CN113626688B (zh) * 2021-07-21 2023-09-01 上海齐网网络科技有限公司 基于软件定义的智能化医疗数据采集方法及系统
CN114400062A (zh) * 2021-12-21 2022-04-26 广州金域医学检验中心有限公司 检验报告的解读方法及装置、计算机设备及存储介质
CN114400062B (zh) * 2021-12-21 2024-03-22 广州金域医学检验中心有限公司 检验报告的解读方法及装置、计算机设备及存储介质
CN114912804A (zh) * 2022-05-17 2022-08-16 四川大学华西医院 一种科研数据相关性质控方法和系统

Also Published As

Publication number Publication date
CN112562807B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN112562807B (zh) 医疗数据分析方法、装置、设备、存储介质和程序产品
Quan et al. Coding algorithms for defining comorbidities in ICD-9-CM and ICD-10 administrative data
CN109670054B (zh) 知识图谱构建方法、装置、存储介质及电子设备
CN108027823B (zh) 信息处理装置、信息处理方法以及计算机可读取的存储介质
US8145644B2 (en) Systems and methods for providing access to medical information
CN113345577B (zh) 诊疗辅助信息的生成方法、模型训练方法、装置、设备以及存储介质
US20120101846A1 (en) Computer-Implemented Method For Displaying Patient-Related Diagnoses Of Chronic Illnesses
US8548827B2 (en) Computer-implemented method for medical diagnosis support
CN111382275A (zh) 医疗知识图谱的构建方法、装置、介质及电子设备
US20200058408A1 (en) Systems, methods, and apparatus for linking family electronic medical records and prediction of medical conditions and health management
Ma et al. Using the shapes of clinical data trajectories to predict mortality in ICUs
JP2015018462A (ja) 医療カルテシステム及び医療カルテ検索方法
Chandra et al. Natural language Processing and Ontology based Decision Support System for Diabetic Patients
CN116189857A (zh) 分诊等级确定方法、装置、电子设备和存储介质
CN111261298A (zh) 一种医疗数据质量预判方法、装置、可读介质及电子设备
CN115719640A (zh) 中医主次症状识别系统、装置、电子设备及其存储介质
EP3230907B1 (en) System and method for uniformly correlating unstructured entry features to associated therapy features
CN114664421A (zh) 一种医患匹配方法、装置、电子设备、介质及产品
CN114595322A (zh) 保险产品推荐方法及装置
CN112711579A (zh) 医疗数据的质量检测方法及装置、存储介质及电子设备
Shojaee-Mend et al. Prediction of Diabetes Using Data Mining and Machine Learning Algorithms: A Cross-Sectional Study
CN112560434B (zh) 确定文本中要素属性冲突的方法、装置、设备和介质
JP2021507392A (ja) エンティティ間のコンテキスト的類似性の学習および適用
CN114708965B (zh) 诊断推荐方法及装置、电子设备和存储介质
US20230395209A1 (en) Development and use of feature maps from clinical data using inference and machine learning approaches

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant