CN114783596B - 诊断数据识别方法及装置、电子设备、存储介质 - Google Patents
诊断数据识别方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN114783596B CN114783596B CN202210685777.0A CN202210685777A CN114783596B CN 114783596 B CN114783596 B CN 114783596B CN 202210685777 A CN202210685777 A CN 202210685777A CN 114783596 B CN114783596 B CN 114783596B
- Authority
- CN
- China
- Prior art keywords
- diagnostic data
- data
- original
- candidate
- diagnostic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Probability & Statistics with Applications (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本公开实施例是关于一种诊断数据识别方法及装置、电子设备、存储介质,涉及医疗大数据技术领域,该诊断数据识别方法包括:基于历史医疗数据获取待处理对象的原始诊断数据,并获取候选诊断数据;根据所述原始诊断数据和所述候选诊断数据的语义特征,确定所述原始诊断数据和所述候选诊断数据之间的匹配结果;基于所述匹配结果对原始诊断数据进行归一化处理,并根据归一化结果对所述待处理对象对应的原始诊断数据进行识别,以确定目标诊断结果。本公开实施例中的技术方案,能够准确识别原始诊断数据的目标诊断结果,提高识别效率。
Description
技术领域
本公开涉及医疗大数据技术领域,具体而言,涉及一种诊断数据识别方法、诊断数据识别装置、电子设备以及计算机可读存储介质。
背景技术
在识别用户的既往症时,需要将用户的诊断数据进行标准化,并在标准化后进行识别。
相关技术中,可根据一个周期内已赔付的医疗记录来标识既往症人群,或者是进行人工识别。上述方式中,可能存在漏识别或者是误识别的问题,覆盖范围不全面,识别准确性较低;人工方式的识别标准不一致,且识别效率较低。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种诊断数据识别方法及装置、电子设备、存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的准确性较差的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种诊断数据识别方法,包括:基于历史医疗数据获取待处理对象的原始诊断数据,并获取候选诊断数据;根据所述原始诊断数据和所述候选诊断数据的语义特征,确定所述原始诊断数据和所述候选诊断数据之间的匹配结果;基于所述匹配结果对原始诊断数据进行归一化处理,并根据归一化结果对所述待处理对象对应的原始诊断数据进行识别,以确定目标诊断结果。
在本公开的一种示例性实施例中,所述根据所述原始诊断数据和所述候选诊断数据的语义特征,确定所述原始诊断数据和所述候选诊断数据之间的匹配结果,包括:对所述原始诊断数据以及所述候选诊断数据进行特征提取,得到语义特征;根据所述语义特征计算所述原始诊断数据和所述候选诊断数据的语义相似度;基于所述语义相似度进行分类,确定所述原始诊断数据以及所述候选诊断数据的所述匹配结果。
在本公开的一种示例性实施例中,所述根据所述语义特征计算所述原始诊断数据和所述候选诊断数据的语义相似度,包括:对所述原始诊断数据和所述候选诊断数据的中间特征进行特征提取,获取所述语义特征;将所述语义特征进行相似度计算,确定所述语义相似度。
在本公开的一种示例性实施例中,所述根据所述原始诊断数据和所述候选诊断数据的语义特征,确定所述原始诊断数据和所述候选诊断数据之间的匹配结果,包括:通过归一模型对所述原始诊断数据以及所述候选诊断数据进行相似度计算,以确定所述匹配结果;其中,所述归一模型包括多个编码器、多层感知机以及分类层。
在本公开的一种示例性实施例中,所述通过归一模型对所述原始诊断数据以及所述候选诊断数据进行相似度计算,以确定所述匹配结果,包括:通过多个编码器对所述原始诊断数据以及所述候选诊断数据进行特征提取,获取所述原始诊断数据和所述候选诊断数据中每个单词之间的关系特征作为所述语义特征;基于多层感知机和分类层对所述语义特征进行相似度计算,获取所述语义相似度;对所述语义相似度进行分类处理,确定所述匹配结果。
在本公开的一种示例性实施例中,所述方法还包括:通过通用语料对语言模型进行训练,得到通用语言模型;通过医疗文本语料对所述通用语言模型进行训练,得到医疗语言模型;通过目标任务对应的训练数据对医疗语言模型进行训练,得到所述归一模型。
在本公开的一种示例性实施例中,所述通过目标任务对应的训练数据对医疗语言模型进行训练,得到所述归一模型,包括:通过数据归一任务中已标注诊断数据以及所述已标注诊断数据对应的标准诊断数据,对所述医疗语言模型进行训练,得到所述归一模型。
在本公开的一种示例性实施例中,所述基于所述匹配结果对原始诊断数据进行归一化处理,并根据归一化结果对所述待处理对象对应的原始诊断数据进行识别,以确定目标诊断结果,包括:若匹配结果为匹配成功,根据所述候选诊断数据将所述原始诊断数据进行归一化处理,得到所述原始诊断数据对应的标准诊断数据;将所述标准诊断数据与参考诊断数据进行匹配,并根据匹配成功的参考诊断数据的类型确定所述待处理对象的原始诊断数据对应的目标诊断标签。
在本公开的一种示例性实施例中,所述基于历史医疗数据获取待处理对象的原始诊断数据,包括:将所述历史医疗数据对应的病历数据中的疾病关联数据进行提取,以获取所述原始诊断数据。
在本公开的一种示例性实施例中,所述方法还包括:根据所述原始诊断数据中的序号信息对所述原始诊断数据进行切分;或,通过序列标注模型对所述原始诊断数据进行序列识别,以对所述原始诊断数据进行切分。
根据本公开的第二方面,提供一种诊断数据识别装置,包括:诊断数据获取模块,用于基于历史医疗数据获取待处理对象的原始诊断数据,并获取候选诊断数据;匹配模块,用于根据所述原始诊断数据和所述候选诊断数据的语义特征,确定所述原始诊断数据和所述候选诊断数据之间的匹配结果;识别模块,用于基于所述匹配结果对原始诊断数据进行归一化处理,并根据归一化结果对所述待处理对象对应的原始诊断数据进行识别,以确定目标诊断结果。
根据本公开的第三方面,提供一种电子设备,包括:处理器;以及
存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面的诊断数据识别方法及其可能的实现方式。
根据本公开的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的诊断数据识别方法及其可能的实现方式。
本公开实施例中提供的诊断数据识别方法、诊断数据识别装置、电子设备以及计算机可读存储介质中,一方面,通过将原始诊断数据与候选诊断数据进行组合,根据二者的语义特征来确定原始诊断数据和候选诊断数据之间的匹配结果,基于匹配结果对原始诊断数据进行归一化处理,以根据所述候选诊断数据确定所述待处理对象的目标诊断结果,能够避免只根据部分医疗记录进行目标诊断结果识别所导致的局限性,能够从待处理对象的原始诊断数据的特征进行全面识别,能够进行全面地精准识别,提高识别的准确性。另一方面,通过对待处理对象的原始诊断数据以及与其对应的候选诊断数据进行匹配,将原始诊断数据转换为对应的编码,以对原始诊断数据进行归一标准化,从而基于标准化的原始诊断数据实现目标诊断结果的自动识别,减少计算量,能够提高通用性,且提高了识别效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本公开实施例的诊断数据识别方法的系统架构的示意图。
图2示意性示出本公开实施例中一种诊断数据识别方法的示意图。
图3示意性示出本公开实施例中确定匹配结果的流程示意图。
图4示意性示出本公开实施例中获取语义特征的流程示意图。
图5示意性示出本公开实施例中归一模型的结构示意图。
图6示意性示出本公开实施例中通过transformer模型进行处理的流程示意图。
图7示意性示出本公开实施例中训练归一模型的流程示意图。
图8示意性示出本公开实施例中确定目标诊断结果的示意图。
图9示意性示出本公开实施例中一种诊断数据识别装置的框图。
图10示意性示出本公开实施例中电子设备的框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
相关技术中,对于既往症识别的常用技术方法有以下两种:方式一、根据投保日期前几年内登记或享受当地职工门诊大病或城乡居民医保大病的人群,标识为既往症人群。方式二、依赖健康告知或用户提交病历资料,依靠核保人员人工识别是否为既往症。其中,以是否享受大病医保为识别既往症的标准,可能会造成一部分新发重疾的人从累计医疗费用或治疗项目角度不满足大病医保标准,但实际上已是既往症人群,因此识别具有局限性且不全面,导致识别结果不准确。依靠人工核保方式,通过病历或健康告知识别既往症,可能会造成标准不统一、效率低下的问题。
医疗领域中,关于同一种诊断、手术、药品、检查、化验、症状等往往会有成百上千种不同的写法。标准化要解决的问题就是为临床上各种不同说法找到对应的标准说法。临床术语标准化任务也是语义相似度匹配任务的一种。在术语标准化的基础上,才可进行后续的统计分析。
为了解决相关技术中的技术问题,本公开实施例中提供了一种诊断数据识别方法,可以应用于识别每一个待处理对象的既往症的应用场景。
图1示出了可以应用本公开实施例的诊断数据识别方法及装置的系统架构100的示意图。
如图1所示,客户端101可以为具有数据处理功能的设备,例如可以为智能手机、电脑、平板电脑、智能音箱、智能手表、车载设备、可穿戴设备等智能设备。服务器102可以为多个数据源,例如医疗机构的数据库、医院的数据库。服务器102也可以为存储医疗数据的存储设备,例如存储了所有医疗数据的手机。
本公开实施例中,客户端101可以从服务器102获取原始诊断数据103,除此之外还可以获取候选诊断数据104。接下来,对原始诊断数据和候选诊断数据进行特征提取得到语义特征计算二者的匹配结果;根据所述原始诊断数据与所述候选诊断数据的匹配结果对原始诊断数据进行归一化,进而根据归一化结果确定所述待处理对象的原始诊断数据103对应的目标诊断结果105。
需要说明的是,本公开实施例所提供的诊断数据识别方法可以由客户端101来执行。相应地,诊断数据识别方法可通过程序等方式设置于客户端101中。本公开实施例所提供的诊断数据识别方法也可以由服务器来执行,服务器可以为提供本公开实施例中诊断数据识别相关服务的后台系统,可以包括便携式计算机、台式计算机、智能手机等具有计算功能的一台电子设备或多台电子设备形成的集群。本公开实施例中,以诊断数据识别方法由客户端来执行为例进行说明。
接下来,参考图2对本公开实施例中的诊断数据识别方法进行详细说明。
在步骤S210中,基于历史医疗数据获取待处理对象的原始诊断数据,并获取候选诊断数据。
本公开实施例中,待处理对象的类型具体可以根据应用场景而确定,不同应用场景对应的待处理对象的类型则不同。举例而言,当应用场景为保险场景时,待处理对象可以为待投保用户。当应用场景为其他购物场景时,待处理对象可以为消费者。本公开实施例中以应用场景为保险场景中的投保场景,待处理对象为待投保用户为例进行说明。
原始诊断数据可以为待处理对象的历史医疗数据中的疾病诊断数据。历史医疗数据可以为来源于各个医疗机构的医疗数据以及网络问诊的医疗数据。医疗机构可以包括各种类型的医疗结构,例如诊所、医院等等。历史医疗数据具体可以包括门诊医疗数据以及住院医疗数据。疾病诊断数据用于描述对待处理对象的健康症状进行判断的结果,疾病诊断数据例如可以为高血压、糖尿病等等。
本公开实施例中,可运用大数据计算工具将待处理对象的历史医疗数据中的疾病诊断数据进行提取,以生成诊断结果列表。大数据计算工具例如可以为spark。示例性地,可以将历史医疗数据对应的所有病历数据中记录的疾病关联数据进行提取,获取原始诊断数据。具体地,可以将疾病关联数据进行关键词提取,从而获取原始诊断数据。疾病关联数据可以为待处理对象的住院病历的主诊断数据、辅诊断数据、门诊病历中的诊断数据、网上问诊记录的诊断数据中的至少一种或其组合。由于一个病历数据中可能包含多种疾病关联数据,因此一个病历数据可以生成一个或多个原始诊断数据。
在得到原始诊断数据后,由于可能出现多次病历数据的疾病关联数据相似的情况,因此可对原始诊断数据进行去重操作,得到包含一个或多个原始诊断数据的诊断结果列表。诊断结果列表可以为待处理对象在时间周期内的所有历史医疗数据生成的列表,时间周期内可以为3年或者是5年等等,此处不作限定。每个待处理对象的诊断结果列表可以相同或不同。其中,去重操作指的是将待处理对象的所有原始诊断数据中相同的原始诊断数据进行删除,只保留一个原始诊断数据,进而根据所有的原始诊断数据得到诊断结果列表。例如,历史医疗数据中包含多次高血压,则保留一次即可。诊断结果列表中可以包含一个或多个原始诊断数据,例如诊断结果列表中包括高血压、糖尿病、甲减等等。
在原始诊断数据中,可能存在多个诊断结果连接组合成一个诊断结果的情况,例如“1.高血压2.糖尿病3.冠状动脉粥样硬化粥样硬化性心脏病”、“肺恶性肿瘤、肝硬化”等。基于此,为了提高准确性,可运用自然语言处理方式将原始诊断数据进行切分,得到多个原始诊断词来代替原始诊断数据。示例性地,可通过多种拆分方式对所述原始诊断数据进行拆分。多种拆分方式可以包括按照序号信息进行拆分或通过序列标注模型进行序列识别,从而对原始诊断数据进行拆分,以方便进行处理,同时避免不同诊断数据之间的相互影响。
在一些实施例中,若所述原始诊断数据中存在序号信息,则按照序号信息进行拆分;若原始诊断数据中不存在序号信息,则可根据序列标注模型进行序列识别,实现拆分。举例而言,若原始诊断数据中明确出现各种类型的序号(如1、I、一、(1)等),可根据序号编写正则规则进行多个诊断名称的拆分。例如“1.高血压2.糖尿病3.冠状动脉粥样硬化”直接可拆分为高血压、糖尿病、冠状动脉粥样硬化性心脏病。序列标注模型可以为BiLSTM-CRT(双向长短期记忆-条件随机场)模型,用于结合待处理数据的上下文关系以及依赖关联关系,以及符号标识,结合语义关系对待处理数据进行自动标注和自动拆分。具体可以包括以下步骤:对原始诊断数据进行标注,以得到包括实体和分隔实体的标注结果。根据所述标注结果中的分隔实体确定用于代表拆分的位置拆分标记,并按照所述拆分标记进行拆分。例如,原始诊断数据为:骨癌,肺部转移,高血压三级,很高危。拆分后得到的结果为“高血压三级,很高危”,“骨癌,肺部转移”。基于此,可以将拆分后的每一个原始诊断词作为原始诊断数据。
候选诊断数据指的是ICD编码诊断数据,用于表示ICD编码对应的疾病诊断词。候选诊断数据可以与原始诊断数据关联,也可以不关联,只要属于ICD编码对应的疾病诊断词中的一种即可。例如原始诊断数据为:左腕玻璃刺伤,候选诊断数据可以为S61.902对应的次腕部开放性损损伤,也可以为其他ICD编码对应的疾病诊断词。需要说明的是,原始诊断数据与候选诊断数据的数量相同,即每处理一个原始诊断数据,则需要有一个候选诊断数据相对应。
需要补充的是,在将原始诊断数据进行拆分得到多个原始诊断词后,可能再次出现重复的内容,因此需要对拆分后的原始诊断数据再次进行去重操作,以基于再次去重后的原始诊断数据进行处理。
参考图2中所示,在步骤S220中,根据所述原始诊断数据和所述候选诊断数据的语义特征,确定所述原始诊断数据和所述候选诊断数据之间的匹配结果。
本公开实施例中,可以将原始诊断数据和候选诊断数据进行组合得到一个句子或者是一个组合词,并将原始诊断数据和候选诊断数据作为一个整体来确定其对应的语义特征。语义特征用于描述原始诊断数据以及候选诊断数据表示的整个句子的语义。进一步地,可以对语义特征进行相似度计算,得到原始诊断数据以及候选诊断数据之间的语义相似度。语义相似度用于描述原始诊断数据与候选诊断数据之间的差异。基于语义相似度可以得到原始诊断数据和候选诊断数据之间的匹配结果。匹配结果可以包括匹配成功和匹配失败两种情况。
图3中示意性示出了确定匹配结果的流程图,参考图3中所示,主要包括以下步骤:
在步骤S310中,对所述原始诊断数据以及所述候选诊断数据进行特征提取,得到语义特征。
本步骤中,在获取到原始诊断数据和候选诊断数据后,可以对原始诊断数据和候选诊断数据进行分词,得到其对应的每个单词,以根据每个单词之间的关系获取语义特征。在得到每个单词后,可对每个单词进行特征提取,得到语义特征。语义特征用于表示原始诊断数据和候选诊断数据中多个单词之间的关系特征,即通过语义特征描述原始诊断数据和候选诊断数据中不同诊断名称内部的关系。举例而言,原始诊断数据为肺恶性肿瘤,语义特征可以用于表示肺是一个部位,恶性肿瘤是疾病描述。除此之外,语义特征还可以描述候选诊断数据内部不同诊断名称之间的关系。
示例性地,在获取语义特征时,首先可以获取原始诊断数据和候选诊断数据中每一个单词的中间特征,并基于中间特征进行卷积操作得到对应的语义特征。在一些实施例中,可通过自然语言处理将每个单词转换为模型内部能够识别计算的词向量序列,以得到每个单词的词嵌入向量;进一步可以结合每个单词的词嵌入向量以及每个单词的位置向量确定中间特征。词嵌入向量为将一个单词转换成的固定长度的向量表示,表示的是每个单词的意思。具体可以通过模型来获取其词嵌入向量。模型可以为BERT模型或者是其它模型,只要能够进行向量转换即可,此处不作具体限定。由于实际应用过程中每个单词在句子中的位置不同,其所表达的具体意思可能不同,因此,可通过位置向量来代表输入的原始诊断数据和候选诊断数据中的每个单词的位置。基于此,可将每个单词的词嵌入向量以及该单词的位置向量相加,得到该单词的中间特征,中间特征中融合了语义和位置。例如,将单词1的词嵌入向量与单词1的位置向量相加,得到单词1的中间特征。
在得到中间特征之后,可将中间特征输入至transfomer模型的编码器进行计算,获取编码矩阵来表示语义特征。图4中示意性示出了获取语义特征的流程图,参考图4中所示,主要包括以下步骤:
在步骤S410中,将所述中间特征进行特征提取,获取所述原始诊断数据和所述候选诊断数据中各单词之间的关系特征;
在步骤S420中,对所述关系特征进行映射处理,生成所述语义特征。
本公开实施例中,可通过transformer模型的编码器部分对中间特征进行处理,以确定原始诊断数据和候选诊断数据内部所有单词之间的关系特征。示例性地,transformer模型的编码器由多头注意力机制层、归一化层、全连接层构成,归一化层可以连接在每一个子层之后。其中,多头注意力机制层用于学习所有单词之间的关系。全连接层可以为位置编码的前馈神经网络层,用于对所有的特征进行整合,即对上一层的输出进行两层线性映射并用在中间用一个非线性激活函数激活。全连接层起到将学到的分布式特征表示映射到样本标记空间的作用,全连接层可由卷积操作实现。归一化层可以包括残差连接和标准化,残差连接用于进行特征传递,以防止网络退化;标准化用于对每一层的激活值进行归一化处理,例如进行0均值1方差的标准化。
基于此,可通过多头注意力机制层以及全连接层、归一化层来对中间特征进行处理。首先可通过多头注意力机制层将所述中间特征进行特征提取或者是编码,获取所述原始诊断数据和候选诊断数据中各单词之间的关系特征。多头注意力机制层是由多个注意力机制组成的。示例性地,通过多组Query、Key、Value矩阵构成的多头注意力机制对中间特征提取不同的特征,再将提取到的特征拼接起来得到最终的输出特征作为关系特征。Query、Key、Value是通过输入的中间特征进行线性映射得到的。
具体而言,可将原始诊断数据和候选诊断数据中的每一个单词的Query向量分别与所有单词的Key向量做内积计算相似度得到权重,进一步将权重与每个单词的Value向量相乘,得到每个单词的关系特征作为多头注意力机制层的输出。
使用多头注意力机制,能够从不同角度提取特征,提高特征提取的全面性和准确性。计算当前单词的同时利用了其上下文的单词使其能提取单词之间长距离依赖关系;由于每个单词的计算都是独立不互相依赖,所以可以同时并行计算所有单词的特征。
进一步地,可以通过全连接层将关系特征进行线性变换处理,得到代表原始诊断数据和候选诊断数据中每个单词之间的关系的语义特征。全连接层可以包括线性映射以及ReLU激活函数,用于对每个位置的关系特征进行相同的操作,得到编码矩阵为编码器的输出,并将编码矩阵确定为语义特征。全连接层用于对每个单词的增强语义向量再做两次线性变换,以增强整个模型的表达能力。全连接层输出的向量的维度与输入的维度一致。
需要说明的是,为了保证经过编码器输出的语义特征包含原本的特征,在编码器中设置了残差连接。残差连接用于将第一层的输入以及第一层的输出同时作为目标层的输入,从而得到网络的输出。目标层例如可以为第二层。示例性地,编码器中可以包括第一残差网络和第二残差网络,第一残差网络为输入的中间特征与多头注意力机制层连接的归一化层之间的残差连接(即多头注意力机制层的输入与多头注意力机制层的输出之间的残差连接诶),通过第一残差网络将中间特征与多头注意力机制层的输出作为归一化层的输入。第二残差网络为归一化层的输出与全连接层连接的归一化层之间的残差连接,通过第二残差网络将全连接层的输入与全连接层的输出作为归一化层的输入。通过第一残差网络以及第二残差网络所表示的残差连接,得到编码器的输出结果。本公开实施例中,残差连接通过将初始的输入向量中间特征不做任何变换与经过多头注意力机制层计算的输出向量(关系特征)相加,再经过归一化层确定其输出向量语义特征,能够增强模型的拟合能力和性能,提升模型处理效率。并且,修改输入比重构整个输出更容易,因此通过残差网络可以使网络更容易训练,提高训练效率。
本公开实施例中,通过使用多头注意力机制层,将词嵌入向量以及位置向量结合得到的中间特征进行特征提取得到原始诊断数据和候选诊断数据中每个单词之间的关系特征,进一步经过全连接层对关系特征进行映射处理确定语义特征,能够从细粒度提取不同的特征,通过多头注意力机制,能够获取诊断数内部多种维度上的相关系数,从而全面准确地确定原始诊断数据和候选诊断数据内部每个单词之间的关联关系和相关性,提高语义特征的准确性。
在步骤S320中,根据所述语义特征计算所述原始诊断数据和所述候选诊断数据的语义相似度。
本步骤中,可以计算语义特征之间的相似度,从而确定原始诊断数据以及候选诊断数据之间的语义相似度。语义相似度用于描述原始诊断数据和候选诊断数据之间的关联性,且语义相似度与关联性正相关,即语义相似度越大,关联性越大。
在步骤S330中,基于所述语义相似度进行分类,确定所述原始诊断数据以及所述候选诊断数据的所述匹配结果。
本步骤中,可以基于预设阈值将语义相似度进行分类,例如当语义相似度大于预设阈值时,可以认匹配结果为匹配成功;当语义相似度小于预设阈值时,可以认匹配结果为匹配失败。预设阈值可以根据实际需求进行设置,例如可以为大于0.5的任意数值,例如0.7或者是0.8等等。
需要补充的是,在一些实施例中,可以通过归一模型对所述原始诊断数据和所述候选诊断数据的语义特征进行相似度计算,确定所述原始诊断数据和所述候选诊断数据之间的匹配结果。归一模型可以包括多个编码器、多层感知机以及分类层,且归一模型可以通过训练得到。其中,编码器可以为transfomer模型中的编码器、分类层可以为softmax层。
图5中示意性示出了归一模型的结构图,参考图5中所示,通过归一模型对原始诊断数据和候选诊断数据进行处理主要包括以下步骤:
在步骤S510中,获取原始诊断数据以及候选诊断数据,并将原始诊断数据以及候选诊断数据输入编码器中,获取语义特征。
示例性地,原始诊断数据和候选诊断数据均可以作为归一模型的输入,以便于归一模型进行处理。在一些实施例中,可以根据预设标识将原始诊断数据以及候选诊断数据进行组合。预设标识可以包括第一标识符和第二标识符,其中第一标识符可以为类型标识[CLS],第二标识符可以为结束标识[SEP]。原始诊断数据和候选诊断数据可以表示为如下形式:[CLS]原始诊断数据[SEP]候选诊断数据[SEP]。其中,第一标识符用于表示分类,第二标识符用于表示句子结束位置。
举例而言,原始诊断数据可以为左腕玻璃刺伤,候选诊断数据可以为ICD编码对应的疾病诊断词,例如可以为ICD10:S61.902对应的腕部开放性损伤。输入编码器的数据可以表示为:[CLS]左腕玻璃刺伤[SEP] 腕部开放性损伤[SEP]。需要说明的是,在每个输入前面加一个第一标识[CLS],然后让编码器对[CLS]进行深度encoding,由于编码器是可以无视空间和距离的把全局信息编码进每个位置的,而[CLS]的最高隐层作为句子/句对的表示直接跟softmax的输出层连接,因此可以学到整个输入的上层特征。即,编码器可以获取整个句子的语义特征。
编码器的输出为“[CLS]原始诊断数据[SEP]待匹配诊断数据”所组合成的句子的语义特征,即直接获得整个句子的唯一向量表示。本步骤中,编码器可以由N层transfomer编码器组成,本公开实施例中采用多个编码器,可从浅层到高层分别学习到字级别,短语级别的,句法级别的,和语义级别的信息,提高特征的精准度。参考图6中所示的transfomer编码器的结构,可通过编码器将原始诊断数据以及候选诊断数据进行特征处理得到语义特征。
在步骤S520中,基于多层感知机和分类层对所述语义特征进行相似度计算,获取所述语义相似度。
本步骤中,多层感知机相当于一层神经网络,包括输入层、隐藏层、输出层,其中隐藏层和输出层均为全连接层。多层感知机在输出层与输入层之间加入了一个或多个全连接隐藏层,并通过激活函数对隐藏层输出进行变换。激活函数可以包括ReLU函数、sigmoid函数等等。多层感知机用于将上一层的输出经过激活函数进行变换后输入到下一层。基于此,可以将语义特征输入至多层感知机进行变换处理,得到对应的处理结果。此处的变换处理可以为非线性变换处理。
可以通过softmax层表示的分类层将多层感知机输出的处理结果进行归一化处理,将这些处理结果进行归一化处理转换成对应的概率,得到语义相似度。
在步骤S530中,对所述语义相似度进行分类处理,确定所述匹配结果。
本步骤中,可以对语义相似度进行分类,以确定二者的匹配结果。匹配结果用于描述原始诊断数据和候选诊断数据的语义是否一致。当匹配结果为0时,确定原始诊断数据和候选诊断数据的语义不一致,即确定匹配失败;匹配结果为1时,确定原始诊断数据和候选诊断数据的语义一致则确定匹配成功。
本公开实施例中,通过transformer模型的编码器,结合多层感知机,经过softmax层运算得到原始诊断数据和候选诊断数据的语义是否一致的匹配结果,能够准确地确定原始诊断数据以及候选诊断数据的匹配结果,实现自动化判断。
图6中示意性示出了通过编码器进行处理的流程图,参考图6中所示,transformer模型包括L个编码器,基于此,获取语义特征可以包括以下步骤:
在步骤S610中,获取原始诊断数据和候选诊断数据中每个单词的词嵌入向量,并将词嵌入向量与位置向量进行结合得到中间特征。
本步骤中,可以将每个单词的词嵌入向量以及位置向量进行加法操作得到中间特征。
在步骤S620中,将中间特征输入至多头注意力机制层得到关系特征。
本步骤中,可通过多头注意力机制层对中间特征进行特征提取得到关系特征,进一步通过语义特征与多头注意力机制层的输出(即与多头注意力机制层连接的归一化层)之间的残差连接,将其输入至全连接层;进一步通过全连接层对关系特征进行线性映射,根据全连接层的输入以及全连接层的输出(即与全连接层连接的归一化层)之间的残差连接确定每一个单词的中间特征,从而得到原始诊断数据和候选诊断数据中每个单词之间关联关系。
进一步地,可以通过全连接层对多头注意力机制层经过归一化层之后的关系特征,进行两层线性映射并用非线性激活函数激活。在全连接之后,可以将全连接层的输入以及归一化层进行残差连接。归一化层用于将输入转换为均值为0方差为1的数据。
在步骤S630中,根据关系特征得到语义特征。
进一步地,可以根据关系特征确定语义特征,具体可以对关系特征进行映射以及归一化处理,从而得到语义特征。。
本公开实施例中,通过transformer模型中的编码器,得到原始诊断数据和候选诊断数据的语义特征,进一步对语义特征进行相似度计算,得到原始诊断数据和候选诊断数据的语义相似度,提高了操作效率。能够基于归一模型将原始诊断数据自动进行标准化,得到其对应的标准诊断数据,即ICD编码诊断词,提高了归一效率和智能化。
图7中示意性示出了训练归一模型的流程示意图,参考图7中所示,主要包括以下步骤:
在步骤S710中,通过通用语料对语言模型进行训练得到通用语言模型;
在步骤S720中,通过医疗文本语料对通用语言模型进行训练得到医疗语言模型;
在步骤S730中,通过目标任务对应的训练数据对医疗语言模型进行训练,得到归一模型。
本公开实施例中,语言模型可以为图5中的结构,具体包括transformer模型的编码器、多层感知机、softmax层。通用语料指的是各种领域的文本数据等等,例如可以为电商领域、医疗领域的文本数据。医疗文本语料指的是医疗领域的文本数据,可以基于医疗领域的文本数据对通用语言模型进行训练,得到医疗语言模型。进一步地,目标任务可以为医疗数据归一任务,医疗数据归一任务指的是将医疗领域中的诊断数据进行名称标准化的任务,例如将诊断名称转换为标准名称。在此基础上,可以通过已标注诊断数据以及已标注诊断数据对应的标准诊断数据,对医疗语言模型进行训练,调整医疗语言模型的模型参数,直至模型收敛为止,得到归一模型。例如,通过医疗语言模型对已标注诊断数据进行处理得到其对应的预测标准诊断数据,进一步将标准诊断数据与预测标准诊断数据进行对比,直至二者一致为止,以进行模型训练得到归一模型。
在得到归一模型之后,可以将原始诊断数据和候选诊断数据作为归一模型的输入,经过归一模型得到原始诊断数据和候选诊断数据的匹配结果。
在步骤S230中,基于所述匹配结果对原始诊断数据进行归一化处理,并根据归一化结果对所述待处理对象对应的原始诊断数据进行识别,以确定目标诊断结果。
本公开实施例中,匹配结果可以包括匹配成功以及匹配失败。如果匹配结果为匹配成功,则继续进行处理。如果匹配结果为原始诊断数据与候选诊断数据匹配失败,则继续更新候选诊断数据,重新对原始诊断数据以及更新后的候选诊断数据进行特征提取,得到匹配结果,直至匹配结果为原始诊断数据与更新后的候选诊断数据匹配成功为止。
在原始诊断数据与候选诊断数据匹配成功后,可以根据匹配结果对原始诊断数据进行归一化处理得到归一化结果。此处的归一化处理指的是将原始诊断数据进行标准化,得到与ICD编码对应的标准诊断数据。如果匹配结果为匹配成功,可以将候选诊断数据确定为原始诊断数据的标准诊断数据,标准诊断数据用于描述原始诊断数据关联的ICD编码诊断数据。举例而言,原始诊断数据左腕玻璃刺伤与候选诊断数据ICD10:S61.902对应的腕部开放性损伤匹配成功,则原始诊断数据的标准诊断数据即为腕部开放性损伤。由于标准诊断数据与ICD编码一一对应,因此可以根据原始诊断数据确定对应的ICD编码。
进一步地,可以将原始诊断数据对应的候选诊断数据与参考诊断数据进行对比,以确定原始诊断数据对应的目标诊断结果。参考诊断数据可以为保险场景中规定的疾病类型,例如可以为既往症集合。目标诊断结果可以为既往症类型以及既往症标签。既往症指的是已经出现的疾病类型。不同的保险类型对应的参考诊断数据可以相同或不同,具体根据实际需求而确定。若待处理对象的原始诊断数据处于参考诊断数据的范围,则待处理对象无法进行投保。若待处理对象的原始诊断数据不处于参考诊断数据的范围,则待处理对象可以进行投保。
本公开实施例中,可以将原始诊断数据对应的标准诊断数据(即候选诊断数据)与参考诊断数据中的每一个进行匹配,确定候选诊断数据是否与参考诊断数据其中之一匹配成功;若匹配成功,可根据匹配成功的参考诊断数据的类型确定待处理对象的原始诊断数据对应的目标诊断结果。目标诊断结果可以为目标诊断标签,目标诊断标签用于表示是否属于参考诊断数据以及属于参考诊断数据中的哪一类型。即是否为既往症、既往症类型以及既往症标签。需要说明的是,可以通过原始诊断数据以及候选诊断数据对待处理对象的所有原始诊断数据进行标准化,根据候选诊断数据确定其标准诊断数据,进而根据标准诊断数据得到该待处理对象的所有原始诊断数据对应的目标诊断结果,从而识别出待处理对象的所有既往症。示例性地,可以参照既往症ICD(International Classification ofDiseases)编码列表,对标准诊断数据表示的归一结果进行匹配,以将标准诊断数据映射为既往症标签。举例而言,若属于参考诊断数据,则标签可以为ICD编码或者是类型;若不属于参考诊断数据,标签可以为0。
举例而言,参考图8中所示的确定目标诊断结果的示意图,原始诊断数据801左腕玻璃刺伤与802候选诊断数据ICD10:S61.902对应的腕部开放性损伤匹配成功,则可以将候选诊断数据作为原始诊断数据的标准诊断数据,则原始诊断数据的标准诊断数据803为腕部开放性损伤。基于此,可以将标准诊断数据与待投保保险的参考诊断数据804中的参考诊断数据1、参考诊断数据2以及参考诊断数据3进行对比,如果其中包含腕部开放性损伤,则原始诊断数据对应的目标诊断结果805为ICD编码ICD10:S61.902。若其中不包含腕部开放性损伤,则原始诊断数据的目标诊断标签为0。如果识别出目标诊断结果,可以通过提示标识对目标诊断结果进行提示。提示标识例如可以为区别性显示或者是声音提示标识等等,此处不作具体限定。
本公开实施例中的技术方案,通过将原始诊断数据以及候选诊断数据进行相似度计算,根据二者的语义相似度得到二者的匹配结果。进而根据匹配结果来对原始诊断数据进行标准化得到标准诊断数据,并根据与标准诊断数据匹配成功的参考诊断数据的类型来识别原始诊断数据的目标诊断标签。相比于现有技术而言,能够从所有的医疗数据中对原始诊断数据进行标准化,进而自动识别目标诊断标签,避免了相关技术中只能根据部分医疗数据进行识别的局限性,提高了全面性和准确性。除此之外,由于能够对原始诊断数据进行自动确定异常医疗结果,提高了识别效率和通用性,增加了应用范围。
基于此,在保险应用场景中,能够确保产品精算定价时对既往症人群预留充足的赔付空间,保障产品赔付可控;能够更精准的识别出既往症人群,形成风险标签并提示客户,能够及时进行风险预警,避免了潜在风险。且能够便于保险产品理赔时提供既往症人群对应的赔付方式,提供针对性处理。
本公开实施例中提供了一种诊断数据识别装置,参考图9中所示,该诊断数据识别装置900可以包括:
诊断数据获取模块901,用于基于历史医疗数据获取待处理对象的原始诊断数据,并获取候选诊断数据;
匹配模块902,用于根据所述原始诊断数据和所述候选诊断数据的语义特征,确定所述原始诊断数据和所述候选诊断数据之间的匹配结果;
识别模块903,用于基于所述匹配结果对原始诊断数据进行归一化处理,并根据归一化结果对所述待处理对象对应的原始诊断数据进行识别,以确定目标诊断结果。
在本公开的一种示例性实施例中,匹配模块包括:语义特征提取模块,用于对所述原始诊断数据以及所述候选诊断数据进行特征提取,得到语义特征;相似度计算模块,用于根据所述语义特征计算所述原始诊断数据和所述候选诊断数据的语义相似度;分类模块,用于基于所述语义相似度进行分类,确定所述原始诊断数据以及所述候选诊断数据的所述匹配结果。
在本公开的一种示例性实施例中,语义特征提取模块被配置为:对所述原始诊断数据和所述候选诊断数据的中间特征进行特征提取,获取每个单词的关系特征;对所述关系特征进行映射处理,生成所述语义特征。
在本公开的一种示例性实施例中,匹配模块包括:模型匹配模块,用于通过归一模型对所述原始诊断数据以及所述候选诊断数据进行相似度计算,以确定所述匹配结果;其中,所述归一模型包括多个编码器、多层感知机以及分类层。
在本公开的一种示例性实施例中,模型匹配模块包括:关系特征提取模块,用于通过多个编码器对所述原始诊断数据以及所述候选诊断数据进行特征提取,获取所述原始诊断数据和所述候选诊断数据中每个单词之间的关系特征作为所述语义特征;相似度计算模块,用于基于多层感知机和分类层对所述语义特征进行相似度计算,获取所述语义相似度;分类模块,用于对所述语义相似度进行分类处理,确定所述匹配结果。
在本公开的一种示例性实施例中,所述装置还包括:第一训练模块,用于通过通用语料对语言模型进行训练,得到通用语言模型;第二训练模块,用于通过医疗文本语料对所述通用语言模型进行训练,得到医疗语言模型;第三训练模块,用于通过目标任务对应的训练数据对医疗语言模型进行训练,得到所述归一模型。
在本公开的一种示例性实施例中,第三训练模块包括:训练控制模块,用于通过数据归一任务中已标注诊断数据以及所述已标注诊断数据对应的标准诊断数据,对所述医疗语言模型进行训练,得到所述归一模型。
在本公开的一种示例性实施例中,识别模块包括:归一化模块,用于若匹配结果为匹配成功,根据所述候选诊断数据将所述原始诊断数据进行归一化处理,得到所述原始诊断数据对应的标准诊断数据;标签确定模块,用于将所述标准诊断数据与参考诊断数据进行匹配,并根据匹配成功的参考诊断数据的类型确定所述待处理对象的原始诊断数据对应的目标诊断标签。
在本公开的一种示例性实施例中,诊断数据获取模块包括:提取模块,用于将所述历史医疗数据对应的病历数据中的疾病关联数据进行提取,以获取所述原始诊断数据。
在本公开的一种示例性实施例中,所述装置还包括:第一切分模块,用于根据所述原始诊断数据中的序号信息对所述原始诊断数据进行切分;或,第二切分模块,用于通过序列标注模型对所述原始诊断数据进行序列识别,以对所述原始诊断数据进行切分。
需要说明的是,上述诊断数据识别装置中各模块的具体细节已经在对应的诊断数据识别方法中进行了详细描述,因此此处不再赘述。
本公开的示例性实施方式还提供一种电子设备。该电子设备可以是上述客户端101,也可以是服务器。一般的,该电子设备可以包括处理器与存储器,存储器用于存储处理器的可执行指令,处理器配置为经由执行可执行指令来执行上述诊断数据识别方法。
下面参照图10来描述根据本公开的这种实施方式的电子设备1000。图10显示的电子设备1000仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图10所示,电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于:上述至少一个处理单元1010、上述至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030以及显示单元1040。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1010执行,使得所述处理单元1010执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元1010可以执行如图2中所示的步骤。
存储单元1020可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)10201和/或高速缓存存储单元10202,还可以进一步包括只读存储单元(ROM)10203。
存储单元1020还可以包括具有一组(至少一个)程序模块10205的程序/实用工具10204,这样的程序模块10205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1030可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速接口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备1000也可以与一个或多个外部设备1100(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1000交互的设备通信,和/或与使得该电子设备1000能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1050进行。并且,电子设备1000还可以通过网络适配器1060与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1060通过总线1030与电子设备1000的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1000使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在本公开的实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
根据本公开的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本公开实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。
Claims (11)
1.一种诊断数据识别方法,其特征在于,包括:
将历史医疗数据中的疾病关联数据进行关键词提取,获取待处理对象的原始诊断数据,并获取候选诊断数据;
将原始诊断数据和候选诊断数据进行组合,将组合得到的一个整体输入归一模型,以便所述归一模型的编码器对整体进行特征提取,通过编码器对整个句子进行深度编码,编码器无视空间和距离将全局信息编码进每个位置得到整体的上层特征,作为组合成的整个句子的语义特征,将所述语义特征输入至所述归一模型的多层感知机进行变换处理,并通过所述归一模型的分类层输出所述原始诊断数据和所述候选诊断数据之间的匹配结果,所述匹配结果用于指示所述原始诊断数据和所述候选诊断数据是否语义一致;
若所述匹配结果为语义一致,确定所述候选诊断数据为所述原始诊断数据对应的标准诊断数据,并将所述原始诊断数据对应的标准诊断数据与参考诊断数据进行匹配,以识别出待处理对象的既往症。
2.根据权利要求1所述的诊断数据识别方法,其特征在于,所述方法还包括:
对所述原始诊断数据和所述候选诊断数据的中间特征进行特征提取,获取每个单词的关系特征;
对所述关系特征进行映射处理,生成所述语义特征。
3.根据权利要求1所述的诊断数据识别方法,其特征在于,通过归一模型对所述原始诊断数据以及所述候选诊断数据进行相似度计算,以确定所述匹配结果,包括:
基于多层感知机和分类层对所述语义特征进行相似度计算,获取语义相似度;
对所述语义相似度进行分类处理,确定所述匹配结果。
4.根据权利要求1所述的诊断数据识别方法,其特征在于,所述方法还包括:
通过通用语料对语言模型进行训练,得到通用语言模型;
通过医疗文本语料对所述通用语言模型进行训练,得到医疗语言模型;
通过目标任务对应的训练数据对医疗语言模型进行训练,得到所述归一模型。
5.根据权利要求4所述的诊断数据识别方法,其特征在于,所述通过目标任务对应的训练数据对医疗语言模型进行训练,得到所述归一模型,包括:
通过数据归一任务中已标注诊断数据以及所述已标注诊断数据对应的标准诊断数据,对所述医疗语言模型进行训练,得到所述归一模型。
6.根据权利要求1所述的诊断数据识别方法,其特征在于,所述确定所述候选诊断数据为所述原始诊断数据对应的标准诊断数据,并将所述原始诊断数据对应的标准诊断数据与参考诊断数据进行匹配,以识别出待处理对象的既往症,包括:
根据所述候选诊断数据将所述原始诊断数据进行归一化处理,得到所述原始诊断数据对应的标准诊断数据;
将所述标准诊断数据与参考诊断数据进行匹配,并根据匹配成功的参考诊断数据的类型确定所述待处理对象的原始诊断数据对应的目标诊断标签。
7.根据权利要求1所述的诊断数据识别方法,其特征在于,所述将历史医疗数据中的疾病关联数据进行关键词提取,获取待处理对象的原始诊断数据,包括:
将所述历史医疗数据对应的病历数据中的疾病关联数据进行提取,以获取所述原始诊断数据。
8.根据权利要求4所述的诊断数据识别方法,其特征在于,所述方法还包括:
根据将所述原始诊断数据中的序号信息对所述原始诊断数据进行切分;或,
通过序列标注模型对所述原始诊断数据进行序列识别,以对所述原始诊断数据进行切分。
9.一种诊断数据识别装置,其特征在于,包括:
诊断数据获取模块,用于将历史医疗数据中的疾病关联数据进行关键词提取,获取待处理对象的原始诊断数据,并获取候选诊断数据;
匹配模块,用于将原始诊断数据和候选诊断数据进行组合,将组合得到的一个整体输入归一模型,以便所述归一模型的编码器对整体进行特征提取,通过编码器对整个句子进行深度编码,编码器无视空间和距离将全局信息编码进每个位置得到整体的上层特征,作为组合成的整个句子的语义特征,将所述语义特征输入至所述归一模型的多层感知机进行变换处理,并通过所述归一模型的分类层输出所述原始诊断数据和所述候选诊断数据之间的匹配结果,所述匹配结果用于指示所述原始诊断数据和所述候选诊断数据是否语义一致;
识别模块,用于若所述匹配结果为语义一致,确定所述候选诊断数据为所述原始诊断数据对应的标准诊断数据,并将所述原始诊断数据对应的标准诊断数据与参考诊断数据进行匹配,以识别出待处理对象的既往症。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-8任意一项所述的诊断数据识别方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任意一项所述的诊断数据识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210685777.0A CN114783596B (zh) | 2022-06-17 | 2022-06-17 | 诊断数据识别方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210685777.0A CN114783596B (zh) | 2022-06-17 | 2022-06-17 | 诊断数据识别方法及装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114783596A CN114783596A (zh) | 2022-07-22 |
CN114783596B true CN114783596B (zh) | 2022-10-18 |
Family
ID=82420250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210685777.0A Active CN114783596B (zh) | 2022-06-17 | 2022-06-17 | 诊断数据识别方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114783596B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107731269A (zh) * | 2017-10-25 | 2018-02-23 | 山东众阳软件有限公司 | 基于原始诊断数据和病历文件数据的疾病编码方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3637431A1 (en) * | 2018-10-12 | 2020-04-15 | Fujitsu Limited | Medical diagnostic aid and method |
CN110188182B (zh) * | 2019-05-31 | 2023-10-27 | 中国科学院深圳先进技术研究院 | 模型训练方法、对话生成方法、装置、设备及介质 |
CN111180062A (zh) * | 2019-12-12 | 2020-05-19 | 山东众阳健康科技集团有限公司 | 基于原始诊断数据的疾病分类编码智能推荐方法 |
CN114358001A (zh) * | 2021-11-16 | 2022-04-15 | 安徽科大讯飞医疗信息技术有限公司 | 诊断结果的标准化方法及其相关装置、设备和存储介质 |
-
2022
- 2022-06-17 CN CN202210685777.0A patent/CN114783596B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107731269A (zh) * | 2017-10-25 | 2018-02-23 | 山东众阳软件有限公司 | 基于原始诊断数据和病历文件数据的疾病编码方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114783596A (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111090987B (zh) | 用于输出信息的方法和装置 | |
CN109145294B (zh) | 文本实体识别方法及装置、电子设备、存储介质 | |
CN107644011B (zh) | 用于细粒度医疗实体提取的系统和方法 | |
CN112001177A (zh) | 融合深度学习与规则的电子病历命名实体识别方法及系统 | |
Teng et al. | Automatic medical code assignment via deep learning approach for intelligent healthcare | |
US20210343410A1 (en) | Method to the automatic International Classification of Diseases (ICD) coding for clinical records | |
CN111079432B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN111858940B (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN113779179B (zh) | 一种基于深度学习和知识图谱的icd智能编码的方法 | |
Tyagi et al. | Demystifying the role of natural language processing (NLP) in smart city applications: background, motivation, recent advances, and future research directions | |
CN110223134B (zh) | 基于语音识别的产品推荐方法及相关设备 | |
CN111444717A (zh) | 医学实体信息的抽取方法、装置、存储介质及电子设备 | |
CN112860842A (zh) | 病历标注方法、装置及存储介质 | |
CN116010586A (zh) | 一种健康建议的生成方法、装置、设备及存储介质 | |
CN112364664A (zh) | 意图识别模型的训练及意图识别方法、装置、存储介质 | |
CN113297852B (zh) | 一种医学实体词的识别方法和装置 | |
CN111755090A (zh) | 病历查找方法、病历查找装置、存储介质与电子设备 | |
CN113012774A (zh) | 病案自动编码方法、装置、电子设备及存储介质 | |
CN117112829B (zh) | 医疗数据跨模态检索方法、装置和相关设备 | |
CN116741333B (zh) | 一种医药营销管理系统 | |
CN112749277A (zh) | 医学数据的处理方法、装置及存储介质 | |
CN114783596B (zh) | 诊断数据识别方法及装置、电子设备、存储介质 | |
CN113158682B (zh) | 产品名称识别方法、装置、电子设备和介质 | |
CN116403728A (zh) | 医疗就诊数据的数据处理装置和相关设备 | |
CN116719840A (zh) | 一种基于病历后结构化处理的医疗信息推送方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |