CN112489790A - 关键数据确定方法、装置、设备及存储介质 - Google Patents

关键数据确定方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112489790A
CN112489790A CN202011380669.XA CN202011380669A CN112489790A CN 112489790 A CN112489790 A CN 112489790A CN 202011380669 A CN202011380669 A CN 202011380669A CN 112489790 A CN112489790 A CN 112489790A
Authority
CN
China
Prior art keywords
data
target
sign data
symptom sign
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011380669.XA
Other languages
English (en)
Inventor
邢智慧
陈俊
黄海峰
陆超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011380669.XA priority Critical patent/CN112489790A/zh
Publication of CN112489790A publication Critical patent/CN112489790A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Primary Health Care (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请公开一种关键数据确定方法、装置、设备及存储介质,涉及大数据、知识图谱、自然语言处理方面。具体实现方案为:该方法包括:获取目标电子病例文本,提取目标电子病例文本中的多个目标症状体征数据及目标辅助数据,将目标症状体征数据、目标辅助数据输入到训练至收敛的注意力attention模型,以确定多个目标症状体征数据中的关键症状体征数据,训练至收敛的attention模型用于对目标症状体征数据进行筛选,以筛选出关键症状体征数据。有效提高了关键症状体征数据的确定效率。

Description

关键数据确定方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,具体涉及大数据、知识图谱、自然语言处理方面,尤其涉及一种关键数据确定方法、装置、设备及存储介质。
背景技术
随着医疗水平的不断发展,虽然整体医疗水平有了很大提升,但是医院每天都还是有庞大的就诊人数。面对庞大的就诊人数,医生需要查看庞大的病例文本,在病例文本中具有很多冗余数据,医生需要从病例文本所有数据中快速确定出哪些症状体征数据是对病人的病情起关键作用的症状体征数据。
现有技术中,一般需要依据医生的从医经验,以及对病例进行大量的研究分析才能确定出关键症状体征数据,导致严重浪费人力物力,关键症状体征数据的确定效率较低。
发明内容
本申请提供了一种关键数据确定方法、装置、设备及存储介质。解决了现有技术中的严重浪费人力物力,关键症状体征数据的确定效率较低的技术问题。
根据本申请的第一方面,提供一种关键数据确定方法,包括:
获取目标电子病例文本;
提取所述目标电子病例文本中的多个目标症状体征数据及目标辅助数据;
将所述目标症状体征数据、所述目标辅助数据输入到训练至收敛的注意力attention模型,以确定多个目标症状体征数据中的关键症状体征数据,训练至收敛的attention模型用于对所述目标症状体征数据进行筛选,以筛选出关键症状体征数据。
根据本申请的第二方面,提供了一种关键数据确定方法,包括:
构建标准医学知识图谱;
获取对初始注意力attention模型进行训练的训练样本,所述训练样本为历史电子病例文本;
根据所述标准医学知识图谱及预设标注策略,对所述训练样本进行正负样本的标注;
提取所述训练样本中的多个样本症状体征数据及样本辅助数据;
将标注后的训练样本中的所述样本症状体征数据、所述样本辅助数据输入至初始attention模型,以对初始attention模型进行训练,输出训练样本中多个样本症状体征数据中关键症状体征数据及训练样本的分类结果。
根据本申请第三方面,提供一种关键数据确定装置,包括:
第一获取单元,用于获取目标电子病例文本;
第一提取单元,用于提取所述目标电子病例文本中的多个目标症状体征数据及目标辅助数据;
第一确定单元,用于将所述目标症状体征数据、所述目标辅助数据输入到训练至收敛的注意力attention模型,以确定多个目标症状体征数据中的关键症状体征数据,训练至收敛的attention模型用于对所述目标症状体征数据进行筛选,以筛选出关键症状体征数据。
根据本申请第四方面,提供一种关键数据确定装置,包括:
构建单元,用于构建标准医学知识图谱;
第二获取单元,用于获取对初始注意力attention模型进行训练的训练样本,所述训练样本为历史电子病例文本;
标注单元,用于根据所述标准医学知识图谱及预设标注策略,对所述训练样本进行正负样本的标注;
第二提取单元,用于提取所述训练样本中的多个样本症状体征数据及样本辅助数据;
训练单元,用于将标注后的训练样本中的所述样本症状体征数据、所述样本辅助数据输入至初始attention模型,以对初始attention模型进行训练,输出训练样本中多个样本症状体征数据中关键症状体征数据及训练样本的分类结果。
根据本申请第五方面,提供一种电子设备,包括:
至少一个处理器;以及存储器,输出装置,其中,
所述处理器、所述存储器与所述输出装置通过电路互联;
所述存储器存储有可被所述至少一个处理器执行的指令,所述输出装置用于在预设操作界面的预设区域采用高亮方式显示关键症状体征数据;
所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。
根据本申请第六方面,提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面所述的方法。
根据本申请的关键数据确定方法、装置、设备及存储介质,通过获取目标电子病例文本,提取目标电子病例文本中的多个目标症状体征数据及目标辅助数据,将目标症状体征数据、目标辅助数据输入到训练至收敛的注意力attention模型,以确定多个目标症状体征数据中的关键症状体征数据,训练至收敛的attention模型用于对目标症状体征数据进行筛选,以筛选出关键症状体征数据。由于训练至收敛的注意力attention模型使数据具有可解释性,能够凸显出对最终的分类结果做出贡献的数据,所以通过训练至收敛的attention模型能够自动将贡献较高的症状体征数据确定为关键症状体征数据,而且从获取目标电子病例文本,到最终的确定关键症状体征数据的过程均是通过电子设备自动化执行的,所以有效提高了关键症状体征数据的确定效率。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例提供的关键数据确定方法的一种应用场景图;
图2是根据本申请第一实施例提供的关键数据确定方法的流程示意图;
图3是根据本申请第二实施例提供的关键数据确定方法的流程示意图;
图4是本申请实施例提供的关键数据确定方法对应应用程序的操作界面;
图5是第二实施例提供的关键数据确定方法的attention模型的示意图;
图6是根据本申请第三实施例提供的关键数据确定方法的流程示意图;
图7是第三实施例提供的关键数据确定方法的attention模型的示意图;
图8是第三实施例提供的关键数据确定方法attention子模型的示意图;
图9是根据本申请第四实施例提供的关键数据确定方法的流程示意图;
图10是第四实施例提供的关键数据确定方法中标准医学知识图谱的示意图;
图11是第四实施例提供的关键数据确定方法步骤405的原理示意图;
图12为根据本申请第五实施例提供的关键数据确定装置的结构示意图;
图13为根据本申请第六实施例提供的关键数据确定装置的结构示意图;
图14是用来实现本申请实施例的关键数据确定方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
为了清楚理解本申请的技术方案,首先对现有技术的技术方案进行详细介绍。
现有技术中,在每份病例文本中有大量数据,如可包括:目标对象的基本属性信息,主诉文本,现在病例信息,症状体征数据等。在目标对象的基本属性信息中可包括:姓名,年龄,性别,家庭住址,电话等信息。在主诉文本和现在病例信息中有关于病情发展的整个过程。在症状体征数据中有多种症状体征数据,示例性地,包括的多种症状体征数据为:呼吸困难、泡沫痰、休克现象、意识模糊、心动过速、血压升高、喘鸣音、颈静脉怒张等。
面对含有大量数据的病例文本,需要从中确定出哪些症状体征数据是对病人的病情起关键作用的症状体征数据。
现有技术中,一般都是依靠医生的从医经验,对病例文本中的大量数据进行综合研究分析,才能确定出那些症状体征数据是对病人的病情起关键作用的症状体征数据,哪些症状体征数据是不太重要的,这个过程需要消耗大量的时间,所以严重浪费人力物力,使关键症状体征数据的确定效率较低。
面对现有技术中严重浪费人力物力,使关键症状体征数据的确定效率较低的技术问题,发明人在研究中发现,可采用人工智能的方式将人工分析数据的过程转换为电子设备对数据的分析过程。并且由于深度学习算法优秀的学习能力,特别是注意力模型(简称为:attention模型)不仅可对数据进行学习,而且使数据具有可解释性,能够凸显出对最终的分类结果做出贡献的数据,所以将注意力模型应用在对病例文本中的数据分析中。具体地,为了使用attention模型从多种目标症状体征数据进行筛选出关键症状体征数据,首先需要采用训练样本对attention模型进行训练,得到训练至收敛的attention模型。然后获取目标电子病例文本,可通过自然语言处理算法或其他方式从目标电子病例文本中提取出多个目标症状体征数据及目标辅助数据。将目标症状体征数据、目标辅助数据输入到训练至收敛的注意力attention模型中,通过训练至收敛的注意力attention模型对目标症状体征数据进行筛选,确定出关键症状体征数据。由于训练至收敛的注意力attention模型使数据具有可解释性,能够凸显出对最终的分类结果做出贡献的数据,所以通过训练至收敛的attention模型能够自动将贡献较高的症状体征数据确定为关键症状体征数据,而且从获取目标电子病例文本,到最终的确定关键症状体征数据的过程均是通过电子设备自动化执行的,所以有效提高了关键症状体征数据的确定效率。
发明人基于上述的创造性发现,提出了本申请的技术方案。下面对本申请提供的关键数据确定方法的应用场景进行介绍。
如图1所示,本申请实施例提供的一种应用场景中,在电子设备中可加载本申请提供的关键数据确定方法的应用软件,用户可通过电子设备打开该应用软件的客户端或网页。在客户端或网页的操作界面中可具有输入框,用户可在接收到目标对象的表述后,将相关信息输入到对应的输入框中。或者用户可将纸质病例文本中的相关信息输入到输入框中。在触发操作界面中的“确定”图标后,电子设备获取到目标电子病例文本。并从目标电子病例文本中提取多个目标症状体征数据及目标辅助数据。其中,目标辅助数据可以包括:主诉病例文本及目标对象的基本属性。如在图1中,提取的多个目标症状体征数据可以为“咳嗽、发热、流鼻涕、胸闷、心悸、浑身无力”,主诉病例文本包括:患者近三天咳嗽、流鼻涕、今天早上开始发热,浑身无力,偶感胸闷,心悸。目标对象的基本属性可以为“张三、31岁、女性、未孕”。然后将多个目标症状体征数据及目标辅助数据输入到训练至收敛的attention模型中,训练至收敛的attention模型对目标症状体征数据进行筛选,确定出关键症状体征数据,并输出关键症状体征数据,并在操作界面中进行显示。如输出的关键症状体征数据为“心悸、胸闷”。
以下将参照附图来具体描述本申请的实施例。
实施例一
图2是根据本申请第一实施例提供的关键数据确定方法的流程示意图,如图2所示,本申请实施例的执行主体为关键数据确定装置,该关键数据确定装置可集成在电子设备中。则本实施例提供的关键数据确定方法包括以下几个步骤。
步骤101,获取目标电子病例文本。
作为一种可选实施方式,本实施例中,电子病例文本可存储在服务器的病例数据库中,用户可通过电子设备的操作界面输入目标对象的标识信息或电子病例文本的标识信息,电子设备根据目标对象的标识信息或电子病例文本的标识信息生成病例获取请求,向服务器发送病例获取请求,以使服务器根据该病例获取请求,获取目标对象的标识信息或电子病例文本的标识信息对应的电子病例文本作为目标电子病例文本。电子设备接收服务器发送的目标电子病例文本。
其中,目标对象的标识信息可以为目标对象的身份证号码,手机号等唯一表示该目标对象的信息。电子病例文本的标识信息可以为电子病例文本在病例数据库中的编号。
或者作为另一种实施方式,本实施例中,电子设备中可加载本申请提供的关键数据确定方法的应用软件,用户可通过电子设备打开该应用软件的客户端或网页,用户通过客户端或网页的操作界面输入病例文本,在监测到用户触发的“确定”图标后,获取在操作界面中输入的病例文本作为目标电子病例文本。
需要说明的是,获取目标电子病例文本的方式还可以为其他方式,本实施例中对此不作限定。
步骤102,提取目标电子病例文本中的多个目标症状体征数据及目标辅助数据。
其中,目标辅助数据为对关键症状体征数据的确定其辅助作用的数据。可以包括:主诉文本。还可以包括目标对象的基本属性信息。
本实施例中,可选地,采用自然语言处理技术提取目标电子病例文本中的多个目标症状体征数据。
具体地,可预先构建症状体征数据的实体集,从电子病例文本中提取每个实体,将每个实体与预先构建的症状体征数据的实体集中的实体进行匹配,若电子病例文本中提取的实体与实体集中的某个实体相匹配,则确定该实体为目标症状体征数据。
本实施例中,由于电子病例文本都具有预设的填写模板。所以可选地,提取目标电子病例文本中的多个目标症状体征数据及目标辅助数据时还可以为:预先根据电子病例文本的模板确定每类数据的填写位置,然后根据每类数据的填写位置提取目标症状数据及目标辅助数据。
步骤103,将目标症状体征数据、目标辅助数据输入到训练至收敛的注意力attention模型,以确定多个目标症状体征数据中的关键症状体征数据。
其中,训练至收敛的attention模型用于对目标症状体征数据进行筛选,以筛选出关键症状体征数据。
本实施例中,在采用注意力attention模型从多个目标症状体征数据中确定出关键症状体征数据之前,首先采用训练样本对初始attention模型进行训练。其中,训练样本为标注有分类类型的正样本和负样本。每个训练样本为历史电子病例文本。将各训练样本采用步骤102的方式提取样本症状体征数据、样本辅助数据,并将各训练样本的样本症状体征数据及样本辅助数据输入到初始attention模型中,对初始attention模型进行训练,在训练过程中判断是否满足收敛条件,若满足收敛条件,则将满足收敛条件的attention模型确定为训练至收敛的attention模型。
其中,收敛条件可以为损失函数最小,还可以为分类准确率达到预设准确率等,本实施例中对此不作限定。
可以理解的是,对attention模型的训练方式还可以为其他方式,本实施例中对此不作限定。
本实施例中,在获得训练至收敛的attention模型后,说明该训练至收敛的attention模型对多个目标症状体征数据中确定关键症状体征数据具有很高的准确性。所以将目标症状体征数据、目标辅助数据输入到训练至收敛的注意力attention模型中,通过训练至收敛的注意力attention模型对目标症状体征数据进行筛选,筛选出对最终的分类结果做出较大贡献的症状体征数据,并将其确定为关键症状体征数据。
本实施例提供的关键数据确定方法,通过获取目标电子病例文本,提取目标电子病例文本中的多个目标症状体征数据及目标辅助数据,将目标症状体征数据、目标辅助数据输入到训练至收敛的注意力attention模型,以确定多个目标症状体征数据中的关键症状体征数据,训练至收敛的attention模型用于对目标症状体征数据进行筛选,以筛选出关键症状体征数据。由于训练至收敛的注意力attention模型使数据具有可解释性,能够凸显出对最终的分类结果做出贡献的数据,所以通过训练至收敛的attention模型能够自动将贡献较高的症状体征数据确定为关键症状体征数据,而且从获取目标电子病例文本,到最终的确定关键症状体征数据的过程均是通过电子设备自动化执行的,所以有效提高了关键症状体征数据的确定效率。
实施例二
图3是根据本申请第二实施例提供的关键数据确定方法的流程示意图,如图3所示,本实施例提供的关键数据确定方法,是在本申请第一实施例提供的关键数据确定方法的基础上,对步骤101-步骤103的进一步细化。并且还包括了其他步骤。则本实施例提供的关键数据确定方法包括以下步骤。
步骤201,接收用户在预设操作界面中的至少一个预设输入框输入的文本,将预设输入框输入的文本确定为目标电子病例文本。
图4是本申请实施例提供的关键数据确定方法对应应用程序的操作界面,如图4所示,在操作界面中包括至少一个预设输入框。用户在每个预设输入框可输入对应的文本。
其中,预设输入框包括:症状体征文本输入框,目标辅助数据输入框。
其中,如图4所示,目标辅助数据包括主诉病例文本和目标对象的基本属性信息。所以在目标辅助数据输入框中,可包括主诉病例文本输入框和目标对象的基本属性信息输入框。
其中,针对目标对象的每个基本属性信息具有对应的输入框,如包括:姓名输入框,性别输入框,年龄输入框,性别输入框,月经史输入框等。
具体地,本实施例中,将每个预设输入框输入的文本和对应的输入框含义进行拼合,形成目标电子病例文本。
步骤202,提取症状体征文本输入框中输入的多个第一文本数据,各第一文本数据间采用预设分隔符隔开,将多个第一文本数据确定为对应的目标症状体征数据;提取目标辅助数据输入框输入的第二文本数据,并将各第二文本数据确定为目标辅助数据。
本实施例中,在操作界面中每个预设输入框均具有唯一的位置,所以可根据每个预设输入框的位置确定在该预设输入框输入的文本的位置,从每个预设输入框中提取出对应的文本数据,并将对应的文本数据确定为目标症状体征数据或目标辅助数据。
具体地,本实施例中,获取症状体征文本输入框的位置,根据症状体征文本输入框的位置确定输入的多个第一文本数据的位置,进而提取出多个第一文本数据。在提取多个第一文本数据时,也提取出预设分隔符,将每个预设分隔符隔开的第一文本数据确定为对应的一个症状体征数据。
其中,预设分隔符如可以为逗号,顿号等。
具体地,本实施例中,获取每个目标辅助数据输入框的位置,根据目标辅助数据输入框的位置确定输入的第二文本数据的位置,进而提取出对应的第二文本数据。
本实施例中,提取症状体征文本输入框中输入的多个第一文本数据,各第一文本数据间采用预设分隔符隔开;将多个第一文本数据确定为对应的目标症状体征数据;提取目标辅助数据输入框输入的第二文本数据,并将各第二文本数据确定为目标辅助数据。无需采用自然语言处理技术,而直接根据各输入框的位置就可快速提取出多个目标症状体征数据及目标辅助数据,提高了对数据的提取效率。
步骤203,将多个目标症状体征数据输入到TextCNN子模型中,通过TextCNN子模型对多个目标症状体征数据进行特征提权,以获得对应的键key向量。
如图5所示,训练至收敛的attention模型可以包括:文本卷积神经网络TextCNN子模型,门控循环神经网络GRU子模型及注意力attention子模型。
如图5所示,本实施例中,将多个目标症状体征数据输入到TextCNN子模型中,TextCNN子模型是一种深度学习模型,其更适用于词形式的文本的特征提取。所以将多个目标症状体征数据输入到TextCNN子模型中后,对多个目标症状体征数据进行编码及特征提取处理,对症状体征数据中的关键信息进行凸显表达,输出每个目标症状体征数据的键key向量。
可以理解的是,该TextCNN子模型为训练至收敛的TextCNN子模型。
步骤204,将主诉病例文本输入到GRU子模型中,通过GRU子模型对主诉病例文本进行特征提权,以获得查询query矩阵。
如图5所示,将主诉病例文本输入到GRU子模型中,GRU子模型是一种深度学习模型,其更适用于长文本的特征提取。所以将主诉病例文本输入到GRU子模型中后,对主诉病例文本进行编码及深层次的学习和特征提取处理,对主诉病例文本中关键信息进行凸显表达,输出主诉病例文对应的query矩阵。
步骤205,将query矩阵与各key向量输入到attention子模型中,以通过attention子模型确定出关键症状体征数据。
本实施例中,将query矩阵与各key向量输入到attention子模型中,在输入到attention子模型中query矩阵与各key向量进行预设运算,通过预设运算可确定出对最终分类结果做出较高贡献的key向量,获取做出较高贡献的key向量对应的目标症状体征数据,并将做出较高贡献的key向量对应的目标症状体征数据确定为关键症状体征数据。
其中,关键症状体征数据的个数小于目标症状体征数据的个数,具体的关键症状体征数据的个数可进行配置。
步骤206,在预设操作界面的预设区域采用高亮方式显示关键症状体征数据。
如图4所示,可将预设操作界面中的非预设输入框的其他区域配置为预设区域,在预设区域中,可显示关键症状体征数据,并显示方式可以为高亮的方式,以醒目高效地对用户进行提醒。
实施例三
图6是根据本申请第三实施例提供的关键数据确定方法的流程示意图,如图6所示,本实施例提供的关键数据确定方法,是在本申请第一实施例提供的关键数据确定方法的基础上,对步骤205的进一步细化。并且还包括了其他步骤。则本实施例提供的关键数据确定方法包括以下步骤。
步骤301,接收用户在预设操作界面中的至少一个预设输入框输入的文本,将预设输入框输入的文本确定为目标电子病例文本。
步骤302,提取症状体征文本输入框中输入的多个第一文本数据,各第一文本数据间采用预设分隔符隔开,将多个第一文本数据确定为对应的目标症状体征数据;提取目标辅助数据输入框输入的第二文本数据,并将各第二文本数据确定为目标辅助数据。
本实施例中,步骤301-步骤302的实现方式与本发明实施例二中的步骤201-步骤202的实现方式类似,在此不再一一赘述。
步骤303,对多个目标症状体征数据进行编码处理,以获得对应的键值value向量。
本实施例中,如图7所示,在训练至收敛的attention模型中具有编码层。
具体地,本实施例中,将每个目标症状体征数据输入到编码层,由编码层对每个目标症状体征数据进行编码处理,每个目标症状体征数据中的词都有对应的编码,将每个词的编码进行整合后,形成该目标症状体征数据的键值value向量。该键值value向量为电子设备能够识别的数据。
步骤304,将各键值value向量输入到TextCNN子模型中,通过TextCNN子模型对各键值value向量进行特征提权,以获得对应的键key向量。
本实施例中,将多个键值value向量输入到TextCNN子模型中后,对各键值value向量进行特征提取处理,对各键值value向量中的关键信息进行凸显表达,输出每个键值value向量的键key向量。
步骤305,对主诉病例文本进行切字和编码处理,以获得编码后的主诉病例文本向量。
本实施例中,由于主诉病例文本为长文本,所以将主诉病例文本输入到编码层后,先进行切字处理,在进行切字处理后,对每个字进行编码处理,并将每个字的编码进行整合后,形成编码后的主诉病例文本向量。
步骤306,将编码后的主诉病例文本向量输入到GRU子模型中,通过GRU子模型对编码后的主诉病例文本向量进行特征提权,以获得查询query矩阵。
本实施例中,将编码后的主诉病例文本向量输入到GRU子模型中后,对编码后的主诉病例文本向量进行深层次的学习和特征提取处理,将编码后的主诉病例文本向量中关键信息进行凸显表达,输出编码后的主诉病例文本向量对应的query矩阵。
步骤307,对query矩阵与各key向量分别进行相似度计算,以得到对应的贡献权重值。
具体地,如图8所示,本实施例中,采用式(1)对query矩阵与各key向量分别进行相似度计算。
s(key,query)=wTtanh(Wkeyi+bq) 式(1)
其中,keyi为第i个key向量,q为query矩阵,s(key,query)为贡献权重值。W,wT和b为相似度函数中的其他参数。
步骤308,将各贡献权重值输入到第一分类层中,通过第一分类层对各权重值进行归一化处理。
如图8所示,将各贡献权重值输入到第一分类层中,第一分类层对各权重进行归一化处理后,得到归一化处理的各贡献权重值ai
步骤309,将贡献权重值由大到小进行排序,并将排序在前预设个数的贡献权重值对应的目标症状体征数据确定为关键症状体征数据。
本实施例中,贡献权重值越大,标识对最终分类结果做的贡献越大,表示该目标症状体征数据越关键。所以将贡献权重值由大到小进行排序,并将排序在前预设个数的贡献权重值对应的目标症状体征数据确定为关键症状体征数据。
其中,预设个数可预先进行配置。
步骤310,将各贡献权重值及各贡献权重值中key向量对应的value向量进行加权求和处理,以获得注意力attention特征矩阵。
本实施例中,如式(2)所示,将各贡献权重值及各贡献权重值中key向量对应的value向量进行加权求和处理。
Figure BDA0002809232880000131
其中,ai为第i个贡献去权重,valuei为第i个目标症状体征数据编码后的value向量。att为attention特征矩阵。在图8中,valuei显示为Vi。
本实施例中,目标辅助数据还包括:目标对象的基本属性信息。
步骤311,根据基本属性信息、attention特征矩阵及训练至收敛的attention模型,确定目标电子病例文本对应的分类结果。
本实施例中,目标电子病例文本对应的分类结果还与目标对象的基本属性信息相关,所以本实施例中,还根据基本属性信息、attention特征矩阵及训练至收敛的attention模型,确定目标电子病例文本对应的分类结果。
如图7所示,训练至收敛的attention模型还包括:深度神经网络DNN子模型、全连接层及第二分类层。相应地,步骤311包括以下步骤:
步骤3111,对基本属性信息进行归一化处理。
本实施例中,将基本属性信息在归一化处理层进行归一化处理,归一化后的基本属性信息为具有物理含义的数字类信息。
步骤3112,将归一化处理后的基本属性信息输入到DNN子模型中,通过DNN子模型对归一化处理后的基本属性信息进行特征提取,以获得属性特征矩阵。
本实施例中,将归一化处理后的多种基本属性信息输入到DNN子模型中,DNN子模型也是一种深度学习模型,其更适用于数字形式的信息的特征提取,所以将归一化处理后的多种基本属性信息输入到DNN子模型中后,DNN子模型对多种基本属性信息进行特征提取处理,输出属性特征矩阵。
步骤3113,将attention特征矩阵及属性特征矩阵输入到全连接层中,通过全连接层进行特征融合,以获得融合特征矩阵。
本实施例中,由于attention特征矩阵是综合考虑目标症状体征数据和主诉文本数据后得到的特征矩阵,而属性特征矩阵是考虑目标对象的基本属性得到的特征矩阵,所以在全连接层中,将两种特征矩阵进行特征融合,以获得融合后的特征矩阵。
步骤3114,将融合特征矩阵输入到第二分类层,通过第二分类层确定目标电子病例文本对应的分类结果。
本实施例中,将特征融合矩阵输入到第二分类层,第二分类层根据特征融合矩阵对目标电子病例文本所属的类别进行分类,可输出每个类别对应的分值,最终根据最大分值确定对应的分类结果。
本实施例提供的关键数据确定方法,根据基本属性信息、attention特征矩阵及训练至收敛的attention模型,确定目标电子病例文本对应的分类结果时,对所述基本属性信息进行归一化处理;将归一化处理后的基本属性信息输入到DNN子模型中,通过所述DNN子模型对归一化处理后的基本属性信息进行特征提取,以获得属性特征矩阵;将所述attention特征矩阵及所述属性特征矩阵输入到所述全连接层中,通过所述全连接层进行特征融合,以获得融合特征矩阵;将所述融合特征矩阵输入到第二分类层,通过所述第二分类层确定所述目标电子病例文本对应的分类结果,不仅能够通过训练至收敛的attention模型确定出关键症状体征数据,而且能够结合多种目标症状体征数据,主诉病例文本及目标对象的基本属性信息确定出目标电子病例文本的分类结果,能够准确完成对目标电子病例文本的分类。
实施例四
图9是根据本申请第四实施例提供的关键数据确定方法的流程示意图,如图9所示,本实施例提供的关键数据确定方法的执行主体为关键数据确定装置。本实施例提供的关键数据确定方法为对attention进行训练的方法,则本实施例提供的关键数据确定方法还包括以下步骤。
步骤401,构建标准医学知识图谱。
如图10所示,本实施例中,首先选取各种疾病相关的权威书籍及文本,提取权威书籍及文本中每类疾病相关的实体,构建与该类疾病相关的症状、体征、检查、检验及病史多维度的知识图谱。如在图10中,为构建出的关于“急性肺水肿”对应的知识图谱。
步骤402,获取对初始注意力attention模型进行训练的训练样本,训练样本为历史电子病例文本。
本实施例中,获取历史电子病例文本作为训练样本,该历史电子病例的获取方式可以为从病例数据库中获取。
步骤403,根据标准医学知识图谱及预设标注策略,对训练样本进行正负样本的标注。
本实施例中,由于在标准医学图谱中定义了每种疾病的相关实体,所以可提取出训练样本中的实体,将训练样本中的实体与标准医学图谱中的相关实体进行匹配,根据匹配度确定该训练样本标注的样本是正样本还是负样本。若为正样本,还可标注该正样本的类型具体为哪种类型。
步骤404,提取训练样本中的多个样本症状体征数据及样本辅助数据。
本实施例中,提取训练样本中多个样本症状体征数据及样本辅助数据的实现方式与实施例一的步骤102中提取目标电子病例文本中的多个目标症状体征数据及目标辅助数据的方式类似,在此不再一一赘述。
步骤405,将标注后的训练样本中的样本症状体征数据、样本辅助数据输入至初始attention模型,以对初始attention模型进行训练,输出训练样本中多个样本症状体征数据中关键症状体征数据及训练样本的分类结果。
本实施例中,将标注后的训练样本中的样本症状体征数据、样本辅助数据输入至初始attention模型,初始attention模型根据训练样本标注的类型对attention模型中的各个参数进行调整,在进行各个参数的调整后,判断是否满足模型收敛条件,若满足模型收敛条件,则将满足模型收敛条件的attention模型确定为训练至收敛的attention模型。并且在得到训练至收敛的attention模型的同时,训练至收敛的attention模型输出训练样本中多个样本症状体征数据中关键症状体征数据及训练样本的分类结果。
本实施例提供的关键数据确定方法,通过构建标准医学知识图谱,获取对初始注意力attention模型进行训练的训练样本,训练样本为历史电子病例文本,根据标准医学知识图谱及预设标注策略,对训练样本进行正负样本的标注,提取训练样本中的多个样本症状体征数据及样本辅助数据,将标注后的训练样本中的样本症状体征数据、样本辅助数据输入至初始attention模型,以对初始attention模型进行训练,输出训练样本中多个样本症状体征数据中关键症状体征数据及训练样本的分类结果。由于在标注训练样本为正负样本的过程,是根据标准医学知识图谱来进行标注的,所以使正负训练样本的标注更加准确,进而使训练至收敛的attention模型更适用于对电子病例文本的分类及确定关键症状体征数据,使电子病例文本分类更加准确,也是确定出的关键症状体征数据更加准确。
作为一种可选实施方式,步骤403包括以下步骤:
步骤4031,若确定训练样本中的实体数据与标准医学知识图谱中某一分类类型相匹配的实体数据个数大于或等于预设个数阈值,则将该训练样本标注为该分类类型的正样本。
步骤4032,若确定训练样本中的实体数据与标准医学知识图谱中某一分类类型相匹配的实体数据少于预设个数阈值,则将该训练样本标注为该分类类型的负样本。
本实施例中,由于标准医学知识图谱中的相关实体信息是每个类别最全面的相关实体信息,但是在每个训练样本中,由于目标对象的不同,表现出的症状、体征检查、检验及病史也会有所不同,所以在进行训练样本的类型标注时,若确定训练样本中的实体数据与标准医学知识图谱中某一分类类型相匹配的实体数据多余预设个数阈值,则将该训练样本标注为该类分类类型的正样本,否则标注为负样本。
本实施例中,在根据标准医学知识图谱及预设标注策略,对训练样本进行正负样本的标注时,若确定训练样本中的实体数据与标准医学知识图谱中某一分类类型相匹配的实体数据个数大于或等于预设个数阈值,则将该训练样本标注为该分类类型的正样本;若确定训练样本中的实体数据与标准医学知识图谱中某一分类类型相匹配的实体数据少于预设个数阈值,则将该训练样本标注为该分类类型的负样本。适用于实际电子病例文本的特性,使训练样本的标注方式更具有通用性。
作为一种可选实施方式,本实施例中,步骤405包括以下方案:
将标注后的训练样本中的所述样本症状体征数据、所述样本辅助数据输入至初始attention模型,并输出分类结果进行显示;
循环执行以下方案,直到训练后的attention模型对应的分类结果中训练样本的标注的标签满足不再进行修正的条件为止:
接收预设人员对训练样本标签的修正结果;将修正标签后的训练样本中的所述样本症状体征数据、所述样本辅助数据再次输入至attention模型,并输出分类结果进行显示。
其中,预设人员为专业的医生。
如图11所示,本实施例中,由于在训练attention模型的初始阶段,训练样本的个数较少,而且预设标注策略不太灵活,导致在进行正负样本的标注后attention模型的分类结果虽然有较高的准确率,但召回率不足,所以即使有较高准确率的正样本,但负样本会被部分识别为正样本,所以通过初步筛选的训练样本来训练attention模型后,用attention模型反向修正训练样本,对分类结果与原始标签不一致的训练样本人工协助标注。具体地,对attention模型对应的分类结果进行显示,接收预设人员对训练样本标签的修正结果。然后将修正标签后的训练样本再次对attention模型进行训练。通过反复迭代过程,在训练样本标注的标签不断准确的同时,使训练后的attention模型也不断准确。
实施例五
图12为根据本申请第五实施例提供的关键数据确定装置的结构示意图,如图12所示,本实施例提供的关键数据确定装置500包括:第一获取单元501,第一提取单元502,第一确定单元503。
其中,第一获取单元501,用于获取目标电子病例文本。第一提取单元502,用于提取目标电子病例文本中的多个目标症状体征数据及目标辅助数据。第一确定单元503,用于将目标症状体征数据、目标辅助数据输入到训练至收敛的注意力attention模型,以确定多个目标症状体征数据中的关键症状体征数据,训练至收敛的attention模型用于对目标症状体征数据进行筛选,以筛选出关键症状体征数据。
本实施例提供的关键数据确定装置可以执行图2所示方法实施例的技术方案,其实现原理和技术效果与图2所示方法实施例类似,在此不再一一赘述。
可选地,目标辅助数据包括:主诉病例文本,训练至收敛的attention模型包括:文本卷积神经网络TextCNN子模型,门控循环神经网络GRU子模型及注意力attention子模型。
相应地,第一确定单元503,包括:第一特征提取模块和第二特征提取模块。
其中,第一特征提取模块,用于将多个目标症状体征数据输入到TextCNN子模型中,通过TextCNN子模型对多个目标症状体征数据进行特征提权,以获得对应的键key向量。第二特征提取模块,用于将主诉病例文本输入到GRU子模型中,通过GRU子模型对主诉病例文本进行特征提权,以获得查询query矩阵;
第一确定模块,用于将query矩阵与各key向量输入到attention子模型中,以通过attention子模型确定出关键症状体征数据。
可选地,attention子模型包括第一分类层。相应地,第一确定模块,包括:计算子模块,第一归一化子模块及确定子模块。
其中,计算子模块,用于对query矩阵与各key向量分别进行相似度计算,以得到对应的贡献权重值。第一归一化子模块,用于将各贡献权重值输入到第一分类层中,通过第一分类层对各权重值进行归一化处理。确定子模块,用于将贡献权重值由大到小进行排序,并将排序在前预设个数的贡献权重值对应的目标症状体征数据确定为关键症状体征数据。
可选地,本实施例提供的装置,还包括:第一编码单元和第二编码单元。
其中,第一编码单元,用于对多个目标症状体征数据进行编码处理,以获得对应的键值value向量。第二编码单元,用于对主诉病例文本进行切字和编码处理,以获得编码后的主诉病例文本向量。
可选地,本实施例提供的装置,还包括:加权求和单元,用于将各贡献权重值及各贡献权重值中key向量对应的value向量进行加权求和处理,以获得注意力attention特征矩阵。
可选地,本实施例提供的装置中,还包括:第二确定单元。
其中,目标辅助数据还包括:目标对象的基本属性信息。
第二确定单元,用于根据基本属性信息、attention特征矩阵及训练至收敛的attention模型,确定目标电子病例文本对应的分类结果。
可选地,本实施例提供的装置中,训练至收敛的attention模型还包括:深度神经网络DNN子模型、全连接层及第二分类层。
相应地,第二确定单元,包括:第二归一化处理模块,第三特征提取模块,特征融合模块,第二确定模块。
其中,第二归一化处理模块,用于对基本属性信息进行归一化处理。第三特征提取模块,用于将归一化处理后的基本属性信息输入到DNN子模型中,通过DNN子模型对归一化处理后的基本属性信息进行特征提取,以获得属性特征矩阵。特征融合模块,用于将attention特征矩阵及属性特征矩阵输入到全连接层中,通过全连接层进行特征融合,以获得融合特征矩阵。第二确定模块,用于将融合特征矩阵输入到第二分类层,通过第二分类层确定目标电子病例文本对应的分类结果。
可选地,第一获取单元,包括:接收模块和第三确定模块。
其中,接收模块,用于接收用户在预设操作界面中的至少一个预设输入框输入的文本。第三确定模块,用于将预设输入框输入的文本确定为目标电子病例文本。
可选地,预设输入框包括:症状体征文本输入框,目标辅助数据输入框;
第一提取单元,包括:第一提取模块,第二提取模块。
其中,第一提取模块,用于提取症状体征文本输入框中输入的多个第一文本数据,各第一文本数据间采用预设分隔符隔开;将多个第一文本数据确定为对应的目标症状体征数据。第二提取模块,用于提取目标辅助数据输入框输入的第二文本数据,并将各第二文本数据确定为目标辅助数据。
可选地,本实施例提供的装置,还包括:显示单元,用于在预设操作界面的预设区域采用高亮方式显示关键症状体征数据。
本实施例提供的关键数据确定装置可以执行图4和图6所示方法实施例的技术方案,其实现原理和技术效果与图4和图6所示方法实施例类似,在此不再一一赘述。
实施例六
图13为根据本申请第六实施例提供的关键数据确定装置的结构示意图,如图13所示,本实施例提供的关键数据确定装置600包括:构建单元601,第二获取单元602,标注单元603,第二提取单元604及训练单元605。
其中,构建单元601,用于构建标准医学知识图谱。第二获取单元602,用于获取对初始注意力attention模型进行训练的训练样本,训练样本为历史电子病例文本。标注单元603,用于根据标准医学知识图谱及预设标注策略,对训练样本进行正负样本的标注。第二提取单元604,用于提取训练样本中的多个样本症状体征数据及样本辅助数据。训练单元605,用于将标注后的训练样本中的样本症状体征数据、样本辅助数据输入至初始attention模型,以对初始attention模型进行训练,输出训练样本中多个样本症状体征数据中关键症状体征数据及训练样本的分类结果。
本实施例提供的关键数据确定装置可以执行图9所示方法实施例的技术方案,其实现原理和技术效果与图9所示方法实施例类似,在此不再一一赘述。
可选地,训练单元,具体用于:
循环执行以下方案,直到训练后的attention模型对应的分类结果中训练样本的标注的标签满足不再进行修正的条件为止:将训练样本中的样本症状体征数据、样本辅助数据输入至attention模型;对attention模型对应的分类结果进行显示,接收预设人员对训练样本标签的修正结果;将修正标签后的训练样本中的样本症状体征数据、样本辅助数据再次输入至attention模型。
可选地,标注单元,包括:正样本标注模块和负样本标注模块。
其中,正样本标注模块,用于若确定训练样本中的实体数据与标准医学知识图谱中某一分类类型相匹配的实体数据个数大于或等于预设个数阈值,则将该训练样本标注为该分类类型的正样本。负样本标注模块,用于若确定训练样本中的实体数据与标准医学知识图谱中某一分类类型相匹配的实体数据少于预设个数阈值,则将该训练样本标注为该分类类型的负样本。
根据本申请的实施例,本申请还提供了一种电子设备和一种存储有计算机指令的非瞬时计算机可读存储介质。
如图14所示,是根据本申请实施例的关键数据确定方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图14所示,该电子设备包括:一个或多个处理器701、存储器702,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器701为例。
存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的关键数据确定方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的关键数据确定方法。
存储器702作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的关键数据确定方法对应的程序指令/模块(例如,附图12所示的关键数据确定装置500包括:第一获取单元501,第一提取单元502,第一确定单元503)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的关键数据确定方法。
存储器702可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据关键数据确定方法的电子设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器702可选包括相对于处理器701远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
关键数据确定方法的电子设备还可以包括:输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704电路互联,可以通过总线或者其他方式连接,图9中以通过总线连接为例。
输入装置703可接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。输出装置704用于在预设操作界面的预设区域采用高亮方式显示关键症状体征数据。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算机程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算机程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
本申请提供一种关键数据确定方法、装置、设备及存储介质,涉及人工智能技术领域,具体涉及大数据、知识图谱、自然语言处理方面。根据本申请实施例的技术方案,由于训练至收敛的注意力attention模型使数据具有可解释性,能够凸显出对最终的分类结果做出贡献的数据,所以通过训练至收敛的attention模型能够自动将贡献较高的症状体征数据确定为关键症状体征数据,而且从获取目标电子病例文本,到最终的确定关键症状体征数据的过程均是通过电子设备自动化执行的,所以有效提高了关键症状体征数据的确定效率。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (28)

1.一种关键数据确定方法,包括:
获取目标电子病例文本;
提取所述目标电子病例文本中的多个目标症状体征数据及目标辅助数据;
将所述目标症状体征数据、所述目标辅助数据输入到训练至收敛的注意力attention模型,以确定多个目标症状体征数据中的关键症状体征数据,训练至收敛的attention模型用于对所述目标症状体征数据进行筛选,以筛选出关键症状体征数据。
2.根据权利要求1所述的方法,其中,所述目标辅助数据包括:主诉病例文本,所述训练至收敛的attention模型包括:文本卷积神经网络TextCNN子模型,门控循环神经网络GRU子模型及注意力attention子模型;
所述将所述目标症状体征数据、所述目标辅助数据输入到训练至收敛的注意力attention模型,以确定多个目标症状体征数据中的关键症状体征数据,包括:
将多个目标症状体征数据输入到所述TextCNN子模型中,通过所述TextCNN子模型对多个目标症状体征数据进行特征提权,以获得对应的键key向量;
将所述主诉病例文本输入到GRU子模型中,通过所述GRU子模型对所述主诉病例文本进行特征提权,以获得查询query矩阵;
将所述query矩阵与各key向量输入到attention子模型中,以通过所述attention子模型确定出所述关键症状体征数据。
3.根据权利要求2所述的方法,其中,所述attention子模型包括第一分类层;
所述将所述query矩阵与各key向量输入到attention子模型中,以通过所述attention子模型确定出所述关键症状体征数据,包括:
对query矩阵与各key向量分别进行相似度计算,以得到对应的贡献权重值;
将各贡献权重值输入到第一分类层中,通过所述第一分类层对所述各权重值进行归一化处理;
将所述贡献权重值由大到小进行排序,并将排序在前预设个数的贡献权重值对应的目标症状体征数据确定为关键症状体征数据。
4.根据权利要求3所述的方法,其中,所述将多个目标症状体征数据输入到所述TextCNN子模型之前,还包括:
对多个目标症状体征数据进行编码处理,以获得对应的键值value向量;
所述将所述主诉病例文本输入到GRU子模型之前,还包括:
对所述主诉病例文本进行切字和编码处理,以获得编码后的主诉病例文本向量。
5.根据权利要求4所述的方法,其中,所述将各贡献权重值输入到第一分类层中,通过所述第一分类层对所述各权重值进行归一化处理之后,还包括:
将各贡献权重值及各贡献权重值中key向量对应的value向量进行加权求和处理,以获得注意力attention特征矩阵。
6.根据权利要求5所述的方法,其中,所述目标辅助数据还包括:目标对象的基本属性信息;
所述根据所述目标症状体征数据、所述目标辅助数据及训练至收敛的attention模型,确定多个目标症状体征数据中的关键症状体征数据之后,还包括:
根据所述基本属性信息、所述attention特征矩阵及训练至收敛的attention模型,确定所述目标电子病例文本对应的分类结果。
7.根据权利要求6所述的方法,其中,训练至收敛的attention模型还包括:深度神经网络DNN子模型、全连接层及第二分类层;
所述根据所述基本属性信息、所述attention特征矩阵及训练至收敛的attention模型,确定所述目标电子病例文本对应的分类结果,包括:
对所述基本属性信息进行归一化处理;
将归一化处理后的基本属性信息输入到DNN子模型中,通过所述DNN子模型对归一化处理后的基本属性信息进行特征提取,以获得属性特征矩阵;
将所述attention特征矩阵及所述属性特征矩阵输入到所述全连接层中,通过所述全连接层进行特征融合,以获得融合特征矩阵;
将所述融合特征矩阵输入到第二分类层,通过所述第二分类层确定所述目标电子病例文本对应的分类结果。
8.根据权利要求1-7任一项所述的方法,其中,所述获取目标电子病例文本,包括:
接收用户在预设操作界面中的至少一个预设输入框输入的文本;
将所述预设输入框输入的文本确定为所述目标电子病例文本。
9.根据权利要求8所述的方法,其中,所述预设输入框包括:症状体征文本输入框,目标辅助数据输入框;
所述提取所述目标电子病例文本中的多个目标症状体征数据及目标辅助数据,包括:
提取症状体征文本输入框中输入的多个第一文本数据,各第一文本数据间采用预设分隔符隔开;
将多个第一文本数据确定为对应的目标症状体征数据;
提取目标辅助数据输入框输入的第二文本数据,并将各第二文本数据确定为目标辅助数据。
10.根据权利要求1-7任一项所述的方法,其中,所述将所述目标症状体征数据、所述目标辅助数据输入到训练至收敛的注意力attention模型,以确定多个目标症状体征数据中的关键症状体征数据之后,还包括:
在预设操作界面的预设区域采用高亮方式显示关键症状体征数据。
11.一种关键数据确定方法,包括:
构建标准医学知识图谱;
获取对初始注意力attention模型进行训练的训练样本,所述训练样本为历史电子病例文本;
根据所述标准医学知识图谱及预设标注策略,对所述训练样本进行正负样本的标注;
提取所述训练样本中的多个样本症状体征数据及样本辅助数据;
将标注后的训练样本中的所述样本症状体征数据、所述样本辅助数据输入至初始attention模型,以对初始attention模型进行训练,输出训练样本中多个样本症状体征数据中关键症状体征数据及训练样本的分类结果。
12.根据权利要求11所述的方法,其中,所述将标注后的训练样本中的所述样本症状体征数据、所述样本辅助数据输入至初始attention模型,以对初始attention模型进行训练,包括:
将标注后的训练样本中的所述样本症状体征数据、所述样本辅助数据输入至初始attention模型,并输出分类结果进行显示;
循环执行以下方案,直到训练后的attention模型对应的分类结果中训练样本的标注的标签满足不再进行修正的条件为止:
接收预设人员对训练样本标签的修正结果;将修正标签后的训练样本中的所述样本症状体征数据、所述样本辅助数据再次输入至attention模型,并输出分类结果进行显示。
13.根据权利要求11所述的方法,其中,所述根据所述标准医学知识图谱及预设标注策略,对所述训练样本进行正负样本的标注,包括:
若确定训练样本中的实体数据与标准医学知识图谱中某一分类类型相匹配的实体数据个数大于或等于预设个数阈值,则将该训练样本标注为该分类类型的正样本;
若确定训练样本中的实体数据与标准医学知识图谱中某一分类类型相匹配的实体数据少于预设个数阈值,则将该训练样本标注为该分类类型的负样本。
14.一种关键数据确定装置,包括:
第一获取单元,用于获取目标电子病例文本;
第一提取单元,用于提取所述目标电子病例文本中的多个目标症状体征数据及目标辅助数据;
第一确定单元,用于将所述目标症状体征数据、所述目标辅助数据输入到训练至收敛的注意力attention模型,以确定多个目标症状体征数据中的关键症状体征数据,训练至收敛的attention模型用于对所述目标症状体征数据进行筛选,以筛选出关键症状体征数据。
15.根据权利要求14所述的装置,其中,所述目标辅助数据包括:主诉病例文本,所述训练至收敛的attention模型包括:文本卷积神经网络TextCNN子模型,门控循环神经网络GRU子模型及注意力attention子模型;
所述第一确定单元,包括:
第一特征提取模块,用于将多个目标症状体征数据输入到所述TextCNN子模型中,通过所述TextCNN子模型对多个目标症状体征数据进行特征提权,以获得对应的键key向量;
第二特征提取模块,用于将所述主诉病例文本输入到GRU子模型中,通过所述GRU子模型对所述主诉病例文本进行特征提权,以获得查询query矩阵;
第一确定模块,用于将所述query矩阵与各key向量输入到attention子模型中,以通过所述attention子模型确定出所述关键症状体征数据。
16.根据权利要求15所述的装置,其中,所述attention子模型包括第一分类层;
所述第一确定模块,包括:
计算子模块,用于对query矩阵与各key向量分别进行相似度计算,以得到对应的贡献权重值;
第一归一化子模块,用于将各贡献权重值输入到第一分类层中,通过所述第一分类层对所述各权重值进行归一化处理;
确定子模块,用于将所述贡献权重值由大到小进行排序,并将排序在前预设个数的贡献权重值对应的目标症状体征数据确定为关键症状体征数据。
17.根据权利要求16所述的装置,其中,还包括:
第一编码单元,用于对多个目标症状体征数据进行编码处理,以获得对应的键值value向量;
第二编码单元,用于对所述主诉病例文本进行切字和编码处理,以获得编码后的主诉病例文本向量。
18.根据权利要求17所述的装置,其中,还包括:
加权求和单元,用于将各贡献权重值及各贡献权重值中key向量对应的value向量进行加权求和处理,以获得注意力attention特征矩阵。
19.根据权利要求18所述的装置,其中,所述目标辅助数据还包括:目标对象的基本属性信息;
所述装置还包括:
所述第二确定单元,用于根据所述基本属性信息、所述attention特征矩阵及训练至收敛的attention模型,确定所述目标电子病例文本对应的分类结果。
20.根据权利要求19所述的装置,其中,训练至收敛的attention模型还包括:深度神经网络DNN子模型、全连接层及第二分类层;
所述第二确定单元,包括:
第二归一化处理模块,用于对所述基本属性信息进行归一化处理;
第三特征提取模块,用于将归一化处理后的基本属性信息输入到DNN子模型中,通过所述DNN子模型对归一化处理后的基本属性信息进行特征提取,以获得属性特征矩阵;
特征融合模块,用于将所述attention特征矩阵及所述属性特征矩阵输入到所述全连接层中,通过所述全连接层进行特征融合,以获得融合特征矩阵;
第二确定模块,用于将所述融合特征矩阵输入到第二分类层,通过所述第二分类层确定所述目标电子病例文本对应的分类结果。
21.根据权利要求14-20任一项所述的装置,其中,所述第一获取单元,包括:
接收模块,用于接收用户在预设操作界面中的至少一个预设输入框输入的文本;
第三确定模块,用于将所述预设输入框输入的文本确定为所述目标电子病例文本。
22.根据权利要求21所述的装置,其中,所述预设输入框包括:症状体征文本输入框,目标辅助数据输入框;
所述第一提取单元,包括:
第一提取模块,用于提取症状体征文本输入框中输入的多个第一文本数据,各第一文本数据间采用预设分隔符隔开;将多个第一文本数据确定为对应的目标症状体征数据;
第二提取模块,用于提取目标辅助数据输入框输入的第二文本数据,并将各第二文本数据确定为目标辅助数据。
23.根据权利要求14-20任一项所述的装置,其中,还包括:
显示单元,用于在预设操作界面的预设区域采用高亮方式显示关键症状体征数据。
24.一种关键数据确定装置,包括:
构建单元,用于构建标准医学知识图谱;
第二获取单元,用于获取对初始注意力attention模型进行训练的训练样本,所述训练样本为历史电子病例文本;
标注单元,用于根据所述标准医学知识图谱及预设标注策略,对所述训练样本进行正负样本的标注;
第二提取单元,用于提取所述训练样本中的多个样本症状体征数据及样本辅助数据;
训练单元,用于将标注后的训练样本中的所述样本症状体征数据、所述样本辅助数据输入至初始attention模型,以对初始attention模型进行训练,输出训练样本中多个样本症状体征数据中关键症状体征数据及训练样本的分类结果。
25.根据权利要求24所述的装置,其中,所述训练单元,具体用于:
将标注后的训练样本中的所述样本症状体征数据、所述样本辅助数据输入至初始attention模型,并输出分类结果进行显示;循环执行以下方案,直到训练后的attention模型对应的分类结果中训练样本的标注的标签满足不再进行修正的条件为止:接收预设人员对训练样本标签的修正结果;将修正标签后的训练样本中的所述样本症状体征数据、所述样本辅助数据再次输入至attention模型,并输出分类结果进行显示。
26.根据权利要求25所述的装置,其中,所述标注单元,包括:
正样本标注模块,用于若确定训练样本中的实体数据与标准医学知识图谱中某一分类类型相匹配的实体数据个数大于或等于预设个数阈值,则将该训练样本标注为该分类类型的正样本;
负样本标注模块,用于若确定训练样本中的实体数据与标准医学知识图谱中某一分类类型相匹配的实体数据少于预设个数阈值,则将该训练样本标注为该分类类型的负样本。
27.一种电子设备,包括:
至少一个处理器;以及存储器,输出装置,其中,
所述处理器、所述存储器与所述输出装置通过电路互联;
所述存储器存储有可被所述至少一个处理器执行的指令,所述输出装置用于在预设操作界面的预设区域采用高亮方式显示关键症状体征数据;
所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-13中任一项所述的方法。
28.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-13中任一项所述的方法。
CN202011380669.XA 2020-11-30 2020-11-30 关键数据确定方法、装置、设备及存储介质 Pending CN112489790A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011380669.XA CN112489790A (zh) 2020-11-30 2020-11-30 关键数据确定方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011380669.XA CN112489790A (zh) 2020-11-30 2020-11-30 关键数据确定方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112489790A true CN112489790A (zh) 2021-03-12

Family

ID=74937936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011380669.XA Pending CN112489790A (zh) 2020-11-30 2020-11-30 关键数据确定方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112489790A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113257412A (zh) * 2021-06-16 2021-08-13 腾讯科技(深圳)有限公司 信息处理方法、装置、计算机设备及存储介质
WO2023024422A1 (zh) * 2021-08-27 2023-03-02 平安科技(深圳)有限公司 基于问诊会话的辅助诊断方法、装置及计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019160557A1 (en) * 2018-02-16 2019-08-22 Google Llc Automated extraction of structured labels from medical text using deep convolutional networks and use thereof to train a computer vision model
CN110797101A (zh) * 2019-10-28 2020-02-14 腾讯医疗健康(深圳)有限公司 医学数据处理方法、装置、可读存储介质和计算机设备
CN111538845A (zh) * 2020-04-03 2020-08-14 肾泰网健康科技(南京)有限公司 一种构建肾病专科医学知识图谱的方法、模型及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019160557A1 (en) * 2018-02-16 2019-08-22 Google Llc Automated extraction of structured labels from medical text using deep convolutional networks and use thereof to train a computer vision model
CN110797101A (zh) * 2019-10-28 2020-02-14 腾讯医疗健康(深圳)有限公司 医学数据处理方法、装置、可读存储介质和计算机设备
CN111538845A (zh) * 2020-04-03 2020-08-14 肾泰网健康科技(南京)有限公司 一种构建肾病专科医学知识图谱的方法、模型及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王鑫;程齐凯;马永强;罗卓然;: "基于层次注意力网络的论证区间识别研究", 情报工程, no. 03 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113257412A (zh) * 2021-06-16 2021-08-13 腾讯科技(深圳)有限公司 信息处理方法、装置、计算机设备及存储介质
CN113257412B (zh) * 2021-06-16 2022-02-11 腾讯科技(深圳)有限公司 信息处理方法、装置、计算机设备及存储介质
WO2023024422A1 (zh) * 2021-08-27 2023-03-02 平安科技(深圳)有限公司 基于问诊会话的辅助诊断方法、装置及计算机设备

Similar Documents

Publication Publication Date Title
CN111681726B (zh) 电子病历数据的处理方法、装置、设备和介质
CN111710412B (zh) 诊断结果的校验方法、装置及电子设备
CN112347769B (zh) 实体识别模型的生成方法、装置、电子设备及存储介质
CN112329964B (zh) 用于推送信息的方法、装置、设备以及存储介质
CN113095415B (zh) 一种基于多模态注意力机制的跨模态哈希方法及系统
CN111767379A (zh) 图像问答方法、装置、设备以及存储介质
CN111582185B (zh) 用于识别图像的方法和装置
CN112507701A (zh) 待纠错医疗数据的识别方法、装置、设备和存储介质
CN112560985B (zh) 神经网络的搜索方法、装置及电子设备
CN112507090B (zh) 用于输出信息的方法、装置、设备和存储介质
CN111582342B (zh) 一种图像识别方法、装置、设备以及可读存储介质
CN114564593A (zh) 多模态知识图谱的补全方法、装置和电子设备
CN112489790A (zh) 关键数据确定方法、装置、设备及存储介质
CN113553412B (zh) 问答处理方法、装置、电子设备和存储介质
CN112818227B (zh) 内容推荐方法、装置、电子设备及存储介质
CN109214333A (zh) 卷积神经网络结构、人脸属性识别方法、装置及终端设备
CN111859953A (zh) 训练数据的挖掘方法、装置、电子设备及存储介质
CN114661910A (zh) 一种意图识别方法、装置、电子设备及存储介质
CN112465231A (zh) 地区人口健康状态预测方法、设备和可读存储介质
CN116821373A (zh) 基于图谱的prompt推荐方法、装置、设备及介质
CN116204716A (zh) 一种节点信息和标签传播的重叠社区划分预测方法及系统
CN111785340B (zh) 一种医疗数据处理方法、装置、设备及存储介质
CN115248890B (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN112560480B (zh) 任务社区发现方法、装置、设备和存储介质
CN114783597B (zh) 多类疾病诊断的诊断方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination