发明内容
本发明提供一种病例报告生成方法、装置、电子设备以及存储介质,根据问诊内容直接生成病例报告,以实现提高生成的病例报告的质量,并且减少系统的运算量,提高病例报告生成效率。
第一方面,本发明实施例提供了一种病例报告生成方法,该方法包括:
获取待调整的初始病例内容,并获取所述初始病例内容中的至少一个预设类型的子病例内容;
抽取各所述预设类型的子病例内容中的各实体词,并确定所述各实体词的词类型,其中,所述词类型包括实体类型和属性类型;
确定各所述预设类型的子病例内容中的各实体类型的实体词与各属性类型的实体词之间的对应关系,并基于所述各实体词以及所述对应关系生成各所述预设类型的子病例内容中的病例特征;
确定所述病例特征的病例向量,并将所述病例向量输入至预先训练的病例报告生成模型中,得到所述初始病例内容的病例报告。
可选的,所述获取所述初始病例内容中的至少一个预设类型的子病例内容,包括:
将所述初始病例内容输入至预先训练的病例分类模型,得到具有至少一个已分类的子病例内容,并基于所述各子病例内容的类型确定至少一个预设类型的子病例内容。
可选的,所述抽取各所述预设类型的子病例内容中的各实体词,包括:
将各所述预设类型的子病例内容输入至预先训练的实体抽取模型,获得所述实体提取模型输出的候选实体词;
将所述候选实体词与预设实体词库中的基准实体词进行匹配,将匹配失败的所述候选实体词作为待对齐实体词;
根据预先训练的实体对齐模型得到所述待对齐实体词的待对齐实体特征,基于所述待对齐实体特征从所述预设实体词库中选取与所述待对齐实体词的相似的基准实体词作为实体词。
可选的,所述确定所述各实体词的词类型,包括:
基于预设实体词库中的各基准实体词以及所述基准实体词的类型确定所述各实体词对应的词类型;或者,
将各实体词输入至预先训练的词类型识别模型,得到各实体词的词类型识别结果。
可选的,所述确定各所述预设类型的子病例内容中的各实体类型的实体词与各属性类型的实体词之间的对应关系,并基于所述各实体词以及所述对应关系生成各所述预设类型的子病例内容中的病例特征,包括:
确定任一预设类型的子病例内容中的对话记录,并将所述对话记录进行预设格式的拼接;
基于各实体词之间的词汇距离与预设距离阈值,将所述拼接后的各对话记录中具有相同名字的实体类型的实体词进行去重处理;
遍历所述任一预设类型的子病例内容中去重后的各对话记录,基于预设的知识图谱将所述各对话记录中相邻的实体类型的实体词和属性类型的实体词对应连接;
将具有对应关系的实体词和属性类型的实体词进行预设格式的调整,以生成所述任一预设类型的子病例内容的病例特征。
可选的,所述确定各所述预设类型的子病例内容中的各实体类型的实体词与各属性类型的实体词之间的对应关系,还包括:
若所述实体类型的实体词和属性类型的实体词不相邻,则将距离最近的实体类型的实体词和属性类型的实体词对应连接。
可选的,所述病例向量包括所述病例特征中的文字对应的文字向量,所述病例特征中的各实体词对应的词类型向量以及所述病例特征所属的预设类型对应的病例类型向量;
相应的,确定所述病例特征的病例向量,包括:
将所述文字向量、所述词类型向量以及所述病例类型向量进行加权,得到所述病例特征的病例向量。
第二方面,本发明实施例还提供了一种病例报告生成装置,该装置包括:
病例内容获取模块,用于获取待调整的初始子病例内容,并获取所述初始病例内容中的至少一个预设类型的子病例内容;
词类型确定模块,用于抽取各所述预设类型的子病例内容中的各实体词,并确定所述各实体词的词类型;其中,所述词类型包括实体类型和属性类型;
病例特征确定模块,用于确定各所述预设类型的子病例内容中的各实体类型的实体词与各属性类型的实体词之间的对应关系,并基于所述各实体词以及所述对应关系生成各所述预设类型的子病例内容中的病例特征;
病例报告生成模块,用于确定所述病例特征的病例向量,并将所述病例向量输入至预先训练的病例报告生成模型中,得到所述初始病例内容的病例报告。
第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例提供的病例报告生成方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例提供的病例报告生成方法。
本发明实施例的技术方案具体包括:获取待调整的初始病例内容,并获取该初始病例内容中的至少一个预设类型的子病例内容,减少了后续抽取实体词时的计算量;进一步的,抽取各预设类型的子病例内容中的各实体词,并确定各实体词的词类型,其中,此类型包括实体类型和属性类型;确定各所述预设类型的子病例内容中的各实体类型的实体词与各属性类型的实体词之间的对应关系,并基于所述各实体词以及所述对应关系生成各所述预设类型的子病例内容中的病例特征,以充分理解病例内容中的隐藏含义,跳出模板的局限性,并且确定各实体词之间的对应关系还可以直接生成各实体词所属病例内容的病例报告,以减少生成病例报告给系统带来的运算量;确定所述病例特征的病例向量,并将所述病例向量输入至预先训练的病例报告生成模型中,得到所述初始病例内容的病例报告;以实现生成更通顺、更符合专业语法、符合专业质量规范的病例报告;本发明实施例的技术方案通过提取初始病例中的病例特征,实现充分理解病例内容中的隐藏含义,并且确定各实体词的对应关系减少系统的运算量;进一步的,经该病例特征转换为病例向量,并基于该病例向量生成对应病例报告,实现了提高生成的病例报告的质量,并且减少系统的运算量,提高病例报告生成效率。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在介绍本实施例的技术方案之前,先对本实施例的应用场景进行示例性的介绍:随着医疗体系的发展,医疗资源的合理化分配,远程图、文会诊这种形式的医疗服务会越来越普遍。一次问诊结束后,医生会以病例、报告的形式总结此次问诊过程。而自动生成病例的技术,不但可以很大程度上降低医生工作量,并且病例撰写规范化,还能提升病例报告质量。现有的生成病例报告的方法大多是:是在问诊结束后,由系统抓取问诊对话中所有有用信息,自动生成病例,医生在此内容上进行简单修改,相对比较医生直接编写病例的方法,该方法得到的病例报告质量得到控制。但是现有技术的缺点在于:根据特定病情预先设定好若干套问题模板,答案通常是从系统自备的几个中进行选择,少有开放式回答。每套问题模板对应固定的病例生成方案,系统根据用户在特定回答内容填槽生成病例。但是病人病情种类多种多样,有的有伴随症,合并症;治疗过程多样,有的是初诊,有的是复诊,已经在医院做过检查、化验;问诊形式多样,有的是询问治疗建议,有的是病情随访,有的是在线开药,所以这种依靠固定问题模板生成固定格式病例的方法,注定丧失灵活性;例如:第一不可能涵盖所有业务情况,并且系统维护成本也非常大;第二模板病例语言风格固定,可能会有语法生硬、语句不通的情况;以及第三后期医生修改的工作量也大。
针对上述技术问题,本实施例的技术方案通过提取初始病例中的病例特征,实现充分理解病例内容中的隐藏含义,经该病例特征转换为病例向量,并基于该病例向量生成对应病例报告,实现了操作方便,在满足各种情况的需求的同时降低后期维护人员工作量,提高工作效率。
图1为本发明实施例提供的一种病例报告生成方法的流程图,本实施例可适用于基于初始病例内容生成病例报告的情况,具体的,更适用于采用提取初始病例内容中的病例特征,并将该病例特征转换为病例向量,基于该病例向量生成病例模板的情况。该方法可以由病例报告生成装置来执行,该装置可以由软件和/或硬件的方式来实现。
如图1所示,本发明实施例的技术方案具体包括以下步骤:
S110、获取待调整的初始病例内容,并获取初始病例内容中的至少一个预设类型的子病例内容。
可以理解的是,待调整的初始病例内容可以是待生成的病例报告的直接获取到的病例内容,具体可以包括用于生成病例报告的原始问诊记录,以及其他原始的医生问诊时的记录病例。初始病例内容可以是文字内容,也可以是语音内容,本实施例对初始病例内容的形式不加以限制。
具体的,获取待调整的初始病例内容的时间可以是当医生与患者进行问诊时实时传输的正在问诊的病例内容,也可以是当问诊结束后上传完整问诊过程的病例内容,获取的方式可以是基于实现病例报生成装置上设置的麦克风获取,也可以是基于该装置的显示器输入获取,本实施例对此不加以限制。
获取到的初始病例内容中包含各种类型的内容病例,若直接基于该初始病例内容进行内容抽取得到病例特征,会导致该装置的计算量过大,从而增加病例报告生成的时间,降低效率,所以本实施例的技术方案,在获得初始病例内容后,识别该初始病例内容中包括的各类型的病例内容,并获取初始病例内容中的至少一个预设类型的子病例内容。
其中,初始病例内容中包括的各类型至少包括以下类型中的至少一种:症状描述类型、治疗过程描述类型、检查检验描述类型、诊断结论类型、病情咨询类型、治疗建议类型以及其他类型等类型的病例内容。具体的,症状描述类型的病例内容通常为主诉内容,问诊的主要目的;治疗过程描述类型的病例内容包括发病过程,治疗过程,既往病史,过敏、家族史等内容;检查检验类型的病例内容包括在医院做过的检查或化验相关内容;诊断结论类型的病例内容包括医生下的诊断;病情咨询类型的病例内容包括用户疑虑,询问和沟通内容;治疗建议类型的病例内容包括医生在诊断后的建议治疗措施内容;其他类型的病例内容包括寒暄、感谢等内容。
可选的,获取初始病例内容中的至少一个预设类型的子病例内容的方法可以是:将初始病例内容输入至预先训练的病例分类模型,得到具有至少一个已分类的子病例内容,并基于各子病例内容的类型确定至少一个预设类型的子病例内容。
具体的,基于各子病例内容的类型确定至少一个预设类型的子病例内容可以是基于生成的病例报告的格式需求,获取各类型的病例内容中至少一个预设类型的子病例内容。
其中,病例报告的格式需求生成的病例报告的具体类型,例如是病例报告,诊断报告以及问诊记录报告等报告。示例性的,可以是当病例报告为病例报告时,预设类型的子病例报告包括症状描述类型、治疗过程描述类型、检查检验描述类型的子病例内容。
需要说明的是:本实施例中的预先训练的病例分类模型是基于上万份以标注的问诊对话样本进行训练得到的,其中,在训练之前对各训练样本进行标注的方式可以是:将问诊对话中涉及到的症状描述类型、治疗过程描述类型、检查检验描述类型、诊断结论类型、病情咨询类型、治疗建议类型中任一类型的对话的起始和结束分别标注为该类型的起始类型和结束类型,而其他类型中的所有对话内容均标注为其他内容,并基于上述标注的13种类型的问诊对话样本对病例分类模型进行训练,得到预先训练的病例分类模型,用于对初始病例内容进行分类。
示例性的,当获取到的初始病例内容是“D:您好!我是刘吉元医生很高兴为您解答D:方便发一下照片吗?!P:[图片]P:右小臂就那一条很痒D:多久了?有什么诱因吗?有没有疹子P:三四天了,没有什么诱因,就是睡觉的时候突然间就开始痒。P:没有疹子。D:考虑是皮肤瘙痒症D:可以外用艾洛松乳膏或者尤卓尔乳膏外涂每日两次涂上揉一会少量薄薄一层就可以,避免搔抓热水烫洗及肥皂搓洗D:保湿乳可以多涂,每天3-4次,如果痒的厉害可以口服西替利嗪片或者氯雷他定片,每晚一片P:是不是我的免疫力下降所导致的呢D:这种不考虑的P:好的,好的,原因找到了,我现在就去解决问题,谢谢您了。D:不客气!祝您早日康复!晚安!”时,将上述初始病例内容输入至训练好的病例分类模型中,得到该模型的分类结果,即得到的各类型的子病例内容可以如下表1所示:
表1:病例内容分类表
S120、抽取各预设类型的子病例内容中的各实体词,并确定各实体词的词类型,其中,词类型包括实体类型和属性类型。
在本发明实施例中,抽取各预设类型的子病例内容中的各实体词的方法可以是:将各预设类型的子病例内容输入至预先训练的实体抽取模型,获得实体提取模型输出的候选实体词;将候选实体词与预设实体词库中的基准实体词进行匹配,将匹配失败的候选实体词作为待对齐实体词;根据预先训练的实体对齐模型得到待对齐实体词的待对齐实体特征,基于待对齐实体特征从预设实体词库中选取与待对齐实体词的相似的基准实体词作为实体词。
在本发明实施例中,通过实体抽取模型抽取出问诊信息中的候选实体词,基于候选实体词确定实体词。为保证实体抽取模型能够抽取出缩写、简写、顺序不一致、错别字等各种形式的不标准实体词,在构建实体抽取模型的抽取训练样本时,需要对样本实体词进行増广。
可选的,在将问诊信息输入至预先训练的实体抽取模型之前,还包括:获取样本问诊语料,基于分词方法以及预设实体词库得到样本问诊语料中的样本实体词及样本实体词关联的实体信息;对样本实体词进行増广,得到増广实体词;基于样本实体词、増广实体词和样本实体词关联的实体信息生成抽取训练样本,基于抽取训练样本对预先构建的实体抽取模型进行训练,得到训练后的实体抽取模型。实体抽取模型可以基于现有的神经网络模型构建,如可以基于经典的双层双向长短时记忆网络(Long Short Term Memory Network,LSTM)+条件随机场(Conditional Random Fields,CRF)构建。实体抽取模型的训练方式、损失函数设置可参照现有的神经网络的训练及设置方式。
可选的,获取实体抽取模型输出的候选实体词后,将候选实体词与预设实体词库的基准实体词进行匹配,判断预设实体词库中是否存在候选实体词,当匹配成功时,表示候选实体词在预设实体词库中存在,将候选实体词作为实体词,当匹配失败时,表示候选实体词在预设实体词库中不存在,将候选实体词作为待对齐实体词,通过实体对齐的方式确定待对齐实体词相似的实体词。
在本发明实施例中,实体抽取模型输出候选实体词以及候选实体词关联的候选实体类型。相应的,将候选实体词与预设实体词库中的基准实体词进行匹配,包括:获取候选实体词关联的候选实体类型,获取预设实体词库中与候选实体类型对应的类型实体词;将候选实体词与类型实体词进行匹配。根据候选实体类型筛选出类型实体词与候选实体词进行匹配,在保证匹配准确度的基础上节省了实体词匹配的计算量,提高了响应速度。
可选的,基于预先训练的实体对齐模型将预设实体词库中不存在的待对齐实体词进行对齐,得到与待对齐实体词相似的基准实体词作为实体词,实现了无需扩展预设实体词库即可识别出表述不准确的候选实体词,提高了实体词的提取效率。可选的,将待对齐实体词输入至预先训练的实体对齐模型中,获得实体对齐模型输出的待对齐实体特征,基于待对齐实体特征以及预设实体词库中各基准实体词的基准实体特征筛选出与待对齐实体词相似的基准实体词。
在本发明实施例中,基于待对齐实体特征从预设实体词库中选取与待对齐实体词的相似的基准实体词作为实体词,包括:计算待对齐实体特征与预设实体词库中基准实体词的基准实体特征之间的相似度,将与待对齐实体特征之间的相似度小于设定阈值的基准实体特征关联的基准实体词作为实体词。可选的,可以通过相似度确定与待对齐实体词相似的基准实体词。具体的,计算待对齐实体特征与基准实体词的基准实体特征之间的相似度,将与待对齐实体特征之间的相似度小于设定阈值的基准实体特征所属的基准实体词作为与待对齐实体词相似的基准实体词,即作为实体词。
在本发明实施例中,还需要对识别出的各子病例内容中的各实体词的词类型进行确定;其中,各实体词的词类型包括实体类型和属性类型,以实现得到各预设类型的子病例内容的各词类型的各实体词的之间的对应关系,并基于此确定各子病例内容的病例特征。
具体的,确定各实体词的词类型的方法包括基于预设实体词库中的各基准实体词以及基准实体词的类型确定各实体词对应的词类型;或者,将各实体词输入至预先训练的词类型识别模型,得到各实体词的词类型识别结果。
可选的,基于预设实体词库中的各基准实体词以及基准实体词的类型确定各实体词对应的词类型的方法包括:预先建立的医学领域的各基准实体词以及各基准实体词类型的数据库,其中,数据库中的各基准实体词的实体类型包括但不限于症状,疾病,体征,检查,检验、药品,科室,医院,治疗,地区等具体的实体类型;属性类型包括但不限于颜色、气味、大小、数量、频率、性状、身体部位,时间,数值等具体的属性类型。将识别出的各实体词与数据库中的各基准实体词进行匹配,根据匹配结果确定该实体词的具体类型。
可选的,将各实体词输入至预先训练的词类型识别模型,得到各实体词的词类型识别结果的方法是,预先训练词类型识别模型,将各实体词输入至词类型识别结果,并根据识别结果确定各实体词的词类型,当然上述确定实体词的词类型的方式只是作为可选实施例,也可以采用其他方式进行确定,本实施对此不加以限制。
示例性的,依旧以上述得到的各类型的子病例内容为例进行介绍:随机选取上述症状描述类型的子病例内容作为训练好的实体抽取模型的输入内容,得到识别出的上述内容的各实体词如表2所示:
表2:实体词抽取结果表
S130、确定各预设类型的子病例内容中的各实体类型的实体词与各属性类型的实体词之间的对应关系,并基于各实体词以及对应关系生成各预设类型的子病例内容中的病例特征。
在本实施例中,各实体类型的实体类型的实体词各属性类型的实体词之间的对应关系可以包括但不限于,当前实体类型的实体词具有哪些属性类型的实体词;或者是当前属性类型的实体词属于哪个实体类型的实体词。即对应关系也可以解释为包含关系或者是所属关系。
可选的,确定各预设类型的子病例内容中的各实体类型的实体词与各属性类型的实体词之间的对应关系的方法可以是:确定任一预设类型的子病例内容中的对话记录,并将对话记录进行预设格式的拼接;基于各实体词之间的词汇距离与预设距离阈值,将拼接后的各对话记录中具有相同名字的实体类型的实体词进行去重处理;遍历任一预设类型的子病例内容中去重后的各对话记录,基于预设的知识图谱将各对话记录中相邻的实体类型的实体词和属性类型的实体词对应连接。
具体的,子病例内容中的对话记录可以是问诊对话等对话记录,将对话记录进行预设格式的拼接可以是:将同一个人连续说的话拼成一个长句,拼接处按“|”连接。示例性的,可以是:原本D:xxxx。D:yyy。D:zzz。P:ooooo。P:uuu。拼接成D:xxxx。|yyy。|zzz。P:ooooo。|uuu。)上述将对话记录进行拼接的有益效果在于可以方便计算对话记录中各实体词的词汇距离。
具体的,为了清楚的介绍本实施例提供的技术方案中的去重处理操作,本实施例以对任一子病例内容中拼接后的对话记录中的各实体词的去重处理进行介绍:计算各实体词之间的词汇距离,具体的,计算方式可以是当前词汇尾字与下一词汇的首字或者当前词汇首字与上一词汇的尾字之间相隔的字的数量即当前词汇与下一次会或者当前词汇上一词汇之间的词汇距离。提取拼接后的对话记录中相同的至少两个实体词,并将计算出的各实体词之间的词汇距离与预设距离阈值进行比较。若比较结果为词汇距离小于预设距离阈值,则至保留该对话记录中的第一个出现的实体词。上述操作的有益效果在于,可以去除对话记录中的冗余内容,减少病例报告生成装置的计算量。示例性的,“P:右小臂就那一条很痒D:多久了?有什么诱因吗?有没有疹子P:三四天了,没有什么诱因,就是睡觉的时候突然间就开始痒。P:没有疹子。”中出现的两次“痒”可以只保留首次出现该实体词的位置,其余位置的实体词可以进行删除或者采用指代词进行指代,本实施例对此不加以限制。
具体的,遍历任一预设类型的子病例内容中去重后的各对话记录,基于预设的知识图谱将各对话记录中相邻的实体类型的实体词和属性类型的实体词对应连接的方式可以是记录整个对话记录中的“上一个实体”和“上一个症状”、“上一个疾病”。按顺序遍历整个对话记录,当提到症状实体时,便将该症状赋值给“上一个实体”和“上一个症状”。同时匹配正则分析问句意图,例如“多久了”,意图分析为“未特指时间”,则对方首轮回复中下一个出现的时间属性应当和“上一个实体”连接;倘若问句是“药吃了多久了”,意图分析为“药品时间”,则对方首轮回复中下一个出现的时间属性应当和“上一个药品”连接。以上述方式将整个对话记录中的实体类型的实体词和属性类型的实体词进行对应连接。
在另一些实施例中,若实体类型的实体词和属性类型的实体词不相邻,则将距离最近的实体类型的实体词和属性类型的实体词对应连接。具体的,即将上述实施例中已经进行对应连接的实体词后剩余未连接上的属性类型的实体词,连接至距离最近的实体类型的实体词,以保证对话记录中的所有实体词都可以对应连接。
可选的,获取各实体词之间的对应关系,并将具有对应关系的实体词和属性类型的实体词进行预设格式的调整,以生成任一预设类型的自病例内容的病例特征。示例性的,依旧以上述问诊对话内容为例进行介绍:得到进行对应连接之后的实体词和属性类型的实体词的结果包括:症状-瘙痒:{身体部位-右小臂}、症状-瘙痒:{持续时间-三四天}、症状-瘙痒:{发病时间-睡觉前}、症状-瘙痒:{诱因-无};将上述结果中的实体类型的实体词进行去重,将各属性类型的实体词进行预设位置的放置,则调整后的格式可以是:症状-瘙痒:{身体部位-右小臂,持续时间-三四天,发病时间-睡觉前,诱因-无}。
在本发明实施例中,病例特征包括病例内容中的预设类型的特征,例如若病例内容为问诊内容,则病例特征可以包括病例特征,具体的病例特征可以包括主诉特征、现病史特征以及体征检验特征中。具体的可以根据上述实施例中获取的预设类型的自病例内容中提取的各实体词以及各实体词的对应关系确定病例特征,例如:将症状描述中的实体类型的实体词和属性类型的实体词连接放置主诉特征,治疗过程描述中的实体类型的实体词和属性类型的实体词连接放入现病史特征,检查检验描述中的实体类型的实体词和属性类型的实体词放入体征检验特征。示例性的,将上述症状表述的将症状描述中的实体类型的实体词和属性类型的实体词连接放置主诉特征作为病例特征之一的结果如下表3所示:
表3:病例特征生成结果表
当然,上述确定病例特征的方式,只是作为可选实施例,也可以根据具体的情况进行具体的设置,本实施例对此不加以限制。
S140、确定病例特征的病例向量,并将病例向量输入至预先训练的病例报告生成模型中,得到初始病例内容的病例报告。
本发明实施例中,在获取到病例特征之后,为了匹配预选训练的病例报告生成模型的输入数据的格式,需要预先将病例特征转换为病例向量,并且将病例特征转换为病例向量之后,可以得到病例特征中的各实体词的深层含义,以使得到的病例报告更加准确。
本实施中涉及的病例向量包括病例特征中的文字对应的文字向量,病例特征中的各实体词对应的词类型向量以及病例特征所属的预设类型对应的病例类型向量;相应的,将病例特征转换为病例向量则包括将病例特征分别转换为文字向量、词类型向量以及病例类型向量,并将该文字向量、词类型向量以及病例类型向量进行加权得到病例特征的病例向量。
具体的,在进行病例特征向病例向量的转换之前,先将病例特征中的各实体词基于各实体词的所属的类型和/或病例类型进行预设格式的特殊字符插入。
可选的,在将病例特征各文字对应的实体词转换为病例特征的文字向量时,根据各病例特征中的各实体词的词类型以及各实体词所属的病例类型,在各实体词中间添加预设格式的特殊字符;示例性的,实体词所属的病例类型间以特殊字符sep1隔开,实体类型的实体词间以特殊符号sep2隔开,属性类型的实体词间以特殊字符sep3隔开;例如“症状-瘙痒:{身体部位-右小臂}”可拼接成“sep1瘙痒sep3右小臂”,将进行特殊字符嵌入后的病例特征进行编码转换,得到特征病例特征中各文字对应的文字向量。
可选的,在将病例特征中各词类型对应的各实体词对应转换为病例特征的词类型向量时,根据病例特征中的各实体词中词类型的具体类型,在各实体词中间添加预设格式的特殊字符;示例性的,s表示症状,b表示身体部位;例如:“瘙痒sep3右小臂”的可转换为“s,s,sep3,b,b,b”,将进行特殊字符嵌入后的病例特征进行编码转换,得到特征病例特征中各实体词对应的词类型向量。
可选的,在将病例特征中的各病例类型包含的实体词转换为病例特征的病例类型向量时,根据病例特征中的各实体词所属的病例类型,在各不同类别的实体词之间添加预设格式的特殊字符;示例性的,cc表示主诉;例如,“瘙痒sep3右小臂”的可转换为“cc,cc,sep1,cc,cc,cc”,将进行特殊字符嵌入后的病例特征进行编码转换,得到特征病例特征中各实体词所属的病例类型向量。
在得到病例特征的病例向量后,将该病例向量作为输入数据输入至预先训练的病例报告生成模型中,得到该模型输出的病例报告。
需要说明的是,本实施例中涉及的病例报告生成模型采用通用预训练的bert模型做初始模型,并在训练数据是进行微调,以得到预先训练的病例报告生成模型。
示例性的,依旧以上述实施例中得到病例特征进行示例性介绍,将该病例特征进行向量转换,得到病例向量后输入至预先训练的病例报告生成模型中,得到模型输出的病例报告如下表4所示:
表4:病例报告生成结果
本发明实施例的技术方案具体包括:获取待调整的初始病例内容,并获取该初始病例内容中的至少一个预设类型的子病例内容,减少了后续抽取实体词时的计算量;进一步的,抽取各预设类型的子病例内容中的各实体词,并确定各实体词的词类型,其中,此类型包括实体类型和属性类型;确定各预设类型的子病例内容中的各实体类型的实体词与各属性类型的实体词之间的对应关系,并基于各实体词以及对应关系生成各预设类型的子病例内容中的病例特征,以充分理解病例内容中的隐藏含义,跳出模板的局限性;确定病例特征的病例向量,并将病例向量输入至预先训练的病例报告生成模型中,得到初始病例内容的病例报告;以实现生成更通顺、更符合专业语法、符合专业质量规范的病例报告;本发明实施例的技术方案通过提取初始病例中的病例特征,实现充分理解病例内容中的隐藏含义,经该病例特征转换为病例向量,并基于该病例向量生成对应病例报告,实现了操作方便,在满足各种情况的需求的同时降低后期维护人员工作量,提高工作效率。
以下是本发明实施例提供的病例报告生成装置的实施例,该装置与上述各实施例的病例报告生成方法属于同一个发明构思,在病例报告生成装置的实施例中未详尽描述的细节内容,可以参考上述病例报告生成方法的实施例。
进一步的,图2为本发明实施例提供的病例报告生成装置的结构示意图,该病例报告生成装置的具体结构包括:病例内容获取模块210、词类型确定模块220、病例特征确定模块230和病例报告生成模块240;其中,
病例内容获取模块210,用于获取待调整的初始子病例内容,并获取初始病例内容中的至少一个预设类型的子病例内容;
词类型确定模块220,用于抽取各预设类型的子病例内容中的各实体词,并确定各实体词的词类型;其中,词类型包括实体类型和属性类型;
病例特征确定模块230,用于确定各预设类型的子病例内容中的各实体类型的实体词与各属性类型的实体词之间的对应关系,并基于各实体词以及对应关系生成各预设类型的子病例内容中的病例特征;
病例报告生成模块240,用于确定病例特征的病例向量,并将病例向量输入至预先训练的病例报告生成模型中,得到初始病例内容的病例报告。
本发明实施例的技术方案具体包括:获取待调整的初始病例内容,并获取该初始病例内容中的至少一个预设类型的子病例内容,减少了后续抽取实体词时的计算量;进一步的,抽取各预设类型的子病例内容中的各实体词,并确定各实体词的词类型,其中,此类型包括实体类型和属性类型;确定各预设类型的子病例内容中的各实体类型的实体词与各属性类型的实体词之间的对应关系,并基于各实体词以及对应关系生成各预设类型的子病例内容中的病例特征,以充分理解病例内容中的隐藏含义,跳出模板的局限性;确定病例特征的病例向量,并将病例向量输入至预先训练的病例报告生成模型中,得到初始病例内容的病例报告;以实现生成更通顺、更符合专业语法、符合专业质量规范的病例报告;本发明实施例的技术方案通过提取初始病例中的病例特征,实现充分理解病例内容中的隐藏含义,经该病例特征转换为病例向量,并基于该病例向量生成对应病例报告,实现了操作方便,在满足各种情况的需求的同时降低后期维护人员工作量,提高工作效率。
在上述实施例的基础上,病例内容获取模块210,包括:
病例子内容确定单元,用于将初始病例内容输入至预先训练的病例分类模型,得到具有至少一个已分类的子病例内容,并基于各子病例内容的类型确定至少一个预设类型的子病例内容。
在上述实施例的基础上,词类型确定模块220,包括:
候选实体词提取单元,用于获取问诊信息,将问诊信息输入至预先训练的实体抽取模型,获得实体提取模型输出的候选实体词;
待对齐实体词确定单元,用于将候选实体词与预设实体词库中的基准实体词进行匹配,将匹配失败的候选实体词作为待对齐实体词;
实体词确定单元,用于根据预先训练的实体对齐模型得到待对齐实体词的待对齐实体特征,基于待对齐实体特征从预设实体词库中选取与待对齐实体词的相似的基准实体词作为实体词。
在上述实施例的基础上,词类型确定模块220,包括:
第一词类型确定单元,用于基于预设实体词库中的各基准实体词以及基准实体词的类型确定各实体词对应的词类型;
第二词类型确定单元,用于将各实体词输入至预先训练的词类型识别模型,得到各实体词的词类型识别结果。
在上述实施例的基础上,病例特征确定模块230,包括:
对话记录确定单元,用于确定任一预设类型的子病例内容中的对话记录,并将对话记录进行预设格式的拼接;
去重处理单元,用于基于各实体词之间的词汇距离与预设距离阈值,将拼接后的各对话记录中具有相同名字的实体类型的实体词进行去重处理;
连接单元,用于遍历任一预设类型的子病例内容中去重后的各对话记录,基于预设的知识图谱将各对话记录中相邻的实体类型的实体词和属性类型的实体词对应连接;
病例特征确定单元,用于将具有对应关系的实体词和属性类型的实体词进行预设格式的调整,以生成任一预设类型的额自病例内容的病例特征。
在上述实施例的基础上,该连接单元,包括:
连接子单元,用于若实体类型的实体词和属性类型的实体词不相邻,则将距离最近的实体类型的实体词和属性类型的实体词对应连接。
在上述实施例的基础上,病例向量包括病例特征中的文字对应的文字向量,病例特征中的各实体词对应的词类型向量以及病例特征所属的预设类型对应的病例类型向量;
相应的,病例报告生成模块240,包括:
病例向量确定单元,用于将文字向量、词类型向量以及病例类型向量进行加权,得到病例特征的病例向量。
本发明实施例所提供的病例报告生成装置可执行本发明任意实施例所提供的病例报告生成方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述病例报告生成装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
进一步的,图3为本发明实施例提供的一种电子设备的结构示意图。图3示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图3显示的电子设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,电子设备12以通用计算电子设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图3所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图3中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及样本数据获取,例如实现本发实施例所提供的一种病例报告生成方法步骤,病例报告生成方法包括:
获取待调整的初始病例内容,并获取所述初始病例内容中的至少一个预设类型的子病例内容;
抽取各所述预设类型的子病例内容中的各实体词,并确定所述各实体词的词类型,其中,所述词类型包括实体类型和属性类型;
确定各所述预设类型的子病例内容中的各实体类型的实体词与各属性类型的实体词之间的对应关系,并基于所述各实体词以及所述对应关系生成各所述预设类型的子病例内容中的病例特征;
确定所述病例特征的病例向量,并将所述病例向量输入至预先训练的病例报告生成模型中,得到所述初始病例内容的病例报告。
当然,本领域技术人员可以理解,处理器还可以实现本发明任意实施例所提供的样本数据获取方法的技术方案。
本实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现例如实现本发实施例所提供的一种病例报告生成方法步骤,病例报告生成方法包括:
获取待调整的初始病例内容,并获取所述初始病例内容中的至少一个预设类型的子病例内容;
抽取各所述预设类型的子病例内容中的各实体词,并确定所述各实体词的词类型,其中,所述词类型包括实体类型和属性类型;
确定各所述预设类型的子病例内容中的各实体类型的实体词与各属性类型的实体词之间的对应关系,并基于所述各实体词以及所述对应关系生成各所述预设类型的子病例内容中的病例特征;
确定所述病例特征的病例向量,并将所述病例向量输入至预先训练的病例报告生成模型中,得到所述初始病例内容的病例报告。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。