CN112036154B - 基于问诊对话的电子病历生成方法、装置和计算机设备 - Google Patents

基于问诊对话的电子病历生成方法、装置和计算机设备 Download PDF

Info

Publication number
CN112036154B
CN112036154B CN202010897413.XA CN202010897413A CN112036154B CN 112036154 B CN112036154 B CN 112036154B CN 202010897413 A CN202010897413 A CN 202010897413A CN 112036154 B CN112036154 B CN 112036154B
Authority
CN
China
Prior art keywords
clauses
clause
electronic
similar
content category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010897413.XA
Other languages
English (en)
Other versions
CN112036154A (zh
Inventor
李苏南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kangjian Information Technology Shenzhen Co Ltd
Original Assignee
Kangjian Information Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kangjian Information Technology Shenzhen Co Ltd filed Critical Kangjian Information Technology Shenzhen Co Ltd
Priority to CN202010897413.XA priority Critical patent/CN112036154B/zh
Publication of CN112036154A publication Critical patent/CN112036154A/zh
Priority to PCT/CN2021/084351 priority patent/WO2022041723A1/zh
Application granted granted Critical
Publication of CN112036154B publication Critical patent/CN112036154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请涉及人工智能,具体涉及一种基于问诊对话的电子病历生成方法、装置、计算机设备和存储介质。该方法包括:获取基于互联网的在线问诊中医生和患者对话的病情文本数据;确定所述病情文本数据中各分句所属的电子病例内容类别;识别所述电子病例内容类别中的相似分句;根据医患标识确定所述相似分句中的重复分句,删除所述电子病例内容类别中的重复分句;将保留的各分句分别填写到所述电子病例的相应内容类别中,生成电子病例。该方法根据医患沟通的病情文本数据自动填写病历,提高了病历处理效率,且能够避免相似内容被重复记载在电子病例中。

Description

基于问诊对话的电子病历生成方法、装置和计算机设备
技术领域
本申请涉及人工智能和医疗技术领域,特别是涉及一种基于问诊对话的电子病历生成方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的飞速发展,以及一系列国家的政策落地,互联网医疗日渐普及,越来越多的用户会选择在互联网医疗平台进行问诊。主流的基于互联网的在线医疗平台问诊量迅猛增加。基于互联网的在线问诊,用户通过互联网与医生交流,医生给出诊断和治疗建议,节约了用户去医院排队挂号等待就诊的时间。
用户在互联网医疗平台咨询就诊的过程中,病例作为用户的就医记录,是一份非常重要的文档。在线问诊之后,医生会详细记录给用户的诊断和治疗信息。作为后续复诊的一个重要依据。但这种人工整理的方式会耗费大量的时间和精力,效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高效率的基于问诊对话的电子病历生成方法、装置、计算机设备和存储介质。
一种基于问诊对话的电子病历生成方法,所述方法包括:
获取基于互联网的在线问诊中医生和患者对话的病情文本数据;
确定所述病情文本数据中各分句所属的电子病例内容类别;
识别所述电子病例内容类别中的相似分句;
根据医患标识确定所述相似分句中的重复分句,删除所述电子病例内容类别中的所述重复分句;
将保留的各分句分别填写到所述电子病例的相应内容类别中,生成电子病例。
在其中一个实施例中,所述识别所述电子病例内容类别中的相似分句的步骤,包括:
对于所述电子病例内容类别的所有分句,调用语义识别模型,比对各分句之间的相似度,将所述相似度大于阈值的比对分句,确定为相似分句。
在另一个实施例中,所述根据医患标识确定所述相似分句中的重复分句,删除所述电子病例内容类别中的所述重复分句,包括:
若所述相似分句具有不同的医患标识,则将所述相似分句中对应医生标识的分句确定为保留分句,将将所述相似分句中对应患者标识的分句确定为所述保留分句的重复分句;
删除所述电子病例内容类别中的所述重复分句。
在其中一个实施例中,所述根据医患标识确定所述相似分句中的重复分句,删除所述电子病例内容类别中的所述重复分句,包括:
若所述相似分句具有相同的医患标识,则将所述相似分句中语义信息最丰富的分句确定为保留分句,将所述相似分句中语义信息最简单的分句确定为所述保留分句的重复分句;
删除所述电子病例内容类别中的所述重复分句。
在其中一个实施例中,所述确定所述病情文本数据的各分句所属的电子病例内容类别的步骤,包括:
识别所述病情文本数据中的陈述句,按最小粒度分句标准对所述陈述句进行分句;
针对每一个分句,抽取字特征和词特征,并识别实体作为医学实体特征;
将所述字特征、词特征和医学实体特征输入预先训练好的识别模型,确定分句所属的电子病例内容类别。
在其中一个实施例中,所述方法还包括:对于所述电子病历的每个内容类别的分句,进行口语转书面语处理,形成书面化电子病历。
在其中一个实施例中,所述对于所述电子病历的每个内容类别的分句,进行口语转书面语处理,形成书面化电子病历,包括:
对于所述电子病历的每个内容类别的分句,提取并去除主语,得到各分句的病历描述内容;
对所述病历描述内容进行口语转书面语处理,形成书面化电子描述。
一种基于问诊对话的电子病历生成装置,所述装置包括:
文本数据获取模块,用于获取基于互联网的在线问诊中医生和患者对话的病情文本数据;
分类模块,用于确定所述病情文本数据中各分句所属的电子病例内容类别;
相似度分析模块,用于识别所述电子病例内容类别中的相似分句;
重复处理模块,用于根据医患标识确定所述相似分句中的重复分句,删除所述电子病例内容类别中的所述重复分句;
填写模块,用于将保留的各分句分别填写到所述电子病例的相应内容类别中,生成电子病例。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取基于互联网的在线问诊中医生和患者对话的病情文本数据;
确定所述病情文本数据中各分句所属的电子病例内容类别;
识别所述电子病例内容类别中的相似分句;
根据医患标识确定所述相似分句中的重复分句,删除所述电子病例内容类别中的重复分句;
将保留的各分句分别填写到所述电子病例的相应内容类别中,生成电子病例。
一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取基于互联网的在线问诊中医生和患者对话的病情文本数据;
确定所述病情文本数据中各分句所属的电子病例内容类别;
识别所述电子病例内容类别中的相似分句;
根据医患标识确定所述相似分句中的重复分句,删除所述电子病例内容类别中的所述重复分句;
将保留的各分句分别填写到所述电子病例的相应内容类别中,生成电子病例。
上述基于问诊对话的电子病历生成方法、装置、计算机设备和存储介质,对于在互联网的在线问诊中医生和患者对话的病情文本数据,确定分句所属的电子病例内容类别后,对于每个类别中分句的相似分句,删除其中的重复分句,根据保留的各分句分别填写到电子病例的相应类别中,该方法根据医患沟通的病情文本数据自动填写病历,提高了病历处理效率,且能够避免相似内容被重复记载在电子病例中。
附图说明
图1为一个实施例中基于问诊对话的电子病历生成方法的应用场景图;
图2为一个实施例中基于问诊对话的电子病历生成方法的流程示意图;
图3为一个实施例中识别模型的结构示意图;
图4为一个实施例中基于问诊对话的电子病历生成装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的基于问诊对话的病历生成方法,可以应用于如图1所示的应用环境中。其中,第一终端102和第二终端106分别通过网络与服务器104通过网络进行通信。患者用户通过第一终端102,医生用户通过第二终端106进行输入交流内容并通过服务器发送至对方,服务器获取基于互联网的在线问诊中医生和患者对话的病情文本数据;确定所述病情文本数据中各分句所属的电子病例内容类别;识别所述电子病例内容类别中的相似分句;确定所述相似分句中的所述重复分句,删除所述电子病例内容类别中的重复分句;将保留的各分句分别填写到所述电子病例的相应内容类别中,生成电子病例。
其中,第一终端102和第二终端106可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种基于问诊对话的电子病历生成方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取基于互联网的在线问诊中医生和患者对话的病情文本数据。
基于互联网的在线问诊是通过互联网医疗平台进行问诊。医生和患者通过互联网医疗平台对话沟通病情,确定治疗方案。其中,根据医生和患者对话的内容,得到病情文本数据。若医生和患者是进行文字对话,则可直接获取病情文本数据。而若医生和患者沟通内容中有语音,则可以将语音转化为文字后,获取病情文本数据。
步骤204,确定所述病情文本数据中各分句所属的电子病例内容类别。
病例作为患者的就诊记录,是一份重要的文档,是后续复诊的重要依据。病例通常包括主诉、现病史、既往史、个人史、家族史和过敏史这6部分内容类别,当然针对具体的场景,内容可作适当的增加或者减少。
病情文本数据是医生和患者对话内容,而能够作为记录存储的内容通常是双方陈述的客观事实,因此,可将病情文本数据中的陈述书作为分析对象,确定陈述句对应分句所属的电子病例内容类别。
其中,识别所述文本数据中的陈述句,对陈述句,按最小粒度分句标准进行分句。对于用户的一个陈述句,可能包含电子病例的多个成分,如我以前有过肺炎,最近感觉呼吸困难。这句话前半段包含既往史,后半段包含现病史。因此按照最小粒度分句标准(按照句号,逗号,分号,感叹号等)进行分句。进而确定陈述句各分句所属的电子病例内容类别。
其中,确定陈述句各分句所属的电子病例内容类别的方式,可以采用预先训练的识别模型识别分句所属的电子病例的内容类别,具体确定分句归属到主诉、现病史、既往史、个人史、家族史和过敏史这6部分内容类别中的哪一个。
步骤206,识别所述电子病例内容类别中的相似分句。
相似分句是指内容相似度达到了一定阈值的多个分句,如两个分句之间的内容相似度达到95%以上,则认为这两个分句为相似分句。在问诊对话中,沟通对话时间可能有多轮,会存在不同的沟通阶段患者或医生重复提及某个内容的情况,若直接把重复的内容填写到电子病例的同一个内容类别,则会存在两个相似描述被记录在电子病例中,导致电子病例的逻辑不清楚,阅读感差。例如,在问诊对话中,患者在不同的场景均表述过以前得过肺炎。比如,在医生问问题:“以前得过什么疾病吗,”患者回复:“以前得过肺炎。”在诊断完毕后,患者再次向医生询问,“我以前得过肺炎,后面感冒就很容易发烧,这次发烧和这有关系吗?”在识别分句划分时,两处以前得过肺炎的表述均会划分到既往史中。这就导致既往史中存在两处相似的描述。
而通过识别每个电子病例内容类别中的相似分句,可保留其中一个,在保证病例内容被记载的同时,也能防止重复记载。
具体地,可从多个维度分析分句之间的相似度。如从文字内容以及语义内容的维度分析相似度。如先设置文字内容维度和语义内容维度的权重,接着分别从两个维度对分句进行比较。从文字内容维度进行比较的方式可以为比对相同文字内容的占比,若两个分句中,相同文字内容的占比大,说明两个分句相似的可能性越高。如“我曾近得过肺炎”与“我患过肺炎”二者表达同一个意思,四个字相同。从语义内容维度进行比较的方式可采用语义模型进行分析。通过对分句间的语义相似度进行比较,计算各分句之间的距离,确定语义相似度。根据预设权重对文字内容相似度和语义内容相似度确定相似度进行加权得到总相似度,若总相似度高于阈值,则确定两个分句互为相似分句。
在其中一个实施例中,也可只从语义维度进行分析,识别所述电子病例内容类别中的相似分句的步骤,包括:对于所述电子病例内容类别的所有分句,调用语义识别模型,比对各分句之间的相似度,将所述相似度大于阈值的比对分句,确定为相似分句。
其中,利用相似度模型,识别两个分句之间的特征距离,确定相似度。若两个比对分句的相似度大于阈值,则这两个用于比对的分句,互为相似分句。
步骤208,根据医患标识确定所述相似分句中的重复分句,删除所述电子病例内容类别中的所述重复分句。
医患标识是在线问诊中用于区分用户的用户标识。其中,包括医生标识和患者标识。医生标识对应医生,患者标识对应患者。
重复分句是指相似分句中的其中一句,将相似分句中的其中一句作为分句,另一句作为重复分句删除,从而只保留相似分句中的一个,防止相似内容被重复记载。具体地,根据医患标识确定相似分句中的重复分句。
在其中一个实施例中,所述根据医患标识确定所述相似分句中的重复分句,删除所述电子病例内容类别中的所述重复分句,包括:若所述相似分句具有不同的医患标识,则将所述相似分句中对应医生标识的分句确定为保留分句,将将所述相似分句中对应患者标识的分句确定为所述保留分句的重复分句;删除所述电子病例内容类别中的所述重复分句。
具体地,若相似分句具有不同的医患标识,表明医生和患者陈述过相似的事实,考虑到医生的可靠性,将相似分句中对应医生标识的分句作为保留分句。即,将医生说过的分句保留,将患者说过的话作为重复分句删除。从而使保留的分句可靠性更高。
在其中一个实施例中:若所述相似分句具有相同的医患标识,则将所述相似分句中语义信息最丰富的分句确定为保留分句,将所述相似分句中语义信息最简单的分句确定为所述保留分句的重复分句;删除所述电子病例内容类别中的所述重复分句。
具体地,若相似分句具有相同的医患标识,则说明相似分句是同一个人说的,即可能是医生或是患者说了重复的内容。对此,可通过比较相似分句中有效词数量,将有效词数量更多的一个分句作为语义信息最丰富的保留分句,将有效词数量较少的一个作为该保留分句的重复分句,删除重复分句,防止相似内容被重复记载。
其中,有效词是指分句中有实际意义的词,去除了分句中的无意义词后,即可得到有效词。无意义词比如停用词(标点、数字、单字和其它一些无意义的词)。
步骤210,将保留的各分句分别填写到所述电子病例的相应内容类别中,生成电子病例。
具体地,在电子病历上划分了每个部分的填写区域,根据分句的识别结果,将分句内容填写到组成部分区域。如,我以前有过肺炎,填写至疾病史,咳嗽一段时间了,填写至现病史。
上述的基于问诊对话的电子病历生成方法,对于在互联网的在线问诊中医生和患者对话的病情文本数据,确定分句所属的电子病例内容类别后,对于每个类别中分句的相似分句,删除其中的重复分句,根据保留的各分句分别填写到电子病例的相应类别中,该方法根据医患沟通的病情文本数据自动填写病历,提高了病历处理效率,且能够避免相似内容被重复记载在电子病例中。
在另一个实施例中,所述确定所述病情文本数据的各分句所属的电子病例内容类别的步骤,包括:识别所述病情文本数据中的陈述句,按最小粒度分句标准对所述陈述句进行分句;针对每一个分句,抽取字特征和词特征,并识别实体作为医学实体特征;将所述字特征、词特征和医学实体特征输入预先训练好的识别模型,确定分句所属的电子病例内容类别。
具体地,病情文本数据是医生和患者对话内容,而能够作为记录存储的内容通常是双方陈述的客观事实,因此,可将病情文本数据中的陈述书作为分析对象,确定陈述句对应分句所属的电子病例内容类别。
对于用户的一个陈述句,可能包含电子病例的多个成分,如我以前有过肺炎,最近感觉呼吸困难。这句话前半段包含既往史,后半段包含现病史。因此首先按照最小粒度分句标准(按照句号,逗号,分号,感叹号等)进行分句。
针对每一个分句,首先抽取每个字,转换为该字的特征向量,得到字特征。
然后,对分句进行预处理,去除停用词等无意义词,如啊等感叹词等,再利用分词工具,如WORD2VEC对预处理后的分句进行分词处理,转换为词向量,得到词特征。
接着,对于每个分句,利用训练好的医学实体抽取模型,抽取每个分句中的医学实体,并转换为向量表示,得到医学实体特征。
其中,医学实体包括药物名,身体部位,疾病症状、检查项目和医学名词等。医学实体抽取模型预先训练得到。
具体地,电子病例一般包括主诉、现病史、既往史、个人史、家族史和过敏史这6部分内容,当然针对具体的场景,内容可作适当的增加或者减少。
预先设计了一种Multi-view Deep Convolutional Neural Network(MDNN)的深度神经网络,如图3所示。其中网络的输入为字特征、词特征和医学实体特征,具体地,将字特征,词特征以及医学实体特征这三个维度的特征的向量拼接,模型采用卷积层抽取输入的抽象表达,采用池化层降维。采用softmax作为损失函数。输出为属于这6个电子病例组成部分的概率,考虑到还会有部分话术,如寒暄类语句,不包含在这6类之中,因此,最终的模型输出节点应包含7类,即第7类是others类。因此对于标签现病史,输出为[0,1,0,0,0,0,0]。
模型训练时,针对线上的问诊单,首先进行人工标注,作为模型训练数据。其中各类别数据离线训练MDNN模型。采用Gridsearch等调参方式优化部分模型参数(如学习率,卷积核的个数等),得到训练好的识别模型。
在另一个实施例中,该方法还包括:对于所述电子病历的每个内容类别的分句,进行口语转书面语处理,形成书面化电子病历。
由于分句是从患者和医生的问诊交流的沟通内容中提取的,存在表达口语化的问题。若直接将口语化的表达填写到电子病历上,医生还需要再次进行编辑,去除口语化的内容。为进一步提高处理效率,一种实施例中,可预先训练口语转书面语的转换模型,在得到电子病历的每个组成部分的分句时,调用该模型,进行转换,得到书面化电子病历。
另一种实施例中,也可预先设置常见口语描述词书面语描述词,对于电子病历的每个内容类别的分句,识别到预设的口语描述词后,将其转换为对应的书面语描述词,最后形成书面化病历。
进一步地,对于所述电子病历的每个内容类别的分句,进行口语转书面语处理,形成书面化电子病历,包括:对于电子病历的每个内容类别的分句,提取并去除主语,得到名分句的病历描述内容;对所述病历描述内容进行口语转书面语处理,形成书面化电子描述。
由于病情文本数据是根据医患沟通内容得到的,而医患在沟通过程中,往往是以第一人称的角度在描述事实,而电子病例通常是以医生视角记录病情,因此,而在电子病历中保留患者视角的主角,则不符合病例使用习惯。因此,对于电子病历的每个内容类别的分句,去除主语,得到病历描述内容。再对病历描述进行利用预先训练口语转书面语的转换模型,得到对应的书面化描述。具体地,转换模型可对大量医生人工填写的电子病历以及相关病情文本数据进行训练得到。
例如,例如“我以前得过肺炎”,去除主语之后,得到的病历描述内容为“以前得过肺炎”。进一步地,对病历描述内容,进行口语转书面语处理后,得到的描述为“肺炎史”。
在另一个实施例中,该方法还包括:接收外部输入的对所述电子病历的修改信息;根据所述修改信息修改所述电子病例。
具体地,医生根据问诊内容初步填写的电子病历可进一步修改,作为最终的电子病历。即,根据问诊内容形成的电子病历是根据问诊内容整理的,医生在此基础上可进一步修改和完善,形成最终的电子病历。由于已预先根据问诊内容识别会话内容属于电子病历的哪一部分,初步形成了电子病历,医生只需要在此基础上进行局部修缮即可,为医生节约了时间,提高了在线问诊效率。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种基于问诊对话的电子病历生成装置,包括:文本数据获取模块、分类模块、相似度分析模块、重复处理模块和模块,其中:
文本数据获取模块402,用于获取基于互联网的在线问诊中医生和患者对话的病情文本数据。
分类模块404,用于确定所述病情文本数据中各分句所属的电子病例内容类别。
相似度分析模块406,用于识别所述电子病例内容类别中的相似分句。
重复处理模块408,用于根据医患标识确定所述相似分句中的重复分句,删除所述电子病例内容类别中的所述重复分句。
填写模块410,用于将保留的各分句分别填写到所述电子病例的相应内容类别中,生成电子病例。上述基于问诊对话的电子病历生成装置,对于在互联网的在线问诊中医生和患者对话的病情文本数据,确定分句所属的电子病例内容类别后,对于每个类别中分句的相似分句,删除其中的重复分句,根据保留的各分句分别填写到电子病例的相应类别中,该方法根据医患沟通的病情文本数据自动填写病历,提高了病历处理效率,且能够避免相似内容被重复记载在电子病例中。
在另一个实施例中,相似度分析模块,用于对于电子病例内容类别的所有分句,调用语义识别模型,比对各分句之间的相似度,将所述相似度大于阈值的比对分句,确定为相似分句。
在另一个实施例中,重复处理模块包括:
标识识别模块,用于若所述相似分句具有不同的医患标识,则将所述相似分句中对应医生标识的分句确定为保留分句,将将所述相似分句中对应患者标识的分句确定为所述保留分句的重复分句;
删除处理模块,用于删除所述电子病例内容类别中的所述重复分句。
在另一个实施例中,重复处理模块,还包括:
语义分析模块,用于若所述相似分句具有相同的医患标识,则将所述相似分句中语义信息最丰富的分句确定为保留分句,将所述相似分句中语义信息最简单的分句确定为所述保留分句的重复分句。
在另一个实施例中,分类模块,包括:
分句模块,用于识别所述病情文本数据中的陈述句,按最小粒度分句标准对所述陈述句进行分句。
特征抽取模块,用于针对每一个分句,抽取字特征和词特征,并识别实体作为医学实体特征。
分类处理模块,用于将所述字特征、词特征和医学实体特征输入预先训练好的识别模型,确定分句所属的电子病例内容类别。
在另一个实施例中,基于问诊对话的电子病历生成装置还包括书面化处理模块,用于对于所述电子病历的每个内容类别的分句,进行口语转书面语处理,形成书面化电子病历。
在另一个实施例中,书面化处理模块,包括:
主体处理模块,用于对于所述电子病历的每个内容类别的分句,提取并去除主语,得到各分句的病历描述内容。
书面化转换模块,用于对所述病历描述内容进行口语转书面语处理,形成书面化电子描述。
在另一个实施例中,基于问诊对话的电子病历生成装置,还包括:
修改模块,用于接收外部输入的对所述电子病历的修改信息;根据所述修改信息修改所述电子病例。
关于基于问诊对话的电子病历生成装置的具体限定可以参见上文中对于基于问诊对话的电子病历生成方法的限定,在此不再赘述。上述基于问诊对话的电子病历生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储病情文本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于问诊对话的电子病历生成方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取基于互联网的在线问诊中医生和患者对话的病情文本数据;
确定所述病情文本数据中各分句所属的电子病例内容类别;
识别所述电子病例内容类别中的相似分句;
根据医患标识确定所述相似分句中的重复分句,删除所述电子病例内容类别中的所述重复分句;
将保留的各分句分别填写到所述电子病例的相应内容类别中,生成电子病例。
在其中一个实施例中,所述识别所述电子病例内容类别中的相似分句的步骤,包括:
对于电子病例内容类别的所有分句,调用语义识别模型,比对各分句之间的相似度,将所述相似度大于阈值的比对分句,确定为相似分句。
在其中一个实施例中,所述根据医患标识确定所述相似分句中的重复分句,删除所述电子病例内容类别中的所述重复分句,包括:
若所述相似分句具有不同的医患标识,则将所述相似分句中对应医生标识的分句确定为保留分句,将将所述相似分句中对应患者标识的分句确定为所述保留分句的重复分句;
删除所述电子病例内容类别中的所述重复分句。
在其中一个实施例中,根据医患标识所述确定所述相似分句中的重复分句,删除所述电子病例内容类别中的重复分句,包括:
若所述相似分句具有相同的医患标识,则将所述相似分句中语义信息最丰富的分句确定为保留分句,将所述相似分句中语义信息最简单的分句确定为所述保留分句的重复分句;
删除所述电子病例内容类别中的所述重复分句。
在其中一个实施例中,所述确定所述病情文本数据的各分句所属的电子病例内容类别的步骤,包括:
识别所述病情文本数据中的陈述句,按最小粒度分句标准对所述陈述句进行分句;
针对每一个分句,抽取字特征和词特征,并识别实体作为医学实体特征;
将所述字特征、词特征和医学实体特征输入预先训练好的识别模型,确定分句所属的电子病例内容类别。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对于所述电子病历的每个内容类别的分句,进行口语转书面语处理,形成书面化电子病历。
在其中一个实施例中,所述对于所述电子病历的每个内容类别的分句,进行口语转书面语处理,形成书面化电子病历,包括:
对于所述电子病历的每个内容类别的分句,提取并去除主语,得到各分句的病历描述内容;
对所述病历描述内容进行口语转书面语处理,形成书面化电子描述。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
接收外部输入的对所述电子病历的修改信息;
根据所述修改信息修改所述电子病例。
在一个实施例中,提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取基于互联网的在线问诊中医生和患者对话的病情文本数据;
确定所述病情文本数据中各分句所属的电子病例内容类别;
识别所述电子病例内容类别中的相似分句;
根据医患标识确定所述相似分句中的重复分句,删除所述电子病例内容类别中的所述重复分句;
将保留的各分句分别填写到所述电子病例的相应内容类别中,生成电子病例。
在其中一个实施例中,所述识别所述电子病例内容类别中的相似分句的步骤,包括:
对于电子病例内容类别的所有分句,调用语义识别模型,比对各分句之间的相似度,将所述相似度大于阈值的比对分句,确定为相似分句。
在其中一个实施例中,所述根据医患标识确定所述相似分句中的重复分句,删除所述电子病例内容类别中的所述重复分句,包括:
若所述相似分句具有不同的医患标识,则将所述相似分句中对应医生标识的分句确定为保留分句,将将所述相似分句中对应患者标识的分句确定为所述保留分句的重复分句;
删除所述电子病例内容类别中的所述重复分句。
在其中一个实施例中,所述根据医患标识确定所述相似分句中的重复分句,删除所述电子病例内容类别中的所述重复分句:
若所述相似分句具有相同的医患标识,则将所述相似分句中语义信息最丰富的分句确定为保留分句,将所述相似分句中语义信息最简单的分句确定为所述保留分句的重复分句;
删除所述电子病例内容类别中的所述重复分句。
在其中一个实施例中,所述确定所述病情文本数据的各分句所属的电子病例内容类别的步骤,包括:
识别所述病情文本数据中的陈述句,按最小粒度分句标准对所述陈述句进行分句;
针对每一个分句,抽取字特征和词特征,并识别实体作为医学实体特征;
将所述字特征、词特征和医学实体特征输入预先训练好的识别模型,确定分句所属的电子病例内容类别。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对于所述电子病历的每个内容类别的分句,进行口语转书面语处理,形成书面化电子病历。
在其中一个实施例中,所述对于所述电子病历的每个内容类别的分句,进行口语转书面语处理,形成书面化电子病历,包括:
对于所述电子病历的每个内容类别的分句,提取并去除主语,得到各分句的病历描述内容;
对所述病历描述内容进行口语转书面语处理,形成书面化电子描述。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
接收外部输入的对所述电子病历的修改信息;
根据所述修改信息修改所述电子病例。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于问诊对话的电子病历生成方法,所述方法包括:
获取基于互联网的在线问诊中医生和患者对话的病情文本数据;
确定所述病情文本数据中各分句所属的电子病例内容类别;
对于所述电子病例内容类别的所有分句,调用语义识别模型,根据各分句之间的特征距离,确定各分句之间的相似度,比对各分句之间的相似度,将所述相似度大于阈值的比对分句,确定为相似分句;
若所述相似分句具有相同的医患标识,比较所述相似分句中的有效词数量,所述有效词为所述相似分句中有实际意义的词;
将所述相似分句中有效词数量最多的分句作为保留分句,将所述相似分句中的其他分句作为所述保留分句的重复分句,删除所述电子病例内容类别中的所述重复分句;
若所述相似分句具有不同的医患标识,则将所述相似分句中对应医生标识的分句确定为保留分句,将所述相似分句中对应患者标识的分句确定为所述保留分句的重复分句,删除所述电子病例内容类别中的所述重复分句;
将保留的各分句分别填写到所述电子病例的相应内容类别中,生成电子病例。
2.根据权利要求1任意一项所述的方法,其特征在于,所述确定所述病情文本数据的各分句所属的电子病例内容类别的步骤,包括:
识别所述病情文本数据中的陈述句,按最小粒度分句标准对所述陈述句进行分句;
针对每一个分句,抽取字特征和词特征,并识别实体作为医学实体特征;
将所述字特征、词特征和医学实体特征输入预先训练好的识别模型,确定分句所属的电子病例内容类别。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:对于所述电子病历的每个内容类别的分句,进行口语转书面语处理,形成书面化电子病历。
4.根据权利要求3所述的方法,其特征在于,所述对于所述电子病历的每个内容类别的分句,进行口语转书面语处理,形成书面化电子病历,包括:
对于所述电子病历的每个内容类别的分句,提取并去除主语,得到各分句的病历描述内容;
对所述病历描述内容进行口语转书面语处理,形成书面化电子描述。
5.一种基于问诊对话的电子病历生成装置,其特征在于,所述装置包括:
文本数据获取模块,用于获取基于互联网的在线问诊中医生和患者对话的病情文本数据;
分类模块,用于确定所述病情文本数据中各分句所属的电子病例内容类别;
相似度分析模块,用于对于所述电子病例内容类别的所有分句,调用语义识别模型,根据各分句之间的特征距离,确定各分句之间的相似度,比对各分句之间的相似度,将所述相似度大于阈值的比对分句,确定为相似分句;
重复处理模块,用于若所述相似分句具有相同的医患标识,比较所述相似分句中的有效词数量,所述有效词为所述相似分句中有实际意义的词;将所述相似分句中有效词数量最多的分句作为保留分句,将所述相似分句中的其他分句作为所述保留分句的重复分句,删除所述电子病例内容类别中的所述重复分句;若所述相似分句具有不同的医患标识,则将所述相似分句中对应医生标识的分句确定为保留分句,将所述相似分句中对应患者标识的分句确定为所述保留分句的重复分句,删除所述电子病例内容类别中的所述重复分句;
填写模块,用于将保留的各分句分别填写到所述电子病例的相应内容类别中,生成电子病例。
6.根据权利要求5所述的装置,其特征在于,所述分类模块包括:
分句模块,用于识别所述病情文本数据中的陈述句,按最小粒度分句标准对所述陈述句进行分句;
特征抽取模块,用于针对每一个分句,抽取字特征和词特征,并识别实体作为医学实体特征;
分类处理模块,用于将所述字特征、词特征和医学实体特征输入预先训练好的识别模型,确定分句所属的电子病例内容类别。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:
书面化处理模块,用于对于所述电子病历的每个内容类别的分句,进行口语转书面语处理,形成书面化电子病历。
8.根据权利要求7所述的装置,其特征在于,所述书面化处理模块还用于:
对于所述电子病历的每个内容类别的分句,提取并去除主语,得到各分句的病历描述内容;对所述病历描述内容进行口语转书面语处理,形成书面化电子描述。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
CN202010897413.XA 2020-08-31 2020-08-31 基于问诊对话的电子病历生成方法、装置和计算机设备 Active CN112036154B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010897413.XA CN112036154B (zh) 2020-08-31 2020-08-31 基于问诊对话的电子病历生成方法、装置和计算机设备
PCT/CN2021/084351 WO2022041723A1 (zh) 2020-08-31 2021-03-31 基于问诊对话的电子病历生成方法、装置、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010897413.XA CN112036154B (zh) 2020-08-31 2020-08-31 基于问诊对话的电子病历生成方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN112036154A CN112036154A (zh) 2020-12-04
CN112036154B true CN112036154B (zh) 2023-05-23

Family

ID=73586396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010897413.XA Active CN112036154B (zh) 2020-08-31 2020-08-31 基于问诊对话的电子病历生成方法、装置和计算机设备

Country Status (2)

Country Link
CN (1) CN112036154B (zh)
WO (1) WO2022041723A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036154B (zh) * 2020-08-31 2023-05-23 康键信息技术(深圳)有限公司 基于问诊对话的电子病历生成方法、装置和计算机设备
CN112562813A (zh) * 2020-12-22 2021-03-26 中国科学院苏州生物医学工程技术研究所 针对急救呼叫的电子病历智能生成方法及系统
CN112733534B (zh) * 2020-12-25 2022-04-12 北京左医科技有限公司 医患对话中半截词指向症状获取方法及系统
CN112784609A (zh) * 2021-03-16 2021-05-11 云知声智能科技股份有限公司 确定病历中是否包括会诊意见的方法、装置、设备和介质
CN113506621A (zh) * 2021-06-04 2021-10-15 山西三友和智慧信息技术股份有限公司 基于大数据的人工智能健康云平台
CN114049971A (zh) * 2021-10-11 2022-02-15 北京左医科技有限公司 基于医患对话的医学教学方法及医学教学装置
CN113779228A (zh) * 2021-11-15 2021-12-10 北京明略昭辉科技有限公司 一种信息处理方法、装置、电子设备及存储介质
CN114882966A (zh) * 2022-05-27 2022-08-09 北京京东拓先科技有限公司 电子病历的生成方法、装置、设备、介质及产品
CN116913450B (zh) * 2023-09-07 2023-12-19 北京左医科技有限公司 一种实时生成病历的方法及装置
CN117493642B (zh) * 2023-11-28 2024-06-07 西康软件有限责任公司 相似电子病历检索方法、装置、终端及存储介质
CN117912625B (zh) * 2024-03-20 2024-05-28 广州源康健信息科技有限公司 一种基于问诊对话的电子病历生成方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019071661A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 电子装置、医疗文本实体命名的识别方法、系统及存储介质
WO2019153522A1 (zh) * 2018-02-09 2019-08-15 卫盈联信息技术(深圳)有限公司 智能交互方法、电子装置及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038336A (zh) * 2017-03-21 2017-08-11 科大讯飞股份有限公司 一种电子病历自动生成方法及装置
CN107403068B (zh) * 2017-07-31 2018-06-01 合肥工业大学 融合临床思维的智能辅助问诊方法及系统
CN108415891A (zh) * 2018-02-10 2018-08-17 武汉大学中南医院 一种门急诊结构化电子病例生成方法及系统
CN108899064A (zh) * 2018-05-31 2018-11-27 平安医疗科技有限公司 电子病历生成方法、装置、计算机设备和存储介质
CN111414453A (zh) * 2020-03-05 2020-07-14 北京声智科技有限公司 结构化文本生成方法、装置、电子设备及计算机可读存储介质
CN112036154B (zh) * 2020-08-31 2023-05-23 康键信息技术(深圳)有限公司 基于问诊对话的电子病历生成方法、装置和计算机设备
CN112017744A (zh) * 2020-09-07 2020-12-01 平安科技(深圳)有限公司 电子病例自动生成方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019071661A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 电子装置、医疗文本实体命名的识别方法、系统及存储介质
WO2019153522A1 (zh) * 2018-02-09 2019-08-15 卫盈联信息技术(深圳)有限公司 智能交互方法、电子装置及存储介质

Also Published As

Publication number Publication date
WO2022041723A1 (zh) 2022-03-03
CN112036154A (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
CN112036154B (zh) 基于问诊对话的电子病历生成方法、装置和计算机设备
CN112328762B (zh) 基于文本生成模型的问答语料生成方法和装置
CN110765265B (zh) 信息分类抽取方法、装置、计算机设备和存储介质
US20210257066A1 (en) Machine learning based medical data classification method, computer device, and non-transitory computer-readable storage medium
CN108986908B (zh) 问诊数据处理方法、装置、计算机设备和存储介质
WO2021068321A1 (zh) 基于人机交互的信息推送方法、装置和计算机设备
CN109960725B (zh) 基于情感的文本分类处理方法、装置和计算机设备
CN112002411A (zh) 一种基于电子病历的心脑血管病知识图谱问答方法
CN113094578B (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
CN111222305A (zh) 一种信息结构化方法和装置
CN110287297A (zh) 对话答复方法、装置、计算机设备及计算机可读存储介质
WO2021114620A1 (zh) 病历质控方法、装置、计算机设备和存储介质
WO2021208444A1 (zh) 电子病例自动生成方法、装置、设备及存储介质
KR20200119410A (ko) 전역 및 지역 문맥 기반 한국어 대화문 감정 인식 시스템 및 방법
CN114139551A (zh) 意图识别模型的训练方法及装置、意图识别的方法及装置
CN111859916B (zh) 古诗关键词提取、诗句生成方法、装置、设备及介质
CN113704436A (zh) 基于会话场景的用户画像标签挖掘方法及装置
CN117995373B (zh) 医院查房记录生成方法、装置、电子设备及存储介质
CN112632252A (zh) 对话应答方法、装置、计算机设备和存储介质
CN112183051A (zh) 智能语音随访方法、系统、计算机设备、存储介质及程序产品
CN115203372A (zh) 文本意图分类方法、装置、计算机设备及存储介质
CN118133971A (zh) 基于大语言模型的医疗问答方法和装置
CN110931002A (zh) 人机交互方法、装置、计算机设备和存储介质
CN112037904B (zh) 在线诊疗数据处理方法、装置、计算机设备和存储介质
CN114238715A (zh) 基于社会救助的问答系统、构建方法、计算机设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant