CN112308048A - 基于少量标注数据的病历完整性判别的方法、装置及系统 - Google Patents

基于少量标注数据的病历完整性判别的方法、装置及系统 Download PDF

Info

Publication number
CN112308048A
CN112308048A CN202011396368.6A CN202011396368A CN112308048A CN 112308048 A CN112308048 A CN 112308048A CN 202011396368 A CN202011396368 A CN 202011396368A CN 112308048 A CN112308048 A CN 112308048A
Authority
CN
China
Prior art keywords
medical record
target field
unit
record text
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011396368.6A
Other languages
English (en)
Other versions
CN112308048B (zh
Inventor
曾祥荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202011396368.6A priority Critical patent/CN112308048B/zh
Publication of CN112308048A publication Critical patent/CN112308048A/zh
Application granted granted Critical
Publication of CN112308048B publication Critical patent/CN112308048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供了基于少量标注数据的病历完整性判别的方法、装置及系统,该方法包括:确定待判断的目标字段;获取至少一条目标字段所对应的病历文本;计算待检测病历文本与所述目标字段所对应的病历文本的相似程度;当相似程度满足预设条件时,判定所述待检测病历文本含有目标字段内容否则不含目标字段的内容。利用本发明中的技术方案可以只需要少量(数十句)目标字段的内容,无需大量标注数据,即可判断病历中是否包含某个特定字段的内容,识别出内容有缺失的病历,摆脱了对标注数据的规模与质量的依赖,且快速方便,极大的降低了时间及人力成本。

Description

基于少量标注数据的病历完整性判别的方法、装置及系统
技术领域
本发明书一个或多个实施例涉及数据处理技术领域,尤其涉及一种基于少量标注数据的病历完整性判别的方法、装置及系统。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
病历,是医务人员对患者疾病的发生、发展、转归进行检查、诊断、治疗等医疗活动过程中所形成的资料的总和。病历质量控制是医疗质量管理的重要组成部分。书写完整、规范的病历可以保证病案的真实性、及时性、客观性以及医疗行为的可追溯性,从而提高医疗管理水平,预防以及减少医疗纠纷。
电子病历(EMR,Electronic Medical Record),也叫计算机化的病案系统或称基于计算机的病人记录(CPR,Computer-Based Patient Record),是通过电子设备(计算机、健康卡等)数字化地保存、管理、传输和重现病人的医疗记录,以取代传统的手写纸张病历,它的内容包括纸张病历的所有信息。
如何判断一份电子病历的完整性呢?现有方法通常将这个任务视为二分类任务,通过标注大量的训练数据来训练分类模型,期望模型能够对输入的整个病历判断是否包含目标字段内容,来识别内容是否有缺失。
但该方法存在如下问题:
通过标注数据的方式来训练模型,严重依赖标注数据的规模与质量。标注数据面临着很高的时间、人力成本。
有鉴于此,亟需一种新的数据处理技术,适用于基于少量标注数据的病历,即可识别病历完整性的需求。
发明内容
本说明书一个或多个实施例描述了一种基于少量标注数据的病历完整性判别的方法、装置及系统,只需要少量(数十句)目标字段的内容,无需大量标注数据,即可完成病历完整性的判别,可解决目前技术中存在的通过标注数据的方式来训练模型,严重依赖标注数据的规模与质量,标注数据面临着很高的时间、人力成本的问题。
本说明书一个或多个实施例提供的技术方案如下:
第一方面,本发明提供了一种基于少量标注数据的病历完整性判别的方法,该方法包括:
确定待判断的目标字段;
获取至少一条目标字段所对应的病历文本;
计算待检测病历文本与所述目标字段所对应的病历文本的相似程度;
当相似程度满足预设条件时,判定所述待检测病历文本含有目标字段内容,否则不含目标字段的内容。
在一种可能的实现方式中,获取至少一条目标字段所对应的病历文本后,还包括以下处理步骤:
统计目标字段所对应的病历文本中不同字符的数目,并将这些字符构建成有序词表V;
将病历文本中目标字段对应的内容根据词表V转换为独热编码向量GV。
在一种可能的实现方式中,不同字符包括:汉字、数字、字母和标点符号。
在一种可能的实现方式中,计算待检测病历文本与所述目标字段所对应的病历文本的相似程度,具体为:
将待检测病历划分为至少一个段落;
根据预设的窗口大小及重叠度,将所述段落组合成至少一个片段;
将所述片段根据词表V转换为独热编码向量SV;其中,所述词表V为目标字段所对应的病历文本中不同字符构建成的有序词表;
计算独热编码向量SV中的每个向量与独热编码向量GV中的每个向量的相似度,并求平均值;
最大平均值作为待检测病历与目标字段所对应的病历文本的相似度值。
在一种可能的实现方式中,根据预设的窗口大小及重叠度,将所述段落组合成至少一个片段,具体为:
设置窗口大小w,以及重叠度k;
将段落依次组合成m个片段,记为S=[s1,...,si,...,sm];
Figure BDA0002815467880000031
若n%(w-k)>k;
Figure BDA0002815467880000032
若n%(w-k)≤k;
其中,int(a)表示取a的整数部分;a%b表示a除以b得到的余数;S中每个片段si包含了w个段落,并且si和si-1重叠了k个段落;
si=dt:dt+1:...:da
t=i*(w-k)
q=min(t+k,n)
其中,a:b表示将a和b拼接在一起。
在一种可能的实现方式中,所述计算独热编码向量SV中的每个向量与独热编码向量GV中的每个向量的相似度,并求平均值,具体为:
计算独热编码向量SV中的每个向量与独热编码向量GV中的每个向量的余弦相似度,并求平均值。
在一种可能的实现方式中,当相似程度满足预设条件时,判定所述待检测病历文本含有目标字段内容,否则不含目标字段的内容,具体为:
设定阈值α,如果病历的得分小于阈值,则判定该病历未包含目标字段内容,否则认为该病历包含了目标字段内容。
第二方面,本发明提供了一种基于少量标注数据的病历完整性判别的装置,该装置包括确定单元、获取单元、处理单元和判断单元;其中,
所述确定单元,用于确定待判断的目标字段;
所述获取单元,用于获取至少一条目标字段所对应的病历文本;
所述处理单元,用于计算待检测病历文本与所述目标字段所对应的病历文本的相似程度;
所述判断单元,用于当相似程度满足预设条件时,判定所述待检测病历文本含有目标字段内容,否则不含目标字段的内容。
在一种可能的实现方式中,所述装置还包括统计单元、构建单元和第一转换单元,其中:
所述统计单元,用于统计目标字段所对应的病历文本中不同字符的数目;
所述构建单元,用于并将这些字符构建成有序词表V;
所述第一转换单元,用于将病历文本中目标字段对应的内容根据词表V转换为独热编码向量GV。
在一种可能的实现方式中,不同字符包括:汉字、数字、字母和标点符号。
在一种可能的实现方式中,所述处理单元包括段落划分单元、片段组合单元、第二转换单元和计算单元;其中:
所述段落划分单元,用于将待检测病历划分为至少一个段落;
所述段落组合单元,用于根据预设的窗口大小及重叠度,将所述段落组合成至少一个片段;
所述第二转换单元,用于将所述片段根据词表V转换为独热编码向量SV;其中,所述词表V为目标字段所对应的病历文本中不同字符构建成的有序词表;
所述计算单元,用于计算独热编码向量SV中的每个向量与独热编码向量GV中的每个向量的相似度,并求平均值。
在一种可能的实现方式中,所述段落组合单元包括设置单元和段落处理单元;其中,
所述设置单元,用于设置窗口大小w,以及重叠度k;
所述段落处理单元,用于将段落依次组合成m个片段,记为S=[s1,...,si,...,sm];
Figure BDA0002815467880000051
若n%(w-k)>k;
Figure BDA0002815467880000052
若n%(w-k)≤k;
其中,int(a)表示取a的整数部分;a%b表示a除以b得到的余数;S中每个片段si包含了w个段落,并且si和si-1重叠了k个段落;
si=dt:dt+1:...:da
t=i*(w-k)
q=min(t+k,n)
其中,a:b表示将a和b拼接在一起。
第三方面,本发明提供了一种基于少量标注数据的病历完整性判别的系统,该系统包括至少一个处理器和存储器;
所述存储器,用于存储一个或多个程序指令;
所述处理器,用于运行一个或多个程序指令,用以执行如第一方面中一个或多个所述的方法。
第四方面,本发明提供了一种芯片,所述芯片与系统中的存储器耦合,使得所述芯片在运行时调用所述存储器中存储的程序指令,实现如第一方面中一个或多个所述的方法。
第五方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质包括一个或多个程序指令,所述一个或多个程序指令可被如第三方面所述的系统执行,以实现如第一方面中一个或多个所述的方法。
本发明实施例提供的方法只需要少量(数十句)目标字段的内容,无需大量标注数据,即可判断病历中是否包含某个特定字段的内容,识别出内容有缺失的病历。
附图说明
图1为本发明实施例提供的一种基于少量标注数据的病历完整性判别的方法流程示意图;
图2为计算待检测病历文本与所述目标字段所对应的病历文本的相似程度的流程示意图;
图3为本发明实施例提供的一种基于少量标注数据的病历完整性判别的装置结构示意图之一;
图4为为本发明实施例提供的一种基于少量标注数据的病历完整性判别的装置结构示意图之二;
图5为处理单元的结构示意图;
图6为段落组合单元结构示意图;
图7为本发明实施例提供的一种基于少量标注数据的病历完整性判别的系统结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
一份病历中通常包含了多个字段,比如既往史、个人史、现病史等。每个字段都需要填写相应的内容。病历完整性检查就是需要判断病历中是否缺少了某个字段对应的内容。本发明提出了一种只依赖少量标注数据的病历完整性判别方法,该方法针对电子病历,原则上也可以适用于其它类型的电子文档。
图1示出一个实施例的基于少量标注数据的病历完整性判别的方法流程图,所述方法的执行主体可以为任何具有计算、处理能力的装置、设备、平台、设备集群等。如图1所示,所述方法包括以下步骤:
步骤10,确定待判断的目标字段。
在一实施例中,一份电子病历中可以包括一个或多个类型的目标字段,以分别记录不同场景下的医疗信息,例如,病历中可以包括既往史、个人史、现病史等。
确定待判断的目标字段,用于判断待检测病历中是否包含了目标字段对应的内容,进而判断病历的完整性。
步骤20,获取至少一条目标字段所对应的病历文本。
具体的,准备约x条目标字段所对应的病历文本,即为G=[g1,...,gx],一般x设置为50。
在获取至少一条目标字段所对应的病历文本后,还包括以下处理步骤:
统计目标字段所对应的病历文本G中不同字符的数目,并将这些字符构建成有序词表V;其中,不同字符包括:汉字、数字、字母和标点符号。
将病历文本G中目标字段对应的内容根据词表V转换为onehot独热编码向量GV=[gv1,...,gvx]。
步骤30,计算待检测病历文本与所述目标字段所对应的病历文本的相似程度。
在一实施例中,图2是计算待检测病历文本与所述目标字段所对应的病历文本的相似程度的流程示意图,如图2所示,具体过程如下:
首先对病历文本进行处理:
步骤310,将待检测病历划分为至少一个段落。
将待检测病历按照换行符拆分为至少一个段落,记为D=[d1,d2,...,dn],即文档D被拆分为n个段落。
步骤320,根据预设的窗口大小及重叠度,将段落组合成至少一个片段。
设置窗口大小w,以及重叠度k;
将段落依次组合成m个片段,记为S=[s1,...,si,...,sm];
Figure BDA0002815467880000081
若n%(w-k)>k;
Figure BDA0002815467880000082
若n%(w-k)≤k;
其中,int(a)表示取a的整数部分;a%b表示a除以b得到的余数;S中每个片段si包含了w个段落,并且si和si-1重叠了k个段落;
si=dt:dt+1:...:da
t=i*(w-k)
q=min(t+k,n)
其中,a:b表示将a和b拼接在一起。
步骤330,将所述片段根据词表V转换为独热编码向量SV;其中,所述词表V为目标字段所对应的病历文本中不同字符构建成的有序词表。
具体的,将S中的每个片段根据词表V转换为onehot独热编码向量SV,记为SV=[sv1,...,svm]。
其次,查找最相似的片段并得到其得分:
步骤340,计算独热编码向量SV中的每个向量与独热编码向量GV中的每个向量的相似度,并求平均值。
计算独热编码向量SV中的每个向量与独热编码向量GV中的每个向量的余弦相似度,并求平均值。即:
对SV中的第i个向量svi,计算其与GV中每个向量的cosine相似度,并求平均,得到si的得分yi
Figure BDA0002815467880000083
Y=[y1,...ym]
步骤350,最大平均值作为待检测病历与目标字段所对应的病历文本的相似度值。
具体的,选择得分最大的片段及其对应的得分,并将该得分作为整个病历与目标字段内容的相似度得分。
步骤40,当相似程度满足预设条件时,判定所述待检测病历文本含有目标字段内容,否则不含目标字段的内容。
具体的,设定阈值α,如果病历的得分小于阈值,则判定该病历未包含目标字段内容,否则认为该病历包含了目标字段内容。
本发明提供的方法,只需要少量(数十句)目标字段的内容,无需大量标注数据,即可完成病历完整性的判别,可解决目前技术中存在的通过标注数据的方式来训练模型,严重依赖标注数据的规模与质量,标注数据面临着很高的时间、人力成本的问题
与上述实施例方法对应的,本发明还提供了一种基于少量标注数据的病历完整性判别的装置,图3为装置结构示意图之一,如图3所示,该装置包括确定单元31、获取单元32、处理单元33和判断单元34;具体的,
所述确定单元31,用于确定待判断的目标字段;
所述获取单元32,用于获取至少一条目标字段所对应的病历文本;
所述处理单元33,用于计算待检测病历文本与所述目标字段所对应的病历文本的相似程度;
所述判断单元34,用于当相似程度满足预设条件时,判定所述待检测病历文本含有目标字段内容,否则不含目标字段的内容。
在一实施例中,图4为基于少量标注数据的病历完整性判别的装置结构示意图之二,如图4所示,该装置还包括统计单元41、构建单元42和第一转换单元43:
所述统计单元41,用于统计目标字段所对应的病历文本中不同字符的数目;其中,不同字符包括:汉字、数字、字母和标点符号。
所述构建单元42,用于并将这些字符构建成有序词表V;
所述第一转换单元43,用于将病历文本中目标字段对应的内容根据词表V转换为独热编码向量GV。
在一实施例中,图5为处理单元的结构示意图,如图5所示,处理单元33包括段落划分单元331、片段组合单元332、第二转换单元333和计算单元334;
所述段落划分单元331,用于将待检测病历划分为至少一个段落;
所述段落组合单元332,用于根据预设的窗口大小及重叠度,将所述段落组合成至少一个片段;
所述第二转换单元333,用于将所述片段根据词表V转换为独热编码向量SV;其中,所述词表V为目标字段所对应的病历文本中不同字符构建成的有序词表;
所述计算单元334,用于计算独热编码向量SV中的每个向量与独热编码向量GV中的每个向量的相似度,并求平均值。
在一实施例中,图6为段落组合单元结构示意图,如图6所示,所述段落组合单元332包括设置单元3321和段落处理单元3322;其中,
所述设置单元3321,用于设置窗口大小w,以及重叠度k;
所述段落处理单元3322,用于将段落依次组合成m个片段,记为S=[s1,...,si,...,sm];
Figure BDA0002815467880000101
若n%(w-k)>k;
Figure BDA0002815467880000102
若n%(w-k)≤k;
其中,int(a)表示取a的整数部分;a%b表示a除以b得到的余数;S中每个片段si包含了w个段落,并且si和si-1重叠了k个段落;
si=dt:dt+1:...:dq
t=i*(w-k)
q=min(t+k,n)
其中,a:b表示将a和b拼接在一起。
本发明实施例提供的装置中各部件所执行的功能均已在上述方法中做了详细介绍,因此这里不做过多赘述。
与上述实施例相对应的,本发明实施例、还提供了一种基于少量标注数据的病历完整性判别的系统,具体如图7所示,该系统包括至少一个处理器710和存储器720;
存储器710,用于存储一个或多个程序指令;
处理器720,用于运行一个或多个程序指令,执行如上述实施例所介绍的一种人脸图像质量评分标注方法中的任一方法步骤。
与上述实施例相对应的,本发明实施例还提供了一种芯片,该芯片与上述系统中的存储器耦合,使得所述芯片在运行时调用所述存储器中存储的程序指令,实现如上述实施例所介绍的基于少量标注数据的病历完整性判别的方法。
与上述实施例相对应的,本发明实施例还提供了一种计算机存储介质,该计算机存储介质中包括一个或多个程序,其中,一个或多个程序指令用于被基于少量标注数据的病历完整性判别的系统执行如上介绍的基于少量标注数据的病历完整性判别的方法。
本申请提供的方案,可以只需要少量(数十句)目标字段的内容,无需大量标注数据,即可判断病历中是否包含某个特定字段的内容,识别出内容有缺失的病历,摆脱了对标注数据的规模与质量的依赖,且快速方便,极大的降低了时间及人力成本。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.基于少量标注数据的病历完整性判别的方法,其特征在于,包括:
确定待判断的目标字段;
获取至少一条目标字段所对应的病历文本;
计算待检测病历文本与所述目标字段所对应的病历文本的相似程度;
当相似程度满足预设条件时,判定所述待检测病历文本含有目标字段内容,否则不含目标字段的内容。
2.根据权利要求1所述的方法,其特征在于,获取至少一条目标字段所对应的病历文本后,还包括以下处理步骤:
统计目标字段所对应的病历文本中不同字符的数目,并将这些字符构建成有序词表V;
将病历文本中目标字段对应的内容根据词表V转换为独热编码向量GV。
3.根据权利要求2所述的方法,其特征在于,不同字符包括:汉字、数字、字母和标点符号。
4.根据权利要求1所述的方法,其特征在于,计算待检测病历文本与所述目标字段所对应的病历文本的相似程度,具体为:
将待检测病历划分为至少一个段落;
根据预设的窗口大小及重叠度,将所述段落组合成至少一个片段;
将所述片段根据词表V转换为独热编码向量SV;其中,所述词表V为目标字段所对应的病历文本中不同字符构建成的有序词表;
计算独热编码向量SV中的每个向量与独热编码向量GV中的每个向量的相似度,并求平均值;
最大平均值作为待检测病历与目标字段所对应的病历文本的相似度值。
5.根据权利要求4所述的方法,其特征在于,根据预设的窗口大小及重叠度,将所述段落组合成至少一个片段,具体为:
设置窗口大小w,以及重叠度k;
将段落依次组合成m个片段,记为S=[s1,…,si,…,sm];
Figure FDA0002815467870000021
若n%(w-k)>k;
Figure FDA0002815467870000022
若n%(w-k)≤k;
其中,int(a)表示取a的整数部分;a%b表示a除以b得到的余数;S中每个片段si包含了w个段落,并且si和si-1重叠了k个段落;
si=dt:dt+1:…:dq
t=i*(w-k)
q=min(t+k,n)
其中,a:b表示将a和b拼接在一起。
6.根据权利要求4所述的方法,其特征在于,所述计算独热编码向量SV中的每个向量与独热编码向量GV中的每个向量的相似度,并求平均值,具体为:
计算独热编码向量SV中的每个向量与独热编码向量GV中的每个向量的余弦相似度,并求平均值。
7.根据权利要求1所述的方法,其特征在于,当相似程度满足预设条件时,判定所述待检测病历文本含有目标字段内容,否则不含目标字段的内容,具体为:
设定阈值α,如果病历的得分小于阈值,则判定该病历未包含目标字段内容,否则认为该病历包含了目标字段内容。
8.基于少量标注数据的病历完整性判别的装置,其特征在于,包括确定单元、获取单元、处理单元和判断单元;其中,
所述确定单元,用于确定待判断的目标字段;
所述获取单元,用于获取至少一条目标字段所对应的病历文本;
所述处理单元,用于计算待检测病历文本与所述目标字段所对应的病历文本的相似程度;
所述判断单元,用于当相似程度满足预设条件时,判定所述待检测病历文本含有目标字段内容,否则不含目标字段的内容。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括统计单元、构建单元和第一转换单元,其中:
所述统计单元,用于统计目标字段所对应的病历文本中不同字符的数目;
所述构建单元,用于并将这些字符构建成有序词表V;
所述第一转换单元,用于将病历文本中目标字段对应的内容根据词表V转换为独热编码向量GV。
10.根据权利要求8所述的装置,其特征在于,不同字符包括:汉字、数字、字母和标点符号。
11.根据权利要求8所述的装置,其特征在于,所述处理单元包括段落划分单元、片段组合单元、第二转换单元和计算单元;其中:
所述段落划分单元,用于将待检测病历划分为至少一个段落;
所述段落组合单元,用于根据预设的窗口大小及重叠度,将所述段落组合成至少一个片段;
所述第二转换单元,用于将所述片段根据词表V转换为独热编码向量SV;其中,所述词表V为目标字段所对应的病历文本中不同字符构建成的有序词表;
所述计算单元,用于计算独热编码向量SV中的每个向量与独热编码向量GV中的每个向量的相似度,并求平均值。
12.根据权利要求11所述的装置,其特征在于,所述段落组合单元包括设置单元和段落处理单元;其中,
所述设置单元,用于设置窗口大小w,以及重叠度k;
所述段落处理单元,用于将段落依次组合成m个片段,记为S=[s1,…,si,…,sm];
Figure FDA0002815467870000031
若n%(w-k)>k;
Figure FDA0002815467870000032
若n%(w-k)≤k;
其中,int(a)表示取a的整数部分;a%b表示a除以b得到的余数;S中每个片段si包含了w个段落,并且si和si-1重叠了k个段落;
si=dt:dt+1:…:dq
t=i*(w-k)
q=min(t+k,n)
其中,a:b表示将a和b拼接在一起。
13.基于少量标注数据的病历完整性判别的系统,其特征在于,所述系统包括至少一个处理器和存储器;
所述存储器,用于存储一个或多个程序指令;
所述处理器,用于运行一个或多个程序指令,用以执行如权利要求1至7中一个或多个所述的方法。
14.一种芯片,其特征在于,所述芯片与系统中的存储器耦合,使得所述芯片在运行时调用所述存储器中存储的程序指令,实现如权利要求1至7中一个或多个所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括一个或多个程序指令,所述一个或多个程序指令可被如权利要求13所述的系统执行,以实现如权利要求1至7中一个或多个所述的方法。
CN202011396368.6A 2020-12-03 2020-12-03 基于少量标注数据的病历完整性判别的方法、装置及系统 Active CN112308048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011396368.6A CN112308048B (zh) 2020-12-03 2020-12-03 基于少量标注数据的病历完整性判别的方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011396368.6A CN112308048B (zh) 2020-12-03 2020-12-03 基于少量标注数据的病历完整性判别的方法、装置及系统

Publications (2)

Publication Number Publication Date
CN112308048A true CN112308048A (zh) 2021-02-02
CN112308048B CN112308048B (zh) 2023-12-19

Family

ID=74487478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011396368.6A Active CN112308048B (zh) 2020-12-03 2020-12-03 基于少量标注数据的病历完整性判别的方法、装置及系统

Country Status (1)

Country Link
CN (1) CN112308048B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800763A (zh) * 2021-04-14 2021-05-14 北京金山云网络技术有限公司 数据处理方法、医学文本数据处理方法、装置及电子设备
CN116305285A (zh) * 2023-03-30 2023-06-23 肇庆学院 结合人工智能的病患信息脱敏处理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107833603A (zh) * 2017-11-13 2018-03-23 医渡云(北京)技术有限公司 电子病历文档分类方法、装置、电子设备及存储介质
US20180336183A1 (en) * 2017-05-22 2018-11-22 International Business Machines Corporation Deep Embedding for Natural Language Content Based on Semantic Dependencies
CN110738049A (zh) * 2019-10-12 2020-01-31 招商局金融科技有限公司 相似文本的处理方法、装置及计算机可读存储介质
CN111755090A (zh) * 2020-06-24 2020-10-09 南京江北新区生物医药公共服务平台有限公司 病历查找方法、病历查找装置、存储介质与电子设备
CN112001163A (zh) * 2020-09-03 2020-11-27 深圳证券信息有限公司 一种文件完整性的检测方法、系统、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180336183A1 (en) * 2017-05-22 2018-11-22 International Business Machines Corporation Deep Embedding for Natural Language Content Based on Semantic Dependencies
CN107833603A (zh) * 2017-11-13 2018-03-23 医渡云(北京)技术有限公司 电子病历文档分类方法、装置、电子设备及存储介质
CN110738049A (zh) * 2019-10-12 2020-01-31 招商局金融科技有限公司 相似文本的处理方法、装置及计算机可读存储介质
CN111755090A (zh) * 2020-06-24 2020-10-09 南京江北新区生物医药公共服务平台有限公司 病历查找方法、病历查找装置、存储介质与电子设备
CN112001163A (zh) * 2020-09-03 2020-11-27 深圳证券信息有限公司 一种文件完整性的检测方法、系统、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800763A (zh) * 2021-04-14 2021-05-14 北京金山云网络技术有限公司 数据处理方法、医学文本数据处理方法、装置及电子设备
CN112800763B (zh) * 2021-04-14 2021-08-06 北京金山云网络技术有限公司 数据处理方法、医学文本数据处理方法、装置及电子设备
CN116305285A (zh) * 2023-03-30 2023-06-23 肇庆学院 结合人工智能的病患信息脱敏处理方法及系统
CN116305285B (zh) * 2023-03-30 2024-04-05 肇庆学院 结合人工智能的病患信息脱敏处理方法及系统

Also Published As

Publication number Publication date
CN112308048B (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
CN108829683B (zh) 混合标注学习神经网络模型及其训练方法、装置
CN110287854B (zh) 表格的提取方法、装置、计算机设备和存储介质
CN112185520B (zh) 一种医疗病理报告图片的文本结构化处理系统和方法
US20160210426A1 (en) Method of classifying medical documents
CN111613341B (zh) 基于语义成分的实体链接方法及装置
CN110795938B (zh) 文本序列分词方法、装置及存储介质
US10950329B2 (en) Hybrid human and computer-assisted coding workflow
CN112380825B (zh) Pdf文档跨页表格合并方法、装置、电子设备及存储介质
CN112308048A (zh) 基于少量标注数据的病历完整性判别的方法、装置及系统
CN114912887B (zh) 一种基于电子病历的临床数据录入方法及录入装置
CN113342977B (zh) 发票图像分类方法、装置、设备及存储介质
CN113657098B (zh) 文本纠错方法、装置、设备及存储介质
CN110634546A (zh) 电子病历文本规范化检测方法
CN107844531B (zh) 答案输出方法、装置和计算机设备
CN111563380A (zh) 一种命名实体识别方法及其装置
CN111177309A (zh) 病历数据的处理方法及装置
JP2004252881A (ja) テキストデータ修正方法
CN116052848A (zh) 一种医学成像质控的数据编码方法及系统
CN111507109A (zh) 电子病历的命名实体识别方法及装置
CN114864031A (zh) 一种基于区块链的数据治理协同方法
CN114743209A (zh) 处方的识别校验方法、系统、电子设备和存储介质
CN113486680A (zh) 文本翻译方法、装置、设备及存储介质
CN112735543A (zh) 医学数据的处理方法、装置及存储介质
CN111859972A (zh) 实体识别方法、装置、计算机设备及计算机可读存储介质
CN116467419A (zh) 基于人工智能的对话生成方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant