CN111627512A - 一种相似病历的推荐方法、装置,电子设备及存储介质 - Google Patents
一种相似病历的推荐方法、装置,电子设备及存储介质 Download PDFInfo
- Publication number
- CN111627512A CN111627512A CN202010482210.4A CN202010482210A CN111627512A CN 111627512 A CN111627512 A CN 111627512A CN 202010482210 A CN202010482210 A CN 202010482210A CN 111627512 A CN111627512 A CN 111627512A
- Authority
- CN
- China
- Prior art keywords
- medical record
- target
- sentence
- text content
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 117
- 238000012545 processing Methods 0.000 claims abstract description 43
- 230000011218 segmentation Effects 0.000 claims abstract description 42
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 29
- 238000004590 computer program Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 9
- 206010011224 Cough Diseases 0.000 description 8
- 230000036760 body temperature Effects 0.000 description 8
- 208000002151 Pleural effusion Diseases 0.000 description 7
- 206010037660 Pyrexia Diseases 0.000 description 7
- 230000002146 bilateral effect Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 208000024891 symptom Diseases 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000002591 computed tomography Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 208000002173 dizziness Diseases 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 206010010904 Convulsion Diseases 0.000 description 1
- 206010028347 Muscle twitching Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000036461 convulsion Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000036387 respiratory rate Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请提供一种相似病历的推荐方法、装置,电子设备及存储介质。该方法包括:获取目标病历;将所述目标病历中的文本内容进行分词处理,以使所述文本内容中的每个句子划分为多个词语;依次将每个所述句子的多个词语输入到文档向量模型中,得到该句子中每个词语对应的目标词向量,以及基于所述目标词向量,生成该句子的目标句向量;基于所述目标句向量以及预设算法,获取所述目标病历与样本病历之间的相似度;其中,所述样本病历中包括样本句向量;基于所述相似度,确定出与所述目标病历相关联的样本病历。与现有技术相比,所推荐的病历更加全面,准确率更好。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种相似病历的推荐方法、装置,电子设备及存储介质。
背景技术
随着医院信息化的逐渐深入,ERM(Electronic Medical Record,电子病历)系统已被各大医院广泛使用。这些电子病历中大量的文本信息成为了各个医院的宝贵财富。然而,原有相对简单的统计功能已不能满足人们日益增长的需求。利用EMR系统的海量文本信息为医师及病患服务成为一个研究课题。
相似病历推荐,就是将ERM系统中的相似的病历进行检索并推荐。目前常根据病历中的关键词从电子病历库中找到相似病历并推荐给医生。但是由于病历中患者主诉均为自然语言,加之医疗专业词汇与通俗说法之间的差异,导致词汇存在不完全、不准确、多样性等特点,描述相同目的有多重不同的说法,使得传统的基于统计的关键词匹配的信息检索方法不能很好的实现相似病历推荐。也即目前通过关键词匹配进行相似病历推荐的方法存在推荐不全面,可信度低的问题。
发明内容
本申请实施例的目的在于提供一种相似病历的推荐方法、装置,电子设备及存储介质,以改善“目前通过关键词匹配进行相似病历推荐的方法存在推荐不全面,可信度低的问题”的问题。
本发明是这样实现的:
第一方面,本申请实施例提供一种相似病历的推荐方法,包括:获取目标病历;将所述目标病历中的文本内容进行分词处理,以使所述文本内容中的每个句子划分为多个词语;依次将每个所述句子的多个词语输入到文档向量模型中,得到该句子中每个词语对应的目标词向量,以及基于所述目标词向量,生成该句子的目标句向量;基于所述目标句向量以及预设算法,获取所述目标病历与样本病历之间的相似度;其中,所述样本病历中包括样本句向量;基于所述相似度,确定出与所述目标病历相关联的样本病历。
在本申请实施例中,通过将目标病历中的文本内容转换成句向量,每个句向量由多个词向量组成,通过该方式,更能捕捉每个词向量在特定语料库中的语音信息,再通过计算目标病历中的目标句向量与样本病历中的样本句向量的相似度,进而从语义层面进行病历的推荐,相较于现有技术,所推荐的病历更加全面,准确率更好。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述目标病历中包括患者的主诉信息以及所述患者的检查结果。
在本申请实施例中,以患者的主诉信息以及患者的检查结果二者作为文本内容进行相似病历的推荐,可以使得所推荐的病历更符合需求,医生的参考价值更高,进而增加医生诊断建议的准确性。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,在所述获取目标病历之后,所述方法还包括:识别所述目标病历中的文本内容中的标点符号;删除所述文本内容中的标点符号;相应的,所述将所述目标病历中的文本内容进行分词处理,包括:将删除所述标点符号后的所述目标病历中的文本内容进行分词处理。
在本申请实施例中,通过将识别的标点符号删除,避免后续文档向量模型将标点符号转换为词向量,影响目标病历与样本病历之间相似度的计算结果。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,在所述识别所述目标病历中的文本内容中的标点符号之后,所述方法还包括:根据所述标点符号将所述文本内容中的每一个句子单独设置为一行。
在本申请实施例中,通过将文本内容中的每一句话依据标点符号单独设置为一行,便于后续依次将文本内容中的句子输入到文档向量模型中。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述将所述目标病历中的文本内容进行分词处理,包括:基于预先创建的医学用词词典,对所述目标病历中的文本内容进行分词处理。
由于医学领域有许多生僻词汇和/或专有词汇,因此,预先创建好医学用词词典,再基于创建好的医学用词词典,对目标病历中的文本内容进行分词处理,进而提高了分词的准确性。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,在所述将所述目标病历中的文本内容进行分词处理,以使所述文本内容中的每个句子划分为多个词语之后,所述方法还包括:识别所述文本内容中的句子中的停用词;删除所述停用词;相应的,所述依次将每个所述句子的多个词语输入到文档向量模型中,包括:依次将删除停用词之后的每个所述句子的多个词语输入到所述文档向量模型中。
在本申请实施例中,通过将文本内容中的停用词删除,可以提高计算效率,也进一步加强了目标病历与样本病历之间的相似度的准确性,进而使得所推荐的样本病历的准确度更好。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述基于所述目标句向量以及预设算法,获取所述目标病历与样本病历之间的相似度,包括:通过余弦相似度算法,获取所述目标病历与样本病历之间的相似度;其中,所述余弦相似度算法的公式为:
在本申请实施例中,基于目标病历中的目标句向量的与样本病历中的样本句向量,通过余弦相似度来获取目标病历与样本病历之间的相似度,准确度较高。
第二方面,本申请实施例提供一种相似病历的推荐装置,包括:获取模块,用于获取目标病历;处理模块,用于将所述目标病历中的文本内容进行分词处理,以使所述文本内容中的每个句子划分为多个词语;依次将每个所述句子的多个词语输入到文档向量模型中,得到该句子中每个词语对应的目标词向量,以及基于所述目标词向量,生成该句子的目标句向量;以及基于所述目标句向量以及预设算法,获取所述目标病历与样本病历之间的相似度;其中,所述样本病历中包括样本句向量;确定模块,用于基于所述相似度,确定出与所述目标病历相关联的样本病历。
第三方面,本申请实施例提供一种电子设备,包括:处理器和存储器,所述处理器和所述存储器连接;所述存储器用于存储程序;所述处理器用于调用存储在所述存储器中的程序,执行如上述第一方面实施例和/或结合上述第一方面实施例的一些可能的实现方式提供的方法。
第四方面,本申请实施例提供一种存储介质,其上存储有计算机程序,所述计算机程序在被处理器运行时执行如上述第一方面实施例和/或结合上述第一方面实施例的一些可能的实现方式提供的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种电子设备的结构示意图。
图2为本申请实施例提供的一种相似病历的推荐方法的步骤流程图。
图3为本申请实施例提供的一种目标病历的示意图。
图4为本申请实施例提供的一种预处理后的目标病历的示意图。
图5为本申请实施例提供的另一种预处理后的目标病历的示意图。
图6为本申请实施例提供的再一种预处理后的目标病历的示意图。
图7为本申请实施例提供的一种分词处理后的目标病历的示意图。
图8为本申请实施例提供的一种删除停用词后的目标病历的示意图。
图9为本申请实施例提供的一种相似病历的推荐装置的模块框图。
图标:100-电子设备;101-处理器;102-存储器;103-显示单元;200-相似病历的推荐装置;201-获取模块;202-处理模块;203-确定模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
目前常根据病历中的关键词从电子病历库中找到相似病历并推荐给医生。但是由于病历中患者主诉均为自然语言,加之医疗专业词汇与通俗说法之间的差异,导致词汇存在不完全、不准确、多样性等特点,描述相同目的有多重不同的说法。使得传统的基于统计的关键词匹配的信息检索方法不能很好的实现相似病历推荐。也即目前通过关键词匹配进行相似病历推荐的方法存在推荐不全面,可信度低的问题。
鉴于上述问题,本申请发明人经过研究探索,提出以下实施例以解决上述问题。
请参阅图1,图1为本申请实施例提供的一种应用相似病历的推荐方法及装置的电子设备100的示意性结构框图。本申请实施例中,电子设备100可以是,但不限于个人电脑(PC,Personal Computer)、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、医用交互设备等。在结构上,电子设备100可以包括处理器101、存储器102和显示单元103。
处理器101、存储器102以及显示单元103直接或间接地电性连接,以实现数据的传输或交互,例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。相似病历的推荐装置200包括至少一个可以软件或固件(Firmware)的形式存储在存储器102中或固化在电子设备100的操作系统(Operating System,OS)中的软件模块。处理器101用于执行存储器102中存储的可执行模块,例如,相似病历的推荐装置200所包括的软件功能模块及计算机程序等,以实现相似病历的推荐方法。处理器101可以在接收到执行指令后,执行计算机程序。
其中,处理器101可以是一种集成电路芯片,具有信号处理能力。处理器101也可以是通用处理器,例如,可以是中央处理器(Central Processing Unit,CPU)、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、分立门或晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。此外,通用处理器可以是微处理器或者任何常规处理器等。
存储器102可以是,但不限于,随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-OnlyMemory,PROM)、可擦可编程序只读存储器(Erasable Programmable Read-Only Memory,EPROM),以及电可擦编程只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)。存储器102用于存储程序,处理器101在接收到执行指令后,执行该程序。
其中,显示单元103用于实现与用户的交互。处理器101确定出的与目标病历相关联的样本病历可以通过显示单元103进行显示。显示单元103可以是,但不限于液晶显示器、触控显示器等。
应当理解,图1所示的结构仅为示意,本申请实施例提供的电子设备100还可以具有比图1更少或更多的组件,或是具有与图1所示不同的配置。此外,图1所示的各组件可以通过软件、硬件或其组合实现。
请参阅图2,图2为本申请实施例提供的相似病历的推荐方法的流程示意图,该方法应用于图1所示的电子设备100。需要说明的是,本申请实施例提供的相似病历的推荐方法不以图2及以下所示的顺序为限制。该方法包括:步骤S101-步骤S105。
步骤S101:获取目标病历。
步骤S102:将所述目标病历中的文本内容进行分词处理,以使文本内容中的每个句子划分为多个词语。
步骤S103:依次将每个所述句子的多个词语输入到文档向量模型中,得到该句子中每个词语对应的目标词向量,以及基于所述目标词向量,生成该句子的目标句向量。
步骤S104:基于所述目标句向量以及预设算法,获取目标病历与样本病历之间的相似度;其中,所述样本病历中包括样本句向量。
步骤S105:基于所述相似度,确定出与目标病历相关联的样本病历。
在本申请实施例中,通过将目标病历中的文本内容转换成句向量,每个句向量由多个词向量组成,通过该方式,更能捕捉每个词向量在特定语料库中的语音信息,再通过计算目标病历中的目标句向量与样本病历中的样本句向量的相似度,进而从语义层面进行病历的推荐,相较于现有技术,所推荐的病历更加全面,准确率更好。
下面结合具体的示例对上述方法进行详细说明。
步骤S101:获取目标病历。
目标病历为当前患者所提供的病历,比如当前医生正在为A患者进行诊断,则目标病历即为A患者的病历。上述的目标病历均为电子病历。电子病历可以是医生在诊断A患者时,存储于电子设备中的,也可以是医生从ERM系统中调用出的。
可选地,目标病历中包括患者的主诉信息以及患者的检查结果。需要解释的是,主诉信息为患者自述自己的症状和/或体征以及症状持续时间等内容;其中,症状包括抽搐、头晕、咳嗽;体征包括体温、呼吸频率、心率等;症状的持续时间比如抽搐10分钟、头晕两天等等。检查结果包括患者各项检查项目的数据参数,比如白细胞含量、CT(ComputedTomography,计算机断层扫描)影像表现,比如双侧胸腔积液等。如图3所示,图3示出的患者A的电子病历中主诉信息包括:一共发热三天;咳嗽了两周;最高体温38度。检测结果包括双侧胸腔积液。
在本申请实施例中,以患者的主诉信息以及患者的检查结果二者作为文本内容进行相似病历的推荐,可以使得所推荐的病历更符合需求,医生的参考价值更高,进而增加医生诊断建议的准确性。
可以理解的是,目标病历还可以包括现病史、年龄、性别等信息,对此,本申请不作限定。
步骤S102:将所述目标病历中的文本内容进行分词处理,以使文本内容中的每个句子划分为多个词语。
在获取到目标病历后,对目标病历中的文本内容进行分词处理,将每个句子划分为多个词语,比如将图3中的句子“一共发热三天”,通过分词处理将其分解为“一共发热三天;”。
其中,进行分词处理可以使用分词工具,如结巴分词。结巴分词为Python(计算机程序设计语言)中文分词组件。结巴分词可以进行分词,也可以支持自定义词典。由于医学领域有许多生僻词和/或专有词汇,因此,预先创建好医学用词词典,若使用结巴分词,则将预先创建好的医学用词词典导入结巴分词的自定义词典中。比如,本申请实施例所提供的相似病历推荐方法具体用于眼科领域,则为了保证分词质量以及词向量的准确性,从眼科词库中获取并整合了相应的眼科医学词汇,构建眼科医学用词词典。词典中的词汇主要涉及疾病名称、检查名称、手术常用语、药品名称和症状描述的专业名称或通俗名称。在创建后眼科医学用词词典后,将眼科医学用词词典导入结巴分词的自定义词典中,并设置优先基于眼科医学用词词典中的词汇来进行分词。
上述的分词工具还可以选择ICTCLAS分词系统,对此,本申请不作限定。
综上,由于医学领域有许多生僻词汇和/或专有词汇,因此,在本申请实施例中,预先创建好医学用词词典,再基于创建好的医学用词词典,对目标病历中的文本内容进行分词处理,进而提高了分词的准确性。
可选地,为了提高计算效率,进一步加强目标病历与样本病历之间的相似度的准确性,进而使得所推荐的样本病历的准确度更好,在步骤S102之后,该方法还包括:识别所述文本内容中的句子中的停用词;删除所述停用词。
需要说明的是,停用词是人类语言中的一些功能词。与其他词相比,功能词没有什么实际含义,进而将这些字或词称为Stop Words(停用词)。比如“is”、“the”、“的”、“了”等。
下面以图3为例,图3中主诉信息中包括“咳嗽了两周;”,将其进行分词处理后,得到“咳嗽了两周;”电子设备到这句话中包括停用词“了”,然后将“了”进行删除,进而得到“咳嗽两周;”。
可以理解的是,停用词也以自定义设置,比如将“他”、“她”作为停用词,对此,本申请不作限定。
可选地,在步骤S102之前,也即获取到目标病历后,还可以先对目标病历中的文本内容进行预处理。
其中,对文本内容进行能预处理包括:识别目标病历中的文本内容中的标点符号;删除文本内容中的标点符号。
需要说明的是,由于文档向量模型会将标点符号转换为词向量,因此,为了避免后续目标病历与样本病历之间相似度的计算结果,将识别出的标点符号进行删除。继续以图3为例,图3中,在获取到目标病历后,识别文本内容中的标点符号,在识别到文本内容中的分号和句号后,将分号和句号进行删除,得到文本内容“一共发热三天”、“咳嗽了两周”、“最高体温38度”、“双侧胸腔积液”。
可选地,在上述识别目标病历中的文本内容中的标点符号之后,对文本内容的预处理还可以包括:根据标点符号将文本内容中的每一个句子单独设置为一行。
可以理解的是,本申请实施例中,以一个标点的结束作为一句话,而不是以句号作为一句话,比如图3中“一共发热三天;咳嗽了两周;最高体温38度。”可以根据标点符号划分为三句话,然后将每句话单独设置为一行。请参阅图4,“一发热三天;”、“咳嗽了两周;”、“最高体温38度。”、“双侧胸腔积液。”均单独设置为一行,通过该方式,便于后续依次将文本内容中的句子输入到文档向量模型中。
可选地,在上述识别目标病历中的文本内容中的标点符号之后,对文本内容的预处理还可以包括:根据标点符号将文本内容中的每句话设置唯一的ID(Identitydocument,号码标识)。其中,ID可以是数字,也可以是英文。示例性的,句子“一发热三天;”的ID为001、句子“咳嗽了两周;”的ID为002、句子“最高体温38度。”的ID为003、句子“双侧胸腔积液。”的ID为004。示例性的,句子“一发热三天;”的ID为A、句子“咳嗽了两周;”的ID为B、句子“最高体温38度。”的ID为C、句子“双侧胸腔积液。”的ID为D。通过上述方式,便于后续依次将文本内容中的句子输入到文档向量模型中。
其中,对文本内容进行能预处理还可以包括:识别目标病历中的文本内容中的标点符号;将文本内容中的标点符号替换为空格。对此,本申请不作限定。
步骤S103:依次将每个所述句子的多个词语输入到文档向量模型中,得到该句子中每个词语对应的目标词向量,以及基于所述目标词向量,生成该句子的目标句向量。
在对文本内容中的每个句子进行分词处理后,依次将文本内容中的每个句子输入到文档向量模型中,进而得到每个词语对应的目标词向量以及基于目标词向量组合而成的目标句向量。
其中,基于目标词向量,生成目标句向量,可以是直接对目标词向量进行求和得到目标句向量,也可以是获取每个目标词向量的权重值,基于每个目标词向量的权重值进行加权求和,得到目标句向量。每个目标词向量的权重值可以基于文档向量模型获取到的每个词语的频率生成的,词语出现的频率越高,则该词语所对应的权重值则越高。
上述的文档向量模型可以是,但不限于Doc2vec的PV-DM模型中、InferSent-Glove模型、Sentence-BERT模型。
步骤S104:基于所述目标句向量以及预设算法,获取目标病历与样本病历之间的相似度;其中,所述样本病历中包括样本句向量。
然后根据目标病历中的目标句向量以及样本病历中的样本句向量,通过预设算法,获取目标病历与样本病历之间的相似度。需要说明的是,预先通过上述方法获取样本病历的样本句向量。样本病历为预先存储于EMR系统中电子病历。
作为一种实施方式,上述的预设算法为余弦相似度算法。通过余弦相似度算法获取目标病历与样本病历之间的相似度。
其中,余弦相似度算法的公式为:
在本申请实施例中,基于目标病历中的目标句向量的与样本病历中的样本句向量,通过余弦相似度来获取目标病历与样本病历之间的相似度,准确度较高。
作为另一种实施方式,上述的预设算法为欧式距离算法。通过欧式距离算法获取目标病历与样本病历之间的相似度。
其中,欧式距离算法的公式为:
可以理解的是,上述的预设算法还可以是皮尔逊相关系数算法,对此,本申请不作限定。
步骤S105:基于所述相似度,确定出与目标病历相关联的样本病历。
在获取到相似度后,则基于相似度,确定出向医生推荐的可作为参考的样本病历,然后将确定出的样本病历发送至显示单元进行显示。需要说明的是,当采用余弦相似度算法时,得到目标病历与样本病历之间的余弦相似度为一个0-1的值,值越大,则表示目标病历与样本病历之间的相似度越高。
其中,基于所述相似度,确定出与目标病历相关联的样本病历可以是,根据相似度从高到低的顺序,确定出向医生推荐的预设数量的样本病历。比如预设数量为五,则根据相似度从高到低的顺序,向医生推荐五个与目标病历相关联的样本病历。当然,预设数量还可以是一个、三个、十个,本申请不作限定。
其中,基于所述相似度,确定出与目标病历相关联的样本病历还可以是确定出相似度大于预设阈值的样本病历,将相似度大于预设阈值的样本病历推荐给医生。假设采用余弦相似度算法时,余弦相似度计算结果是一个0-1的值,值越大,相似度越高,因此,预设阈值可以是0.8、0.9、0.95。则在确定训练样本时,将得到的余弦相似度大于预设阈值的样本病历确定为与目标病历相关联的样本病历推荐给医生。
下面结合一个具体的例子对上述的步骤进行说明。
如图3所示,当获取到患者A的电子病历后,首先对电子病历中的文本内容进行预处理,包括,识别病历中的文本内容中的标点符号,然后根据标点符号将文本内容中的每一个句子单独设置为一行(如图4所示),其中,也可以将文本内容中的每句话设置一个唯一的ID(如图5所示),句子“一发热三天;”的ID为001、句子“咳嗽了两周;”的ID为002、句子“最高体温38度。”的ID为003、句子“双侧胸腔积液。”的ID为004。接着删除文本内容中的标点符号(如图6所示)。在预处理后,根据预设创建好的医学用词词典对文本内容进行分词处理,以使文本内容中的每个句子划分为多个词语(如图7所示)。在分词处理后,识别文本内容中的句子中的停用词;删除识别出的停用词。比如通过分词处理后,得到的“咳嗽了两周”中识别到了停用词“了”,则将“了”进行删除(如图8所示)。然后,依次将文本内容的句子输入到文档向量模型中,得到该句子中每个词语对应的目标词向量,以及基于目标词向量,生成目标句向量。基于目标句向量以及通过余弦相似度算法,获取目标病历与样本病历之间的相似度。最后根据相似度从高到低的顺序,向医生推荐五个与目标病历相关联的样本病历。
综上所述,在本申请实施例中,通过将目标病历中的文本内容转换成句向量,每个句向量由多个词向量组成,通过该方式,更能捕捉每个词向量在特定语料库中的语音信息,再通过计算目标病历中的目标句向量与样本病历中的样本句向量的相似度,进而从语义层面进行病历的推荐,相较于现有技术,所推荐的病历更加全面,准确率更好。
请参阅图9,基于同一发明构思,本申请实施例还提供一种相似病历的推荐装置200,包括:获取模块201、处理模块202以及确定模块203。
获取模块201用于获取目标病历。
处理模块202用于将所述目标病历中的文本内容进行分词处理,以使所述文本内容中的每个句子划分为多个词语;依次将每个所述句子的多个词语输入到文档向量模型中,得到该句子中每个词语对应的目标词向量,以及基于所述目标词向量,生成该句子的目标句向量;以及基于所述目标句向量以及预设算法,获取所述目标病历与样本病历之间的相似度;其中,所述样本病历中包括样本句向量。
确定模块203用于基于所述相似度,确定出与所述目标病历相关联的样本病历。
可选地,处理模块202还用于在所述获取目标病历之后,识别所述目标病历中的文本内容中的标点符号;删除所述文本内容中的标点符号。相应的,所述处理模块202还具体用于将删除所述标点符号后的所述目标病历中的文本内容进行分词处理。
可选地,处理模块202还用于根据所述标点符号将所述文本内容中的每一句话单独设置为一行。
可选地,处理模块202具体用于基于预先创建的医学用词词典,对所述目标病历中的文本内容进行分词处理。
可选地,处理模块202还用于在所述将所述目标病历中的文本内容进行分词处理,以使所述文本内容中的每个句子划分为多个词语之后,识别所述文本内容中的句子中的停用词;删除所述停用词。相应的,所述处理模块202还具体用于依次将删除停用词之后的每个所述句子的多个词语输入到所述文档向量模型中。
可选地,处理模块202具体用于通过余弦相似度算法,获取所述目标病历与样本病历之间的相似度;其中,所述余弦相似度算法的公式为:
需要说明的是,由于所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
基于同一发明构思,本申请实施例还提供一种存储介质,其上存储有计算机程序,计算机程序在被运行时执行上述实施例中提供的方法。
该存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种相似病历的推荐方法,其特征在于,包括:
获取目标病历;
将所述目标病历中的文本内容进行分词处理,以使所述文本内容中的每个句子划分为多个词语;
依次将每个所述句子的多个词语输入到文档向量模型中,得到该句子中每个词语对应的目标词向量,以及基于所述目标词向量,生成该句子的目标句向量;
基于所述目标句向量以及预设算法,获取所述目标病历与样本病历之间的相似度;其中,所述样本病历中包括样本句向量;
基于所述相似度,确定出与所述目标病历相关联的样本病历。
2.根据权利要求1所述的相似病历的推荐方法,其特征在于,所述目标病历中包括患者的主诉信息以及所述患者的检查结果。
3.根据权利要求1所述的相似病历的推荐方法,其特征在于,在所述获取目标病历之后,所述方法还包括:
识别所述目标病历中的文本内容中的标点符号;
删除所述文本内容中的标点符号;
相应的,所述将所述目标病历中的文本内容进行分词处理,包括:
将删除所述标点符号后的所述目标病历中的文本内容进行分词处理。
4.根据权利要求3所述的相似病历的推荐方法,其特征在于,在所述识别所述目标病历中的文本内容中的标点符号之后,所述方法还包括:
根据所述标点符号将所述文本内容中的每一个句子单独设置为一行。
5.根据权利要求1所述的相似病历的推荐方法,其特征在于,所述将所述目标病历中的文本内容进行分词处理,包括:
基于预先创建的医学用词词典,对所述目标病历中的文本内容进行分词处理。
6.根据权利要求1所述的相似病历的推荐方法,其特征在于,在所述将所述目标病历中的文本内容进行分词处理,以使所述文本内容中的每个句子划分为多个词语之后,所述方法还包括:
识别所述文本内容中的句子中的停用词;
删除所述停用词;
相应的,所述依次将每个所述句子的多个词语输入到文档向量模型中,包括:
依次将删除停用词之后的每个所述句子的多个词语输入到所述文档向量模型中。
8.一种相似病历的推荐装置,其特征在于,包括:
获取模块,用于获取目标病历;
处理模块,用于将所述目标病历中的文本内容进行分词处理,以使所述文本内容中的每个句子划分为多个词语;依次将每个所述句子的多个词语输入到文档向量模型中,得到该句子中每个词语对应的目标词向量,以及基于所述目标词向量,生成该句子的目标句向量;以及基于所述目标句向量以及预设算法,获取所述目标病历与样本病历之间的相似度;其中,所述样本病历中包括样本句向量;
确定模块,用于基于所述相似度,确定出与所述目标病历相关联的样本病历。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器和所述存储器连接;
所述存储器用于存储程序;
所述处理器用于运行存储在所述存储器中的程序,执行如权利要求1-7中任一项所述的方法。
10.一种存储介质,其特征在于,其上存储有计算机程序,所述计算机程序在被计算机运行时执行如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010482210.4A CN111627512A (zh) | 2020-05-29 | 2020-05-29 | 一种相似病历的推荐方法、装置,电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010482210.4A CN111627512A (zh) | 2020-05-29 | 2020-05-29 | 一种相似病历的推荐方法、装置,电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111627512A true CN111627512A (zh) | 2020-09-04 |
Family
ID=72273242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010482210.4A Pending CN111627512A (zh) | 2020-05-29 | 2020-05-29 | 一种相似病历的推荐方法、装置,电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111627512A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329461A (zh) * | 2020-11-24 | 2021-02-05 | 汤学民 | 相似病历确定方法、计算机设备及计算机存储介质 |
CN112800248A (zh) * | 2021-01-19 | 2021-05-14 | 天河超级计算淮海分中心 | 相似病例检索方法、装置、计算机设备及存储介质 |
CN112883289A (zh) * | 2021-04-16 | 2021-06-01 | 河北工程大学 | 一种基于社交信任和标签语义相似度的pmf推荐方法 |
CN113689924A (zh) * | 2021-08-24 | 2021-11-23 | 平安国际智慧城市科技股份有限公司 | 相似病历检索方法、装置、电子设备及可读存储介质 |
CN114691853A (zh) * | 2020-12-28 | 2022-07-01 | 深圳云天励飞技术股份有限公司 | 句子推荐方法、装置、设备及计算机可读存储介质 |
CN115359867A (zh) * | 2022-09-06 | 2022-11-18 | 中国电信股份有限公司 | 电子病历分类方法、装置、电子设备及存储介质 |
CN116386800A (zh) * | 2023-06-06 | 2023-07-04 | 神州医疗科技股份有限公司 | 基于预训练语言模型的医疗病历数据分割方法和系统 |
CN116564539A (zh) * | 2023-07-10 | 2023-08-08 | 神州医疗科技股份有限公司 | 基于信息抽取和实体归一的医学相似病例推荐方法和系统 |
CN117493642A (zh) * | 2023-11-28 | 2024-02-02 | 西康软件有限责任公司 | 相似电子病历检索方法、装置、终端及存储介质 |
CN118352012A (zh) * | 2024-06-20 | 2024-07-16 | 大医智诚高科有限公司 | 一种cda文档的管理方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108628825A (zh) * | 2018-04-10 | 2018-10-09 | 平安科技(深圳)有限公司 | 文本信息相似度匹配方法、装置、计算机设备及存储介质 |
CN109697286A (zh) * | 2018-12-18 | 2019-04-30 | 众安信息技术服务有限公司 | 一种基于词向量的诊断标准化方法及装置 |
CN109887562A (zh) * | 2019-02-20 | 2019-06-14 | 广州天鹏计算机科技有限公司 | 电子病历的相似度确定方法、装置、设备和存储介质 |
CN110033022A (zh) * | 2019-03-08 | 2019-07-19 | 腾讯科技(深圳)有限公司 | 文本的处理方法、装置和存储介质 |
CN110767296A (zh) * | 2019-10-09 | 2020-02-07 | 北京雅丁信息技术有限公司 | 一种基于语义相似性的手术操作编码方法 |
CN111180025A (zh) * | 2019-12-18 | 2020-05-19 | 东北大学 | 表示病历文本向量的方法、装置及问诊系统 |
-
2020
- 2020-05-29 CN CN202010482210.4A patent/CN111627512A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108628825A (zh) * | 2018-04-10 | 2018-10-09 | 平安科技(深圳)有限公司 | 文本信息相似度匹配方法、装置、计算机设备及存储介质 |
CN109697286A (zh) * | 2018-12-18 | 2019-04-30 | 众安信息技术服务有限公司 | 一种基于词向量的诊断标准化方法及装置 |
CN109887562A (zh) * | 2019-02-20 | 2019-06-14 | 广州天鹏计算机科技有限公司 | 电子病历的相似度确定方法、装置、设备和存储介质 |
CN110033022A (zh) * | 2019-03-08 | 2019-07-19 | 腾讯科技(深圳)有限公司 | 文本的处理方法、装置和存储介质 |
CN110767296A (zh) * | 2019-10-09 | 2020-02-07 | 北京雅丁信息技术有限公司 | 一种基于语义相似性的手术操作编码方法 |
CN111180025A (zh) * | 2019-12-18 | 2020-05-19 | 东北大学 | 表示病历文本向量的方法、装置及问诊系统 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329461A (zh) * | 2020-11-24 | 2021-02-05 | 汤学民 | 相似病历确定方法、计算机设备及计算机存储介质 |
CN114691853A (zh) * | 2020-12-28 | 2022-07-01 | 深圳云天励飞技术股份有限公司 | 句子推荐方法、装置、设备及计算机可读存储介质 |
CN112800248A (zh) * | 2021-01-19 | 2021-05-14 | 天河超级计算淮海分中心 | 相似病例检索方法、装置、计算机设备及存储介质 |
CN112883289A (zh) * | 2021-04-16 | 2021-06-01 | 河北工程大学 | 一种基于社交信任和标签语义相似度的pmf推荐方法 |
CN112883289B (zh) * | 2021-04-16 | 2022-05-06 | 河北工程大学 | 一种基于社交信任和标签语义相似度的pmf推荐方法 |
CN113689924A (zh) * | 2021-08-24 | 2021-11-23 | 平安国际智慧城市科技股份有限公司 | 相似病历检索方法、装置、电子设备及可读存储介质 |
CN113689924B (zh) * | 2021-08-24 | 2024-04-05 | 深圳平安智慧医健科技有限公司 | 相似病历检索方法、装置、电子设备及可读存储介质 |
CN115359867B (zh) * | 2022-09-06 | 2024-02-02 | 中国电信股份有限公司 | 电子病历分类方法、装置、电子设备及存储介质 |
CN115359867A (zh) * | 2022-09-06 | 2022-11-18 | 中国电信股份有限公司 | 电子病历分类方法、装置、电子设备及存储介质 |
CN116386800B (zh) * | 2023-06-06 | 2023-08-18 | 神州医疗科技股份有限公司 | 基于预训练语言模型的医疗病历数据分割方法和系统 |
CN116386800A (zh) * | 2023-06-06 | 2023-07-04 | 神州医疗科技股份有限公司 | 基于预训练语言模型的医疗病历数据分割方法和系统 |
CN116564539A (zh) * | 2023-07-10 | 2023-08-08 | 神州医疗科技股份有限公司 | 基于信息抽取和实体归一的医学相似病例推荐方法和系统 |
CN116564539B (zh) * | 2023-07-10 | 2023-10-24 | 神州医疗科技股份有限公司 | 基于信息抽取和实体归一的医学相似病例推荐方法和系统 |
CN117493642A (zh) * | 2023-11-28 | 2024-02-02 | 西康软件有限责任公司 | 相似电子病历检索方法、装置、终端及存储介质 |
CN117493642B (zh) * | 2023-11-28 | 2024-06-07 | 西康软件有限责任公司 | 相似电子病历检索方法、装置、终端及存储介质 |
CN118352012A (zh) * | 2024-06-20 | 2024-07-16 | 大医智诚高科有限公司 | 一种cda文档的管理方法及系统 |
CN118352012B (zh) * | 2024-06-20 | 2024-10-18 | 大医智诚高科有限公司 | 一种cda文档的管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111627512A (zh) | 一种相似病历的推荐方法、装置,电子设备及存储介质 | |
CN109906449B (zh) | 一种查找方法及装置 | |
US9129013B2 (en) | Methods and apparatus for entity detection | |
US9135571B2 (en) | Methods and apparatus for entity detection | |
JP5952835B2 (ja) | 撮像プロトコルの更新及び/又はリコメンダ | |
US7610192B1 (en) | Process and system for high precision coding of free text documents against a standard lexicon | |
US20090259487A1 (en) | Patient Data Mining | |
CN110442840B (zh) | 序列标注网络更新方法、电子病历处理方法及相关装置 | |
CN105184053B (zh) | 一种中文医疗服务项目信息的自动编码方法及系统 | |
JP2017509946A (ja) | コンテキスト依存医学データ入力システム | |
CN112541056A (zh) | 医学术语标准化方法、装置、电子设备及存储介质 | |
EP3485495A1 (en) | Automated identification of salient finding codes in structured and narrative reports | |
Boytcheva et al. | Text mining and big data analytics for retrospective analysis of clinical texts from outpatient care | |
CN114186070A (zh) | 基于人工智能模型的医学术语归一化方法、装置 | |
JP7473314B2 (ja) | 医療情報管理装置及び医療レポートのメタデータ付加方法 | |
CN111177309A (zh) | 病历数据的处理方法及装置 | |
CN114218955A (zh) | 基于医疗知识图谱的辅助参考信息的确定方法及系统 | |
CN110491519A (zh) | 一种医学数据的检验方法 | |
Nair et al. | Automated clinical concept-value pair extraction from discharge summary of pituitary adenoma patients | |
CN114446422A (zh) | 病案标化方法、系统及相应设备和存储介质 | |
CN113111660A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN112329461A (zh) | 相似病历确定方法、计算机设备及计算机存储介质 | |
JP7315165B2 (ja) | 診断支援システム | |
US20240112765A1 (en) | Method and system for clinical trials matching | |
CN112309580A (zh) | 疾病类型的确定方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200904 |
|
RJ01 | Rejection of invention patent application after publication |