CN111259664B - 医学文本信息的确定方法、装置、设备及存储介质 - Google Patents
医学文本信息的确定方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111259664B CN111259664B CN202010035796.XA CN202010035796A CN111259664B CN 111259664 B CN111259664 B CN 111259664B CN 202010035796 A CN202010035796 A CN 202010035796A CN 111259664 B CN111259664 B CN 111259664B
- Authority
- CN
- China
- Prior art keywords
- word string
- medical
- sample
- word
- string sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000013210 evaluation model Methods 0.000 claims abstract description 54
- 230000006870 function Effects 0.000 claims description 49
- 238000012549 training Methods 0.000 claims description 44
- 201000010099 disease Diseases 0.000 claims description 22
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 22
- 238000003745 diagnosis Methods 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 208000019622 heart disease Diseases 0.000 description 10
- 208000024891 symptom Diseases 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 206010022653 Intestinal haemorrhages Diseases 0.000 description 6
- 208000037386 Typhoid Diseases 0.000 description 6
- 230000003143 atherosclerotic effect Effects 0.000 description 6
- 201000008297 typhoid fever Diseases 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 206010002383 Angina Pectoris Diseases 0.000 description 4
- 208000029078 coronary artery disease Diseases 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000003759 clinical diagnosis Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 201000001320 Atherosclerosis Diseases 0.000 description 2
- 201000006306 Cor pulmonale Diseases 0.000 description 2
- 208000004186 Pulmonary Heart Disease Diseases 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 210000004351 coronary vessel Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001314 paroxysmal effect Effects 0.000 description 2
- 208000004124 rheumatic heart disease Diseases 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010003210 Arteriosclerosis Diseases 0.000 description 1
- 208000037260 Atherosclerotic Plaque Diseases 0.000 description 1
- 210000001367 artery Anatomy 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种医学文本信息的确定方法、装置、设备及存储介质,涉及计算机技术领域。该方法包括:获取医学内容描述以及至少两个候选医学文本信息;将医学内容描述以及候选医学文本信息输入词串生成器,得到医学内容描述对应的第一词串序列,以及各个候选医学文本信息各自对应的第二词串序列,第一词串序列和第二词串序列的个数为至少一个;根据第一词串序列和第二词串序列生成词串序列对;将词串序列对输入相似度评价模型,得到词串序列对中第一词串序列和第二词串序列的相似度评分;根据相似度评分确定医学内容描述对应的目标医学文本信息。本申请实施例有助于提高医学内容描述的标准化程度以及医生工作效率。
Description
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种医学文本信息的确定方法、装置、设备及存储介质。
背景技术
诊断是主治医师根据病人的描述、检验报告和症状对病人的病情做出的结论性陈述,但主治医师做出的诊断通常是通俗化的表述,同时也包含一定的个体或区域性特征,这种通俗化的表达不利于交流和统计,因此,需要将主治医师的诊断与标准的医学文本信息联系起来。
相关技术中,医学专业人员利用词典以及相关的规则将主治医师的诊断映射到国际疾病分类(International Classification of Diseases,ICD)对应的医学文本信息。
然而,采用相关技术中的方法,需要医生根据医学内容描述并结合经验,确定出医学文本信息,医学内容描述的标准化程度以及将医学内容描述进行标准化的工作效率低。
发明内容
本申请实施例提供了一种医学文本信息的确定方法、装置、设备及存储介质,可以提高医学内容描述的标准化程度以及医生的工作效率。所述技术方案如下:
一方面,本申请实施例提供了一种医学文本信息的确定方法,所述方法包括:
获取医学内容描述以及至少两个候选医学文本信息;
将所述医学内容描述以及所述候选医学文本信息输入词串生成器,得到所述医学内容描述对应的第一词串序列,以及各个所述候选医学文本信息各自对应的第二词串序列,所述词串生成器用于对文本进行切分生成词串序列,所述第一词串序列和所述第二词串序列的个数为至少一个;
根据所述第一词串序列和所述第二词串序列生成词串序列对,每个所述词串序列对中包括一个所述第一词串序列和一个所述第二词串序列;
将所述词串序列对输入相似度评价模型,得到所述词串序列对中所述第一词串序列和所述第二词串序列的相似度评分;
根据所述相似度评分确定所述医学内容描述对应的目标医学文本信息。
另一方面,本申请实施例提供了一种医学文本信息的确定装置,所述装置包括:
第一获取模块,用于获取医学内容描述以及至少两个候选医学文本信息;
切分模块,用于将所述医学内容描述以及所述候选医学文本信息输入词串生成器,得到所述医学内容描述对应的第一词串序列,以及各个所述候选医学文本信息各自对应的第二词串序列,所述词串生成器用于对文本进行切分生成词串序列,所述第一词串序列和所述第二词串序列的个数为至少一个;
生成模块,用于根据所述第一词串序列和所述第二词串序列生成词串序列对,每个所述词串序列对中包括一个所述第一词串序列和一个所述第二词串序列;
评价模块,用于将所述词串序列对输入相似度评价模型,得到所述词串序列对中所述第一词串序列和所述第二词串序列的相似度评分;
确定模块,用于根据所述相似度评分确定所述医学内容描述对应的目标医学文本信息。
另一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的医学文本信息的确定方法。
另一方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的医学文本信息的确定方法。
另一方面,提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如上述方面所述的医学文本信息的确定方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过将医学内容描述和至少两个候选医学文本信息输入词串生成器,得到对应的词串序列,利用相似度评价模型计算医学内容描述的词串序列与候选医学文本信息的词串序列的相似度,从而根据相似度确定医学内容描述对应的目标医学文本信息;本申请实施例利用机器学习的方法确定医学文本信息,无需医生根据经验确定医学文本信息,避免因医生经验不足造成的失误,有助于提高医学内容描述的标准化程度以及医生工作效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的实施环境的示意图;
图2是本申请一个示例性实施例提供的医学文本信息的确定方法的流程图;
图3是本申请一个示例性实施例提供的确定医学文本信息的计算机设备界面示意图;
图4是本申请另一个示例性实施例提供的医学文本信息的确定方法的流程图;
图5是本申请一个示例性实施例提供的训练词串生成器的流程图;
图6是本申请一个示例性实施例提供的训练相似度评价模型的流程图;
图7是本申请另一个示例性实施例提供的训练相似度评价模型的流程图;
图8是本申请一个示例性实施例提供的生成第二样本文本对的流程图;
图9是本申请一个示例性实施例提供的医学文本信息的确定装置的结构框图;
图10是本申请一个示例性实施例提供的计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
相关技术中,工作人员收集整理主治医师提供的医学内容描述,利用词典和相关的医学规则,将医学内容描述映射到ICD中,确定出标准的医学文本信息,便于交流和统计。然而,采取人工的方式确定医学内容描述对应的医学文本信息,容易产生遗漏和错误,并且工作人员需要具有一定的医学知识,同时耗费大量的时间和人力,导致医学内容描述标准化的效率低。
为了解决相关技术中存在的问题,本申请实施例提供的医学文本信息的确定方法引入了词串生成器和相似度评价模型。计算机设备首先获取医学内容描述和至少两个候选医学文本信息,为了扩充标注语料,提高相似度评价模型的泛化能力,计算机设备将医学内容描述和候选医学文本信息输入词串生成器,分别得到第一词串序列和第二词串序列,并将第一词串序列和第二词串序列组合生成词串序列对,输入相似度评价模型中,得到不同词串序列对的相似度评分,根据相似度评分可以确定医学内容描述对应的目标医学文本信息。通过机器学习的方式确定医学文本信息,避免了人工查询时存在的遗漏和失误,提高了医学内容描述的标准化程度以及医生的工作效率。
下面对本申请实施例提供的医学文本信息的确定方法的应用场景进行示意性说明。
1、辅助医生进行临床诊断
当利用本申请实施例提供的医学文本信息的确定方法辅助医生进行临床诊断时,该方法可以实现成为独立的医学文本信息确定程序,并安装在医生使用的计算机设备或者提供医学文本信息确定服务的后台服务器中。
在该场景下,医生将患者信息、症状等文本输入计算机设备,计算机设备根据医学内容描述利用相似度评价模型确定目标医学文本信息,或者将医学内容描述发送至后台服务器,由后台服务器确定目标医学文本信息,并将目标医学文本信息返回至医学内容描述界面。
2、帮助用户进行疾病预测
当利用本申请实施例提供的医学文本信息的确定方法帮助用户进行疾病预测时,该方法可以实现成为独立的线上诊断类应用程序或健康类应用程序,并安装在用户使用的终端或者提供医学文本信息确定服务的后台服务器中,方便用户使用该程序对医学文本信息进行查询。
在该场景下,用户在应用程序界面输入基本信息和症状,终端将基本信息和症状对应的文本切分,并将得到的词串序列发送至后台服务器,后台服务器利用相似度评价模型确定至少一个目标医学文本信息,返回对应终端的应用程序界面,提示用户可能患有的疾病。用户通过输入症状的相关描述,就能得到初步的疾病预测。当然,除了应用于上述场景外,本申请实施例提供方法还可以应用于其他需要确定医学文本信息的场景,本申请实施例并不对具体的应用场景进行限定。
本申请实施例提供的医学文本信息的确定方法可以应用于终端或者服务器等计算机设备中。在一种可能的实施方式中,本申请实施例提供的医学文本信息的确定方法可以实现成为应用程序或应用程序的一部分,并被安装到医生使用的终端中,使终端具备根据医学内容描述自动确定医学文本信息的功能;或者,可以应用于应用程序的后台服务器中,从而由服务器为终端中的应用程序提供医学文本信息确定服务。为了方便表述,下述各个实施例中,以医学文本信息的确定方法应用于计算机设备为例进行说明,但并不对此构成限定。
请参考图1,其示出了本申请一个示例性实施例提供的实施环境的示意图。该实施环境中包括终端110和服务器120,其中,终端110与服务器120之间通过通信网络进行数据通信,可选地,通信网络可以是有线网络也可以是无线网络,且该通信网络可以是局域网、城域网以及广域网中的至少一种。
终端110中安装有具有医学文本信息确定需求的应用程序,该应用程序可以是临床诊断辅助应用程序、网络在线诊断应用程序或其他应用于医疗领域的人工智能(Artificial Intelligence,AI)应用程序,本申请实施例对此不作限定。
可选的,终端110可以是平板电脑、膝上便携式笔记本电脑等移动终端,也可以是台式电脑、投影式电脑等终端,本申请实施例对此不做限定。
服务器120可以实现为一台服务器,也可以实现为一组服务器构成的服务器集群,其可以是物理服务器,也可以实现为云服务器。在一种可能的实施方式中,服务器120是终端110中应用程序的后台服务器。
如图1所示,本申请实施例中,服务器120中包括第一获取模块1201、切分模块1202、生成模块1203、评价模块1204以及确定模块1205。终端110通过应用程序将医学内容描述发送至服务器120后,服务器120通过第一获取模块1201获取医学内容描述和至少两个候选医学文本信息,并通过切分模块1202对医学内容描述和候选医学文本信息的文本进行切分,得到医学内容描述对应的第一词串序列,以及各个候选医学文本信息各自对应的第二词串序列,由生成模块1203生成词串序列对,每个词串序列对中包括一个第一词串序列和一个第二词串序列。评价模块1204中存储有相似度评价模型,借助该模型,评价模块1204输出各个词串序列对中第一词串序列和第二词串序列的相似度评分,最终由确定模块1205根据相似度评分确定医学内容描述对应的目标医学文本信息。相应的,终端110接收到服务器120反馈的目标医学文本信息后,在应用程序中显示目标医学文本信息。
在其他可能的实施方式中,上述第一获取模块1201、切分模块1202、生成模块1203、评价模块1204以及确定模块1205也可以实现成为应用程序的部分或全部,相应的,终端110可以在本地进行医学文本信息确定,而无需借助服务器120,本实施例对此不作限定。
为了方便表述,下述各个实施例以医学文本信息的确定方法由计算机设备执行为例进行说明。
请参考图2,其示出了本申请一个示例性实施例提供的医学文本信息的确定方法的流程图。本实施例以该方法用于计算机设备为例进行说明,该方法包括如下步骤。
步骤201,获取医学内容描述以及至少两个候选医学文本信息。
医学内容描述是医生根据病人的症状和检测报告等信息做出的总结性判断,是为了描述病人患有某种疾病,或具有某种疾病的症状,医生的医学内容描述通常是通俗化的表达,包含一定的个体或区域性特征,例如将“冠状动脉粥样硬化性心脏病”简写为“冠心病”。而候选医学文本信息是ICD-10、ICD-10 2.0等国家或国际通用的疾病分类标准中的医学文本信息。
示意性的,医学内容描述包括患者姓名、性别、年龄、病史等基础信息,以及医生通过观察、询问和查看检测报告总结出的症状。
在一种可能的实施方式中,计算机设备接收到医学文本信息确定指令后,获取医学内容描述和至少两个候选医学文本信息,其中,候选医学文本信息可以是计算机设备采用的疾病分类标准中的全部医学文本信息,或部分与医学内容描述相关的医学文本信息。
示意性的,请参考图3,其示出了一种医学文本信息确定过程的界面示意图,医生根据患者的描述和检查报告,在计算机设备的医学文本信息确定界面300中,医学内容描述包括患者的基本信息301(如患者姓名、性别、年龄和病史等),和患者的症状302,点击医学文本信息确定界面300中的修改控件303可修改医学内容描述,点击提交控件304使计算机设备接收医学文本信息确定指令,获取医学内容描述和候选医学文本信息。
步骤202,将医学内容描述以及候选医学文本信息输入词串生成器,得到医学内容描述对应的第一词串序列,以及各个候选医学文本信息各自对应的第二词串序列。
其中,词串生成器用于对文本进行切分生成词串序列,且由于同一文本可以采用多种切分方式,因此,第一词串序列和第二词串序列的个数为至少一个。
在一种可能的实施方式中,由于直接将医学内容描述的完整文本与候选医学文本信息的完整文本进行对比,会导致医学内容描述与候选医学文本信息之间的差别较大,很难确定目标医学文本信息,因此计算机设备使用词串生成器,首先将获取到的医学内容描述和候选医学文本信息进行切分,得到医学内容描述对应的第一词串序列,和各个候选医学文本信息各自对应的第二词串序列。
可选的,词串生成器切分文本的方式可以是逐字切分,也可以是切分为长度不等或相等的片段,本实施例对此不作限定。
示意性的,计算机设备获取到医学内容描述“心前区发作性绞痛”,将其输入词串生成器,得到第一词串序列“心前区”、“发作性”、“绞痛”。
步骤203,根据第一词串序列和第二词串序列生成词串序列对,每个词串序列对中包括一个第一词串序列和一个第二词串序列。
在一种可能的实施方式中,计算机设备将词串生成器切分得到的第一词串序列和第二词串序列两两组成词串序列对。例如,词串生成器将医学内容描述切分出两种第一词串序列,分别为第一词串序列A和第一词串序列B;将获取到的候选医学文本信息1切分为第二词串序列C和第二词串序列D,候选医学文本信息2切分为第二词串序列E,则计算机设备生成词串序列对<A,C>、<A,D>、<A,E>、<B,C>、<B,D>和<B,E>。
示意性的,词串生成器将医学内容描述“冠心病”切分为“冠”、“心”、“病”,将候选医学文本信息“冠状动脉粥样硬化性心脏病”切分为“冠状”、“动脉”、“粥样”、“硬化性”、“心脏病”和“冠状动脉”、“粥样硬化性”、“心脏病”,将候选医学文本信息“伤寒并发肠出血”切分为“伤寒”、“并发”、“肠出血”,则计算机设备生成三组词串序列对,分别为:“冠”、“心”、“病”,“冠状”、“动脉”、“粥样”、“硬化性”、“心脏病”;“冠”、“心”、“病”,“冠状动脉”、“粥样硬化性”、“心脏病”;“冠”、“心”、“病”,“伤寒”、“并发”、“肠出血”。
步骤204,将词串序列对输入相似度评价模型,得到词串序列对中第一词串序列和第二词串序列的相似度评分。
其中,相似度评价模型用于计算词串序列对中第一词串序列和第二词串序列的相似度评分。
在一种可能的实施方式中,计算机设备首先将词串序列向量化,例如通过文本向量化模型(Word to Vector,W2V)将各词串序列中的词串转化为向量,从而组合得到词串序列对应的词串序列向量,再将第一词串序列向量和第二词串序列向量输入相似度评价模型,得到相似度评分。
可选的,相似度评价模型采用余弦相似度算法、曼哈顿距离算法或语义匹配算法等文本相似度算法,本实施例对此不作限定。
步骤205,根据相似度评分确定医学内容描述对应的目标医学文本信息。
在一种可能的实施方式中,计算机设备获取每组词串序列对的相似度评分,将相似度评分最高的词串序列对中第二词串序列对应的候选医学文本信息确定为目标医学文本信息,或者,将相似度评分由高到低排序,选取前n个词串序列对中第二词串序列对应的候选医学文本信息,确定为目标医学文本信息,n为计算机设备的预定个数。
可选的,计算机设备预设有相似度评分阈值,将相似度评分达到相似度评分阈值的词串序列对中,第二词串序列对应的候选医学文本信息确定为目标医学文本信息,若不存在词串序列对的相似度评分达到相似度评分阈值,则将相似度评分最高的词串序列对中,第二词串序列对应的候选医学文本信息确定为目标医学文本信息。
示意性的,“心前区发作性绞痛”与候选医学文本信息“冠状动脉粥样硬化性心脏病”和“伤寒并发肠出血”对应的词串序列对中,词串序列对“冠”、“心”、“病”,“冠状动脉”、“粥样硬化性”、“心脏病”的相似度评分最高,则确定“冠状动脉粥样硬化性心脏病”为目标医学文本信息。如图3所示,计算机设备确定出目标医学文本信息后,在医学文本信息确定界面300中显示医学文本信息305。
综上所述,本申请实施例中,通过将医学内容描述和至少两个候选医学文本信息输入词串生成器,得到对应的词串序列,利用相似度评价模型计算医学内容描述的词串序列与候选医学文本信息的词串序列的相似度,从而确定医学内容描述对应的目标医学文本信息;本申请实施例利用机器学习的方法确定医学文本信息,无需医生根据经验确定医学文本信息,避免因医生经验不足造成的失误,有助于提高医学内容描述的标准化程度以及医生的工作效率。
由于疾病分类标准中包含全部的医学文本信息,并且词串生成器切分文本的方式不唯一,生成的第一词串序列和第二词串序列数量较多,导致计算机设备利用相似度评价模型确定目标医学文本信息的工作量很大,进而影响确定医学文本信息的效率。因此为了提高计算机设备确定目标医学文本信息的效率,计算机设备可以选取适当的候选医学文本信息和词串序列进行相似度评分计算,下面采用示意性的实施例进行说明。
请参考图4,其示出了本申请另一个示例性实施例提供的医学文本信息的确定方法的流程图。本实施例以该方法用于计算机设备为例进行说明,该方法包括如下步骤。
步骤401,根据样本语料训练词串生成器,样本语料中包括医疗领域语料。
在一种可能的实施方式中,词串生成器基于语言模型训练得到,其中,训练词串生成器时使用的样本语料为医疗领域语料。
可选的,词串生成器采用字节对编码算法(BytePairEncoder,BPE),通过不断地将字符串中出现次数最频繁的字符串用一个特殊字符替换,从而缩小字符串的长度,最终形成的符号表即为词串的词表。对于一个固定的句子,该算法只能得到唯一一种词串序列。
可选的,为了将一个固定句子切分出多种词串序列,词串生成器采用语言模型进行训练,将词串序列生成转化为概率问题,以采用一元语言模型为例,词串序列的概率计算公式为:
其中,υ是预定义的词表,x表示一种词串序列,xi表示词串序列中的词,M为词串序列中词的个数。生成概率最高的词串序列x*可以表示为:
其中,S(X)表示所有可能的词串序列。当然,除了使用一元语言模型外,还可以采用二元语言模型或N元语言模型(N-gram),本实施例对此不做限定。
步骤402,获取医学内容描述。
可选的,本申请实施例提供的方法用于医生的诊断系统,医生根据诊断和检查报告,将患者的医学内容描述输入诊断系统,计算机设备获取医学内容描述。
可选的,本申请实施例提供的方法用于在线诊断应用程序,终端或计算机设备根据患者与医生的对话以及医生的总结性诊断,获取医学内容描述。
步骤403,根据医学内容描述,通过检索工具从医学文本信息数据库中确定候选医学文本信息,检索工具用于确定文本之间的相关性。
其中,医学文本信息数据库是包含全部标准医学文本信息的数据库,基于ICD、ICD-10 2.0等国际疾病分类或国家疾病分类中的医学文本信息得到。
由于医学文本信息数据库中存在大量医学文本信息,若计算机设备计算医学内容描述与所有医学文本信息的相似度,则工作量很大,计算时间长,导致医学文本信息确定的效率低。在一种可能的实施方式中,计算机设备根据获取到的医学内容描述,利用检索工具选取与医学内容描述相关的候选医学文本信息。其中,检索工具可以是基于最佳匹配算法(BestMatch25,BM25)的检索工具例如弹性搜索(Elasticsearch,ES)、搜索查询服务器(Solr)等,本实施例对此不作限定。
步骤404,将医学内容描述输入词串生成器,得到第一词串序列以及第一词串序列对应的第一生成概率。
计算机设备利用训练完成的词串生成器,将医学内容描述切分,得到至少一个第一词串序列,并计算每种第一词串序列的第一生成概率。一个医学内容描述对应的所有第一词串序列的概率和为1。
示意性的,词串生成器将当前的医学内容描述切分为三种第一词串序列A、B、和C,其第一生成概率分别为0.5、0.3和0.2。
步骤405,对于每个候选医学文本信息,将候选医学文本信息输入词串生成器,得到第二词串序列以及第二词串序列对应的第二生成概率。
在一种可能的实施方式中,计算机设备利用词串生成器,将医学内容描述对应的候选医学文本信息切分,得到多个第二词串序列和对应的第二生成概率。一个候选医学文本信息对应的所有第二词串序列的概率和为1。
示意性的,医学内容描述对应有两个候选医学文本信息,候选医学文本信息1切分出第二词串序列X、Y和Z,其第二生成概率分别为0.7、0.2和0.1;候选医学文本信息2切分出第二词串序列Z,其第二生成概率为1。
步骤406,根据第一生成概率选取第一词串序列,并根据第二生成概率选取第二词串序列。
由于候选医学文本信息可能有多个,并且词串生成器切分生成第一词串序列和第二词串序列的数量可能较大,若将全部的第一词串序列和第二词串序列进行相似度评分计算,则计算机设备的计算量较大。
在一种可能的实施方式中,计算机设备选取概率较高的词串序列进行相似度评分计算,根据第一生成概率的降序,从第一词串序列中选取前m个第一词串序列,再根据第二生成概率的降序,从第二词串序列中选取前n个第二词串序列,m和n均为大于等于1的整数。
示意性的,设置计算机设备选取2个第一词串序列和3个第二词串序列,则选取的第一词串序列为A和B,第二词串序列为Z、X和Y。
步骤407,根据选取的第一词串序列和选取的第二词串序列生成词串序列对。
计算机设备基于选取的符合预设条件的第一词串序列和第二词串序列,生成词串序列对。
示意性的,计算机设备根据选取的第一词串序列A和B,以及第二词串序列Z、X和Y,生成词串序列对<A,Z>、<A,X>、<A,Y>、<B,Z>、<B,X>和<B,Y>。
步骤408,将词串序列对输入相似度评价模型,得到词串序列对中第一词串序列和第二词串序列的相似度评分。
步骤409,根据相似度评分确定医学内容描述对应的目标医学文本信息。
步骤408至409的实施方式可以参考上述步骤204至205,本实施例在此不再赘述。
本申请实施例中,利用词串生成器将医学内容描述和候选医学文本信息拆分为词串序列,计算词串序列间的相似度,能够得到大规模的标注语料,从而提高模型的泛化性;并且,通过检索工具筛选与医学内容描述相关的候选医学文本信息,生成第二词串序列,并选取概率较高的第一词串序列和第二词串序列组成词串序列对,计算相似度评分,可以避免计算不相关的医学文本信息,减少了相似度评价模型的计算量,进而提高确定医学文本信息的效率。
针对上述实施例中词串生成器的训练方式,在一种可能的实施方式中,请参考图5,根据样本语料训练词串生成器可以包括如下步骤:
步骤501,通过最大期望算法对第i词串生成器进行优化,得到第i+1词串生成器,第i词串生成器对应第i词表,其中,优化方式包括最大化第i词串生成器下样本语料对应的最大化对数似然函数值。
在一种可能的实施方式中,计算机设备首先从样本语料中获取初始词表,例如选取样本语料中的所有字符和常见的子字符串作为初始词表,得到第1词串生成器。通过最大化第1词串生成器的对数似然函数值,得到第2词串生成器。对数似然函数的公式为:
其中,X(s)表示所有可能的词串序列,x表示一种词串序列,|D|是当前词串生成器对应的词表中全部字符和子字符串的个数。
相应的,对第i词串生成器进行最大化对数似然函数值,可以得到第i+1词串生成器。
步骤502,根据第i+1词串生成器和第i词表,生成第i+1词表,第i+1词表的词串数量小于第i词表的词串数量,第i+1词表为第i+1词串生成器对应的词表。
训练词串生成器的目的是为了减小词表的规模,使其保留各医学文本信息对应的常见词串,从而提高计算机设备确定医学文本信息的效率,减小不必要的损耗。因此,计算机设备训练词串生成器时,在第i词表的基础上进行筛选,生成第i+1词串生成器对应的第i+1词表。
在一种可能的实施方式中,步骤502可以包括如下步骤:
步骤a,对于第i词表中的各个词串,确定词串对应的最大化对数似然函数损失,最大化对数似然函数损失根据移除词串前样本语料的最大化对数似然函数值,以及移除词串后样本语料的最大化对数似然函数值确定。
在一种可能的实施方式中,计算机设备将第i词表的最大化对数似然函数值,减去移除某一个词串后的最大化对数似然函数值,得到最大化对数似然函数损失,例如第i词表包含t个词串,则计算得到t个最大化对数似然函数损失。
步骤b,根据最大化对数似然函数损失的降序,获取第i词表中前k%的词串。
可选的,将计算得到的t个最大化对数似然函数损失按由大到小的顺序排列,获取前k%的最大化对数似然函数损失对应的去除的词串。
示意性的,计算机设备每次选取最大化对数似然函数损失位于前80%的去除词串,假设第i词表包含1000个词串,则计算机设备每去除一个词串计算一次最大化对数似然函数损失,并将结果由大到小顺序,选取结果在前80%时对应的去除的词串,即800个词串。
步骤c,根据前k%的词串生成第i+1词表。
计算机设备将选取的前k%的词串作为第i+1词串生成器对应的第i+1词表,并根据第i+1词串生成器和第i+1词表进行下一轮计算,得到第i+2词串生成器和第i+2词表。
步骤503,若第i+1词表的词串数量小于等于词串数量阈值,则停止词串生成器训练。
在一种可能的实施方式中,计算机设备预先设置有词串数量阈值,计算机设备进行多次训练,不断减小词表的规模,当第i+1词表的词串数量小于等于词串数量阈值时,完成训练过程。
示意性的,词串数量阈值为650,第一词表包含1000个词串,进行一次训练后筛选出80%的词串,即800个词串作为第二词表,再行一次训练后筛选出80%的词串,即640个词串作为第三词表,小于词串数量阈值650,则停止训练,最终将第三词表和删除的词串中最大化对数似然函数损失前十的词串合并,生成词串数量为650的词串生成器的词表。
本申请实施例中,通过计算词串序列的最大化对数似然函数损失,去除使用率低的词串,缩小词表的容量,可以减少疾病相似度模型训练和推理的时间,从而提高医学文本信息确定的效率。
在利用相似度评价模型确定医学文本信息前,需要对相似度评价模型进行训练,请参考图6,其示出了一种训练相似度评价模型的流程图。计算机设备获取样本医学内容描述601和正样本医学文本信息602进行匹配,得到第一样本文本对603,其中,各个第一样本文本对603由一个样本医学内容描述601和对应的一个正样本医学文本信息602组成,通过对第一样本文本对603进行负采样,得到第二样本文本对604,其中各第二样本文本对604包括一个样本医学内容描述601和对应的一个正样本医学文本信息602,以及至少一个负样本医学文本信息,计算机设备利用词串生成器605切分全部的第二样本文本对604,得到样本语料606,利用样本语料606进行模型训练,生成相似度评价模型607。
在一个示意性的例子中,对相似度评价模型进行训练的过程如图7所示。
步骤701,获取第一样本文本对,第一样本文本对中包含样本医学内容描述和正样本医学文本信息,正样本医学文本信息是样本医学内容描述对应正确医学文本信息。
在一种可能的实施方式中,计算机设备根据给定的样本医学内容描述和正样本医学文本信息,得到第一样本文本对,其中样本医学内容描述和正样本医学文本信息一一对应。
示意性的,请参考图8,计算机设备获取样本医学内容描述801和正样本医学文本信息802,并一一对应组成第一样本文本对803,其中,第一样本文本对803包括<样本医学内容描述A,正样本医学文本信息a>,<样本医学内容描述B,正样本医学文本信息b>,…,<样本医学内容描述N,正样本医学文本信息n>。
步骤702,对第一样本文本对进行负采样,得到至少一个第二样本文本对,第二样本文本对中包括样本医学内容描述、正样本医学文本信息和负样本医学文本信息,负样本医学文本信息是样本医学内容描述对应错误医学文本信息。
为了训练相似度评价模型,需要提供相对于正样本医学文本信息的负样本医学文本信息,在第一样本文本的基础上增加负样本医学文本信息,得到第二样本文本对用于训练。
在一种可能的实施方式中,计算机设备根据医学分类层次结构,确定正样本医学文本信息对应的至少一个负样本医学文本信息,负样本医学文本信息与正样本医学文本信息在医学分类层次结构中对应相同父节点,或,负样本医学文本信息与正样本医学文本信息在医学分类层次结构中对应不同父节点;根据样本医学内容描述、正样本医学文本信息和负样本医学文本信息生成第二样本文本对。如图8所示,计算机设备对第一样本文本对803进行负采样,得到第二样本文本对804,其中,第二样本文本对804包括<样本医学内容描述A,正样本医学文本信息a,负样本医学文本信息a1>,<样本医学内容描述A,正样本医学文本信息a,负样本医学文本信息a2>,…,<样本医学内容描述A,正样本医学文本信息a,负样本医学文本信息am>,<样本医学内容描述B,正样本医学文本信息b,负样本医学文本信息b1>,<样本医学内容描述B,正样本医学文本信息b,负样本医学文本信息b2>,…,<样本医学内容描述B,正样本医学文本信息b,负样本医学文本信息bm>,…,<样本医学内容描述N,正样本医学文本信息n,负样本医学文本信息nm>,m和n均为大于等于1的整数。
示意性的,第一样本文本对A中,样本医学内容描述为“心前区发作性绞痛,冠脉阻塞,诊断为冠心病”,正样本医学文本信息为“冠状动脉粥样硬化性心脏病”,对第一样本文本对进行3次负采样,得到三个第二样本文本对,其负样本医学文本信息分别为“肺源性心脏病”、“风湿性心脏病”和“伤寒并发肠出血”,其中“肺源性心脏病”和“风湿性心脏病”与正样本医学文本信息在医学分类层次结构中对应相同父节点“心脏病”,“伤寒并发肠出血”与正样本医学文本信息在医学分类层次结构中对应不同父节点。
步骤703,根据第二样本文本对训练相似度评价模型。
在一种可能的实施方式中,步骤703可以包括如下步骤:
一、将第二样本文本对输入所述词串生成器,得到样本医学内容描述对应的第一样本词串序列、正样本医学文本信息对应的第二样本词串序列以及负样本医学文本信息对应的第三样本词串序列。
计算机设备利用词串生成器将第二样本文本对切分,得到第一样本词串序列x=(x1,x2,...,xM),第二样本词串序列和第三样本词串序列其中M、N、Z表示词串序列个数。所有的样本序列构成样本语料其中|D|为第二样本文本的个数。
二、将第一样本词串序列和第二样本词串序列输入相似度评价模型,得到第一样本相似度评分。
计算机设备利用相似度评价模型计算第一相似度评分,其中相似度评价模型可以采用简单的神经网络,例如多层感知机、循环神经网络和卷积神经网络,也可以采用ARC-I、ARC-II等复杂的神经网络进行构建,本实施例对此不作限定。
三、将第一样本词串序列和第三样本词串序列输入相似度评价模型,得到第二样本相似度评分。
计算机设备利用相似度评价模型计算样本医学内容描述和负样本医学文本信息相似度,得到至少一个第二样本相似度评分。
四、根据第一样本相似度评分和第二样本相似度评分确定第二样本文本对的样本损失。
在一种可能的实施方式中,在样本语料D的基础上,损失函数的公式为:
L(x,y+,y-,θ)=max(0,1+s(x,y-)-s(x,y+)),(x,y+,y-)∈D
其中,x(x,y-)和s(x,y+)表示相似度评价函数,分别用于计算第二样本相似度评分和第一样本相似度评分,θ为相似度评价模型中可训练的网络参数。计算机设备根据第一样本相似度评分和第二样本相似度评分确定第二样本文本对的样本损失。
五、根据样本损失训练相似度评价模型。
可选的,计算机设备通过相似度评价模型计算所有第二样本文本对的样本损失,损失函数要求第二样本相似度评分和第一样本相似度评分的差值大于1,即样本损失的值为0。在一种可能的实施方式中,计算机设备反复训练相似度评价模型,不断最小化损失函数,直至模型收敛(样本损失小于等于损失阈值,或训练次数达到次数阈值等)。
本申请实施例中,通过对包含医学内容描述和正样本医学文本信息的第一样本文本对进行负采样,得到含有负样本医学文本信息的第二样本文本对,并利用第二样本文本对训练相似度评价模型,得到第一样本词串序列与第二样本词串序列的第一样本相似度评分,和第一样本词串序列与第三样本词串序列的第二样本相似度评分,当第一样本相似度评分高于第二样本相似度评分,且差值大于阈值时,模型收敛;通过负采样丰富了模型训练样本,并且引入损失函数,控制样本医学内容描述与正样本医学文本信息和负样本医学文本信息的相似度差值,提高了相似度评价模型的准确性。
图9是本申请一个示例性实施例提供的医学文本信息的确定装置的结构框图,该装置可以设置于上述实施例中的计算机设备,如图9所示,该装置包括:
第一获取模块901,用于获取医学内容描述以及至少两个候选医学文本信息;
切分模块902,用于将所述医学内容描述以及所述候选医学文本信息输入词串生成器,得到所述医学内容描述对应的第一词串序列,以及各个所述候选医学文本信息各自对应的第二词串序列,所述词串生成器用于对文本进行切分生成词串序列,所述第一词串序列和所述第二词串序列的个数为至少一个;
生成模块903,用于根据所述第一词串序列和所述第二词串序列生成词串序列对,每个所述词串序列对中包括一个所述第一词串序列和一个所述第二词串序列;
评价模块904,用于将所述词串序列对输入相似度评价模型,得到所述词串序列对中所述第一词串序列和所述第二词串序列的相似度评分;
确定模块905,用于根据所述相似度评分确定所述医学内容描述对应的目标医学文本信息。
可选的,所述词串生成器基于语言模型训练得到;
所述切分模块902,包括:
第一切分单元,用于将所述医学内容描述输入所述词串生成器,得到所述第一词串序列以及所述第一词串序列对应的第一生成概率;
第二切分单元,用于对于每个所述候选医学文本信息,将所述候选医学文本信息输入所述词串生成器,得到所述第二词串序列以及所述第二词串序列对应的第二生成概率;
所述生成模块903,包括:
选择单元,用于根据所述第一生成概率选取所述第一词串序列,并根据所述第二生成概率选取所述第二词串序列;
第一生成单元,用于根据选取的所述第一词串序列和选取的所述第二词串序列生成所述词串序列对。
可选的,所述选择单元,还用于:
根据所述第一生成概率的降序,从所述第一词串序列中选取前m个所述第一词串序列,m为大于等于1的整数;
根据所述第二生成概率的降序,从所述第二词串序列中选取前n个所述第二词串序列,n为大于等于1的整数。
可选的,所述装置还包括:
第二获取模块,用于获取第一样本文本对,所述第一样本文本对中包含样本医学内容描述和正样本医学文本信息,所述正样本医学文本信息是所述样本医学内容描述对应正确医学文本信息;
采样模块,用于对所述第一样本文本对进行负采样,得到至少一个第二样本文本对,所述第二样本文本对中包括所述样本医学内容描述、所述正样本医学文本信息和负样本医学文本信息,所述负样本医学文本信息是所述样本医学内容描述对应错误医学文本信息;
第一训练模块,用于根据所述第二样本文本对训练所述相似度评价模型。
可选的,所述采样模块,包括:
第一确定单元,用于根据医学分类层次结构,确定所述正样本医学文本信息对应的至少一个负样本医学文本信息,所述负样本医学文本信息与所述正样本医学文本信息在所述医学分类层次结构中对应相同父节点,或,所述负样本医学文本信息与所述正样本医学文本信息在所述医学分类层次结构中对应不同父节点;
第二生成单元,用于根据所述样本医学内容描述、所述正样本医学文本信息和所述负样本医学文本信息生成所述第二样本文本对。
可选的,所述第一训练模块,包括:
第三生成单元,用于将所述第二样本文本对输入所述词串生成器,得到所述样本医学内容描述对应的第一样本词串序列、所述正样本医学文本信息对应的第二样本词串序列以及所述负样本医学文本信息对应的第三样本词串序列;
第一评价单元,用于将所述第一样本词串序列和所述第二样本词串序列输入所述相似度评价模型,得到第一样本相似度评分;
第二评价单元,用于将所述第一样本词串序列和所述第三样本词串序列输入所述相似度评价模型,得到第二样本相似度评分;
第二确定单元,用于根据所述第一样本相似度评分和所述第二样本相似度评分确定所述第二样本文本对的样本损失;
训练单元,用于根据所述样本损失训练所述相似度评价模型。
可选的,所述装置还包括:
第二训练模块,用于根据样本语料训练所述词串生成器,所述样本语料中包括医疗领域语料。
可选的,所述第二训练模块,包括:
优化单元,用于通过最大期望算法对第i词串生成器进行优化,得到第i+1词串生成器,所述第i词串生成器对应第i词表,其中,优化方式包括最大化所述第i词串生成器下所述样本语料对应的最大化对数似然函数值,i为大于等于1的整数;
第四生成单元,用于根据所述第i+1词串生成器和所述第i词表,生成第i+1词表,所述第i+1词表的词串数量小于所述第i词表的词串数量,所述第i+1词表为所述第i+1词串生成器对应的词表;
第三确定单元,用于若所述第i+1词表的词串数量小于等于词串数量阈值,则停止词串生成器训练。
可选的,所述第四生成单元,还用于:
对于所述第i词表中的各个词串,确定所述词串对应的最大化对数似然函数损失,所述最大化对数似然函数损失根据移除所述词串前所述样本语料的最大化对数似然函数值,以及移除所述词串后所述样本语料的最大化对数似然函数值确定;
根据所述最大化对数似然函数损失的降序,获取所述第i词表中前k%的词串;
根据所述前k%的词串生成所述第i+1词表。
可选的,所述第一获取模块,包括:
获取单元,用于获取所述医学内容描述;
第四确定单元,用于根据所述医学内容描述,通过检索工具从医学文本信息数据库中确定所述候选医学文本信息,所述检索工具用于确定文本之间的相关性。
综上所述,本申请实施例中,通过将医学内容描述和至少两个候选医学文本信息输入词串生成器,得到对应的词串序列,利用相似度评价模型计算医学内容描述的词串序列与候选医学文本信息的词串序列的相似度,从而确定医学内容描述对应的目标医学文本信息;本申请实施例利用机器学习的方法确定医学文本信息,无需医生根据经验确定医学文本信息,避免因医生经验不足造成的失误,有助于提高医学内容描述的标准化程度以及医生的工作效率。
本申请实施例中,利用词串生成器将医学内容描述和候选医学文本信息拆分为词串序列,计算词串序列间的相似度,能够得到大规模的标注语料,从而提高模型的泛化性;并且,通过检索工具筛选与医学内容描述相关的候选医学文本信息,生成第二词串序列,并选取概率较高的第一词串序列和第二词串序列组成词串序列对,计算相似度评分,可以避免计算不相关的医学文本信息,减少了相似度评价模型的计算量,进而提高确定医学文本信息的效率。
本申请实施例中,通过计算词串序列的最大化对数似然函数损失,去除使用率低的词串,缩小词表的容量,可以减少相似度评价模型训练和推理的时间,从而提高医学文本信息确定的效率。
本申请实施例中,通过对包含医学内容描述和正样本医学文本信息的第一样本文本对进行负采样,得到含有负样本医学文本信息的第二样本文本对,并利用第二样本文本对训练相似度评价模型,得到第一样本词串序列与第二样本词串序列的第一样本相似度评分,当第二样本文本对的样本损失的值为0时,确定第二样本相似度评分和第一样本相似度评分的差值大于1,模型收敛;通过负采样丰富了模型训练样本,并且引入损失函数,控制样本医学内容描述与正样本医学文本信息和负样本医学文本信息的相似度差值,提高了相似度评价模型的准确性。
需要说明的是:上述实施例提供的装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的医学文本信息的确定装置与医学文本信息的确定方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图10,其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲:所述计算机设备1000包括中央处理单元(Central Processing Unit,CPU)1001、包括随机存取存储器(Random Access Memory,RAM)1002和只读存储器(Read-OnlyMemory,ROM)1003的系统存储器1004,以及连接系统存储器1004和中央处理单元1001的系统总线1005。所述计算机设备1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output系统,I/O系统)1006,和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。
所述基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中所述显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。所述基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1007及其相关联的计算机可读介质为计算机设备1000提供非易失性存储。也就是说,所述大容量存储设备1007可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable read only memory,EEPROM)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。
存储器存储有一个或多个程序,一个或多个程序被配置成由一个或多个中央处理单元1001执行,一个或多个程序包含用于实现上述方法的指令,中央处理单元1001执行该一个或多个程序实现上述各个方法实施例提供的方法。
根据本申请的各种实施例,所述计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1000可以通过连接在所述系统总线1005上的网络接口单元1011连接到网络1012,或者说,也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。
本申请实施例还提供一种计算机可读存储介质,该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述任一实施例所述的医学文本信息的确定方法。
本申请还提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述各个方法实施例提供的医学文本信息的确定方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述任一方法实施例所述的医学文本信息的确定方法。
可选地,该计算机可读存储介质可以包括:ROM、RAM、固态硬盘(Solid StateDrives,SSD)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(Resistance Random Access Memory,RRAM)和动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的示意性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种医学文本信息的确定方法,其特征在于,所述方法包括:
通过最大期望算法对第i词串生成器进行优化,得到第i+1词串生成器,所述第i词串生成器对应第i词表,其中,优化方式包括最大化所述第i词串生成器下样本语料对应的最大化对数似然函数值,所述样本语料中包括医疗领域语料,i为大于等于1的整数;
对于所述第i词表中的各个词串,确定所述词串对应的最大化对数似然函数损失,所述最大化对数似然函数损失根据移除所述词串前所述样本语料的最大化对数似然函数值,以及移除所述词串后所述样本语料的最大化对数似然函数值确定;
根据所述最大化对数似然函数损失的降序,获取所述第i词表中前k%的词串;
根据所述前k%的词串生成第i+1词表,所述第i+1词表为所述第i+1词串生成器对应的词表;
若所述第i+1词表的词串数量小于等于词串数量阈值,则停止词串生成器训练;
获取医学内容描述以及至少两个候选医学文本信息,所述医学内容描述包含疾病诊断的总结信息,所述候选医学文本信息是疾病分类标准中的文本信息;
将所述医学内容描述以及所述候选医学文本信息输入训练得到的词串生成器,得到所述医学内容描述对应的第一词串序列,以及各个所述候选医学文本信息各自对应的第二词串序列,所述词串生成器用于基于词表对文本进行切分生成词串序列,所述第一词串序列和所述第二词串序列的个数为至少一个;
根据所述第一词串序列和所述第二词串序列生成词串序列对,每个所述词串序列对中包括一个所述第一词串序列和一个所述第二词串序列;
将所述词串序列对输入相似度评价模型,得到所述词串序列对中所述第一词串序列和所述第二词串序列的相似度评分;
根据所述相似度评分确定所述医学内容描述对应的目标医学文本信息。
2.根据权利要求1所述的方法,其特征在于,所述词串生成器基于语言模型训练得到;
所述将所述医学内容描述以及所述候选医学文本信息输入训练得到的词串生成器,得到所述医学内容描述对应的第一词串序列,以及各个所述候选医学文本信息各自对应的第二词串序列,包括:
将所述医学内容描述输入所述词串生成器,得到所述第一词串序列以及所述第一词串序列对应的第一生成概率;
对于每个所述候选医学文本信息,将所述候选医学文本信息输入所述词串生成器,得到所述第二词串序列以及所述第二词串序列对应的第二生成概率;
所述根据所述第一词串序列和所述第二词串序列生成词串序列对,包括:
根据所述第一生成概率选取所述第一词串序列,并根据所述第二生成概率选取所述第二词串序列;
根据选取的所述第一词串序列和选取的所述第二词串序列生成所述词串序列对。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一生成概率选取所述第一词串序列,并根据所述第二生成概率选取所述第二词串序列,包括:
根据所述第一生成概率的降序,从所述第一词串序列中选取前m个所述第一词串序列,m为大于等于1的整数;
根据所述第二生成概率的降序,从所述第二词串序列中选取前n个所述第二词串序列,n为大于等于1的整数。
4.根据权利要求1至3任一所述的方法,其特征在于,所述获取医学内容描述以及至少两个候选医学文本信息之前,所述方法还包括:
获取第一样本文本对,所述第一样本文本对中包含样本医学内容描述和正样本医学文本信息,所述正样本医学文本信息是所述样本医学内容描述对应正确医学文本信息;
对所述第一样本文本对进行负采样,得到至少一个第二样本文本对,所述第二样本文本对中包括所述样本医学内容描述、所述正样本医学文本信息和负样本医学文本信息,所述负样本医学文本信息是所述样本医学内容描述对应错误医学文本信息;
根据所述第二样本文本对训练所述相似度评价模型。
5.根据权利要求4所述的方法,其特征在于,所述对所述第一样本文本对进行负采样,得到至少一个第二样本文本对,包括:
根据医学分类层次结构,确定所述正样本医学文本信息对应的至少一个负样本医学文本信息,所述负样本医学文本信息与所述正样本医学文本信息在所述医学分类层次结构中对应相同父节点,或,所述负样本医学文本信息与所述正样本医学文本信息在所述医学分类层次结构中对应不同父节点;
根据所述样本医学内容描述、所述正样本医学文本信息和所述负样本医学文本信息生成所述第二样本文本对。
6.根据权利要求4所述的方法,其特征在于,所述根据所述第二样本文本对训练所述相似度评价模型,包括:
将所述第二样本文本对输入所述词串生成器,得到所述样本医学内容描述对应的第一样本词串序列、所述正样本医学文本信息对应的第二样本词串序列以及所述负样本医学文本信息对应的第三样本词串序列;
将所述第一样本词串序列和所述第二样本词串序列输入所述相似度评价模型,得到第一样本相似度评分;
将所述第一样本词串序列和所述第三样本词串序列输入所述相似度评价模型,得到第二样本相似度评分;
根据所述第一样本相似度评分和所述第二样本相似度评分确定所述第二样本文本对的样本损失;
根据所述样本损失训练所述相似度评价模型。
7.根据权利要求1至3任一所述的方法,其特征在于,所述获取医学内容描述以及至少两个候选医学文本信息,包括:
获取所述医学内容描述;
根据所述医学内容描述,通过检索工具从医学文本信息数据库中确定所述候选医学文本信息,所述检索工具用于确定文本之间的相关性。
8.一种医学文本信息的确定装置,其特征在于,所述装置包括:
第二训练模块,用于通过最大期望算法对第i词串生成器进行优化,得到第i+1词串生成器,所述第i词串生成器对应第i词表,其中,优化方式包括最大化所述第i词串生成器下样本语料对应的最大化对数似然函数值,所述样本语料中包括医疗领域语料,i为大于等于1的整数;对于所述第i词表中的各个词串,确定所述词串对应的最大化对数似然函数损失,所述最大化对数似然函数损失根据移除所述词串前所述样本语料的最大化对数似然函数值,以及移除所述词串后所述样本语料的最大化对数似然函数值确定;根据所述最大化对数似然函数损失的降序,获取所述第i词表中前k%的词串;根据所述前k%的词串生成第i+1词表,所述第i+1词表为所述第i+1词串生成器对应的词表;若所述第i+1词表的词串数量小于等于词串数量阈值,则停止词串生成器训练;
第一获取模块,用于获取医学内容描述以及至少两个候选医学文本信息,所述医学内容描述包含疾病诊断的总结信息,所述候选医学文本信息是疾病分类标准中的文本信息;
切分模块,用于将所述医学内容描述以及所述候选医学文本信息输入训练得到的词串生成器,得到所述医学内容描述对应的第一词串序列,以及各个所述候选医学文本信息各自对应的第二词串序列,所述词串生成器用于基于词表对文本进行切分生成词串序列,所述第一词串序列和所述第二词串序列的个数为至少一个;
生成模块,用于根据所述第一词串序列和所述第二词串序列生成词串序列对,每个所述词串序列对中包括一个所述第一词串序列和一个所述第二词串序列;
评价模块,用于将所述词串序列对输入相似度评价模型,得到所述词串序列对中所述第一词串序列和所述第二词串序列的相似度评分;
确定模块,用于根据所述相似度评分确定所述医学内容描述对应的目标医学文本信息。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的医学文本信息的确定方法。
10.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的医学文本信息的确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010035796.XA CN111259664B (zh) | 2020-01-14 | 2020-01-14 | 医学文本信息的确定方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010035796.XA CN111259664B (zh) | 2020-01-14 | 2020-01-14 | 医学文本信息的确定方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111259664A CN111259664A (zh) | 2020-06-09 |
CN111259664B true CN111259664B (zh) | 2023-03-24 |
Family
ID=70954069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010035796.XA Active CN111259664B (zh) | 2020-01-14 | 2020-01-14 | 医学文本信息的确定方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259664B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101030B (zh) * | 2020-08-24 | 2024-01-26 | 沈阳东软智能医疗科技研究院有限公司 | 建立术语映射模型、实现标准词映射的方法、装置及设备 |
CN112434756A (zh) * | 2020-12-15 | 2021-03-02 | 杭州依图医疗技术有限公司 | 医学数据的训练方法、处理方法、装置及存储介质 |
CN113641724B (zh) * | 2021-07-22 | 2024-01-19 | 北京百度网讯科技有限公司 | 知识标签挖掘方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103226578A (zh) * | 2013-04-02 | 2013-07-31 | 浙江大学 | 面向医学领域的网站识别和网页细分类的方法 |
CN105069124A (zh) * | 2015-08-13 | 2015-11-18 | 易保互联医疗信息科技(北京)有限公司 | 一种自动化的国际疾病分类编码方法及系统 |
CN109635296A (zh) * | 2018-12-08 | 2019-04-16 | 广州荔支网络技术有限公司 | 新词挖掘方法、装置计算机设备和存储介质 |
CN110427486A (zh) * | 2019-07-25 | 2019-11-08 | 北京百度网讯科技有限公司 | 身体病况文本的分类方法、装置及设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104156349B (zh) * | 2014-03-19 | 2017-08-15 | 邓柯 | 基于统计词典模型的未登录词发现和分词系统及方法 |
CN108446260A (zh) * | 2018-02-06 | 2018-08-24 | 天津艾登科技有限公司 | 基于语义近似匹配算法进行自动化疾病编码转换的方法及系统 |
CN108491486B (zh) * | 2018-03-14 | 2020-11-24 | 东软集团股份有限公司 | 模拟病人问诊对话方法、装置、终端设备及存储介质 |
CN109243618B (zh) * | 2018-09-12 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 医学模型的构建方法、疾病标签构建方法及智能设备 |
CN109493977B (zh) * | 2018-11-09 | 2020-07-31 | 天津新开心生活科技有限公司 | 文本数据处理方法、装置、电子设备及计算机可读介质 |
CN109710670B (zh) * | 2018-12-11 | 2020-04-28 | 萱闱(河南)生命科学研究院有限公司 | 一种将病历文本从自然语言转换为结构化元数据的方法 |
CN110277149A (zh) * | 2019-06-28 | 2019-09-24 | 北京百度网讯科技有限公司 | 电子病历的处理方法、装置及设备 |
CN110517785B (zh) * | 2019-08-28 | 2022-05-10 | 北京百度网讯科技有限公司 | 相似病例的查找方法、装置及设备 |
-
2020
- 2020-01-14 CN CN202010035796.XA patent/CN111259664B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103226578A (zh) * | 2013-04-02 | 2013-07-31 | 浙江大学 | 面向医学领域的网站识别和网页细分类的方法 |
CN105069124A (zh) * | 2015-08-13 | 2015-11-18 | 易保互联医疗信息科技(北京)有限公司 | 一种自动化的国际疾病分类编码方法及系统 |
CN109635296A (zh) * | 2018-12-08 | 2019-04-16 | 广州荔支网络技术有限公司 | 新词挖掘方法、装置计算机设备和存储介质 |
CN110427486A (zh) * | 2019-07-25 | 2019-11-08 | 北京百度网讯科技有限公司 | 身体病况文本的分类方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
"Automatic ICD-10 coding algorithm using an improved longest common subsequence based on emantic similarity";Yunzhi Chen 等;《PLOS ONE》;20170317;1-17 * |
面向农村医疗的信息抽取方法的研究与实现;耿胜男;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150415;I138-1221 * |
Also Published As
Publication number | Publication date |
---|---|
CN111259664A (zh) | 2020-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106844368B (zh) | 用于人机对话的方法、神经网络系统和用户设备 | |
WO2019153737A1 (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN111259664B (zh) | 医学文本信息的确定方法、装置、设备及存储介质 | |
CN112541056B (zh) | 医学术语标准化方法、装置、电子设备及存储介质 | |
US20180068222A1 (en) | System and Method of Advising Human Verification of Machine-Annotated Ground Truth - Low Entropy Focus | |
CN112256860A (zh) | 客服对话内容的语义检索方法、系统、设备及存储介质 | |
CN109036577A (zh) | 糖尿病并发症分析方法及装置 | |
WO2021114635A1 (zh) | 患者分群模型构建方法、患者分群方法及相关设备 | |
CN112687328B (zh) | 确定临床描述信息的表型信息的方法、设备和介质 | |
CA3164921A1 (en) | Unsupervised taxonomy extraction from medical clinical trials | |
JP5235918B2 (ja) | テキスト要約装置、テキスト要約方法及びテキスト要約プログラム | |
CN110517767A (zh) | 辅助诊断方法、装置、电子设备及存储介质 | |
JP2020187738A (ja) | 著者名の曖昧性解消のための情報処理装置、方法及び記憶媒体 | |
CN112860842A (zh) | 病历标注方法、装置及存储介质 | |
CN115862840A (zh) | 关节疼痛疾病的智能辅助诊断方法和装置 | |
Hsu et al. | Multi-label classification of ICD coding using deep learning | |
CN114758742A (zh) | 病历信息处理方法、装置、电子设备及存储介质 | |
CN117422074A (zh) | 一种临床信息文本标准化的方法、装置、设备及介质 | |
US20230298589A1 (en) | Ai platform for processing speech and video information collected during a medical procedure | |
CN109859813B (zh) | 一种实体修饰词识别方法及装置 | |
CN109241281B (zh) | 软件失效原因生成方法、装置及设备 | |
CN113362809B (zh) | 语音识别方法、装置和电子设备 | |
CN114461085A (zh) | 医疗输入推荐方法、装置、设备及存储介质 | |
CN114068028A (zh) | 医疗问诊数据处理方法及装置、可读存储介质及电子设备 | |
CN112509692B (zh) | 用于匹配医学表达的方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40023669 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |