CN114168751A - 一种基于医学知识概念图的医学文本标签识别方法及系统 - Google Patents
一种基于医学知识概念图的医学文本标签识别方法及系统 Download PDFInfo
- Publication number
- CN114168751A CN114168751A CN202111476205.3A CN202111476205A CN114168751A CN 114168751 A CN114168751 A CN 114168751A CN 202111476205 A CN202111476205 A CN 202111476205A CN 114168751 A CN114168751 A CN 114168751A
- Authority
- CN
- China
- Prior art keywords
- text
- medical
- keyword
- keywords
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 201000010099 disease Diseases 0.000 claims abstract description 67
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 67
- 238000013507 mapping Methods 0.000 claims abstract description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000007635 classification algorithm Methods 0.000 claims description 5
- 238000003064 k means clustering Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 abstract description 6
- 238000012015 optical character recognition Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 201000007270 liver cancer Diseases 0.000 description 3
- 208000014018 liver neoplasm Diseases 0.000 description 3
- 238000011524 similarity measure Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 239000010749 BS 2869 Class C1 Substances 0.000 description 1
- 239000010750 BS 2869 Class C2 Substances 0.000 description 1
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009533 lab test Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于医学知识概念图的医学文本标签识别方法及系统。该方法包括:获取医学知识图谱,医学知识图谱包括多个医学疾病概念层次树,每个医学疾病概念层次树对应疾病的一个类别;获取文本特征关键词,文本特征关键词包括从医学文本中提取的关键词;将文本特征关键词映射到医学知识图谱中,得到特征关键词图谱;确定各文本特征关键词的重要度;根据各文本特征关键词的重要度,选择识别特征关键词,识别特征关键词用于对医学文本进行疾病类别识别;基于识别特征关键词对医学文本所属的疾病类别进行识别。本发明采用用于疾病的医学知识概念图辅助基于关键词的医学文本分类,提高了医学文本准确性,进而保障了分类结果的有效性。
Description
技术领域
本发明涉及医学文本标签识别领域,特别是涉及一种基于医学知识概念图的医学文本标签识别方法及系统。
背景技术
如今,电子信息系统在智能医疗行业中越来越受欢迎。许多现有的工作集中于设计电子信息系统来收集医疗数据作为电子记录,这些医疗数据是非常有价值的知识的来源,可以为病人提供先前的医疗信息。在实际应用中,更有意义的做法是给这些医疗文件加上明确的类别标签,比如疾病类别。但在实际的工作中发现,许多档案由于其疾病信息没有被正确提取和识别而缺乏分类标签,影响着医疗信息的有效收集。
发明内容
本发明的目的是提供一种基于医学知识概念图的医学文本标签识别方法及系统,以实现对医学文本标签的有效识别。
为实现上述目的,本发明提供了如下方案:
一种基于医学知识概念图的医学文本标签识别方法,包括:
获取医学知识图谱,所述医学知识图谱包括多个医学疾病概念层次树,每个医学疾病概念层次树对应疾病的一个类别;
获取文本特征关键词,所述文本特征关键词包括从医学文本中提取的关键词;
将所述文本特征关键词映射到所述医学知识图谱中,得到特征关键词图谱;
确定各文本特征关键词的重要度,所述文本特征关键词重要度根据重要度指标计算得到,所述重要度指标包括相邻文本特征关键词的数量以及相邻文本特征关键词的重要度,所述相邻文本特征关键词为在所述特征关键词图谱中与所述文本特征关键词直接相连的文本特征关键词;
根据各文本特征关键词的重要度,选择识别特征关键词,所述识别特征关键词用于对所述医学文本进行疾病类别识别;
基于所述识别特征关键词对所述医学文本所属的疾病类别进行识别。
可选的,在所述将所述文本特征关键词映射到所述医学知识图谱中之后,在所述得到特征关键词图谱之前,还包括:
对文本特征关键词对内的文本特征关键词进行相似性计算,所述文本特征关键词对包括两个所述文本特征关键词;
在相似性大于设定值的文本特征关键词对内的文本特征关键词之间建立边。
可选的,所述对文本特征关键词对内的文本特征关键词进行相似性计算,具体包括:
根据计算文本特征关键词对内的文本特征关键词的相似性Csim(e1,e2),e1为所述文本特征关键词对内的第一文本特征关键词,e2为所述文本特征关键词对内的第二文本特征关键词,Ce1表示第一路径,所述第一路径表示在所述特征关键词图谱中,所述第一文本特征关键词到其所属最大类别节点的距离,Ce2表示第二路径,所述第二路径表示在所述特征关键词图谱中,所述第二文本特征关键词到其所属最大类别节点的距离,Ce1∩Ce2表示所述第一路径和所述第二路径相交的路径长度,L表示所述医学疾病概念层次树的深度,Cdist(e1,e2)表示在所述特征关键词图谱中,连接所述第一文本特征关键词和所述第二文本特征关键词的最短路径长度。
可选的,在所述将所述文本特征关键词映射到所述医学知识图谱中之前,还包括:
删除所述文本特征关键中的停用词、与分类任务无关的词以及医学文献的高频词。
可选的,所述确定各文本特征关键词的重要度,具体包括:
采用TextRank算法确定各文本特征关键词的重要度。
可选的,所述基于所述识别特征关键词对所述医学文本所属的疾病类别进行识别,具体包括:
根据所述识别特征关键词,采用改进的KNN分类算法或改进的K-Means聚类算法对所述医学文本所属的疾病类别进行识别。
可选的,在所述分类算法中,我们改进了KNN算法,采用我们所提出的医学文本相似度公式Sim(D1,D2)=βWDSim(D1,D2)+(1-β)KGSim(D1,D2)来计算医学文本与医学文本之间的距离。在所述聚类算法中,我们同样采用该医学文本相似度公式Sim(D1,D2)=βWDSim(D1,D2)+(1-β)KGSim(D1,D2)计算聚类中心。其中,Sim(D1,D2)表示第一医学文本D1和第二医学文本D2之间的相似度,WDSim(D1,D2)表示第一医学文本D1和第二医学文本D2之间的修正余弦相似度,β表示权重,U表示医学文本D1的实体集,V表示医学文本D2的实体集,|U|表示第一实体集的基数,|V|表示第二实体集的基数,ei表示U中第i个的实体,P(ei)表示ei映射到V的实体,P表示映射,ESim(ei,P(ei))表示ei与P(ei)之间的实体相似度。
本发明还提供了一种基于医学知识概念图的医学文本标签识别系统,包括:
医学知识图谱获取模块,用于获取医学知识图谱,所述医学知识图谱包括多个医学疾病概念层次树,每个医学疾病概念层次树对应疾病的一个类别;
文本特征关键词获取模块,用于获取文本特征关键词,所述文本特征关键词包括从医学文本中提取的关键词;
关键词映射模块,用于将所述文本特征关键词映射到所述医学知识图谱中,得到特征关键词图谱;
关键词重要度确定模块,用于确定各文本特征关键词的重要度,所述文本特征关键词重要度根据重要度指标计算得到,所述重要度指标包括相邻文本特征关键词的数量以及相邻文本特征关键词的重要度,所述相邻文本特征关键词为在所述特征关键词图谱中与所述文本特征关键词直接相连的文本特征关键词;
识别特征关键词确定模块,用于根据各文本特征关键词的重要度,选择识别特征关键词,所述识别特征关键词用于对所述医学文本进行疾病类别识别;
疾病类别识别模块,用于基于所述识别特征关键词对所述医学文本所属的疾病类别进行识别。
可选的,所述基于医学知识概念图的医学文本标签识别系统,还包括:
相似性计算模块,用于对文本特征关键词对内的文本特征关键词进行相似性计算,所述文本特征关键词对包括两个所述文本特征关键词;
边建立模块,用于在相似性大于设定值的文本特征关键词对内的文本特征关键词之间建立边;
其中,所述相似性计算模块,具体包括:
相似性计算单元,用于根据计算文本特征关键词对内的文本特征关键词的相似性Csim(e1,e2),e1为所述文本特征关键词对内的第一文本特征关键词,e2为所述文本特征关键词对内的第二文本特征关键词,Ce1表示第一路径,所述第一路径表示在所述特征关键词图谱中,所述第一文本特征关键词到其所属最大类别节点的距离,Ce2表示第二路径,所述第二路径表示在所述特征关键词图谱中,所述第二文本特征关键词到其所属最大类别节点的距离,Ce1∩Ce2表示所述第一路径和所述第二路径相交的路径长度,L表示所述医学疾病概念层次树的深度,Cdist(e1,e2)表示在所述特征关键词图谱中,连接所述第一文本特征关键词和所述第二文本特征关键词的最短路径长度。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供的基于医学知识概念图的医学文本标签识别方法及系统,通过将医学文本关键词与关于疾病的医学知识概念图相结合,即采用用于疾病的医学知识概念图辅助基于关键词的医学文本分类,提高了医学文本准确性,进而保障了分类结果的有效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的基于医学知识概念图的医学文本标签识别方法的流程示意图;
图2为本发明实施例1中一个概念层次树的例图;
图3为本发明实施例1中的文本实体映射关系示意图;
图4为本发明实施例1中的KG-kmeans算法的具体流程;
图5为本发明实施例2提供的基于医学知识概念图的医学文本标签识别系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于医学知识概念图的医学文本标签识别方法及系统,以实现对医学文本标签的有效识别。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
参见图1,本实施例提供了一种基于医学知识概念图的医学文本标签识别方法,该方法包括以下步骤:
步骤101:获取医学知识图谱,所述医学知识图谱包括多个医学疾病概念层次树,每个医学疾病概念层次树对应疾病的一个类别;
步骤102:获取文本特征关键词,所述文本特征关键词包括从医学文本中提取的关键词;
步骤103:将所述文本特征关键词映射到所述医学知识图谱中,得到特征关键词图谱;
步骤104:确定各文本特征关键词的重要度,所述文本特征关键词重要度根据重要度指标计算得到,所述重要度指标包括相邻文本特征关键词的数量以及相邻文本特征关键词的重要度,所述相邻文本特征关键词为在所述特征关键词图谱中与所述文本特征关键词直接相连的文本特征关键词;
步骤105:根据各文本特征关键词的重要度,选择识别特征关键词,所述识别特征关键词用于对所述医学文本进行疾病类别识别;
步骤106:基于所述识别特征关键词对所述医学文本所属的疾病类别进行识别。
本发明中关于疾病的医学知识图谱是一个语义丰富的医学知识图谱,经预先统计工作和先验知识分类获得,具体的统计工作可以如下:
首先,利用医学网络资源和词典中的实体和关系构建一个基本知识图谱,对于不确定的结果,提交到众包平台收集正确的答案。这些验证结果将被集成到知识图谱中。最后,从语义上将知识图谱中的同一类别的实体分组在一起,形成了一个树形结构的疾病概念层次树,也就是说每一类别对应一个树形结构的疾病概念层次树,如图2所示,图2为一个概念层次树的例图,本发明涉及多个树形结构的疾病概念层次树。
本发明基于关于疾病的医学知识图谱实现了对医学文本的挖掘,相较于现有技术中不进行挖掘直接进行分类的医学文本标签识别方法,本发明能够对医学文本的类别标签进行更准确和有效的识别。
在上述基础上,本发明对语义进行了进一步的挖掘,即步骤103在将所述文本特征关键词映射到所述医学知识图谱中后,还根据各文本特征关键词的相似程度,在文本特征关键词之间进行了边的创建,在完成文本特征关键词间边的创建工作后,得到了完善的特征关键词图谱,实现了对语义的进一步挖掘。具体的,首先对文本特征关键词对内的文本特征关键词进行相似性计算,所述文本特征关键词对包括两个所述文本特征关键词;在相似性大于设定值的文本特征关键词对内的文本特征关键词之间建立边,其中设定值可以取0。进一步的,相似性的计算公式如下:
其中,Csim(e1,e2)表示文本特征关键词对内的文本特征关键词的相似性,e1表示所述文本特征关键词对内的第一文本特征关键词,e2表示所述文本特征关键词对内的第二文本特征关键词,Ce1表示第一路径,所述第一路径表示在所述特征关键词图谱中,所述第一文本特征关键词到其所属最大类别节点的距离,Ce2表示第二路径,所述第二路径表示在所述特征关键词图谱中,所述第二文本特征关键词到其所属最大类别节点的距离,Ce1∩Ce2表示所述第一路径和所述第二路径相交的路径长度,L表示所述医学疾病概念层次树的深度,Cdist(e1,e2)表示在所述特征关键词图谱中,连接所述第一文本特征关键词和所述第二文本特征关键词的最短路径长度。如图2中HCC肝癌到癌症的最短路径为HCC肝癌-肝癌-癌症,在该路径上具有两跳,因而该路径的长度为2。
作为本实施例的一种优选的实施方式,在步骤102和步骤103之间,还包括对纸质医学文档进行统一处理,即OCR识别和预处理。OCR识别使用几个基于OCR的引擎从医学档案中提取电子文本。对于已识别的医学电子文本,预处理模块将过滤出停用词和与分类任务无关的词,对它进行中文分词得到一组候选词向量,删除一些常见的停用词,并通过统计所有医学文献的词频,将出现在大多数医学文献的高频词过滤掉,比如,获取尽可能多的医学文献,统计各词向量出现的频率,将频率高于某一预设值的词确认为高频词,该预设值可以由人为设定。
作为本实施例的一种优选的实施方式,采用TextRank算法确定各文本特征关键词的重要度。这里的重要性是指在知识图谱中该节点与其他节点的关联度,这个关联度需要看两个方面,一层是有几个节点能与该节点相连,另一层是能与之相连的节点的重要性,两个方面叠加即可得到该节点的重要性。而后可以根据排序提取具有代表性的关键词,最终得到医学文本的识别特征关键词组成的实体集。
进一步的,步骤106可以采用改进的KNN分类算法或改进的K-Mean聚类算法(即KG-kmeans聚类算法)对所述医学文本所属的疾病类别进行识别。
进一步的,对于KNN算法,本发明对其进行了改进。在训练步骤中,存储训练医学文本的实体向量和类标签,这部分医学文本即为已知类别的文本。KNN算法的具体步骤可以简单的描述为:对每个文本依次执行以下操作:(1)计算已知类别的文本与当前文本之间的距离;(2)按照距离递增次序排序;(3)选取与当前文本距离最小的k个文本;(4)确定前k个文本所在类别的出现频率;(5)返回前k个文本出现频率最高的类别作为当前文本的预测分类。
经典的KNN算法常用的余弦相似度作为两个使用tf-idf权重的词频率向量之间的距离度量使用tf-idf权重。而我们结合数据统计和语义信息,定义了一个新的相似性度量Sim(D1,D2)去计算两个医学文本之间的距离:
其中:
Sim(D1,D2)=βWDSim(D1,D2)+(1-β)KGSim(D1,D2)
其中,Sim(D1,D2)表示第一医学文本D1和第二医学文本D2之间的相似度,WDSim(D1,D2)表示第一医学文本D1和第二医学文本D2之间的修正余弦相似度,β表示权重,参见图3,U表示医学文本D1的实体集,V表示医学文本D2的实体集,|U|表示实体集U的基数,|V|表示实体集V的基数,ei表示U中第i个的实体,P(ei)表示ei映射到V的实体,P表示映射,ESim(ei,P(ei))表示ei与P(ei)之间的实体相似度(由定义5给出的公式求出)。
上述实体集U和实体集V具有相同的基数,具体参见图3。
需要说明的是,上述修正余弦相似度WDSim(D1,D2)是文章QALink:EnrichingtextdocumentswithrelevantQ&Asitecontents中提出的两个文本的相似性量度,在上述文章中WDSim(D1,D2)被称为Sim(D1,D2),
进一步的,对于聚类算法,本发明对其进行了改进,具体的,本发明基于K-Means提出了基于概念语义实现的KG-kmeans算法,该方法采用Sim(D1,D2)来计算聚类中心,得出的聚类效果更好。其中:
Sim(D1,D2)=βWDSim(D1,D2)+(1-β)KGSim(D1,D2)
其中,Sim(D1,D2)表示第一医学文本D1和第二医学文本D2之间的相似度,WDSim(D1,D2)表示第一医学文本D1和第二医学文本D2之间的修正余弦相似度,β表示权重,参见图3,U表示医学文本D1的实体集,V表示医学文本D2的实体集,|U|表示实体集U的基数,|V|表示实体集V的基数,ei表示U中第i个的实体,P(ei)表示ei映射到V的实体,P表示映射,ESim(ei,P(ei))表示ei与P(ei)之间的实体相似度(由定义5给出的公式求出)。
上述实体集U和实体集V具有相同的基数,具体参见图3。
需要说明的是,上述修正余弦相似度WDSim(D1,D2)是文章QALink:Enriching textdocuments with relevant Q&A site contents中提出的两个文本的相似性量度,在上述文章中WDSim(D1,D2)被称为Sim(D1,D2),
KG-kmeans的具体流程如图4所示,主要步骤有:
(1)输入N个医疗文档,在其中随机选择k个医疗文档作为聚类中心
(2)采用Sim(D1,D2)计算文档相似度,将每个医疗文档分配到距离最近的聚类中心。
(3)采用Sim(D1,D2)重新计算新的聚类中心;
(4)重复前面的几个步骤,直到聚类中心的分配不再改变。
这样,N个医疗文档就被聚类成了K个簇。实验结果表明,采用Sim(D1,D2)来计算聚类中心,得出的聚类效果更好,即得到的K个簇更加合理。
进一步的,本发明提供的识别方法包括两个阶段,第一阶段是利用常用的光学字符识别(OCR)引擎对医学档案进行文本识别,即抽取医学档案图片中的文本信息,如果在文本中包含疾病信息,则该医学文档可以直接用疾病信息作为类别标签,如果该文本中不包含疾病信息,即OCR没有正确识别出疾病文本信息的情况下,在第二阶段进一步基于知识图谱对医学文本进行自动标记,找到正确的疾病标签。
下面对本发明涉及的概念进行说明
考虑两个实体在相应概念层次树中的关系,定义了一个相似度度量标准来衡量两个实体之间的语义近似性。可结合上面的概念层次树例图理解下列定义。
定义1(类别链):给定一个实体e映射到它的父类别C,实体e的类别链Ce是一组包含所有从根类别到类别C的类别集合。
定义2(概念距离):给定两个实体e1和e2与它们的父类别C1和C2,它们的概念距离Cdist(e1,e2)被定义为C1和C2之间的最短路径长度。
定义3(概念相似性):给定两个实体e1和e2与它们的类别链Ce1和Ce2,它们的概念相似性Csim(e1,e2)可计算为:
概念相似性用于评价属于同一概念层次树中的两个实体的语义近似性。在上述公式中,Ce1∩Ce2表示类别链相交路径的长度,L表示概念层次树的深度。如果两个实体不在同一个概念层次树中,那么Csim(e1,e2)=0。如果e1=e2(即两个实体是同一个实体)或者L=0(即概念层次树只含有一个实体),则Csim(e1,e2)=1。
还定义了一个相似度度量标准来衡量知识图谱中两个实体之间的语义近似性。
定义4(语义距离):给定两个实体e1和e2,它们的语义距离Sdist(e1,e2)定义为知识图谱中连接它们的最短路径长度。
如果两个实体之间没有可以连通的路径,则实体之间的语义距离被定义为无穷大,即它们之间的语义相似度为0。
定义5(实体相似性):给定两个医学文献中的实体e1和e2,它们之间的实体相似性ESim(e1,e2)可定义为:
ESim(e1,e2)=αCsim(e1,e2)+(1-α)Ssim(e1,e2),α∈(0,1)。
给定两个医学文本D1和D2与他们的词向量WD1和WD2,将向量中的每个单词映射为医学知识图谱中的一个实体。然后,有两个实体集U和V。假设ei∈U和ej∈V,E∈U×V是一组由每一对实体之间的实体相似度Sim(ei,ej)加权的边。由此可以形成一个完美的二分图G=(U,V,E),那么,两个医学文本的语义相似度定义如下。
定义6(文本语义相似度):给定两个医疗文本D1和D2,和有着相同的基数的归一化代表性实体集U和V。假设P:E→V是一个双向映射。它们之间的语义相似性可定义为:
在这里,|U|和|V|是实体集的基数。该相似度度量的计算可以表述为最大加权二分图匹配问题,该问题可以采用匈牙利算法来解决。如果两个实体集基数不同,那么将空结点插入二分图中进行归一化。任何实体与空结点的相似性为0。
下面对发明的效果进行验证
在一台内存为32GB、运行Centos5.6的服务器上进行实验。
1)设置
1、数据集、参数和评价指标
从医院收集了真实世界的纵向EMR数据集和历史医学档案数据集。EMR数据集有45000个样本,这些样本是2010年到2018年的住院病人,包含20个类别标签。患者的医疗数据,如人口统计、诊断、实验室测试、药物和程序,都收集在这个数据集中。每一次住院,都有一个疾病诊断代码。这意味着数据集中的每个医疗文档只有一个疾病类标签。医学档案数据集大约有15000个样本,都是2008年到2014年的住院病人。使用几种常用的OCR工具来处理医疗档案,并且通过显式的类标签正确地识别了5000个样本。随后,从两个数据集中抽取的5万份标记良好的样本作为训练样本,从医学档案数据集中抽取的剩余的1万份未标记的文档作为测试样本。实验中的参数设置见表1。
表1:参数设定
为了评估测试数据的准确性,利用众包平台进行了实证研究。例如,针对一个医学档案的分类结果,设计了一个简单的yes或no问题,分发到众包平台以收集回答:
Q:这个医疗档案的病人是否有给定类标签的疾病?
专家可以选择“是”或“不是”来回答这个问题。对收集到的答案进行统计分析,只有当所有的答案都是“是”时,给出的类别标签才被认为是正确的。对10,000个测试样本,收集了他们的答案,得到了1600个类别标签经过验证的样本。统计数据如表2所示。为了评估中文分词工具的准确性,还进行了用户研究,将1600个验证样本分配到问答系统中,用于手动标记。将得到的标签作为实验的groundtruth。
表2:数据集统计
数据集 | 特征数量 | 样本数量 |
训练样本 | 200 | 50000 |
测试样本 | 192 | 10000 |
验证样本 | 192 | 1600 |
2、基线方法
将本发明提供的方法与三种最先进的分词工具:Jieba、HanLP和SmartChineseAnalyzer进行了比较。Jieba是一个流行的中文分词工具,使用https://github.com/fxsjy/jieba提供的源代码。该软件使用多种自然语言处理技术进行中文分词,源代码可从http://hanlp.linrunsoft.com下载。SmartChi-neseAnalyzer是Lucene中使用的智能分析器,源代码可以在http://lucene.apache.org/core/downloads.html中获取。
对于文本分类任务,使用KNN算法作为基线。对于文本聚类任务,使用K-Means算法作为基线。所有代码都是用Python实现的。
2)中文分词结果
使用Precision,Recall和Fmeansure作为评价指标。表3显示了最终的结果。从准确率来看,本发明提供的方法达到了88%,优于所有的基线。HanLP比其他基准具有更高的精度,而Jieba的精度最差。从召回率来看,本发明提供的方法也优于所有的基准,达到89%。在这些基线方法中,智能中文分析仪SmartChineseAnalyzer的召回率高于其他方法。从F的角度——measure价值,本发明提供的方法显然表现最好的。HanLP与SmartChineseAnalyzer具有相同的性能;而Jieba是所有工具中最差的一种。
表3:中文分词结果
3)文本分类结果:
使用精准率、召回率和F值作为评价指标,表4显示了文本分类的结果。改进的KNN算法KG-KNN优于传统的KNN算法。通过比较和分析各种指标的结果,可知,语义相关度可以极大地提高分类器在召回率方面的性能。
表4:分类结果
算法 | 精确率 | 召回率 | F值 |
KNN | 0.57 | 0.48 | 0.51 |
KG-KNN | 0.58 | 0.55 | 0.56 |
4)文本聚类结果
我们使用MI、AMI和Completeness作为评价指标,表5显示了文本聚类的结果。改进的K-Means算法KG-kmeans在所有指标上都优于传统的K-Means算法。
表5:聚类结果
实施例2
参见图5,本实施例提供了一种基于医学知识概念图的医学文本标签识别系统,该系统包括:
医学知识图谱获取模块401,用于获取医学知识图谱,所述医学知识图谱包括多个医学疾病概念层次树,每个医学疾病概念层次树对应疾病的一个类别;
文本特征关键词获取模块402,用于获取文本特征关键词,所述文本特征关键词包括从医学文本中提取的关键词;
关键词映射模块403,用于将所述文本特征关键词映射到所述医学知识图谱中,得到特征关键词图谱;
关键词重要度确定模块404,用于确定各文本特征关键词的重要度,所述文本特征关键词重要度根据重要度指标计算得到,所述重要度指标包括相邻文本特征关键词的数量以及相邻文本特征关键词的重要度,所述相邻文本特征关键词为在所述特征关键词图谱中与所述文本特征关键词直接相连的文本特征关键词;
识别特征关键词确定模块405,用于根据各文本特征关键词的重要度,选择识别特征关键词,所述识别特征关键词用于对所述医学文本进行疾病类别识别;
疾病类别识别模块406,用于基于所述识别特征关键词对所述医学文本所属的疾病类别进行识别。
为了实现对语义的进一步挖掘,进而保障类别识别的准确性和有效性,本发明提供的基于医学知识概念图的医学文本标签识别系统还包括:
相似性计算模块,用于对文本特征关键词对内的文本特征关键词进行相似性计算,所述文本特征关键词对包括两个所述文本特征关键词;
边建立模块,用于在相似性大于设定值的文本特征关键词对内的文本特征关键词之间建立边。
其中,所述相似性计算模块,具体包括:
相似性计算单元,用于根据计算文本特征关键词对内的文本特征关键词的相似性Csim(e1,e2),e1为所述文本特征关键词对内的第一文本特征关键词,e2为所述文本特征关键词对内的第二文本特征关键词,Ce1表示第一路径,所述第一路径表示在所述特征关键词图谱中,所述第一文本特征关键词到其所属最大类别节点的距离,Ce2表示第二路径,所述第二路径表示在所述特征关键词图谱中,所述第二文本特征关键词到其所属最大类别节点的距离,Ce1∩Ce2表示所述第一路径和所述第二路径相交的路径长度,L表示所述医学疾病概念层次树的深度,Cdist(e1,e2)表示在所述特征关键词图谱中,连接所述第一文本特征关键词和所述第二文本特征关键词的最短路径长度
实施例2提供的系统与实施例1提供的方法相对应,其余部分参考实施例1,此处不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于医学知识概念图的医学文本标签识别方法,其特征在于,包括:
获取医学知识图谱,所述医学知识图谱包括多个医学疾病概念层次树,每个医学疾病概念层次树对应疾病的一个类别;
获取文本特征关键词,所述文本特征关键词包括从医学文本中提取的关键词;
将所述文本特征关键词映射到所述医学知识图谱中,得到特征关键词图谱;
确定各文本特征关键词的重要度,所述文本特征关键词重要度根据重要度指标计算得到,所述重要度指标包括相邻文本特征关键词的数量以及相邻文本特征关键词的重要度,所述相邻文本特征关键词为在所述特征关键词图谱中与所述文本特征关键词直接相连的文本特征关键词;
根据各文本特征关键词的重要度,选择识别特征关键词,所述识别特征关键词用于对所述医学文本进行疾病类别识别;
基于所述识别特征关键词对所述医学文本所属的疾病类别进行识别。
2.根据权利要求1所述的基于医学知识概念图的医学文本标签识别方法,其特征在于,在所述将所述文本特征关键词映射到所述医学知识图谱中之后,在所述得到特征关键词图谱之前,还包括:
对文本特征关键词对内的文本特征关键词进行相似性计算,所述文本特征关键词对包括两个所述文本特征关键词;
在相似性大于设定值的文本特征关键词对内的文本特征关键词之间建立边。
3.根据权利要求2所述的基于医学知识概念图的医学文本标签识别方法,其特征在于,所述对文本特征关键词对内的文本特征关键词进行相似性计算,具体包括:
根据计算文本特征关键词对内的文本特征关键词的相似性Csim(e1,e2),e1为所述文本特征关键词对内的第一文本特征关键词,e2为所述文本特征关键词对内的第二文本特征关键词,Ce1表示第一路径,所述第一路径表示在所述特征关键词图谱中,所述第一文本特征关键词到其所属最大类别节点的距离,Ce2表示第二路径,所述第二路径表示在所述特征关键词图谱中,所述第二文本特征关键词到其所属最大类别节点的距离,Ce1∩Ce2表示所述第一路径和所述第二路径相交的路径长度,L表示所述医学疾病概念层次树的深度,Cdist(e1,e2)表示在所述特征关键词图谱中,连接所述第一文本特征关键词和所述第二文本特征关键词的最短路径长度。
4.根据权利要求2所述的基于医学知识概念图的医学文本标签识别方法,其特征在于,在所述将所述文本特征关键词映射到所述医学知识图谱中之前,还包括:
删除所述文本特征关键中的停用词、与分类任务无关的词以及医学文献的高频词。
5.根据权利要求1所述的基于医学知识概念图的医学文本标签识别方法,其特征在于,所述确定各文本特征关键词的重要度,具体包括:
采用TextRank算法确定各文本特征关键词的重要度。
6.根据权利要求1所述的基于医学知识概念图的医学文本标签识别方法,其特征在于,所述基于所述识别特征关键词对所述医学文本所属的疾病类别进行识别,具体包括:
根据所述识别特征关键词,采用改进的KNN分类算法或改进的K-Means聚类算法对所述医学文本所属的疾病类别进行识别。
7.根据权利要求6所述的基于医学知识概念图的医学文本标签识别方法,其特征在于,所述改进的KNN分类算法采用相似性度量公式Sim(D1,D2)计算两个医学文本之间的距离;
其中:
Sim(D1,D2)=βWDSim(D1,D2)+(1-β)KGSim(D1,D2)
8.根据权利要求6所述的基于医学知识概念图的医学文本标签识别方法,其特征在于,所述改进的K-Means聚类算法中采用Sim(D1,D2)=βWDSim(D1,D2)+(1-β)KGSim(D1,D2)计算聚类中心,其中,Sim(D1,D2)表示第一医学文本D1和第二医学文本D2之间的相似度,WDSim(D1,D2)表示第一医学文本D1和第二医学文本D2之间的修正余弦相似度,β表示权重,U表示医学文本D1的实体集,V表示医学文本D2的实体集,|U|表示第一实体集的基数,|V|表示第二实体集的基数,ei表示U中第i个的实体,P(ei)表示ei映射到V的实体,P表示映射,ESim(ei,P(ei))表示ei与P(ei)之间的实体相似度。
9.一种基于医学知识概念图的医学文本标签识别系统,其特征在于,包括:
医学知识图谱获取模块,用于获取医学知识图谱,所述医学知识图谱包括多个医学疾病概念层次树,每个医学疾病概念层次树对应疾病的一个类别;
文本特征关键词获取模块,用于获取文本特征关键词,所述文本特征关键词包括从医学文本中提取的关键词;
关键词映射模块,用于将所述文本特征关键词映射到所述医学知识图谱中,得到特征关键词图谱;
关键词重要度确定模块,用于确定各文本特征关键词的重要度,所述文本特征关键词重要度根据重要度指标计算得到,所述重要度指标包括相邻文本特征关键词的数量以及相邻文本特征关键词的重要度,所述相邻文本特征关键词为在所述特征关键词图谱中与所述文本特征关键词直接相连的文本特征关键词;
识别特征关键词确定模块,用于根据各文本特征关键词的重要度,选择识别特征关键词,所述识别特征关键词用于对所述医学文本进行疾病类别识别;
疾病类别识别模块,用于基于所述识别特征关键词对所述医学文本所属的疾病类别进行识别。
10.根据权利要求9所述的基于医学知识概念图的医学文本标签识别系统,其特征在于,所述基于医学知识概念图的医学文本标签识别系统,还包括:
相似性计算模块,用于对文本特征关键词对内的文本特征关键词进行相似性计算,所述文本特征关键词对包括两个所述文本特征关键词;
边建立模块,用于在相似性大于设定值的文本特征关键词对内的文本特征关键词之间建立边;
其中,所述相似性计算模块,具体包括:
相似性计算单元,用于根据计算文本特征关键词对内的文本特征关键词的相似性Csim(e1,e2),e1为所述文本特征关键词对内的第一文本特征关键词,e2为所述文本特征关键词对内的第二文本特征关键词,Ce1表示第一路径,所述第一路径表示在所述特征关键词图谱中,所述第一文本特征关键词到其所属最大类别节点的距离,Ce2表示第二路径,所述第二路径表示在所述特征关键词图谱中,所述第二文本特征关键词到其所属最大类别节点的距离,Ce1∩Ce2表示所述第一路径和所述第二路径相交的路径长度,L表示所述医学疾病概念层次树的深度,Cdist(e1,e2)表示在所述特征关键词图谱中,连接所述第一文本特征关键词和所述第二文本特征关键词的最短路径长度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111476205.3A CN114168751B (zh) | 2021-12-06 | 2021-12-06 | 一种基于医学知识概念图的医学文本标签识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111476205.3A CN114168751B (zh) | 2021-12-06 | 2021-12-06 | 一种基于医学知识概念图的医学文本标签识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114168751A true CN114168751A (zh) | 2022-03-11 |
CN114168751B CN114168751B (zh) | 2024-07-09 |
Family
ID=80483222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111476205.3A Active CN114168751B (zh) | 2021-12-06 | 2021-12-06 | 一种基于医学知识概念图的医学文本标签识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114168751B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115081444A (zh) * | 2022-05-24 | 2022-09-20 | 成都信息工程大学 | 基于条件随机场的中医文献指代词特征构建方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281530A (zh) * | 2008-05-20 | 2008-10-08 | 上海大学 | 基于概念衍生树的关键词层次聚类方法 |
CN103678275A (zh) * | 2013-04-15 | 2014-03-26 | 南京邮电大学 | 一种基于主客观语义的双层次文本相似度计算方法 |
CN104008090A (zh) * | 2014-04-29 | 2014-08-27 | 河海大学 | 一种基于概念向量模型的多主题提取方法 |
CN106709040A (zh) * | 2016-12-29 | 2017-05-24 | 北京奇虎科技有限公司 | 一种应用搜索方法和服务器 |
US20170193185A1 (en) * | 2016-01-06 | 2017-07-06 | International Business Machines Corporation | Clinically relevant medical concept clustering |
CN110232185A (zh) * | 2019-01-07 | 2019-09-13 | 华南理工大学 | 面向金融行业软件测试基于知识图谱语义相似度计算方法 |
CN110968650A (zh) * | 2019-10-30 | 2020-04-07 | 清华大学 | 基于医生协助的医疗领域知识图谱构建方法 |
CN111768869A (zh) * | 2020-09-03 | 2020-10-13 | 成都索贝数码科技股份有限公司 | 面向智能问答系统的医学指南图谱化构建搜索系统及方法 |
WO2021179693A1 (zh) * | 2020-10-19 | 2021-09-16 | 平安科技(深圳)有限公司 | 医疗文本翻译方法、装置及存储介质 |
-
2021
- 2021-12-06 CN CN202111476205.3A patent/CN114168751B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281530A (zh) * | 2008-05-20 | 2008-10-08 | 上海大学 | 基于概念衍生树的关键词层次聚类方法 |
CN103678275A (zh) * | 2013-04-15 | 2014-03-26 | 南京邮电大学 | 一种基于主客观语义的双层次文本相似度计算方法 |
CN104008090A (zh) * | 2014-04-29 | 2014-08-27 | 河海大学 | 一种基于概念向量模型的多主题提取方法 |
US20170193185A1 (en) * | 2016-01-06 | 2017-07-06 | International Business Machines Corporation | Clinically relevant medical concept clustering |
CN106709040A (zh) * | 2016-12-29 | 2017-05-24 | 北京奇虎科技有限公司 | 一种应用搜索方法和服务器 |
CN110232185A (zh) * | 2019-01-07 | 2019-09-13 | 华南理工大学 | 面向金融行业软件测试基于知识图谱语义相似度计算方法 |
CN110968650A (zh) * | 2019-10-30 | 2020-04-07 | 清华大学 | 基于医生协助的医疗领域知识图谱构建方法 |
CN111768869A (zh) * | 2020-09-03 | 2020-10-13 | 成都索贝数码科技股份有限公司 | 面向智能问答系统的医学指南图谱化构建搜索系统及方法 |
WO2021179693A1 (zh) * | 2020-10-19 | 2021-09-16 | 平安科技(深圳)有限公司 | 医疗文本翻译方法、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
何霆;吴雅婷;王华珍;熊英杰;孙偲;徐汉川;: "基于EHR的医疗知识图谱研究与应用综述", 哈尔滨工业大学学报, no. 11, 24 October 2018 (2018-10-24) * |
马满福;刘元喆;李勇;王霞;贾海;史彦斌;张小康;: "基于LCN的医疗知识问答模型", 西南大学学报(自然科学版), no. 10, 20 October 2020 (2020-10-20) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115081444A (zh) * | 2022-05-24 | 2022-09-20 | 成都信息工程大学 | 基于条件随机场的中医文献指代词特征构建方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114168751B (zh) | 2024-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019214245A1 (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
CN109344250B (zh) | 基于医保数据的单病种诊断信息快速结构化方法 | |
US10503828B2 (en) | System and method for answering natural language question | |
CN111414393A (zh) | 一种基于医学知识图谱的语义相似病例检索方法及设备 | |
CN108090068B (zh) | 医院数据库中的表的分类方法及装置 | |
US20110112995A1 (en) | Systems and methods for organizing collective social intelligence information using an organic object data model | |
CN105843850B (zh) | 搜索优化方法和装置 | |
CN109783631B (zh) | 社区问答数据的校验方法、装置、计算机设备和存储介质 | |
CN106682411A (zh) | 一种将体检诊断数据转化为疾病标签的方法 | |
WO2020243846A1 (en) | System and method for automated file reporting | |
CN107506472B (zh) | 一种学生浏览网页分类方法 | |
CN116501875B (zh) | 一种基于自然语言和知识图谱的文档处理方法和系统 | |
CN110019641B (zh) | 一种医疗否定术语的检出方法及系统 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
CN112035723A (zh) | 资源库的确定方法和装置、存储介质及电子装置 | |
CN114168751B (zh) | 一种基于医学知识概念图的医学文本标签识别方法及系统 | |
KR101920683B1 (ko) | 단일 클래스 기반의 데이터 수집 장치 및 방법 | |
CN104462552A (zh) | 问答页面核心词提取方法和装置 | |
CN111325235A (zh) | 面向多语种的通用地名语义相似度计算方法及其应用 | |
CN110502669A (zh) | 基于n边dfs子图的轻量级无监督图表示学习方法及装置 | |
CN115392375A (zh) | 一种多源数据融合度智能评估方法及其系统 | |
CN114238735A (zh) | 一种互联网数据智能采集方法 | |
CN117271796B (zh) | 一种中医典籍知识库反馈修正方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |