CN116756316A - 医疗文本的信息识别方法、装置、介质及设备 - Google Patents
医疗文本的信息识别方法、装置、介质及设备 Download PDFInfo
- Publication number
- CN116756316A CN116756316A CN202310734680.9A CN202310734680A CN116756316A CN 116756316 A CN116756316 A CN 116756316A CN 202310734680 A CN202310734680 A CN 202310734680A CN 116756316 A CN116756316 A CN 116756316A
- Authority
- CN
- China
- Prior art keywords
- medical
- text
- keywords
- information
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000002372 labelling Methods 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims description 87
- 238000004891 communication Methods 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 238000011282 treatment Methods 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 5
- 206010037660 Pyrexia Diseases 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 206010011224 Cough Diseases 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 208000004930 Fatty Liver Diseases 0.000 description 1
- 206010019708 Hepatic steatosis Diseases 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- 208000002193 Pain Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 208000010706 fatty liver disease Diseases 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 231100000240 steatosis hepatitis Toxicity 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请公开医疗文本的信息识别方法、装置、介质及设备,涉及数字医疗领域,该方法包括:基于预设医疗关键词对待识别的初始医疗文本进行关键词匹配,确定初始医疗文本中的候选医疗关键词;查询候选医疗关键词对应的关注属性,并基于候选医疗关键词和关注属性,生成初始医疗文本的标注信息;对初始医疗文本和标注信息进行融合,得到初始医疗文本对应的扩充医疗文本;通过预训练的医疗信息识别模型对扩充医疗文本进行信息识别,获得候选医疗关键词中的目标医疗关键词以及目标医疗关键词对应的关注属性信息,参考扩充医疗文本中包含的候选医疗关键词和对应的关注属性进行识别,提高了模型识别的准确率,也减少模型识别用时,提高了模型识别的效率。
Description
技术领域
本发明涉及计算机技术和数字医疗领域,特别涉及一种医疗文本的信息识别方法、装置、介质及设备。
背景技术
医疗文本包含了大量的医学知识和信息,对于医疗机构和医疗研究人员来说,从医疗文本中提取有用的信息和知识对于诊断、治疗、研究和管理都具有重要的价值。随着医疗信息化系统的发展和应用,获取医疗文本变得更加容易和便捷,同时随着自然语言处理技术的发展和应用,提出了从医疗文本中自动抽取有用的信息和知识的技术。即从医疗文本中识别出关键词,并截取关键词所在的句子进行输出,从而医护人员可以针对输出的句子进行阅读以便对医疗文本进行分析。但是面对大量医疗文本时,这种人工阅读、分析的方式就需要耗费大量的人力成本,效率较低。如何能更快速、有效的从医疗文本中提取出关键信息,是本领域一直以来的热点问题。
发明内容
有鉴于此,本发明提供了一种医疗文本的信息识别方法、装置、介质及设备,主要目的在于解决目前不能更快速、有效的从医疗文本中提取出关键信息的问题。
根据本申请的一个方面,提供了一种医疗文本的信息识别方法,该方法包括:
基于预设医疗关键词对待识别的初始医疗文本进行关键词匹配,确定所述初始医疗文本中的候选医疗关键词;
查询所述候选医疗关键词对应的关注属性,并基于所述候选医疗关键词和所述关注属性,生成所述初始医疗文本的标注信息;
对所述初始医疗文本和所述标注信息进行融合,得到所述初始医疗文本对应的扩充医疗文本;
通过预训练的医疗信息识别模型对所述扩充医疗文本进行信息识别,获得所述候选医疗关键词中的目标医疗关键词以及所述目标医疗关键词对应的关注属性信息。
可选地,所述基于预设医疗关键词对待识别的初始医疗文本进行关键词匹配,确定所述初始医疗文本中的候选医疗关键词,包括:
获取预设医疗知识图谱,其中,所述预设医疗知识图谱包括至少一个关键词节点、至少一个属性节点以及连接任一关键词节点与任一属性节点的边;
将初始医疗文本进行分词处理,获取多个词组,计算所述关键词节点与每个词组之间的相似度;
若任一关键词节点与任一词组之间的相似度满足预设条件,则将所述任一词组作为关键词词组,将所述任一关键词节点作为候选节点,并确定所述候选节点对应的关键词为所述初始医疗文本中的候选医疗关键词。
可选地,所述查询所述候选医疗关键词对应的关注属性,包括:
在所述预设医疗知识图谱中,查找与所述候选节点连接的属性节点,并将所述属性节点对应的属性作为所述候选医疗关键词对应的关注属性。
可选地,所述对所述初始医疗文本和所述标注信息进行融合,得到所述初始医疗文本对应的扩充医疗文本之前,所述方法还包括:
将所述初始医疗文本中的关键词词组替换为与所述关键词词组对应的候选医疗关键词。
可选地,所述对所述初始医疗文本和所述标注信息进行融合,得到所述初始医疗文本对应的扩充医疗文本,包括:
识别所述候选医疗关键词在所述初始医疗文本中的所在位置,并基于所述所在位置生成所述初始医疗文本的关键词序列信息;
对所述初始医疗文本、所述关键词序列信息以及所述标注信息进行融合,得到所述初始医疗文本对应的扩充医疗文本。
可选地,采用下述方法构建预设医疗知识图谱:
统计历史医疗文本中的实体词作为参考医疗关键词,并获取所述参考医疗关键词对应的参考属性;
生成所述参考医疗关键词对应的关键词节点和所述参考属性对应的属性节点;
依据每个所述参考医疗关键词对应的参考属性,构建所述关键词节点与所述属性节点之间的边,形成所述预设医疗知识图谱。
可选地,所述通过预训练的医疗信息识别模型对所述扩充医疗文本进行信息识别之前,所述方法还包括:
基于预设医疗关键词对训练医疗文本进行关键词匹配,确定所述训练医疗文本中的训练医疗关键词;
通过机器查询方式或人工方式确定所述训练医疗关键词对应的关注属性,生成所述训练医疗文本的训练标注信息,融合所述训练医疗文本和训练标注信息,得到所述训练医疗文本对应的扩充训练文本;
通过人工标注方式,确定所述训练医疗文本中的目标训练关键词以及所述目标训练关键词对应的关注属性信息,生成信息识别结果;
基于所述扩充训练文本和所述信息识别结果,采用梯度下降算法进行模型的训练,获取预训练的医疗信息识别模型。
根据本申请的另一个方面,提供了一种医疗文本的信息识别装置,包括:
候选医疗关键词确定模块,用于基于预设医疗关键词对待识别的初始医疗文本进行关键词匹配,确定所述初始医疗文本中的候选医疗关键词;
标注信息生成模块,用于查询所述候选医疗关键词对应的关注属性,并基于所述候选医疗关键词和所述关注属性,生成所述初始医疗文本的标注信息;
医疗文本扩充模块,用于对所述初始医疗文本和所述标注信息进行融合,得到所述初始医疗文本对应的扩充医疗文本;
信息识别模块,用于通过预训练的医疗信息识别模型对所述扩充医疗文本进行信息识别,获得所述候选医疗关键词中的目标医疗关键词以及所述目标医疗关键词对应的关注属性信息。
可选地,所述基于预设医疗关键词对待识别的初始医疗文本进行关键词匹配,确定所述初始医疗文本中的候选医疗关键词,包括:
获取预设医疗知识图谱,其中,所述预设医疗知识图谱包括至少一个关键词节点、至少一个属性节点以及连接任一关键词节点与任一属性节点的边;
将初始医疗文本进行分词处理,获取多个词组,计算所述关键词节点与每个词组之间的相似度;
若任一关键词节点与任一词组之间的相似度满足预设条件,则将所述任一词组作为关键词词组,将所述任一关键词节点作为候选节点,并确定所述候选节点对应的关键词为所述初始医疗文本中的候选医疗关键词。
可选地,所述查询所述候选医疗关键词对应的关注属性,包括:
在所述预设医疗知识图谱中,查找与所述候选节点连接的属性节点,并将所述属性节点对应的属性作为所述候选医疗关键词对应的关注属性。
可选地,所述医疗文本的信息识别装置还包括:
替换模块,用于将所述初始医疗文本中的关键词词组替换为与所述关键词词组对应的候选医疗关键词。
可选地,所述对所述初始医疗文本和所述标注信息进行融合,得到所述初始医疗文本对应的扩充医疗文本,包括:
识别所述候选医疗关键词在所述初始医疗文本中的所在位置,并基于所述所在位置生成所述初始医疗文本的关键词序列信息;
对所述初始医疗文本、所述关键词序列信息以及所述标注信息进行融合,得到所述初始医疗文本对应的扩充医疗文本。
可选地,所述医疗文本的信息识别装置还包括:
参考信息获取模块,用于统计历史医疗文本中的实体词作为参考医疗关键词,并获取所述参考医疗关键词对应的参考属性;
节点生成模块,用于生成所述参考医疗关键词对应的关键词节点和所述参考属性对应的属性节点;
知识图谱生成模块,并依据每个所述参考医疗关键词对应的参考属性,构建所述关键词节点与所述属性节点之间的边,形成所述预设医疗知识图谱。
可选地,所述装置还包括:
训练医疗关键词确定模块,用于基于预设医疗关键词对训练医疗文本进行关键词匹配,确定所述训练医疗文本中的训练医疗关键词;
扩充训练文本获取模块,用于通过机器查询方式或人工方式确定所述训练医疗关键词对应的关注属性,生成所述训练医疗文本的训练标注信息,融合所述训练医疗文本和训练标注信息,得到所述训练医疗文本对应的扩充训练文本;
信息识别结果生成模块,用于通过人工标注方式,确定所述训练医疗文本中的目标训练关键词以及所述目标训练关键词对应的关注属性信息,生成信息识别结果;
模型训练模块,用于基于所述扩充训练文本和所述信息识别结果,采用梯度下降算法进行模型的训练,获取预训练的医疗信息识别模型。
根据本申请的另一个方面,提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行上述医疗文本的信息识别方法对应的操作。
根据本申请的另一个方面,提供了一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述医疗文本的信息识别方法对应的操作。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本申请提供的一种医疗文本的信息识别方法、装置、设备及介质,通过预设医疗关键词与初始医疗文本的匹配,初步确定初始医疗文本中的候选医疗关键词,然后再将候选关键词所关注的属性列出来,即候选医疗关键词对应的关注属性,根据候选医疗关键词和关注属性,生成初始医疗文本的标注信息,将初始医疗文本和标注信息组合,得到扩充医疗文本,将扩充医疗文本输入至医疗信息识别模型,医疗信息识别模型在进行信息识别时,参考扩充医疗文本中包含的根据初始医疗文本初步确定的候选医疗关键词,识别出更精准的目标医疗关键词,同时参考候选医疗关键词的关注属性,进一步精准识别出目标医疗关键词对应的关注属性信息,提高了模型识别的准确率,也减少模型识别用时,提高了模型识别的效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请实施例提供的一种医疗文本的信息识别方法的流程图;
图2示出了本申请实施例提供的另一种医疗文本的信息识别方法的流程图;
图3示出了本申请实施例提供的再一种医疗文本的信息识别方法的流程图;
图4示出了本申请实施例提供的又一种医疗文本的信息识别方法的流程图;
图5示出了本申请实施例提供的另一种医疗文本的信息识别方法的流程图;
图6示出了本申请实施例提供的一种医疗文本的信息识别装置的组成框图;
图7示出了本发明实施例提供的一种计算机设备的结构示意图。
其中,
图6中:602-候选医疗关键词确定模块;604-标注信息生成模块;606-医疗文本扩充模块;608:信息识别模块;
图7中:702-处理器;704-通信接口;706-存储器;708-通信总线;710-程序。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明申请的具体实施方式、结构、特征及其功效,详细说明如后。在下述说明中,不同的“一实施例”或“实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
针对目前不能更快速、有效的从医疗文本中提取出关键信息的问题,本申请实施例提供了一种医疗文本的信息识别方法,如图1所示,该方法包括:
102:基于预设医疗关键词对待识别的初始医疗文本进行关键词匹配,确定初始医疗文本中的候选医疗关键词;
在本实施例中,初始医疗文本是从各种医疗系统平台获取的文本,例如在线诊断平台,医院使用的系统等。预设医疗关键词是预设的医疗关键词,预设的医疗关键词可以存储在任何关键词库中,也可以存储在医疗知识图谱中。将初始医疗文本与预设医疗关键词进行关键词匹配的方式很多,例如在关键词库中搜索初始医疗文本中的词组,如果搜索到相同的,就确定这个词组与该预设的医疗关键词匹配,该预设的医疗关键词就是初始医疗文本中的候选医疗关键词。本申请的医疗文本的信息识别方法应用于数字医疗场景。
在另一个本发明实施例中,为了进一步限定及说明,如图2所示,基于预设医疗关键词对待识别的初始医疗文本进行关键词匹配,确定初始医疗文本中的候选医疗关键词,包括:
202:获取预设医疗知识图谱,其中,预设医疗知识图谱包括至少一个关键词节点、至少一个属性节点以及连接任一关键词节点与任一属性节点的边;
204:将初始医疗文本进行分词处理,获取多个词组,计算关键词节点与每个词组之间的相似度;
206:若任一关键词节点与任一词组之间的相似度满足预设条件,则将任一词组作为关键词词组,将任一关键词节点作为候选节点,并确定候选节点对应的关键词为初始医疗文本中的候选医疗关键词。
在本实施例中,知识图谱本质是一种语义网络,网络由节点和边构成,网络节点表示实体或者概念或属性,边表示他们之间的关联关系。预设医疗知识图谱是由多个关键词节点和多个属性节点构成的,预设医疗关键词就是关键词节点对应的实体。对初始医疗文本进行分词处理,获得多个词组,分词处理的方法有很多,例如,使用分词软件,或者语言分割模型。计算预设医疗知识图谱中的关键词节点与每个词组的相似度,当一个词组与一个关键词节点的相似度大于预设阈值时,认为这个词组与这个关键词节点匹配,将这个词组作为关键词词组,将这个关键词节点作为候选节点,确定候选节点对应的关键词为初始医疗文本中的候选医疗关键词。
本申请提供的医疗文本的信息识别方法,与现有技术相比,通过预设医疗关键词与初始医疗文本的匹配,初步确定初始医疗文本中的候选医疗关键词,信息识别模型参考初始医疗文本中的候选医疗关键词,确定最终的目标关键词,提高信息识别模型的准确率,同时还减少识别模型识别时间。
104:查询候选医疗关键词对应的关注属性,并基于候选医疗关键词和关注属性,生成初始医疗文本的标注信息;
在本实施例中,确定初始医疗文本中的候选医疗关键词后,还把候选关键词所关注的属性列出来,从而在用模型识别信息的时候还能识别出关键词对应的关注属性信息,而且能让模型更有针对性的对关注的内容进行识别,效率更高,准确率也高。
本发明实施例中,在另一个本发明实施例中,查询候选医疗关键词对应的关注属性,包括:
在预设医疗知识图谱中,查找与候选节点连接的属性节点,并将属性节点对应的属性作为候选医疗关键词对应的关注属性。
在本实施例中,在预设医疗知识图谱中,关键词节点与对应的多个属性节点连接,确定候选节点后,直接可查找到与候选节点连接的属性节点,将这些属性节点对应的属性作为候选医疗关键词对应的关注属性。
106:对初始医疗文本和标注信息进行融合,得到初始医疗文本对应的扩充医疗文本;
在本实施例中,将初始医疗文本和标注信息进行融合,获得扩充医疗文本,扩充医疗文本中包含初始医疗文本的标注信息,预训练的医疗信息识别模型对扩充医疗文本进行信息识别时,进一步提高医疗关键词和关注属性信息的识别准确率。
本发明实施例中,在另一个本发明实施例中,对初始医疗文本和标注信息进行融合,得到初始医疗文本对应的扩充医疗文本之前,方法还包括:
将初始医疗文本中的关键词词组替换为与关键词词组对应的候选医疗关键词。
在本实施例中,将初始医疗文本中的关键词词组替换为与关键词词组对应的候选医疗关键词,使得初始医疗文本中带有候选医疗关键词,进而使得扩充医疗文本中包含候选医疗关键词,进一步提高预训练的医疗信息识别模型的识别准确率。
在另一个本发明实施例中,为了进一步限定及说明,如图3所示,对初始医疗文本和标注信息进行融合,得到初始医疗文本对应的扩充医疗文本,包括:
302:识别候选医疗关键词在初始医疗文本中的所在位置,并基于所在位置生成初始医疗文本的关键词序列信息;
304:对初始医疗文本、关键词序列信息以及标注信息进行融合,得到初始医疗文本对应的扩充医疗文本。
具体而言,在初始医疗文本中确定候选医疗关键词所在位置,根据预设的字符序列表,查询初始医疗文本中除去候选医疗关键词外每个字符对应的序列,根据候选医疗关键词所在位置和除去候选医疗关键词外每个字符对应的序列,生成初始医疗文本的关键词序列信息,将初始医疗文本、关键词序列信息以及标注信息均转换成向量形式,然后将这三个向量进行相加或相减或相乘或相除运算,获得初始医疗文本对应的扩充医疗文本。
在一个实施例中,将候选医疗关键词对应的关注属性的类型,在标注信息中有所体现,有答案固定的属性,例如咳嗽这个属性,它的答案是固定的,是或否,有答案不固定的属性,例如发烧天数这个属性,它的答案是不固定的。对初始医疗文本、关键词序列信息以及标注信息进行融合时,可以将属性类型是否有固定答案融合在扩充医疗文本中,以便于模型训练时参考,进行更精准的信息识别。
在另一个本发明实施例中,为了进一步限定及说明,如图4所示,采用下述方法构建预设医疗知识图谱:
402:统计历史医疗文本中的实体词作为参考医疗关键词,并获取参考医疗关键词对应的参考属性;
404:生成参考医疗关键词对应的关键词节点和参考属性对应的属性节点;
406:依据每个参考医疗关键词对应的参考属性,构建关键词节点与属性节点之间的边,形成预设医疗知识图谱。
在本实施例中,获取历史医疗文本,历史医疗文本可以是网络各种医疗平台提供的电子版医疗文本,也可以是医院或患者提供的纸质版医疗文本,对电子版医疗文本或纸质医疗文本进行人工批注,提取实体关键词,作为参考医疗关键词,例如,高血压、糖尿病、脂肪肝等,根据医疗知识词典或医生的关注点,确定参考医疗关键词对应的参考属性,例如,主要症状属性,如咳嗽、发热、疼痛等,还有持续时间属性,服用药品属性等,然后生成参考医疗关键词对应的关键词节点和参考属性对应的属性节点,再依据参考医疗关键词与对应的参考属性的关系,构建关键词节点与属性节点之间的边,获得预设医疗知识图谱。
108:通过预训练的医疗信息识别模型对扩充医疗文本进行信息识别,获得候选医疗关键词中的目标医疗关键词以及目标医疗关键词对应的关注属性信息。
在另一个本发明实施例中,为了进一步限定及说明,如图5所示,通过预训练的医疗信息识别模型对扩充医疗文本进行信息识别之前,方法还包括:
502:基于预设医疗关键词对训练医疗文本进行关键词匹配,确定训练医疗文本中的训练医疗关键词;
504:通过机器查询方式或人工方式确定训练医疗关键词对应的关注属性,生成训练医疗文本的训练标注信息,融合训练医疗文本和训练标注信息,得到训练医疗文本对应的扩充训练文本;
506:通过人工标注方式,确定训练医疗文本中的目标训练关键词以及目标训练关键词对应的关注属性信息,生成信息识别结果;
508:基于扩充训练文本和信息识别结果,采用梯度下降算法进行模型的训练,获取预训练的医疗信息识别模型。
在本实施例中,将预处理得到的扩充训练文本作为模型的训练数据,将信息识别结果作为训练数据对应的识别结果,也输入至模型中,应用梯度下降的方法,采用最小化损失函数训练模型参数,损失函数收敛后结束训练得到最终的模型。
作为本实施例的一个优选实施方式,训练模型采用BERT模型。
具体的,在BERT模型的输出的第一个节点的输出处接N层全连接神经网络层,对每个目标关键词输出一个向量,有K个关键词则输出有对应的K个向量。输出向量中每个维度对应该关键词以及属性的取值,每个关键词及其属性取值通过sigmoid层得到,其中取值为1表示出现该维度对应的关键词及其属性,0表示没有出现。
本申请提供了一种医疗文本的信息识别方法,与现有技术相比,通过预设医疗关键词与初始医疗文本的匹配,初步确定初始医疗文本中的候选医疗关键词,然后再将候选关键词所关注的属性列出来,即候选医疗关键词对应的关注属性,根据候选医疗关键词和关注属性,生成初始医疗文本的标注信息,将初始医疗文本和标注信息组合,得到扩充医疗文本,将扩充医疗文本输入至医疗信息识别模型,医疗信息识别模型在进行信息识别时,参考扩充医疗文本中包含的根据初始医疗文本初步确定的候选医疗关键词,识别出更精准的目标医疗关键词,同时参考候选医疗关键词的关注属性,进一步精准识别出目标医疗关键词对应的关注属性信息,提高了模型识别的准确率,也减少模型识别用时,提高了模型识别的效率。
进一步的,作为对上述图1所示方法的实现,本发明实施例提供了一种医疗文本的信息识别装置,如图6所示,该装置包括:
候选医疗关键词确定模块,用于基于预设医疗关键词对待识别的初始医疗文本进行关键词匹配,确定初始医疗文本中的候选医疗关键词;
标注信息生成模块,用于查询候选医疗关键词对应的关注属性,并基于候选医疗关键词和关注属性,生成初始医疗文本的标注信息;
医疗文本扩充模块,用于对初始医疗文本和标注信息进行融合,得到初始医疗文本对应的扩充医疗文本;
信息识别模块,用于通过预训练的医疗信息识别模型对扩充医疗文本进行信息识别,获得候选医疗关键词中的目标医疗关键词以及目标医疗关键词对应的关注属性信息。
本申请提供了一种医疗文本的信息识别装置,与现有技术相比,通过预设医疗关键词与初始医疗文本的匹配,初步确定初始医疗文本中的候选医疗关键词,然后再将候选关键词所关注的属性列出来,即候选医疗关键词对应的关注属性,根据候选医疗关键词和关注属性,生成初始医疗文本的标注信息,将初始医疗文本和标注信息组合,得到扩充医疗文本,将扩充医疗文本输入至医疗信息识别模型,医疗信息识别模型在进行信息识别时,参考扩充医疗文本中包含的根据初始医疗文本初步确定的候选医疗关键词,识别出更精准的目标医疗关键词,同时参考候选医疗关键词的关注属性,进一步精准识别出目标医疗关键词对应的关注属性信息,提高了模型识别的准确率,也减少模型识别用时,提高了模型识别的效率。
在一个实施例中,基于预设医疗关键词对待识别的初始医疗文本进行关键词匹配,确定初始医疗文本中的候选医疗关键词,包括:
获取预设医疗知识图谱,其中,预设医疗知识图谱包括至少一个关键词节点、至少一个属性节点以及连接任一关键词节点与任一属性节点的边;
将初始医疗文本进行分词处理,获取多个词组,计算关键词节点与每个词组之间的相似度;
若任一关键词节点与任一词组之间的相似度满足预设条件,则将任一词组作为关键词词组,将任一关键词节点作为候选节点,并确定候选节点对应的关键词为初始医疗文本中的候选医疗关键词。
在一个实施例中,查询候选医疗关键词对应的关注属性,包括:
在预设医疗知识图谱中,查找与候选节点连接的属性节点,并将属性节点对应的属性作为候选医疗关键词对应的关注属性。
在一个实施例中,医疗文本的信息识别装置还包括:
替换模块,用于将初始医疗文本中的关键词词组替换为与关键词词组对应的候选医疗关键词。
在一个实施例中,对初始医疗文本和标注信息进行融合,得到初始医疗文本对应的扩充医疗文本,包括:
识别候选医疗关键词在初始医疗文本中的所在位置,并基于所在位置生成初始医疗文本的关键词序列信息;
对初始医疗文本、关键词序列信息以及标注信息进行融合,得到初始医疗文本对应的扩充医疗文本。
在一个实施例中,医疗文本的信息识别装置还包括:
参考信息获取模块,用于统计历史医疗文本中的实体词作为参考医疗关键词,并获取参考医疗关键词对应的参考属性;
节点生成模块,用于生成参考医疗关键词对应的关键词节点和参考属性对应的属性节点;
知识图谱生成模块,并依据每个参考医疗关键词对应的参考属性,构建关键词节点与属性节点之间的边,形成预设医疗知识图谱。
在一个实施例中,所述装置还包括:
训练医疗关键词确定模块,用于基于预设医疗关键词对训练医疗文本进行关键词匹配,确定训练医疗文本中的训练医疗关键词;
扩充训练文本获取模块,用于通过机器查询方式或人工方式确定训练医疗关键词对应的关注属性,生成训练医疗文本的训练标注信息,融合训练医疗文本和训练标注信息,得到训练医疗文本对应的扩充训练文本;
信息识别结果生成模块,用于通过人工标注方式,确定训练医疗文本中的目标训练关键词以及目标训练关键词对应的关注属性信息,生成信息识别结果;
模型训练模块,用于基于扩充训练文本和信息识别结果,采用梯度下降算法进行模型的训练,获取预训练的医疗信息识别模型。
根据本发明一个实施例提供了一种存储介质,存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的医疗文本的信息识别方法。
图7示出了根据本发明一个实施例提供的一种计算机设备的结构示意图,本发明具体实施例并不对计算机设备的具体实现做限定。
如图7所示,该计算机设备可以包括:处理器(processor)702、通信接口(Communications Interface)704、存储器(memory)706、以及通信总线708。
其中:处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。
通信接口704,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器702,用于执行程序710,具体可以执行上述医疗文本的信息识别方法实施例中的相关步骤。
具体地,程序710可以包括程序代码,该程序代码包括计算机操作指令。
处理器702可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器706,用于存放程序710。存储器706可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序710具体可以用于使得处理器702执行以下操作:
基于预设医疗关键词对待识别的初始医疗文本进行关键词匹配,确定初始医疗文本中的候选医疗关键词;
查询候选医疗关键词对应的关注属性,并基于候选医疗关键词和关注属性,生成初始医疗文本的标注信息;
对初始医疗文本和标注信息进行融合,得到初始医疗文本对应的扩充医疗文本;
通过预训练的医疗信息识别模型对扩充医疗文本进行信息识别,获得候选医疗关键词中的目标医疗关键词以及目标医疗关键词对应的关注属性信息。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,在一个实施例中,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。
Claims (10)
1.一种医疗文本的信息识别方法,其特征在于,包括:
基于预设医疗关键词对待识别的初始医疗文本进行关键词匹配,确定所述初始医疗文本中的候选医疗关键词;
查询所述候选医疗关键词对应的关注属性,并基于所述候选医疗关键词和所述关注属性,生成所述初始医疗文本的标注信息;
对所述初始医疗文本和所述标注信息进行融合,得到所述初始医疗文本对应的扩充医疗文本;
通过预训练的医疗信息识别模型对所述扩充医疗文本进行信息识别,获得所述候选医疗关键词中的目标医疗关键词以及所述目标医疗关键词对应的关注属性信息。
2.如权利要求1所述的医疗文本的信息识别方法,其特征在于,所述基于预设医疗关键词对待识别的初始医疗文本进行关键词匹配,确定所述初始医疗文本中的候选医疗关键词,包括:
获取预设医疗知识图谱,其中,所述预设医疗知识图谱包括至少一个关键词节点、至少一个属性节点以及连接任一关键词节点与任一属性节点的边;
将初始医疗文本进行分词处理,获取多个词组,计算所述关键词节点与每个词组之间的相似度;
若任一关键词节点与任一词组之间的相似度满足预设条件,则将所述任一词组作为关键词词组,将所述任一关键词节点作为候选节点,并确定所述候选节点对应的关键词为所述初始医疗文本中的候选医疗关键词。
3.如权利要求2所述的医疗文本的信息识别方法,其特征在于,所述查询所述候选医疗关键词对应的关注属性,包括:
在所述预设医疗知识图谱中,查找与所述候选节点连接的属性节点,并将所述属性节点对应的属性作为所述候选医疗关键词对应的关注属性。
4.如权利要求1所述的医疗文本的信息识别方法,其特征在于,所述对所述初始医疗文本和所述标注信息进行融合,得到所述初始医疗文本对应的扩充医疗文本之前,所述方法还包括:
将所述初始医疗文本中的关键词词组替换为与所述关键词词组对应的候选医疗关键词。
5.如权利要求4所述的医疗文本的信息识别方法,其特征在于,所述对所述初始医疗文本和所述标注信息进行融合,得到所述初始医疗文本对应的扩充医疗文本,包括:
识别所述候选医疗关键词在所述初始医疗文本中的所在位置,并基于所述所在位置生成所述初始医疗文本的关键词序列信息;
对所述初始医疗文本、所述关键词序列信息以及所述标注信息进行融合,得到所述初始医疗文本对应的扩充医疗文本。
6.如权利要求2或3所述的医疗文本的信息识别方法,其特征在于,采用下述方法构建预设医疗知识图谱:
统计历史医疗文本中的实体词作为参考医疗关键词,并获取所述参考医疗关键词对应的参考属性;
生成所述参考医疗关键词对应的关键词节点和所述参考属性对应的属性节点,并依据每个所述参考医疗关键词对应的参考属性,构建所述关键词节点与所述属性节点之间的边,形成所述预设医疗知识图谱。
7.如权利要求1-5中任一项所述的医疗文本的信息识别方法,其特征在于,所述通过预训练的医疗信息识别模型对所述扩充医疗文本进行信息识别之前,所述方法还包括:
基于预设医疗关键词对训练医疗文本进行关键词匹配,确定所述训练医疗文本中的训练医疗关键词;
确定所述训练医疗关键词对应的关注属性,生成所述训练医疗文本的训练标注信息,融合所述训练医疗文本和训练标注信息,得到所述训练医疗文本对应的扩充训练文本;
确定所述训练医疗文本中的目标训练关键词以及所述目标训练关键词对应的关注属性信息,生成信息识别结果;
基于所述扩充训练文本和所述信息识别结果,采用梯度下降算法进行模型的训练,获取预训练的医疗信息识别模型。
8.一种医疗文本的信息识别装置,其特征在于,包括:
候选医疗关键词确定模块,用于基于预设医疗关键词对待识别的初始医疗文本进行关键词匹配,确定所述初始医疗文本中的候选医疗关键词;
标注信息生成模块,用于查询所述候选医疗关键词对应的关注属性,并基于所述候选医疗关键词和所述关注属性,生成所述初始医疗文本的标注信息;
医疗文本扩充模块,用于对所述初始医疗文本和所述标注信息进行融合,得到所述初始医疗文本对应的扩充医疗文本;
信息识别模块,用于通过预训练的医疗信息识别模型对所述扩充医疗文本进行信息识别,获得所述候选医疗关键词中的目标医疗关键词以及所述目标医疗关键词对应的关注属性信息。
9.一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的医疗文本的信息识别方法对应的操作。
10.一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的医疗文本的信息识别方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310734680.9A CN116756316A (zh) | 2023-06-19 | 2023-06-19 | 医疗文本的信息识别方法、装置、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310734680.9A CN116756316A (zh) | 2023-06-19 | 2023-06-19 | 医疗文本的信息识别方法、装置、介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116756316A true CN116756316A (zh) | 2023-09-15 |
Family
ID=87958578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310734680.9A Pending CN116756316A (zh) | 2023-06-19 | 2023-06-19 | 医疗文本的信息识别方法、装置、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116756316A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117373594A (zh) * | 2023-10-24 | 2024-01-09 | 广州国家实验室 | 医疗信息确定方法、装置、设备及介质 |
-
2023
- 2023-06-19 CN CN202310734680.9A patent/CN116756316A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117373594A (zh) * | 2023-10-24 | 2024-01-09 | 广州国家实验室 | 医疗信息确定方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109933785B (zh) | 用于实体关联的方法、装置、设备和介质 | |
CN107491547B (zh) | 基于人工智能的搜索方法和装置 | |
JP3067966B2 (ja) | 画像部品を検索する装置及びその方法 | |
CN111539197B (zh) | 文本匹配方法和装置以及计算机系统和可读存储介质 | |
CN113127605B (zh) | 一种目标识别模型的建立方法、系统、电子设备及介质 | |
CN111274829A (zh) | 一种利用跨语言信息的序列标注方法 | |
CN116756316A (zh) | 医疗文本的信息识别方法、装置、介质及设备 | |
US20090234852A1 (en) | Sub-linear approximate string match | |
CN110795544B (zh) | 内容搜索方法、装置、设备和存储介质 | |
CN114021573B (zh) | 一种自然语言处理方法、装置、设备及可读存储介质 | |
US20190034410A1 (en) | Unsupervised Template Extraction | |
CN113722507B (zh) | 基于知识图谱的住院费用预测方法、装置及计算机设备 | |
CN112800244B (zh) | 一种中医药及民族医药知识图谱的构建方法 | |
US20240037939A1 (en) | Contrastive captioning for image groups | |
CN114328800A (zh) | 文本处理方法、装置、电子设备和计算机可读存储介质 | |
Perdana et al. | Instance-based deep transfer learning on cross-domain image captioning | |
CN110209895B (zh) | 向量检索方法、装置和设备 | |
CN111368532A (zh) | 一种基于lda的主题词嵌入消歧方法及系统 | |
CN116719915A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN114676258B (zh) | 一种基于症状描述文本的非诊断为目的的疾病分类方法 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
Yang et al. | Automatic metadata information extraction from scientific literature using deep neural networks | |
CN112650951A (zh) | 一种企业相似度匹配方法、系统和计算装置 | |
CN114118072A (zh) | 文档结构化方法、装置、电子设备和计算机可读存储介质 | |
CN114417869A (zh) | 实体识别方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |