CN112949306B - 命名实体识别模型创建方法、装置、设备及可读存储介质 - Google Patents
命名实体识别模型创建方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN112949306B CN112949306B CN201911259693.5A CN201911259693A CN112949306B CN 112949306 B CN112949306 B CN 112949306B CN 201911259693 A CN201911259693 A CN 201911259693A CN 112949306 B CN112949306 B CN 112949306B
- Authority
- CN
- China
- Prior art keywords
- named entity
- named
- text data
- candidate
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 22
- 230000003044 adaptive effect Effects 0.000 claims abstract description 21
- 201000010099 disease Diseases 0.000 claims abstract description 21
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 21
- 230000008073 immune recognition Effects 0.000 claims description 6
- 229940079593 drug Drugs 0.000 claims description 3
- 239000003814 drug Substances 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 12
- 206010028980 Neoplasm Diseases 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 7
- 210000004072 lung Anatomy 0.000 description 6
- 238000002372 labelling Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000008076 immune mechanism Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007721 medicinal effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开一种命名实体识别模型创建方法、装置、设备及可读存储介质。所述方法包括:获取与预设疾病相关的第一文本数据及与所述预设疾病不相关的第二文本数据;将所述第一文本数据与所述第二文本数据进行对比,确定出所述第一文本数据包含的参考命名实体;基于适应性免疫算法,对所述参考命名实体进行识别,以识别出候选命名实体;以及将所述候选命名实体输入至命名实体识别模型中。根据本发明提供的命名实体识别模型创建方法,经过持续的人工免疫学习过程,能够不断地积累来自真实环境的候选命名实体,进而创建并优化可快速、精准识别医疗文本中命名实体的模型。
Description
技术领域
本发明涉及自然语言处理领域,具体而言,涉及一种命名实体识别模型创建方法、装置、电子设备及计算机可读存储介质。
背景技术
医务人员在医疗活动中,借助医疗机构信息系统生成包含文字、符号、图表、图形、影像等数字化信息的电子病历(Electronic Medical Record,EMR),以用于存储、传输、重现、管理患者的医疗记录。电子病历中的命名实体和实体关系反映了患者健康状况,因此,通过分析电子病历挖掘与患者密切相关的医疗知识是医疗领域的共识。
然而,电子病历并不完全是结构化的文本数据,其中还包括自由文本等非结构数据,这导致了机器搜索、统计分析命名实体时的困难。因此,自然语言处理、信息抽取等技术可在医疗语言处理(Medical Language Processing,MLP)领域的数据挖掘中发挥重要作用。
现阶段通常采用下述两种方式识别和抽取命名实体:第一、基于监督学习的方式,使用人工标注的模板从医疗文本中识别和抽取命名实体;第二、基于无监督学习的方式从医疗文本中识别和抽取命名实体。但是,监督学习需使用大量的人工标注数据,获得这些标注数据必须投入大量人力和时间成本;无监督学习需调用基于外部知识的自动抽取算法,虽然不再需要人工标注,但其抽取出的数据量有限,且并未考虑来自真实医疗环境的临床数据,即未考虑实际诊疗过程中患者健康状况的复杂性,难以保证最终结论的准确性。
在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种命名实体识别模型创建与命名实体识别方法、装置、电子设备及计算机可读存储介质。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明的一方面,提供一种命名实体识别模型创建方法,包括:获取与预设疾病相关的第一文本数据及与所述预设疾病不相关的第二文本数据;将所述第一文本数据与所述第二文本数据进行对比,确定出所述第一文本数据包含的参考命名实体;基于适应性免疫算法,对所述参考命名实体进行识别,以识别出候选命名实体;以及将所述候选命名实体输入至命名实体识别模型中。
根据本发明的一实施方式,确定出所述第一文本数据包含的参考命名实体包括:将所述第一文本数据中与所述第二文本数据中对应所述预设疾病相关内容不同的数据确定为所述参考命名实体。
根据本发明的一实施方式,基于适应性免疫算法,对所述参考命名实体进行识别,以识别出候选命名实体包括:基于适应性免疫算法,检测所述参考命名实体的边界,以识别出候选命名实体。
根据本发明的一实施方式,基于适应性免疫算法,检测所述参考命名实体的边界,以识别出候选命名实体包括:基于适应性免疫算法,根据所述命名实体识别模型中已存储的候选命名实体,检测所述参考命名实体的边界,以识别出候选命名实体。
根据本发明的一实施方式,在识别出所述候选命名实体之前,所述方法还包括:根据预设词典对所述参考命名实体进行分类,确定所述参考命名实体的类别。
根据本发明的一实施方式,对所述参考命名实体进行识别,以识别出候选命名实体包括:基于所述参考命名实体的类别,对所述参考命名实体进行识别,以识别出候选命名实体及所述候选命名实体对应的类别。
根据本发明的一实施方式,所述类别包括下述类别中的至少一种:手术名称、诊断名称、药物名称、检验名称。
根据本发明的另一方面,提供一种命名实体识别方法,包括:获取待识别语句;将所述待识别语句输入根据上述任一种命名实体识别模型创建方法所创建的命名实体识别模型,进行命名实体识别;以及获得从所述待识别语句中识别出的命名实体。
根据本发明的再一方面,提供一种命名实体识别模型创建装置,包括:数据获取模块,用于获取与预设疾病相关的第一文本数据及与所述预设疾病不相关的第二文本数据;数据对比模块,用于将所述第一文本数据与所述第二文本数据进行对比,确定出所述第一文本数据包含的参考命名实体;免疫识别模块,用于基于适应性免疫算法,对所述参考命名实体进行识别,以识别出候选命名实体;以及模型创建模块,用于将所述候选命名实体输入至命名实体识别模型中。
根据本发明的再一方面,提供一种命名实体识别装置,包括:语句获取模块,用于获取待识别语句;实体识别模块,用于将所述待识别语句输入根据上述命名实体识别模型创建装置所创建的命名实体识别模型,进行命名实体识别;以及实体获取模块,用于获得从所述待识别语句中识别出的命名实体。
根据本发明的再一方面,提供一种电子设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,所述处理器执行所述可执行指令时实现如上述任一种方法。
根据本发明的再一方面,提供一种计算机可读存储介质,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现如上述任一种方法。
根据本发明提供的命名实体识别模型创建方法,经过持续的人工免疫学习过程,能够不断地积累来自真实环境的候选命名实体,进而创建并优化可快速、精准识别医疗文本中命名实体的模型。
根据本发明提供的命名实体识别方法,能够直接应用根据本发明上述方法所创建的命名实体识别模型,快速、准确地识别出医疗文本中的命名实体,无需投入任何人工标注成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
通过参照附图详细描述其示例实施例,本发明的上述和其它目标、特征及优点将变得更加显而易见。
图1是根据一示例性实施方式示出的一种命名实体识别模型创建方法的流程图。
图2是根据一示例性实施例示出的一种命名实体识别方法的流程图。
图3是根据一示例性实施方式示出的一种命名实体识别模型创建装置的框图。
图4是根据一示例性实施方式示出的一种命名实体识别装置的框图。
图5是根据一示例性实施方式示出的一种电子设备的结构示意图。
图6是根据一示例性实施方式示出的一种计算机可读存储介质的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本发明的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本发明的各方面变得模糊。
此外,在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。符号“/”一般表示前后关联对象是一种“或”的关系。术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
在自然语言中,命名实体具有独立的意义,其通常作为一个整体出现在语句中。命名实体识别(Named Entity Recognition,NER)是指识别文本中具有特定意义的实体,主要包括:人、地名、机构名、专有名词等,在一些扩展任务中还包括命名实体的单复数识别等。命名实体识别本质上是一个模式识别任务,即:给定一个句子,识别出句子中命名实体的边界和类型。该任务通常把边界信息和类型信息组合成一系列标记,识别任务实际就是为句子中的每一个词赋予一个标记。
如上所述,现阶段无论是采用监督学习还是无监督学习的方式,识别医疗文本中的命名实体时均存在极大的技术障碍或缺陷。因此,本发明提出一种命名实体识别模型创建方法,经过持续的人工免疫学习过程,能够不断地积累来自真实环境的候选命名实体,进而创建并优化可快速、精准识别医疗文本中命名实体的模型。
图1是根据一示例性实施方式示出的一种命名实体识别模型创建方法的流程图。如图1所示的命名实体识别模型创建方法例如可以应用于创建识别电子病历中命名实体的模型。
参考图1,命名实体识别模型创建方法10包括:
在步骤S102中,获取与预设疾病相关的第一文本数据及与预设疾病不相关的第二文本数据。
在步骤S104中,将第一文本数据与第二文本数据进行对比,确定出第一文本数据包含的参考命名实体。
在一些实施例中,步骤S104可包括:将第一文本数据中与第二文本数据中对应预设疾病相关内容不同的数据确定为参考命名实体。
以《肿瘤》期刊中的文章为例:承上述,传统的命名实体识别方法是对文章进行人工标注,手工标示出哪些是肿瘤实体、哪些是医疗实体、哪些是药物实体、哪些是基因实体等。这需要大量的人力与时间才能够获得比较精确的识别效果,且当面对新的文本场景时必须重新标注和学习。而在本发明实施方式中,例如通过机器学习,将肿瘤相关文本(即第一文本数据,来源于《肿瘤》期刊中的文章)与大量非肿瘤相关文本(即第二文本数据,例如可来源于非肿瘤类疾病的单语/双语/多语语料库)进行对比,可自动提取出肿瘤相关文本中与非肿瘤相关文本的不同之处,这些不同点大概率是表征“肿瘤类疾病”信息的内容,因此将其作为参考命名实体。
需要说明的是,本发明并不以上述预设疾病的类型及文本数据的来源为限定。
在步骤S106中,基于适应性免疫算法,对参考命名实体进行识别,以识别出候选命名实体。
在一些实施例中,步骤S106可包括:基于适应性免疫算法,检测参考命名实体的边界,以识别出候选命名实体。更进一步地,步骤S106可包括:基于适应性免疫算法,根据命名实体识别模型中已存储的候选命名实体,检测参考命名实体的边界,以识别出候选命名实体。
具体地,适应性免疫算法是在模拟生物体免疫机制的基础上提出的,因此在根据命名实体识别模型中已有的候选命名实体检测参考命名实体的边界时,除能够识别出边界完全吻合的候选命名实体外,还能够识别出边界相关联但并不完全吻合的候选命名实体。例如,命名实体识别模型中已有候选命名实体“左肺右上侧”(边界为{“左”和“侧”}),则在基于适应性免疫算法检测参考命名实体的边界时,既可以将参考命名实体“左肺右上侧”识别为候选命名实体,也可以将参考命名实体“右肺右上侧”(边界为{“右”和“侧”})识别为候选命名实体。这是适应性免疫算法的学习结果,故不会因该参考命名实体的单侧边界未与已有候选命名实体的边界完全吻合而忽略识别。
在步骤S108中,将候选命名实体输入至命名实体识别模型中。
承上述,参考命名实体“右肺右上侧”在被识别为候选命名实体后,进入命名实体识别模型中。在下一次循环步骤S102~S106时,命名实体识别模型中已存储有候选命名实体“左肺右上侧”和“右肺右上侧”。以此类推,候选命名实体不断地进行积累,创建的命名实体识别模型也就越发趋于优化。在一定时间后,对于例如800兆大小的电子病历,命名实体识别模型仅需数秒即可通过边界检测识别出全部的候选命名实体,而人工标注可能需要数月甚至数年。
另外,承上述,语句中的每个词对应的识别标记包含边界信息及类型信息的组合。因此,在一些实施例中,在根据步骤S106识别出候选命名实体之前,方法10还可以包括:根据预设词典对参考命名实体进行分类,确定参考命名实体的类别。相对应地,步骤S106还可进一步包括:基于参考命名实体的类别,对参考命名实体进行识别,以识别出候选命名实体及候选命名实体对应的类别。
其中,预设词典例如可以是真实世界中存在的医学词典,也可以是嵌于命名实体识别模型并随命名实体识别模型的动态创建过程逐渐形成的医学词典,本发明并不以此为限。对于后者而言,词典中的多个类别,例如:手术名称、诊断名称、药物名称、检验名称等可根据模型中已存储候选命名实体的分类结果确定。
根据本发明实施方式提供的命名实体识别模型创建方法,经过持续的人工免疫学习过程,能够不断地积累来自真实环境的候选命名实体,进而创建并优化可快速、精准识别医疗文本中命名实体的模型。
应清楚地理解,本发明描述了如何形成和使用特定示例,但本发明的原理不限于这些示例的任何细节。相反,基于本发明公开的内容的教导,这些原理能够应用于许多其它实施方式。
图2是根据一示例性实施方式示出的一种命名实体识别方法的流程图。如图2所示的命名实体识别方法例如可以应用于识别电子病历中的命名实体。
参考图2,命名实体识别方法20包括:
在步骤S202中,获取待识别语句,例如可获取电子病历中的语句。
在步骤S204中,将待识别语句输入根据上述方法10所创建的命名实体识别模型,进行命名实体识别。
在步骤S206中,获得从待识别语句中识别出的命名实体。
根据本发明实施方式提供的命名实体识别方法,能够直接应用根据本发明上述方法所创建的命名实体识别模型,快速、准确地识别出医疗文本中的命名实体,无需投入任何人工标注成本。
本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本发明示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图3是根据一示例性实施方式示出的一种命名实体识别模型创建装置的框图。
参考图3,命名实体识别模型创建装置30包括:数据获取模块302、数据对比模块304、免疫识别模块306以及模型创建模块308。
其中,数据获取模块302用于获取与预设疾病相关的第一文本数据及与预设疾病不相关的第二文本数据。
数据对比模块304用于将第一文本数据与第二文本数据进行对比,确定出第一文本数据包含的参考命名实体。
在一些实施例中,数据对比模块304可进一步包括:初步确定单元,用于将第一文本数据中与第二文本数据中对应预设疾病相关内容不同的数据确定为参考命名实体。
免疫识别模块306用于基于适应性免疫算法,对参考命名实体进行识别,以识别出候选命名实体。
在一些实施例中,免疫识别模块306可进一步包括:边界检测单元,用于基于适应性免疫算法检测参考命名实体的边界,以识别出候选命名实体。
进一步地,在一些实施例中,边界检测单元可包括:边界检测子单元,用于基于适应性免疫算法,根据命名实体识别模型中已存储的候选命名实体,检测参考命名实体的边界,以识别出候选命名实体。
模型创建模块308用于将候选命名实体输入至命名实体识别模型中。
在一些实施例中,装置30还可包括:实体分类模块310,用于在免疫识别模块306识别出候选命名实体之前,根据预设词典对参考命名实体进行分类,确定参考命名实体的类别;相对应地,在一些实施例中,免疫识别模块306还可进一步包括:同步识别单元,用于基于参考命名实体的类别,对参考命名实体进行识别,以识别出候选命名实体及候选命名实体对应的类别。在一些实施例中,同步识别单元与边界检测单元实为一个单元。
根据本发明实施方式提供的命名实体识别模型创建装置,经过持续的人工免疫学习过程,能够不断地积累来自真实环境的候选命名实体,进而创建并优化可快速、精准识别医疗文本中命名实体的模型。
图4是根据一示例性实施方式示出的一种命名实体识别装置的框图。
参考图4,命名实体识别装置40包括:语句获取模块402、实体识别模块404以及实体获取模块406。
其中,语句获取模块402用于获取待识别语句。
实体识别模块404用于将待识别语句输入根据上述装置30所创建的命名实体识别模型,进行命名实体识别。
实体获取模块406用于获得从待识别语句中识别出的命名实体。
根据本发明提供的命名实体识别装置,能够直接应用根据本发明上述装置所创建的命名实体识别模型,快速、准确地识别出医疗文本中的命名实体,无需投入任何人工标注成本。
需要注意的是,上述附图中所示的框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
图5是根据一示例性实施方式示出的一种电子设备的结构示意图。需要说明的是,图5示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备600以通用计算机设备的形式表现。电子设备600的组件包括:至少一个中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序代码或者从至少一个存储单元608加载到随机访问存储器(RAM)603中的程序代码而执行各种适当的动作和处理。
特别地,根据本发明的实施例,所述程序代码可以被中央处理单元601执行,使得中央处理单元601执行本说明书上述方法实施例部分中描述的根据本发明各种示例性实施方式的步骤。例如,中央处理单元601可以执行如图1和2中所示的步骤。
在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。CPU 601、ROM602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入单元606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出单元607;包括硬盘等的存储单元608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信单元609。通信单元609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储单元608。
图6是根据一示例性实施方式示出的一种计算机可读存储介质的示意图。
参考图6所示,描述了根据本发明的实施方式的设置为实现上述方法的程序产品700,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如图1和2中所示的功能。
以上具体地示出和描述了本发明的示例性实施方式。应可理解的是,本发明不限于这里描述的详细结构、设置方式或实现方法;相反,本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
Claims (10)
1.一种命名实体识别模型创建方法,其特征在于,包括:
获取与预设疾病相关的第一文本数据及与所述预设疾病不相关的第二文本数据;
将所述第一文本数据与所述第二文本数据进行对比,确定出所述第一文本数据包含的参考命名实体;
基于适应性免疫算法,对所述参考命名实体进行识别,以识别出候选命名实体;以及
将所述候选命名实体输入至命名实体识别模型中;
其中,基于适应性免疫算法,对所述参考命名实体进行识别,以识别出候选命名实体包括:基于适应性免疫算法,根据所述命名实体识别模型中已存储的候选命名实体,检测所述参考命名实体的边界,以识别出候选命名实体。
2.根据权利要求1所述的方法,其特征在于,确定出所述第一文本数据包含的参考命名实体包括:将所述第一文本数据中与所述第二文本数据中对应所述预设疾病相关内容不同的数据确定为所述参考命名实体。
3.根据权利要求1所述的方法,其特征在于,在识别出所述候选命名实体之前,所述方法还包括:根据预设词典对所述参考命名实体进行分类,确定所述参考命名实体的类别。
4.根据权利要求3所述的方法,其特征在于,对所述参考命名实体进行识别,以识别出候选命名实体包括:基于所述参考命名实体的类别,对所述参考命名实体进行识别,以识别出候选命名实体及所述候选命名实体对应的类别。
5.根据权利要求3所述的方法,其特征在于,所述类别包括下述类别中的至少一种:手术名称、诊断名称、药物名称、检验名称。
6.一种命名实体识别方法,其特征在于,包括:
获取待识别语句;
将所述待识别语句输入根据权利要求1-5任一项所述的方法创建的命名实体识别模型进行命名实体识别;以及
获得从所述待识别语句中识别出的命名实体。
7.一种命名实体识别模型创建装置,其特征在于,包括:
数据获取模块,用于获取与预设疾病相关的第一文本数据及与所述预设疾病不相关的第二文本数据;
数据对比模块,用于将所述第一文本数据与所述第二文本数据进行对比,确定出所述第一文本数据包含的参考命名实体;
免疫识别模块,用于基于适应性免疫算法,对所述参考命名实体进行识别,以识别出候选命名实体;以及
模型创建模块,用于将所述候选命名实体输入至命名实体识别模型中;
其中,所述免疫识别模块,还用于基于适应性免疫算法,根据命名实体识别模型中已存储的候选命名实体,检测参考命名实体的边界,以识别出候选命名实体。
8.一种命名实体识别装置,其特征在于,包括:
语句获取模块,用于获取待识别语句;
实体识别模块,用于将所述待识别语句输入根据权利要求7所述的装置创建的命名实体识别模型进行命名实体识别;以及
实体获取模块,用于获得从所述待识别语句中识别出的命名实体。
9.一种电子设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,其特征在于,所述处理器执行所述可执行指令时实现如权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,所述可执行指令被处理器执行时实现如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911259693.5A CN112949306B (zh) | 2019-12-10 | 2019-12-10 | 命名实体识别模型创建方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911259693.5A CN112949306B (zh) | 2019-12-10 | 2019-12-10 | 命名实体识别模型创建方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112949306A CN112949306A (zh) | 2021-06-11 |
CN112949306B true CN112949306B (zh) | 2024-04-30 |
Family
ID=76225653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911259693.5A Active CN112949306B (zh) | 2019-12-10 | 2019-12-10 | 命名实体识别模型创建方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112949306B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407183A (zh) * | 2016-09-28 | 2017-02-15 | 医渡云(北京)技术有限公司 | 医疗命名实体识别系统生成方法及装置 |
CN107808124A (zh) * | 2017-10-09 | 2018-03-16 | 平安科技(深圳)有限公司 | 电子装置、医疗文本实体命名的识别方法及存储介质 |
CN110276075A (zh) * | 2019-06-21 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 模型训练方法、命名实体识别方法、装置、设备及介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4200645B2 (ja) * | 2000-09-08 | 2008-12-24 | 日本電気株式会社 | 情報処理装置、情報処理方法および記録媒体 |
KR100755678B1 (ko) * | 2005-10-28 | 2007-09-05 | 삼성전자주식회사 | 개체명 검출 장치 및 방법 |
-
2019
- 2019-12-10 CN CN201911259693.5A patent/CN112949306B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407183A (zh) * | 2016-09-28 | 2017-02-15 | 医渡云(北京)技术有限公司 | 医疗命名实体识别系统生成方法及装置 |
CN107808124A (zh) * | 2017-10-09 | 2018-03-16 | 平安科技(深圳)有限公司 | 电子装置、医疗文本实体命名的识别方法及存储介质 |
CN110276075A (zh) * | 2019-06-21 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 模型训练方法、命名实体识别方法、装置、设备及介质 |
Non-Patent Citations (4)
Title |
---|
A Boundary-aware Neural Model for Nested Named Entity Recognition;Changmeng Zheng et al;Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing;357-366 * |
Overview of CCKS 2018 Task 1: Named Entity Recognition in Chinese Electronic Medical Records;Jiangtao Zhang et al;CCKS 2019;158-164 * |
基于查询热度和实体识别的查询推荐;任育伟;吕学强;李卓;徐丽萍;;计算机应用研究(第03期);657-660 * |
基于联合模型的中文嵌套命名实体识别;尹迪等;南京师大学报( 自然科学版);第37卷(第3期);29-35 * |
Also Published As
Publication number | Publication date |
---|---|
CN112949306A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10929420B2 (en) | Structured report data from a medical text report | |
JP6749835B2 (ja) | コンテキスト依存医学データ入力システム | |
RU2686627C1 (ru) | Автоматическое создание ориентированной на показатели продольной области для просмотра показателей пациента | |
US7949167B2 (en) | Automatic learning of image features to predict disease | |
JP2020149682A (ja) | 治療順序を判定する方法、コンピュータプログラム及びコンピューティング装置 | |
Carchiolo et al. | Medical prescription classification: a NLP-based approach | |
RU2711305C2 (ru) | Связывание отчета / изображения | |
US20160239564A1 (en) | Information processing apparatus, information processing method, information processing system, and storage medium | |
CN111627512A (zh) | 一种相似病历的推荐方法、装置,电子设备及存储介质 | |
CN111145903B (zh) | 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统 | |
US20230154593A1 (en) | Systems and methods for medical data processing | |
CN111597789A (zh) | 一种电子病历文本的评估方法及设备 | |
CN112699230A (zh) | 一种恶性肿瘤诊疗知识获取方法及装置 | |
CN111180026A (zh) | 专科诊疗视图系统及方法 | |
US10235360B2 (en) | Generation of pictorial reporting diagrams of lesions in anatomical structures | |
CN115295111A (zh) | 一种结构化报告生成方法、系统及存储介质 | |
CN111159977A (zh) | 一种人类表型标准用语确定方法及装置 | |
CN112347773B (zh) | 基于bert模型的医学应用模型训练方法及装置 | |
CN116992839B (zh) | 病案首页自动生成方法、装置及设备 | |
CN112699669B (zh) | 流行病学调查报告的自然语言处理方法、装置及存储介质 | |
CN109920536A (zh) | 一种识别单病种的装置及存储介质 | |
CN117894439A (zh) | 一种基于人工智能的导诊方法、系统、电子设备及介质 | |
CN112949306B (zh) | 命名实体识别模型创建方法、装置、设备及可读存储介质 | |
Rocha et al. | A speech-to-text interface for mammoclass | |
Zubke et al. | Using openEHR archetypes for automated extraction of numerical information from clinical narratives |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |