CN116721778B - 一种医学术语标准化方法、系统、设备及介质 - Google Patents
一种医学术语标准化方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN116721778B CN116721778B CN202311000882.7A CN202311000882A CN116721778B CN 116721778 B CN116721778 B CN 116721778B CN 202311000882 A CN202311000882 A CN 202311000882A CN 116721778 B CN116721778 B CN 116721778B
- Authority
- CN
- China
- Prior art keywords
- medical term
- medical
- term
- terms
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011425 standardization method Methods 0.000 title abstract description 6
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 39
- 238000002372 labelling Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 11
- 230000001915 proofreading effect Effects 0.000 claims description 30
- 238000012795 verification Methods 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本申请公开了一种医学术语标准化方法、系统、设备及介质,主要涉及医学术语标准化技术领域,用以解决现有医学术语在训练过程中需要提供大量标注数据,存在标注误差,影响医学术语的准确性的问题。包括:获取医学术语标注数据,使用医学术语标注数据训练预设小样本对比学习算法;通过训练好的预设小样本对比学习算法,将医学术语数据库中的医学术语进行编码,以获得对应的第一向量化表示;将第一向量化表示放入向量化搜索引擎中,以更新向量化搜索引擎;通过训练好的预设小样本对比学习算法,获取输入的待标准化医学术语对应的第二向量化表示;通过更新后的向量化搜索引擎,获取第二向量化表示在医学术语数据库中对应的标准医学术语。
Description
技术领域
本申请涉及医学术语标准化技术领域,尤其涉及一种医学术语标准化方法、系统、设备及介质。
背景技术
医学术语标准化是将不同来源或格式的医学术语统一为一种标准形式的过程,旨在实现数据的互操作性。这对于数据要素共享、医疗决策支持系统、医疗科学研究等都至关重要。然而,医学术语的多样性和复杂性导致了术语间的映射和转换问题。例如,同一种疾病在不同的术语集中可能有不同的编码和名称。此外,医生在记录病人信息时可能会使用各种缩写、同义词和非正式的术语,这进一步增加了标准化的复杂性。
现有的医学术语标准化的实现方案主要为:获取医学术语原始数据;对医学术语原始数据进行分类,得到短术语类数据和长术语类数据;建立与短术语类数据对应的同义词库;根据同义词库、变体规则库、召回模型和排序模型构建医学术语标准化框架。
但是,上述方法为了使后续模型能够得到有效的训练,需要为算法提供大量的分类标注数据。而分类标注数据需要大量的时间和人力资源,也存在因为标注者的专业知识、经验和注意力等因素的不同导致同一份数据给出不同的标注结果从而导致标注结果的一致性和可靠性降低的问题。
发明内容
针对现有技术的上述不足,本申请提供一种医学术语标准化方法、系统、设备及介质,以解决现有医学术语在训练过程中需要提供大量标注数据,存在标注误差,影响医学术语的准确性的技术问题。
第一方面,本申请提供了一种医学术语标准化方法,方法包括:创建医学术语数据库和数据库对应的向量化搜索引擎;其中,医学术语数据库包含若干医学术语,医学术语至少包括非标准医学术语、标准医学术语,医学术语数据库包含非标准医学术语和标准医学术语之间的对应关系;获取医学术语标注数据,使用医学术语标注数据训练预设小样本对比学习算法;通过训练好的预设小样本对比学习算法,将医学术语数据库中的医学术语进行编码,以获得对应的第一向量化表示;将第一向量化表示放入向量化搜索引擎中,以更新向量化搜索引擎;通过训练好的预设小样本对比学习算法,获取输入的待标准化医学术语对应的第二向量化表示;通过更新后的向量化搜索引擎,获取第二向量化表示在医学术语数据库中对应的标准医学术语。
进一步地,方法还包括:检测输入的待标准化医学术语是否存在于医学术语数据集中,在不存在于医学术语数据集中时,将输入的待标准化医学术语以及待标准化医学术语与标准医学术语之间的对应关系导入医学术语数据集中,以完成医学术语数据集更新;并将输入的待标准化医学术语对应的第二向量化表示,放入向量化搜索引擎中,以更新向量化搜索引擎。
进一步地,通过更新后的向量化搜索引擎,获取第二向量化表示在医学术语数据库中对应的标准医学术语,具体包括:通过更新后的向量化搜索引擎,获取第二向量化表示在医学术语数据库中对应的若干医学术语;通过相似度计算算法,确定相似度超过预设阈值的若干医学术语为校对医学术语;确定相似度最高的医学术语为参考医学术语;确定若干校对医学术语对应的标准医学术语中出现次数最多的为校对标准医学术语;确定参考医学术语对应的参考标准医学术语;当校对标准医学术语与参考标准医学术语一致时,确定校对标准医学术语为输入的待标准化医学术语对应的标准医学术语;在不一致时,生成校对任务至预设用户校对终端。
进一步地,在获取输入的待标准化医学术语对应的第二向量化表示之前,方法还包括:通过预设数据获取界面,获取输入的待标准化医学术语。
第二方面,本申请提供了一种医学术语标准化系统,系统包括:创建模块,用于创建医学术语数据库和数据库对应的向量化搜索引擎;其中,医学术语数据库包含若干医学术语,医学术语至少包括非标准医学术语、标准医学术语,医学术语数据库包含非标准医学术语和标准医学术语之间的对应关系;更新模块,用于获取医学术语标注数据,使用医学术语标注数据训练预设小样本对比学习算法;通过训练好的预设小样本对比学习算法,将医学术语数据库中的医学术语进行编码,以获得对应的第一向量化表示;将第一向量化表示放入向量化搜索引擎中,以更新向量化搜索引擎;获取模块,用于通过训练好的预设小样本对比学习算法,获取输入的待标准化医学术语对应的第二向量化表示;通过更新后的向量化搜索引擎,获取第二向量化表示在医学术语数据库中对应的标准医学术语。
进一步地,系统还包括:再次更新模块,检测输入的待标准化医学术语是否存在于医学术语数据集中,在不存在于医学术语数据集中时,将输入的待标准化医学术语以及待标准化医学术语与标准医学术语之间的对应关系导入医学术语数据集中,以完成医学术语数据集更新;并将输入的待标准化医学术语对应的第二向量化表示,放入向量化搜索引擎中,以更新向量化搜索引擎。
进一步地,获取模块包括校准单元,用于通过更新后的向量化搜索引擎,获取第二向量化表示在医学术语数据库中对应的若干医学术语;通过相似度计算算法,确定相似度超过预设阈值的若干医学术语为校对医学术语;确定相似度最高的医学术语为参考医学术语;确定若干校对医学术语对应的标准医学术语中出现次数最多的为校对标准医学术语;确定参考医学术语对应的参考标准医学术语;当校对标准医学术语与参考标准医学术语一致时,确定校对标准医学术语为输入的待标准化医学术语对应的标准医学术语;在不一致时,生成校对任务至预设用户校对终端。
进一步地,获取模块包括获取单元,用于通过预设数据获取界面,获取输入的待标准化医学术语。
第三方面,本申请提供了一种医学术语标准化设备,设备包括:处理器;以及存储器,其上存储有可执行代码,当可执行代码被执行时,使得处理器执行如上述任一项的一种医学术语标准化方法。
第四方面,本申请提供了一种非易失性计算机存储介质,其上存储有计算机指令,计算机指令在被执行时实现如上述任一项的一种医学术语标准化方法。
本领域技术人员能够理解的是,本申请至少具有如下有益效果:
本申请通过小样本医学术语标注数据以及预设小样本对比学习算法,减少了人工标注的成本,使用向量化搜索引擎提高了系统的响应速度。另外,本申请能够自动更新医学术语数据库和向量化搜索引擎,实现了不断更新完善系统的技术效果。
附图说明
下面参照附图来描述本公开的部分实施例,附图中:
图1是本申请实施例提供的一种医学术语标准化方法流程图。
图2是本申请实施例提供的一种医学术语标准化系统内部结构示意图。
图3是本申请实施例提供的一种医学术语标准化设备内部结构示意图。
具体实施方式
本领域技术人员应当理解的是,下文所描述的实施例仅仅是本公开的优选实施例,并不表示本公开仅能通过该优选实施例实现,该优选实施例仅仅是用于解释本公开的技术原理,并非用于限制本公开的保护范围。基于本公开提供的优选实施例,本领域普通技术人员在没有付出创造性劳动的情况下所获得的其它所有实施例,仍应落入到本公开的保护范围之内。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
下面通过附图对本申请实施例提出的技术方案进行详细的说明。
本申请实施例提供了一种医学术语标准化方法,如图1所示,本申请实施例提供的方法,主要包括以下步骤:
步骤110、 创建医学术语数据库和数据库对应的向量化搜索引擎。
需要说明的是,医学术语数据库包含若干医学术语,医学术语至少包括非标准医学术语、标准医学术语,医学术语数据库包含非标准医学术语和标准医学术语之间的对应关系。向量化搜索引擎可以具体为TiDB向量化执行引擎。
另外,医学术语数据库中的具体内容由本领域技术人员自行确定。非标准医学术语至少包括医疗术语缩写、医疗术语同义词和医疗术语非正式表达等。
步骤120、 获取医学术语标注数据,使用医学术语标注数据训练预设小样本对比学习算法;通过训练好的预设小样本对比学习算法,将医学术语数据库中的医学术语进行编码,以获得对应的第一向量化表示;将第一向量化表示放入向量化搜索引擎中,以更新向量化搜索引擎。
需要说明的是,医学术语标注数据为小样本数据,例如50条医学术语标注数据。预设小样本对比学习算法可以具体为simcse算法。另外,通过预设小样本对比学习算法(simcse算法)对数据进行编码,以获得对应向量化表示的具体方法可由现有技术实现,本申请对此不做限定。
另外,训练预设小样本对比学习算法的过程可由现有技术实现,本申请不做限定。
步骤130、 通过训练好的预设小样本对比学习算法,获取输入的待标准化医学术语对应的第二向量化表示;通过更新后的向量化搜索引擎,获取第二向量化表示在医学术语数据库中对应的标准医学术语。
本申请使用向量化搜索引擎提高了系统的响应速度。
另外,在获取输入的待标准化医学术语对应的第二向量化表示之前,本申请可以通过预设数据获取界面,获取输入的待标准化医学术语。
其中,通过更新后的向量化搜索引擎,获取第二向量化表示在医学术语数据库中对应的标准医学术语,可以具体为:
通过更新后的向量化搜索引擎,获取第二向量化表示在医学术语数据库中对应的若干医学术语(医学术语数据库中的非标准医学术语、标准医学术语);通过相似度计算算法,确定相似度超过预设阈值的若干医学术语为校对医学术语;确定相似度最高的医学术语为参考医学术语;确定若干校对医学术语对应的标准医学术语中出现次数最多的为校对标准医学术语;确定参考医学术语对应的参考标准医学术语;当校对标准医学术语与参考标准医学术语一致时,确定校对标准医学术语为输入的待标准化医学术语对应的标准医学术语;在不一致时,生成校对任务至预设用户校对终端。
需要说明的是,医学术语数据库中存在非标准医学术语和标准医学术语。因此,获取到的医学术语可能为非标准医学术语或标准医学术语。由于,医学术语数据库还存储了非标准医学术语和标准医学术语之间的对应关系,可以通过非标准医学术语找到对应的标准医学术语。
此外,本申请可以在获得输入的待标准化医学术语时更新医学术语数据集和向量化搜索引擎。作为示例地,检测输入的待标准化医学术语是否存在于医学术语数据集中,在不存在于医学术语数据集中时,将输入的待标准化医学术语以及待标准化医学术语与标准医学术语之间的对应关系导入医学术语数据集中,以完成医学术语数据集更新;并将输入的待标准化医学术语对应的第二向量化表示,放入向量化搜索引擎中,以更新向量化搜索引擎。
除此之外,图2为本申请实施例提供的一种医学术语标准化系统。如图2所示,本申请实施例提供的系统,主要包括:
创建模块210,用于创建医学术语数据库和数据库对应的向量化搜索引擎;其中,医学术语数据库包含若干医学术语,医学术语至少包括非标准医学术语、标准医学术语,医学术语数据库包含非标准医学术语和标准医学术语之间的对应关系。
需要说明的是,创建模块210可以为任意可行的能够进行数据库创建、向量化搜索引擎创建的设备或装置等。
更新模块220,用于获取医学术语标注数据,使用医学术语标注数据训练预设小样本对比学习算法;通过训练好的预设小样本对比学习算法,将医学术语数据库中的医学术语进行编码,以获得对应的第一向量化表示;将第一向量化表示放入向量化搜索引擎中,以更新向量化搜索引擎。
需要说明的是,更新模块220可以为任意可行的能够获取数据、进行算法训练、调用算法以及获取向量化表示等数据处理操作的设备或装置等。
获取模块230,用于通过训练好的预设小样本对比学习算法,获取输入的待标准化医学术语对应的第二向量化表示;通过更新后的向量化搜索引擎,获取第二向量化表示在医学术语数据库中对应的标准医学术语。
需要说明的是,获取模块230可以为任意可行的能够进行数据处理的设备或装置等。
获取模块230包括校准单元231,用于通过更新后的向量化搜索引擎,获取第二向量化表示在医学术语数据库中对应的若干医学术语;通过相似度计算算法,确定相似度超过预设阈值的若干医学术语为校对医学术语;确定相似度最高的医学术语为参考医学术语;确定若干校对医学术语对应的标准医学术语中出现次数最多的为校对标准医学术语;确定参考医学术语对应的参考标准医学术语;当校对标准医学术语与参考标准医学术语一致时,确定校对标准医学术语为输入的待标准化医学术语对应的标准医学术语;在不一致时,生成校对任务至预设用户校对终端。
需要说明的是,校准单元231可以为和获取模块230连接能接收数据进行数据处理的设备或装置等。
获取模块230包括获取单元232,用于通过预设数据获取界面,获取输入的待标准化医学术语。
需要说明的是,获取单元232可以为和获取模块230连接能获取输入的待标准化医学术语的设备或装置等。
系统还包括:再次更新模块240,用于检测输入的待标准化医学术语是否存在于医学术语数据集中,在不存在于医学术语数据集中时,将输入的待标准化医学术语以及待标准化医学术语与标准医学术语之间的对应关系导入医学术语数据集中,以完成医学术语数据集更新;并将输入的待标准化医学术语对应的第二向量化表示,放入向量化搜索引擎中,以更新向量化搜索引擎。
需要说明的是,再次更新模块240可以为任意可行的能够进行数据更新的设备或装置等。
以上为本申请中的方法实施例,基于同样的发明构思,本申请实施例还提供了一种医学术语标准化设备。如图3所示,该设备包括:处理器;以及存储器,其上存储有可执行代码,当可执行代码被执行时,使得处理器执行如上述实施例中的一种医学术语标准化方法。
具体地,服务器端创建医学术语数据库和数据库对应的向量化搜索引擎;其中,医学术语数据库包含若干医学术语,医学术语至少包括非标准医学术语、标准医学术语,医学术语数据库包含非标准医学术语和标准医学术语之间的对应关系;获取医学术语标注数据,使用医学术语标注数据训练预设小样本对比学习算法;通过训练好的预设小样本对比学习算法,将医学术语数据库中的医学术语进行编码,以获得对应的第一向量化表示;将第一向量化表示放入向量化搜索引擎中,以更新向量化搜索引擎;通过训练好的预设小样本对比学习算法,获取输入的待标准化医学术语对应的第二向量化表示;通过更新后的向量化搜索引擎,获取第二向量化表示在医学术语数据库中对应的标准医学术语。
除此之外,本申请实施例还提供了一种非易失性计算机存储介质,其上存储有可执行指令,在该可执行指令被执行时,实现如上述的一种医学术语标准化方法。
至此,已经结合前文的多个实施例描述了本公开的技术方案,但是,本领域技术人员容易理解的是,本公开的保护范围并不仅限于这些具体实施例。在不偏离本公开技术原理的前提下,本领域技术人员可以对上述各个实施例中的技术方案进行拆分和组合,也可以对相关技术特征作出等同的更改或替换,凡在本公开的技术构思和/或技术原理之内所做的任何更改、等同替换、改进等都将落入本公开的保护范围之内。
Claims (6)
1.一种医学术语标准化方法,其特征在于,所述方法包括:
创建医学术语数据库和数据库对应的向量化搜索引擎;其中,医学术语数据库包含若干医学术语,医学术语至少包括非标准医学术语、标准医学术语,医学术语数据库包含非标准医学术语和标准医学术语之间的对应关系;
获取医学术语标注数据,使用医学术语标注数据训练预设小样本对比学习算法;通过训练好的预设小样本对比学习算法,将医学术语数据库中的医学术语进行编码,以获得对应的第一向量化表示;将第一向量化表示放入向量化搜索引擎中,以更新向量化搜索引擎;
检测输入的待标准化医学术语是否存在于医学术语数据库中,在不存在于医学术语数据库中时,将输入的待标准化医学术语以及待标准化医学术语与标准医学术语之间的对应关系导入医学术语数据库中,以完成医学术语数据库更新;并将输入的待标准化医学术语对应的第二向量化表示,放入向量化搜索引擎中,以更新向量化搜索引擎;
通过训练好的预设小样本对比学习算法,获取输入的待标准化医学术语对应的第二向量化表示;
通过更新后的向量化搜索引擎,获取第二向量化表示在医学术语数据库中对应的标准医学术语;
具体地,通过更新后的向量化搜索引擎,获取第二向量化表示在医学术语数据库中对应的若干医学术语;通过相似度计算算法,确定相似度超过预设阈值的若干医学术语为校对医学术语;确定相似度最高的医学术语为参考医学术语;确定若干校对医学术语对应的标准医学术语中出现次数最多的为校对标准医学术语;确定参考医学术语对应的参考标准医学术语;当校对标准医学术语与参考标准医学术语一致时,确定校对标准医学术语为输入的待标准化医学术语对应的标准医学术语;在不一致时,生成校对任务至预设用户校对终端。
2.根据权利要求1所述的医学术语标准化方法,其特征在于,在获取输入的待标准化医学术语对应的第二向量化表示之前,所述方法还包括:
通过预设数据获取界面,获取输入的待标准化医学术语。
3.一种医学术语标准化系统,其特征在于,所述系统包括:
创建模块,用于创建医学术语数据库和数据库对应的向量化搜索引擎;其中,医学术语数据库包含若干医学术语,医学术语至少包括非标准医学术语、标准医学术语,医学术语数据库包含非标准医学术语和标准医学术语之间的对应关系;
更新模块,用于获取医学术语标注数据,使用医学术语标注数据训练预设小样本对比学习算法;通过训练好的预设小样本对比学习算法,将医学术语数据库中的医学术语进行编码,以获得对应的第一向量化表示;将第一向量化表示放入向量化搜索引擎中,以更新向量化搜索引擎;
再次更新模块,检测输入的待标准化医学术语是否存在于医学术语数据库中,在不存在于医学术语数据库中时,将输入的待标准化医学术语以及待标准化医学术语与标准医学术语之间的对应关系导入医学术语数据库中,以完成医学术语数据库更新;并将输入的待标准化医学术语对应的第二向量化表示,放入向量化搜索引擎中,以更新向量化搜索引擎;
获取模块,用于通过训练好的预设小样本对比学习算法,获取输入的待标准化医学术语对应的第二向量化表示;通过更新后的向量化搜索引擎,获取第二向量化表示在医学术语数据库中对应的标准医学术语;
获取模块包括校准单元,
用于通过更新后的向量化搜索引擎,获取第二向量化表示在医学术语数据库中对应的若干医学术语;通过相似度计算算法,确定相似度超过预设阈值的若干医学术语为校对医学术语;确定相似度最高的医学术语为参考医学术语;确定若干校对医学术语对应的标准医学术语中出现次数最多的为校对标准医学术语;确定参考医学术语对应的参考标准医学术语;当校对标准医学术语与参考标准医学术语一致时,确定校对标准医学术语为输入的待标准化医学术语对应的标准医学术语;在不一致时,生成校对任务至预设用户校对终端。
4.根据权利要求3所述的医学术语标准化系统,其特征在于,获取模块包括获取单元,
用于通过预设数据获取界面,获取输入的待标准化医学术语。
5.一种医学术语标准化设备,其特征在于,所述设备包括:
处理器;
以及存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如权利要求1-2任一项所述的一种医学术语标准化方法。
6.一种非易失性计算机存储介质,其特征在于,其上存储有计算机指令,所述计算机指令在被执行时实现如权利要求1-2任一项所述的一种医学术语标准化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311000882.7A CN116721778B (zh) | 2023-08-10 | 2023-08-10 | 一种医学术语标准化方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311000882.7A CN116721778B (zh) | 2023-08-10 | 2023-08-10 | 一种医学术语标准化方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116721778A CN116721778A (zh) | 2023-09-08 |
CN116721778B true CN116721778B (zh) | 2024-01-09 |
Family
ID=87870143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311000882.7A Active CN116721778B (zh) | 2023-08-10 | 2023-08-10 | 一种医学术语标准化方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116721778B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117877737A (zh) * | 2024-03-12 | 2024-04-12 | 北方健康医疗大数据科技有限公司 | 一种原发性肺癌风险预测模型的构建方法、系统及装置 |
CN117894482A (zh) * | 2024-03-14 | 2024-04-16 | 北方健康医疗大数据科技有限公司 | 一种医学肿瘤的编码方法、系统、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307763A (zh) * | 2020-12-30 | 2021-02-02 | 望海康信(北京)科技股份公司 | 术语标准化方法、系统及相应设备和存储介质 |
CN112711652A (zh) * | 2021-01-15 | 2021-04-27 | 清华大学 | 术语标准化方法及装置 |
CN114153995A (zh) * | 2022-02-09 | 2022-03-08 | 杭州太美星程医药科技有限公司 | 医学术语的处理方法、装置、计算机设备和存储介质 |
CN115344696A (zh) * | 2022-08-03 | 2022-11-15 | 电信科学技术第十研究所有限公司 | 一种基于主动学习的开放域小样本文本学习方法 |
KR20230012751A (ko) * | 2021-07-16 | 2023-01-26 | 한양대학교 산학협력단 | 의학용어를 포함한 자연어의 지식 증류기법 기반의 의료 표준용어 생성기 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11481557B2 (en) * | 2017-09-29 | 2022-10-25 | Vvc Holding Llc | Clinical terminology mapping with natural language processing |
-
2023
- 2023-08-10 CN CN202311000882.7A patent/CN116721778B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307763A (zh) * | 2020-12-30 | 2021-02-02 | 望海康信(北京)科技股份公司 | 术语标准化方法、系统及相应设备和存储介质 |
CN112711652A (zh) * | 2021-01-15 | 2021-04-27 | 清华大学 | 术语标准化方法及装置 |
KR20230012751A (ko) * | 2021-07-16 | 2023-01-26 | 한양대학교 산학협력단 | 의학용어를 포함한 자연어의 지식 증류기법 기반의 의료 표준용어 생성기 |
CN114153995A (zh) * | 2022-02-09 | 2022-03-08 | 杭州太美星程医药科技有限公司 | 医学术语的处理方法、装置、计算机设备和存储介质 |
CN115344696A (zh) * | 2022-08-03 | 2022-11-15 | 电信科学技术第十研究所有限公司 | 一种基于主动学习的开放域小样本文本学习方法 |
Non-Patent Citations (1)
Title |
---|
医学术语数据库与标准化术语名称建立思路;李扬;曹子佳;单清;马克杰;张民;;江苏卫生事业管理(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116721778A (zh) | 2023-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116721778B (zh) | 一种医学术语标准化方法、系统、设备及介质 | |
CN109871545B (zh) | 命名实体识别方法及装置 | |
CN110459282B (zh) | 序列标注模型训练方法、电子病历处理方法及相关装置 | |
CN107833603B (zh) | 电子病历文档分类方法、装置、电子设备及存储介质 | |
CN113257377B (zh) | 确定目标用户的方法、装置、电子设备及存储介质 | |
CN108920661B (zh) | 国际疾病分类标记方法、装置、计算机设备及存储介质 | |
CN111597800B (zh) | 同义句的获取方法及装置、设备及存储介质 | |
CN111506595B (zh) | 一种数据查询方法、系统及相关设备 | |
CN110245242B (zh) | 医学知识图谱构建方法、装置以及终端 | |
CN111785383A (zh) | 数据处理方法及相关设备 | |
CN115424691A (zh) | 病例匹配方法、系统、设备和介质 | |
CN114969387A (zh) | 文献作者信息消歧方法、装置及电子设备 | |
CN113297852B (zh) | 一种医学实体词的识别方法和装置 | |
CN117454884B (zh) | 历史人物信息纠错方法、系统、电子设备和存储介质 | |
CN115374788B (zh) | 农业病虫害文本命名实体的方法及装置 | |
CN116737879A (zh) | 知识库查询方法、装置、电子设备及存储介质 | |
CN109614494B (zh) | 一种文本分类方法及相关装置 | |
CN109993190B (zh) | 一种本体匹配方法、装置和计算机存储介质 | |
CN116072308A (zh) | 基于图路径搜索和语义索引的医疗问答方法及相关设备 | |
CN113065355B (zh) | 专业百科命名实体识别方法、系统及电子设备 | |
CN113468307A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN110647914A (zh) | 智能服务水平训练方法、装置及计算机可读存储介质 | |
CN112699669B (zh) | 流行病学调查报告的自然语言处理方法、装置及存储介质 | |
CN117493642B (zh) | 相似电子病历检索方法、装置、终端及存储介质 | |
CN112949310B (zh) | 一种模型训练方法、中医药名识别方法、装置及网络模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |