CN116738985A - 医学文本的标准化处理方法及装置 - Google Patents

医学文本的标准化处理方法及装置 Download PDF

Info

Publication number
CN116738985A
CN116738985A CN202311008369.2A CN202311008369A CN116738985A CN 116738985 A CN116738985 A CN 116738985A CN 202311008369 A CN202311008369 A CN 202311008369A CN 116738985 A CN116738985 A CN 116738985A
Authority
CN
China
Prior art keywords
text
medical
similarity
processed
medical standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311008369.2A
Other languages
English (en)
Other versions
CN116738985B (zh
Inventor
沈丹婷
张灏
赵礼悦
张振超
郑佳琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Asiainfo Data Co ltd
Original Assignee
Beijing Asiainfo Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Asiainfo Data Co ltd filed Critical Beijing Asiainfo Data Co ltd
Priority to CN202311008369.2A priority Critical patent/CN116738985B/zh
Publication of CN116738985A publication Critical patent/CN116738985A/zh
Application granted granted Critical
Publication of CN116738985B publication Critical patent/CN116738985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明提出了一种医学文本的标准化处理方法及装置,涉及自然语言处理技术领域,该方法包括:获取待处理医学文本;利用自然语言分析模型对所述待处理医学文本进行文本重构,得到第一文本;根据所述第一文本的特征向量及医学标准文本的特征向量,确定所述第一文本与医学标准文本的文本第一相似度;根据所述文本第一相似度,确定所述待处理医学文本对应的医学标准文本;本发明通过自然语言分析与相似度计算的配合处理后所得到的标准化处理结果准确性更高,并且相较于现有技术具有更好的普适度,在实际应用过程中可以适应实际要求,占用的计算资源较少且有效提升了计算效率,为医学文本标准化处理提供了有力的技术支持。

Description

医学文本的标准化处理方法及装置
技术领域
本发明涉及自然语言处理技术领域,尤指一种医学文本的标准化处理方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
在现有技术中,关于医学文本的标准化处理通常采用常规的文本匹配处理方法,例如,基于传统模型的文本匹配算法,该算法只关注字词之间的匹配关系,无法准确识别不同文本的语义关系,所以其错误率较高。基于深度学习模型的交互式语义匹配算法,计算成本过高,因为如果进行N个待映射文本与M个标准文本的映射关系计算,则需要深度学习模型进行N×M次的操作,所以其计算量是巨大的,而且因为N与M在实际应用中是变化的,之前的计算结果存在无法复用的缺点。业界比较流行的是基于深度学习模型的表征型匹配技术,只对文本进行N+M次的文本编码计算,然后通过计算余弦距离找到最佳匹配结果(例如,SBERT算法),但是该方法会丢失一部分的语义关系,并且因为噪声的存在导致待映射的文本向量与标准文本向量之间出现较大差异性,从而导致精准度低的问题。
综上来看,亟需一种可以克服上述缺陷,能够实现医学文本匹配准确率高且运算成本低、处理效率高的技术方案。
发明内容
为解决现有技术存在的问题,本发明提出了一种医学文本的标准化处理方法及装置。本发明选择基于深度学习的表征型文本匹配技术作为基础文本映射技术,可以适应实际环境中对于文本匹配的算力要求,同时将文本生成技术应用于文本噪声的过滤,实现在不需要先验知识的条件下减小噪声带来的影响,能够有效提高文本映射的精准度及应用技术的普适性。
在本发明实施例的第一方面,提出了一种医学文本的标准化处理方法,包括:
获取待处理医学文本;
利用自然语言分析模型对所述待处理医学文本进行文本重构,得到第一文本;
根据所述第一文本的特征向量及医学标准文本的特征向量,确定所述第一文本与医学标准文本的文本第一相似度;
根据所述文本第一相似度,确定所述待处理医学文本对应的医学标准文本。
在本发明实施例的第二方面,提出了一种医学文本的标准化处理装置,包括:
待处理医学文本获取模块,用于获取待处理医学文本;
文本重构模块,用于利用自然语言分析模型对所述待处理医学文本进行文本重构,得到第一文本;
相似度计算模块,用于根据所述第一文本的特征向量及医学标准文本的特征向量,确定所述第一文本与医学标准文本的文本第一相似度;
标准化处理模块,用于根据所述文本第一相似度,确定所述待处理医学文本对应的医学标准文本。
在本发明实施例的第三方面,提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现医学文本的标准化处理方法。
在本发明实施例的第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现医学文本的标准化处理方法。
在本发明实施例的第五方面,提出了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现医学文本的标准化处理方法。
本发明提出的医学文本的标准化处理方法及装置通过获取待处理医学文本;利用自然语言分析模型对所述待处理医学文本进行文本重构,得到第一文本;根据所述第一文本的特征向量及医学标准文本的特征向量,确定所述第一文本与医学标准文本的文本第一相似度;根据所述文本第一相似度,确定所述待处理医学文本对应的医学标准文本,整体方案通过自然语言分析模型与相似度计算模型搭建出医学文本标准化处理机制,对输入文本进行重构处理,并且在文本匹配阶段择优选出相应的医学标准文本,有效提高输出的医学标准文本得精准度;同时,本发明提出的医学文本标准化处理机制相较于现有技术具有更好的普适度,适应实际应用要求,占用的计算资源较少且有效提升了计算效率,为医学文本标准化处理提供了有力的技术支持。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明一实施例的医学文本的标准化处理方法流程示意图。
图2是本发明的示例性流程一的流程示意图。
图3是本发明的示例性流程二的流程示意图。
图4是本发明的示例性流程一中S206的第一具体实施方式的流程示意图。
图5是本发明的示例性流程一中S206的第二具体实施方式的流程示意图。
图6是本发明的示例性流程一中S206的第三具体实施方式的流程示意图。
图7是本发明的示例性流程二中S306的第一具体实施方式的流程示意图。
图8是本发明的示例性流程二中S306的第二具体实施方式的流程示意图。
图9是本发明图4所示实施例的技术原理示意图。
图10是本发明一实施例的医学文本的标准化处理装置架构示意图。
图11是本发明一实施例的计算机设备结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种医学文本的标准化处理方法及装置,涉及自然语言处理技术领域。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
图1是本发明一实施例的医学文本的标准化处理方法流程示意图。如图1所示,该方法包括:
S101,获取待处理医学文本;
待处理医学文本是出现在不同的医学场景中的文本;由于人为输入习惯不同,或者信息录入不规范等情况,在该些文本中存在本质含义相同,但是文本内容不同的情况,导致利用该些文本进行信息比对处理时产生一定的影响。对此,本发明需要对该些文本进行标准化处理。
S102,利用自然语言分析模型对所述待处理医学文本进行文本重构,得到第一文本;
自然语言分析模型通过分析待处理医学文本中的每个单词或子词的词义、位置及其它语言特征信息,从而对待处理医学文本进行文本重构,得到一个新的文本。文本重构主要包括:单词删除、文本中字符顺序排列变换、文本旋转变换以及文本填充等。
具体地,单词删除指:预测文本中多余的单词,并确定多余单词的位置,将其删除;
文本中字符顺序排列变换指:将输入文本分为多个字符串,并根据模型对输入文本的语义理解调整字符串的顺序,以调整各字符的排列顺序,使其接近标准表达;
文本旋转变换指:从被扰乱的文本中确定输入文本中的一个单词,并旋转文档,使其以该单词作为开始,作为文本的开头;
文本填充指:预测输入文本中缺失文本片段的长度、位置以及具体字符。
通过调用自然语言分析模型对待处理医学文本进行处理,确定原本待处理医学文本中多余字符进行删除、确定缺失字符进行相应的填充,重新确定文本的起始字符,并发现字符串顺序不当之处并加以调整,从而实现文本重构,以调整待处理医学文本的表达方式,使其更接近常规标准文本,作为第一文本。例如,待处理医学文本“罗红霉素/口服常释剂型”经过自然语言分析模型的文本重构处理,可以得到第一文本“罗红霉素胶囊”。
S103,根据所述第一文本的特征向量及医学标准文本的特征向量,确定所述第一文本与医学标准文本的文本第一相似度;
基于医学标准文本库中的医学标准文本,确定第一文本与各个医学标准文本的文本第一相似度;实际上,在确定文本第一相似度时,可以基于第一文本的特征向量与医学标准文本的特征向量进行相似度计算,得到文本第一相似度。利用自然语言模型对文本经过编码得到的结果是编码向量,表示输入文本序列的语义信息和位置信息,该编码向量即为文本的特征向量。医学标准文本的文本向量在实际应用场景中需要反复使用,可以预先计算并单独存储,以待每次计算时重复调用。
在计算过程中,第一文本与N个医学标准文本会计算得到N个相似度结果(N为医学标准文本的数量),在计算结果中选取相似度最大值作为第一文本与医学标准文本的文本第一相似度。
S104,根据所述文本第一相似度,确定所述待处理医学文本对应的医学标准文本。
基于文本第一相似度,可以选取于文本第一相似度对应的医学标准文本,作为待处理医学文本对应的医学标准文本。在实际应用场景中,可以设定一个相似度阈值,如果达到该相似度阈值,则选取于文本第一相似度对应的医学标准文本,作为待处理医学文本对应的医学标准文本;如果未达到该相似度阈值,则采用其他技术手段(例如,将待处理医学文本直接与医学标准文本进行相似度计算,或者人工重构)确定医学标准文本。
在实际应用场景中,医学文本的标准化处理方法,工作原理为:获取待处理医学文本;利用自然语言分析模型对所述待处理医学文本进行文本重构,得到第一文本;根据所述第一文本的特征向量及医学标准文本的特征向量,确定所述第一文本与医学标准文本的文本第一相似度;根据所述文本第一相似度,确定所述待处理医学文本对应的医学标准文本,本发明整体方案通过自然语言分析模型与相似度计算模型搭建出医学文本标准化处理机制,对输入文本进行重构处理,并且在文本匹配阶段择优选出相应的医学标准文本,有效提高输出的医学标准文本得精准度;同时,本发明提出的医学文本标准化处理机制相较于现有技术具有更好的普适度,适应实际应用要求,占用的计算资源较少且有效提升了计算效率,为医学文本标准化处理提供了有力的技术支持。
为了对上述医学文本的标准化处理方法进行更为清楚的解释,下面结合具体实施例来进行详细说明。
基于图1的实施方式,本发明通过自然语言分析模型及相似度计算方法搭建出一套医学文本标准化处理的框架,可以由多种示例性流程实现,下面对两种示例性流程进行介绍。
示例性流程一:
先基于自然分析模型对初始文本(即,待处理医学文本)进行重构,尝试比对是否有最合适的标准化文本;如果没有则将初始文本再与标准化文本进行相似度比对,如果还无法找到最合适的标准化文本,再由其它手段(例如,人工介入)确定最终结果。这种方式优先利用自然分析模型对初始文本进行文本重构,经过文本重构后得到第一文本通常在医学标准文本库中可以找到对应的医学标准文本,极大的提高了医学文本标准化处理的效率及准确性。
参考图2所示,示例性流程一的流程可以归纳为:
S201(与S101相同),获取待处理医学文本;
S202(与S102相同),进行文本重构;
S203(与S103相同),确定文本第一相似度;
S204,若文本第一相似度达标,则得到医学标准文本;
S205,若不达标,则进一步将待处理医学文本与医学标准文本进行相似度计算,确定文本第二相似度;
S206,基于文本第二相似度(及文本第一相似度)确定医学标准文本;若还无法找到,则由人工介入。
示例性流程二:
先利用初始文本(即,待处理医学文本)计算相似度,尝试寻找医学标准文本;如果找不到,再采用自然分析模型,人工介入等手段确定最终结果。这种方式与前述示例性流程一的处理流程不同,对于实际处理过程所占用的数据处理资源及数据计算量存在一定差异。对于文本标准化程度比较高的医学材料,采用这种方式可以直接基于初始文本找到医学标准文本,处理效率更高。
参考图3所示,示例性流程二的流程可以归纳为:
S301(与S101相同),获取待处理医学文本;
S302,将初始文本与医学标准文本进行相似度计算,确定文本第二相似度;
S303,若文本第二相似度达标,则得到医学标准文本;
S304,若不达标,则进一步进行文本重构(文本重构的流程与S102相同);
S305(与S103相同)确定文本第一相似度;
S306,最后,基于文本第一相似度(及文本第二相似度)确定医学标准文本;若还无法找到,则由人工介入。
下面结合图2,对示例性流程一进行详细介绍。
示例性流程一是先基于自然分析模型对初始文本(即,待处理医学文本)进行重构,尝试比对是否有最合适的标准化文本;如果没有则将初始文本再与标准化文本进行相似度比对,如果还无法找到最合适的标准化文本,再由其它手段(例如,人工重构)介入计算最终结果。
如图2所示,具体流程为:
S201,获取待处理医学文本;
例如,待处理医学文本为“罗红霉素/口服常释剂型”。
在一实施例中,图2中S201与图1中S101的处理过程相同。
S202,利用自然语言分析模型对所述待处理医学文本进行文本重构,得到第一文本。
具体的,以待处理医学文本“罗红霉素/口服常释剂型”为例,将待处理医学文本“罗红霉素/口服常释剂型”进行文本重构后,可以得到第一文本“罗红霉素胶囊”。
在一实施例中,图2中S202与图1中S102的处理过程相同。
S203,根据所述第一文本的特征向量及医学标准文本的特征向量,确定所述第一文本与医学标准文本的文本第一相似度。
在实际应用场景中,医学标准文本的特征向量可以预先计算并存储,以便在计算相似度时直接调用。
具体的,以第一文本“罗红霉素胶囊”为例,计算第一文本“罗红霉素胶囊”的特征向量,并与医学标准文本的特征向量进行相似度计算。
医学标准文本库中存储有医学标准文本“罗红霉素胶囊”以及其他医学标准文本;经过相似度计算可以得到第一文本与医学标准文本的多个相似度计算结果,选取相似度最大值作为计算结果。其中,第一文本“罗红霉素胶囊”的特征向量与医学标准文本“罗红霉素胶囊”的特征向量的相似度为“1”,是计算结果中相似度最大值,确定所述第一文本“罗红霉素胶囊”与医学标准文本的文本第一相似度为“1”,该相似度对应医学标准文本“罗红霉素胶囊”。
在一实施例中,图2中S203与图1中S103的处理过程相同。
在得到文本第一相似度后,参考图2,对于图1中的S104“根据所述文本第一相似度,确定所述待处理医学文本对应的医学标准文本”的详细流程为:判定文本第一相似度是否大于设定阈值,若是则执行S204,即可确定医学标准文本,若否则执行S205及S206,由其他方式接入寻找医学标准文本。
S204,若所述文本第一相似度大于设定阈值,将所述文本第一相似度对应的医学标准文本,作为所述待处理医学文本对应的医学标准文本;
具体的,以待处理医学文本“罗红霉素/口服常释剂型”为例,经过文本重构得到第一文本“罗红霉素胶囊”,计算第一文本“罗红霉素胶囊”的特征向量与医学标准文本“罗红霉素胶囊”的特征向量的相似度为“1”,将相似度“1”与设定阈值进行比较,相似度“1”大于设定阈值(例如,设定阈值0.999),则将医学标准文本“罗红霉素胶囊”,作为待处理医学文本“罗红霉素/口服常释剂型”的医学标准文本。具体的设定阈值可以根据实际应用场景进行设定。
在实际应用场景中,大部分待处理医学文本经过文本重构后都能够匹配到医学标准文本,经过上述过程可以有效提高医学文本的标准化处理效率及匹配的准确性,为医学文本标准化处理提供了有力的技术支持。
S205,若所述文本第一相似度小于等于设定阈值,根据所述待处理医学文本的特征向量及医学标准文本的特征向量,确定所述待处理医学文本与医学标准文本的文本第二相似度。
具体的,如果文本第一相似度小于等于0.999(设定阈值),则可以直接采用待处理医学文本与医学标准文本进行相似度计算,再进一步判断是否能够找到对应的医学标准文本。
S206,根据所述文本第二相似度,确定所述待处理医学文本对应的医学标准文本。
在一实施例中,对于S206,至少包括两种具体处理方式:
第一具体实施方式是直接在文本第一相似度与文本第二相似度中选取相似度最大值,作为最终结果(具体参考图4所示)。第一具体实施方式是直接选取一个相似度最大值对应的医学标准文本作为最终结果,无需人为介入处理的过程,处理效率高,有效降低人工成本,并且计算结果基本能够满足实际场景使用需求。
第二具体实施方式可以根据文本第二相似度判断是否可以得到医学标准文本,如果无法得到则进一步采用人工重构寻找最终结果(具体参考图5所示)。第二具体实施方式是基于文本第二相似度,在文本第二相似度的基础上如果无法得到医学标准文本,进而利用人工重构的方式确定待处理医学文本对应的医学标准文本。该方法先分析第一文本与标准文本的相似度,再分析待处理医学文本与医学标准文本的相似度,最后利用人工重构的方式,通过三层处理方式来确定待处理医学文本对应的医学标准文本,整体过程可以确保最终得到的医学标准文本的准确性,为医学文本标准化处理提供了有力的技术支持。
对于示例性流程一的处理流程,还可以做出其它调整。例如,第三具体实施方式是在S201至S204的基础上,不采用S205及S206的处理流程,而是在文本第一相似度小于设定阈值时,直接采用人工重构的方式(具体参考图6所示)。具体原理为:在S203确定所述第一文本与医学标准文本的文本第一相似度之后,若所述文本第一相似度大于设定阈值,则执行S204;若文本第一相似度小于设定阈值,则直接采用人工重构的方式,确定所述待处理医学文本对应的医学标准文本,该方法未采用S205及S206的计算待处理医学文本与医学标准文本的文本第二相似度的处理过程,可以适当降低计算机处理资源的消耗。
下面结合图3,对示例性流程二进行详细介绍。
示例性流程二是直接利用初始文本(即,待处理医学文本)计算相似度,尝试寻找医学标准文本;如果找不到,再采用自然分析模型,人工重构等手段介入计算最终结果。这种方式与前述示例性流程一的处理流程不同,对于实际处理过程所占用的数据处理资源及数据计算量存在一定差异,两种方式经过计算都能够得到最优的计算结果。
如图3所示,具体流程为:
S301,获取待处理医学文本;
例如,待处理医学文本为“天麻(片)”。
在一实施例中,图3中S301与图1中S101的处理过程相同。
S302,根据所述待处理医学文本的特征向量及医学标准文本的特征向量,确定所述待处理医学文本与医学标准文本的文本第二相似度;
在实际应用场景中,医学标准文本的特征向量可以预先计算并存储,以便在计算相似度时直接调用。
具体的,以待处理医学文本为“天麻(片)”为例,计算待处理医学文本“天麻(片)”的特征向量,并与医学标准文本的特征向量进行相似度计算。
医学标准文本库中存储有医学标准文本“天麻片”以及其他医学标准文本;经过相似度计算可以得到待处理医学文本与医学标准文本的多个相似度计算结果,选取相似度最大值作为计算结果。其中,待处理医学文本“天麻(片)”的特征向量与医学标准文本“天麻片”的特征向量的相似度为0.998,是计算结果中相似度最大值,确定所述待处理医学文本“天麻(片)”与医学标准文本的文本第一相似度为0.998,该相似度对应医学标准文本“天麻片”。
S303,若所述文本第二相似度大于设定阈值,将所述文本第二相似度对应的医学标准文本,作为所述待处理医学文本对应的医学标准文本;
具体的,以待处理医学文本“天麻(片)”为例,待处理医学文本“天麻(片)”的特征向量与医学标准文本“天麻片”的特征向量的相似度为0.998,将相似度0.998与设定阈值进行比较,相似度0.998大于设定阈值(例如,设定阈值0.995),则将医学标准文本“天麻片”,作为待处理医学文本“天麻(片)”的医学标准文本。具体的设定阈值可以根据实际应用场景进行设定。
S304,若所述文本第二相似度小于等于设定阈值,则利用自然语言分析模型对所述待处理医学文本进行文本重构,得到第一文本。
在一实施例中,图3中S304的“利用自然语言分析模型对所述待处理医学文本进行文本重构,得到第一文本”的处理过程与图1中S102的处理过程相同。
S305,根据所述第一文本的特征向量及医学标准文本的特征向量,确定所述第一文本与医学标准文本的文本第一相似度。
在一实施例中,图3中S305与图1中S103的处理过程相同。
S306,根据所述文本第一相似度,确定所述待处理医学文本对应的医学标准文本。
在一实施例中,对于S306,至少包括两种具体处理方式:
第一具体实施方式是直接在文本第一相似度与文本第二相似度中选取相似度最大值,作为最终结果(具体参考图7所示)。第一种是直接选取一个相似度最大值对应的医学标准文本作为最终结果,无需人为介入处理的过程,处理效率高,有效降低人工成本,并且计算结果基本能够满足实际场景使用需求。
第二具体实施方式可以根据文本第一相似度判断是否可以得到医学标准文本,如果无法得到则进一步采用人工重构寻找最终结果(具体参考图8所示)。第二具体实施方式是基于所述文本第一相似度,在文本第一相似度的基础上如果无法得到医学标准文本,进而利用人工重构的方式计算得到所述待处理医学文本对应的医学标准文本;该方法先分析待处理医学文本与医学标准文本的相似度,再分析第一文本与标准文本的相似度,最后利用人工重构的方式,通过三层处理方式来确定待处理医学文本对应的医学标准文本,整体过程可以确保最终得到的医学标准文本的准确性,为医学文本标准化处理提供了有力的技术支持。
下面结合图4至图6,对示例性流程一的更详细处理过程进行说明。
参考图4,第一具体实施方式是直接在文本第一相似度与文本第二相似度中选取相似度最大值,作为最终结果。
参考图5,第二具体实施方式可以根据文本第二相似度判断是否可以得到医学标准文本,如果无法得到则进一步采用人工重构寻找最终结果。第二具体实施方式是基于文本第二相似度,在文本第二相似度的基础上如果无法得到医学标准文本,进而利用人工重构的方式确定待处理医学文本对应的医学标准文本。
参考图6,第三具体实施方式的原理是在S203确定所述第一文本与医学标准文本的文本第一相似度之后,若文本第一相似度小于设定阈值,则直接采用人工重构的方式,确定所述待处理医学文本对应的医学标准文本。
如图4所示,第一具体实施方式为:
S201至S205与图2所示的示例性流程一的流程相同。
S206的具体流程包括:
S401,在所述文本第一相似度及所述文本第二相似度中选取最大值,将所述最大值对应的医学标准文本,作为所述待处理医学文本对应的医学标准文本。
例如,文本第一相似度为0.998,文本第二相似度为0.996,则可以选择文本第一相似度(0.998>0.996)对应的医学标准文本,作为所述待处理医学文本对应的医学标准文本。
又如,文本第一相似度为0.995,文本第二相似度为0.999,则可以选择文本第二相似度(0.999>0.995)对应的医学标准文本,作为所述待处理医学文本对应的医学标准文本。
图4的处理方法是直接选取一个相似度最大值对应的医学标准文本作为最终结果,相较于前述图5的处理方法,减少了人为介入处理的过程,处理效率高,有效降低人工成本,并且计算结果基本能够满足实际场景使用需求。
如图5所示,第二具体实施方式为:
S201至S205与图2所示的示例性流程一的流程相同。
S206的具体流程包括:
S501,若所述文本第二相似度大于设定阈值,将所述文本第二相似度对应的医学标准文本,作为所述待处理医学文本对应的医学标准文本;
具体的,如果文本第二相似度为0.9995(>设定阈值0.999),则可以将所述文本第二相似度对应的医学标准文本,作为所述待处理医学文本对应的医学标准文本。
S502,若所述文本第二相似度小于等于设定阈值,对所述待处理医学文本进行人工重构处理,得到所述待处理医学文本对应的医学标准文本。
具体的,如果文本第二相似度为0.997(<设定阈值0.999),则直接进行人工重构处理,由人工确定所述待处理医学文本对应的医学标准文本。
需要说明的是,人工重构是人为介入处理的一种方式,通过检查文本中是否存在拼写错误、语法错误、标点符号错误等,手动去除文本中噪声,经过人工重构可以将待处理医学文本直接修改为医学标准文本。
图5的处理过程主要是基于文本第二相似度,在文本第二相似度的基础上如果无法得到医学标准文本,进而利用人工重构的方式确定待处理医学文本对应的医学标准文本。该方法先分析第一文本与标准文本的相似度,再分析待处理医学文本与医学标准文本的相似度,最后利用人工重构的方式,通过三层处理方式来确定待处理医学文本对应的医学标准文本,整体过程可以确保最终得到的医学标准文本的准确性,为医学文本标准化处理提供了有力的技术支持。
如图6所示,第三具体实施方式为:
S201至S204与图2所示的示例性流程一的流程相同。
S601,若所述文本第一相似度小于等于设定阈值,对所述待处理医学文本进行人工重构处理,确定所述待处理医学文本对应的医学标准文本。
该方法未采用S205及S206的计算待处理医学文本与医学标准文本的文本第二相似度的处理过程,可以适当降低计算机处理资源的消耗。
下面结合图7至图8,对示例性流程二的更详细处理过程进行说明。
参考图7,第一具体实施方式是直接在文本第一相似度与文本第二相似度中选取相似度最大值,作为最终结果。
参考图8,第二具体实施方式可以根据文本第一相似度判断是否可以得到医学标准文本,如果无法得到则进一步采用人工重构寻找最终结果。
如图7所示,第一具体实施方式为:
S301至S305与图3所示的示例性流程二的流程相同。
S306的具体流程包括:
S701,若所述文本第一相似度大于设定阈值,将所述文本第一相似度对应的医学标准文本,作为所述待处理医学文本对应的医学标准文本;
例如,文本第一相似度为0.9995(>设定阈值0.999),则选取文本第一相似对应的医学标准文本,作为所述待处理医学文本对应的医学标准文本。
S702,若所述文本第一相似度小于等于设定阈值,在所述文本第一相似度及所述文本第二相似度中选取最大值,将所述最大值对应的医学标准文本,作为所述待处理医学文本对应的医学标准文本。
例如,文本第一相似度为0.997,文本第二相似度为0.994,则可以选择文本第一相似度(0.997>0.994)对应的医学标准文本,作为所述待处理医学文本对应的医学标准文本。
对于S702,图7的处理方法是直接选取一个相似度最大值对应的医学标准文本作为最终结果,相较于图8的处理方法,减少了人为介入处理的过程,处理效率高,有效降低人工成本,并且计算结果基本能够满足实际场景使用需求。
如图8所示,第二具体实施方式为:
S301至S305与图3所示的示例性流程二的流程相同。
S306的具体流程包括:
S801,若所述文本第一相似度大于设定阈值,将所述文本第一相似度对应的医学标准文本,作为所述待处理医学文本对应的医学标准文本;
例如,文本第一相似度为0.9996(>设定阈值0.999),则选取文本第一相似对应的医学标准文本,作为所述待处理医学文本对应的医学标准文本。
S802,若所述文本第一相似度小于等于设定阈值,对所述待处理医学文本进行人工重构处理,得到所述待处理医学文本对应的医学标准文本。
例如,文本第一相似度为0.997(<设定阈值0.999),则直接采取人工重构处理,由人工确定待处理医学文本对应的医学标准文本。
图8的处理过程主要是基于所述文本第一相似度,在文本第一相似度的基础上如果无法得到医学标准文本,进而利用人工重构的方式计算得到所述待处理医学文本对应的医学标准文本;该方法先分析待处理医学文本与医学标准文本的相似度,再分析第一文本与标准文本的相似度,最后利用人工重构的方式,通过三层处理方式来确定待处理医学文本对应的医学标准文本,整体过程可以确保最终得到的医学标准文本的准确性,为医学文本标准化处理提供了有力的技术支持。
需要说明的是,在计算文本相似度计算时,先将非医学标准文本(如,待处理医学文本、重构处理后的第一文本)与医学标准文本库中各个医学标准文本进行相似度比较,即,计算非医学标准文本的特征向量与各个医学标准文本的特征向量的相似度,例如,得到1、0.999、0.995、0.91、0.82、0.55、0.42、0.34等多个相似度计算结果。然后,选取最高相似度(例如,1)作为非医学标准文本与医学标准文本的相似度。在S103、S203、S205、S602、S605等步骤中,计算得到的非医学标准文本与医学标准文本的相似度,是非医学标准文本的特征向量与各个医学标准文本的特征向量的相似度中的最大值;进而再以该相似度最大值与设定阈值进行比较,判断是否可以得到满足要求的医学标准文本。
本发明提出的医学文本的标准化处理可以利用自然语言分析模型进行输入文本的重构处理,进而基于重构处理后的文本与医学标准文本进行相似度计算,匹配出相应的医学标准文本,同时在文本匹配阶段为了避免生成文本产生较大误差,在生成的重构文本无法找到符合要求的医学标准文本时,则对输入的初始文本进行同样方式的相似度计算,得到最高匹配值及对应的医学标准文本,再整合多个相似度计算结果选择最优的医学标准文本。
在一实施例中,所述自然语言分析模型采用BART模型、T5模型、Seq2Seq模型、Transformer模型中的一种或多种的组合。
Seq2Seq模型和Transformer模型可以替代文中提到BART模型或T5模型,各个模型的具体原理为:
BART模型是一种基于Transformer架构的预训练语言模型,基本原理是使用Transformer编码器和解码器对输入文本进行编码和解码。编码器将输入文本转换为隐藏表示向量,解码器根据这些向量生成目标文本。BART模型的特点在于使用了双向编码器和自回归解码器,可以同时处理自编码器和自回归任务。BART模型在文本重构任务中的应用是将含有噪声的文本输入到解码器中,通过自回归的方式逐个生成重构后的文本。BART模型在文本重构任务中的优点是可以处理变长的序列数据,生成的文本质量较高,但需要大量的训练数据和计算资源。
T5模型是一种基于Transformer架构的预训练语言模型,基本原理是使用Transformer编码器和解码器对输入文本进行编码和解码。不同于BART模型,T5模型不区分自编码器和自回归任务,而是将所有任务都转化为文本到文本的转换问题。在文本重构任务中,T5模型的应用与BART模型类似,将含有噪声的文本输入到解码器中,通过自回归的方式逐个生成重构后的文本。T5模型在文本重构任务中的优点是可以处理变长的序列数据,生成的文本质量较高,而且可以适应多种自然语言处理任务。但同样需要大量的训练数据和计算资源。
Seq2Seq模型是一种基于编码器-解码器结构的序列生成模型,常用于机器翻译、文本摘要、对话生成等任务。在文本重构任务中,Seq2Seq模型的原理是将含有噪声的文本作为输入,生成重构后的文本。Seq2Seq模型的编码器和解码器都由多层循环神经网络或Transformer模块组成,通过编码器对输入序列进行编码,然后通过解码器逐个生成重构后的文本。Seq2Seq模型的优点是可以处理变长的序列数据,而且可以通过注意力机制捕捉全局上下文信息,生成的文本质量较高。但是Seq2Seq模型的训练比较耗时,而且容易出现过拟合问题。
Transformer模型是一种基于自注意力机制的序列生成模型,常用于机器翻译、文本摘要、对话生成等任务。在文本重构任务中,Transformer模型的原理与BART模型类似,将含有噪声的文本作为输入,生成重构后的文本。Transformer模型的编码器和解码器都由多层Transformer模块组成,通过自注意力机制和注意力机制对输入序列和输出序列进行编码和解码。Transformer模型的优点是可以处理变长的序列数据,而且可以捕捉全局上下文信息,生成的文本质量较高。但是Transformer模型的训练比较耗时,而且需要大量的训练数据和计算资源。
在一具体实施例中,结合BART模型对本发明的医学文本的标准化处理方法进行说明。
参考图9,为本发明图4所示实施例的技术原理示意图。本实施例主要用于说明本发明提出的医学文本的标准化处理方法利用自然语言分析模型对初始文本进行文本重构及计算文本相似度的原理,该些原理同样适用于本发明其它实施例。其中,文本输入单元910、文本重构单元920、文本匹配单元930、文本输出单元940分别对应不同的处理过程。
文本输入单元910;
输入初始文本,例如,罗红霉素/口服常释剂型、天麻(片)、注射用五水头孢唑林钠[1.0g]、10%葡萄糖。
在图9中,示例性的输入“罗红霉素/口服常释剂型”。
文本重构单元920;
利用BART模型对初始文本进行预处理,实现文本重构(也可以称为文本降噪、文本过滤、文本清洗)。
将初始文本的每个文字输入BART编码器,输出对应的向量,表示输入文本序列的语义信息和位置信息。其中,所述编码器的嵌入层将待处理医学文本的每个单词或子词转换为嵌入向量,经过位置编码层为每个嵌入向量添加位置编码,依次经过多层编码器编码处理得到编码向量。
以罗红霉素/口服常释剂型为例,BART解码器是对罗红霉素/口服常释剂型的编码结果进行解码。经过解码器对编码向量进行解码,BART解码器输出罗红霉素胶囊。BART解码器采用自回归方式进行输出,模型根据已经生成的部分文本和上下文信息,逐个预测下一个词语或字符,将输出结果组合后得到文本重构后的文本。“<s>”表示生成文本序列的起始符号,标记模型开始生成文本的位置。然后,将编码器的输出作为解码器第一个输入,之后解码器将根据前面的解码结果依次输出,即根据“罗”生成“红”,根据“红”生成“霉”,根据“霉”生成“素”等,最终生成“罗红霉素胶囊”。
对于前述文本输入单元910举例的四个初始文本,经过文本重构可以得到:罗红霉素胶囊、天麻片、五水头孢唑林钠注射剂、葡萄糖注射剂。
在开始解码时,解码器接收到一个特殊的起始标记,并通过解码器的多个解码层生成下一个词语或字符。每个解码层包含多头自注意力机制和多头交叉注意力机制,保证生成的同时考虑上下文信息和已生成的部分序列。生成过程会一直进行,直到遇到终止标记或达到预设的最大生成长度。
在本实施例中,本发明利用BART模型对初始文本进行重构。使用的BART参数需要使用自己的数据集进行训练精调,具体而言精调时输入为初始文本(含噪声),输出为对应的第一文本(是否是标准文本需要后续步骤确定),让模型达到自动重构的目的。推理阶段使用精调好的BART模型进行文本重构,得到对应的第一文本。
BART模型的编码器是由多层Transformer模块组成的,每个Transformer模块包含多头自注意力机制和前馈神经网络,经过多层Transformer后,每个单词或子词对应的向量就被编码成了一个固定大小的向量。
在初始文本进入BART编码器后,编码器的编码原理为:
①、输入嵌入层:将输入文本中的每个单词或子词转换为对应的嵌入向量。这些嵌入向量可以包含词义、位置和其它语言特征的信息。
②、位置编码层:位置编码层会为每个输入嵌入向量添加一个位置编码,捕捉输入文本的顺序信息,模型也可以区分不同位置的单词或子词,从而更好地理解输入文本的语义。
③、多层Transformer编码器:BART模型的编码器由多个Transformer模块堆叠而成。每个Transformer模块包含两个子层:多头自注意力机制和前馈神经网络。
多头自注意力机制:通过计算输入嵌入向量之间的注意力分数,捕捉输入文本中不同位置之间的依赖关系,模型在编码过程中会更好地关注与当前位置相关的上下文信息。
前馈神经网络:在多头自注意力机制之后,经过一个前馈神经网络,对每个位置的向量进行非线性变换,增加模型的表达能力,并捕捉输入文本中的更复杂的语义信息。
④、输出:经过多层Transformer编码器后,每个单词或子词对应的向量被编码成了一个固定大小的向量。这些向量可以用于下游任务,如文本分类、机器翻译等。
在编码过程中,针对医学相关的文本,存在一定的特殊性。具体影响编码过程的因素为:
①、专业术语处理:医学领域使用大量的专业术语,这些术语在一般的语料库中可能不常见。在编码过程中,需要确保模型能够正确理解和处理这些术语,以便有效地捕捉医学文本的语义。可以考虑使用医学领域的预训练模型或者在预训练模型的基础上进行领域特定的微调。
②、数据量和质量:医学领域的数据可能相对较少,而且质量要求较高。这可能会对模型的训练和泛化能力带来一定的挑战。需要确保训练数据的覆盖面广泛,并进行数据清洗和标注,以减少噪音和错误。
③、长文本处理:医学文本通常包含大量的细节和描述,可能会比一般的文本更长。在编码过程中,需要考虑如何处理长文本,以避免模型输入过长而导致性能下降或计算资源不足的问题。可以采用截断、分段或者其它策略来处理长文本。
④、隐私和安全:医学文本通常包含敏感的个人健康信息,需要特别注意隐私和安全问题。在数据处理和模型应用过程中,需要采取相应的隐私保护措施,确保医学信息得到充分保护。
BART解码器的输入是编码器的输出,输出是重构后的文本序列。在解码过程中,BART解码器依次生成每个时间步的输出,并且每个时间步的输出都依赖于前面所有时间步的输出和编码器的输出。通过多次迭代,逐渐生成每个时间步的输出,直到生成整个文本序列。
BART解码器的处理原理为:
①、输入编码器隐藏状态:BART解码器接收来自编码器的隐藏状态作为初始隐藏状态。这个隐藏状态包含了输入序列的语义信息和位置信息。
②、生成器输入:解码器的初始输入是一个特殊的起始符号(如"<s>"),表示生成的文本序列的开始。
③、生成循环:解码器通过循环生成词或标记,直到生成一个特殊的终止符号(如"<e>")或达到最大生成长度。在每个时间步,解码器根据当前的隐藏状态和已生成的部分文本序列,使用多头注意力机制来获取编码器输出的上下文信息。
④、多头注意力机制:解码器使用多头注意力机制来将编码器的输出与当前隐藏状态进行交互。多头注意力可以捕捉不同位置和语义的信息,帮助解码器生成更准确的词或标记。
⑤、前馈神经网络层:在多头注意力之后,解码器还会使用前馈神经网络层来进一步处理上下文信息。前馈神经网络层通常由多个全连接层和激活函数组成,用于对上下文信息进行非线性变换和特征提取。
⑥、词生成:根据当前的隐藏状态和经过多头注意力和前馈神经网络处理后的上下文信息,解码器使用softmax函数对词表中的词进行概率分布预测。然后根据概率分布,采样生成一个词。
⑦、更新隐藏状态:生成词后,解码器更新隐藏状态,以便在下一个时间步中使用。这个更新是通过将当前隐藏状态与生成的词的嵌入向量进行拼接,并通过一个线性变换来得到新的隐藏状态。
重复前述③至⑦,直到生成一个终止符号或达到最大生成长度。
在解码过程中,针对医学相关的文本,同样会存在一定的特殊性。由于医学领域的专业性和复杂性,需要更加准确地理解和生成相关内容。以下是一些可能影响解码过程的因素:
①、术语的正确性:医学术语往往比较专业,需要保证术语的正确性。如果模型在生成医学术语时出现错误,可能会导致误解或混淆,因此需要进行额外的术语校对。
②、上下文的理解:医学文本往往需要结合上下文理解,才能正确解读。例如,同一个词汇在不同的上下文中可能有不同的含义,需要根据具体情况进行理解和解码。
③、语法和语义的准确性:医学文本往往较为严谨,需要注意语法和语义的准确性,否则可能会导致误解或歧义。特别是在涉及病情描述、病历记录等方面,需要特别注意语言的准确性。
④、数据隐私和保密性:医学文本可能包含个人敏感信息,例如病人姓名、病历记录等。在解码医学文本时,需要注意数据隐私和保密性,避免泄露个人隐私信息。
⑤、领域知识和经验:在解码医学文本时,需要具备相应的领域知识和经验。例如,需要了解医学术语、病情描述、诊断标准等方面的知识,以便正确理解和解码医学文本。
对于T5模型、Seq2Seq模型、Transformer模型,处理流程为:
T5模型的流程如下:
编码器:将输入文本序列通过多层Transformer编码器,得到输入文本的表示。
解码器:根据任务类型,将编码器的输出作为解码器的输入,通过多层Transformer解码器,生成输出文本序列。
损失函数:根据任务类型,定义相应的损失函数,如交叉熵损失、平均绝对误差等。
训练:使用文本重构好的数据集对T5模型进行训练,以优化模型参数。
推理:使用微调好的T5模型对新的文本数据进行推理,得到相应的输出文本序列。
Seq2Seq模型的流程如下:
编码器:将输入文本序列通过多个时间步的RNN单元,得到输入文本的表示。
上下文向量:将编码器的最后一个时间步的输出作为上下文向量,用于传递输入文本的信息到解码器。
解码器:将上下文向量作为解码器的初始隐状态,通过多个时间步的RNN单元,生成输出文本序列。
损失函数:根据任务类型,定义相应的损失函数,如交叉熵损失、平均绝对误差等。
训练:使用文本重构好的数据集对Seq2Seq模型进行训练,以优化模型参数。
推理:使用训练好的Seq2Seq模型对新的输入文本序列进行推理,生成相应的输出文本序列。
Transformer模型的流程如下:
输入嵌入:将输入文本序列中的每个单词转化为向量表示,称为输入嵌入。
位置编码:为了保留输入文本序列中单词的顺序信息,需要为每个单词添加位置编码,以便模型能够区分不同位置的单词。
编码器:通过多层Transformer模块,对输入嵌入和位置编码进行编码,得到输入文本序列的表示。
解码器:通过多层Transformer模块,对编码器的输出和目标序列的嵌入进行解码,生成目标序列的表示。
输出嵌入:将目标序列的表示转化为向量表示,称为输出嵌入。
输出层:通过输出层,将输出嵌入转化为目标序列的概率分布,得到最终的输出序列。
在实际应用场景中,本发明可以采用一种模型或者多种模型的组合确定输出结果。
文本匹配单元930;
文本匹配单元主要是基于待比较文本(初始文本、经过文本重构处理的第一文本)的特征向量,与医学标准文本的特征向量进行相似度计算,从而确定初始文本对应的医学标准文本。
在一具体实施例中,利用余弦距离计算特征向量之间的相似度,将该相似度作为文本之间的文本相似度;其中,计算式为:
式中,S(v 1,v 2)为文本相似度;v 1v 2为文本的特征向量;‖v 1‖、‖v 2‖为特征向量对应的模长。
余弦相似度是通过计算两个向量之间的夹角来衡量它们的相似程度。值越接近1,表示两个向量越相似。根据计算得到的相似度分数,将文本进行相似度排名,按照相似度从高到低进行排序,选取相似度最高的作为最终的相似度结果。
相似度计算参考SBERT架构,需要对使用的预训练语言模型(如,BERT模型)参数进行精调,之后使用精调过的预训练语言模型进行文本编码。
BART的编码过程如下:
①、输入表示:将输入文本序列经过嵌入层,将每个词或子词转换为向量表示,得到词嵌入。
②、位置编码:为了保留输入序列的顺序信息,BART使用位置编码将词嵌入与位置信息相结合。位置编码向量被添加到词嵌入中,以表示单词在序列中的位置。
③、编码器层:BART使用多层Transformer编码器来对输入序列进行编码。每个编码器层由多头自注意力机制和前馈神经网络组成。自注意力机制允许模型在编码过程中对输入序列中不同位置的信息进行交互,计算每个位置与其它位置之间的注意力权重,最终每个位置都可以考虑到序列中其它位置的上下文信息。前馈神经网络是一个全连接的前向传播网络,将自注意力机制的输出作为输入,并通过两个线性层和激活函数进行处理,以捕捉更复杂的特征。
经过编码得到的结果是编码向量,表示输入文本序列的语义信息和位置信息,该编码向量即为文本的特征向量。
文本输出单元940;
对于医学标准文本的特征向量,可以预先计算并单独存储(比如.npy格式),以便后续比对时重复使用。
例如,医学标准文本库中包含医学标准文本,罗红霉素胶囊、天麻片、五水头孢唑林钠注射剂、葡萄糖注射剂、奥洛他定胶囊、麻杏止咳片;分别计算各个医学标准文本的特征向量,并存储。
具体的,医学标准文本库用于记录行业标准医学词汇。在具体的业务细分领域中,可能会设置特定的行业标准医学词汇库,如果没有行业标准医学词汇库,则可以定义一个标准库;本发明的医学标准文本也是由业务设定。
参考图9,文本匹配单元930及文本输出单元940的具体处理流程为:
S901,根据文本重构后的文本的特征向量,利用向量余弦距离计算该特征向量与医学标准文本的特征向量之间的相似度;
S902,得到最高相似度a,以及最高相似度a对应的医学标准文本A。
如果a大于0.999,则判定A是初始文本的医学标准文本,(S903)输出医学标准文本A;
如果a小于等于0.999,则(S904)计算初始文本的特征向量,利用向量余弦距离计算该特征向量与医学标准文本的特征向量之间的相似度;
S905,得到最高相似度b,以及最高相似度b对应的最佳匹配文本B。
比较a、b的大小,输出较大值对应的医学标准文本,作为初始文本对应的医学标准文本。即,如果a大于b,则(S903)输出医学标准文本A;如果a小于等于b,则(S906)输出医学标准文本B。
通过上述过程得到标准化处理结果准确性更高,并且相较于现有技术具有更好的普适度,在实际应用过程中可以适应实际要求,占用的计算资源较少且有效提升了计算效率,为医学文本标准化处理提供了有力的技术支持。
在一实施例中,本发明可以结合多种文本相似度计算方法,以平衡相似度计算结果的合理性,提高准确性,防止仅采用一种相似度计算方法导致结果出现偏差。
当结合多种文本相似度计算方法时,可以使用线性加权法将不同相似度计算方法的结果相加,每个方法的权重由实际需求决定。具体计算关系式可以表示为:
S=S 1·ω 1+S 2·ω 2+…+S n ·ω n
其中,S为文本相似度结果;S 1S 2、…、S n 分别表示不同相似度计算方法的结果;n为计算方法的种类数量;ω 1ω 2、…、ω n 分别为对应计算方法的权重,由实际需求决定。
在一实施例中,本发明可以利用神经网络和机器学习模型等作为相似度匹配的判断方法,具体模型如下:
①、卷积神经网络可以用于从文本中提取局部特征,通过多个卷积层和池化层捕捉文本的语义和上下文信息,使用池化层和全连接层进行相似度计算。
②、循环神经网络可以学习文本中的上下文信息,并通过递归地处理文本序列来捕捉文本之间的依赖关系,使用RNN的最后一个隐藏状态或注意力机制来计算相似度得分。
③、Word2Vec、GloVe等模型可以将单词映射到向量空间,通过计算向量之间的距离或相似性度量,从而判断两个文本的相似度。
本文的神经网络的输入样本集通过train_test_split()函数随机划分成训练集、测试集和验证集。其中,训练集用于模型训练,验证集用于模型的调参和验证,测试集用于最终的模型评估。本文的输入输出之间的映射关系由人工标注。
需要说明的是,医学术语的文本相似度匹配与常规文本的相似度匹配至少存在以下4个方面的区别:
①、领域特定知识:医学术语的文本相似度匹配需要考虑医学领域的特定知识和术语。医学术语可能具有特定的含义、上下文和语义关联,因此需要使用医学领域的知识库或专业术语词典来支持匹配过程。
②、语义复杂性:医学术语的文本相似度匹配通常涉及到更复杂和专业的语义。医学领域的文本可能包含医学概念、疾病、药物等专业术语,这些术语之间的关系和语义含义需要特别考虑。
③、数据稀缺性:医学领域的数据通常比常规文本数据稀缺。医学术语的文本相似度匹配可能需要依赖有限的医学语料库或专业知识来进行模型训练和评估,这对算法的设计和性能评估提出了挑战。
④、歧义性和上下文敏感性:医学术语的文本相似度匹配需要处理医学术语的歧义性和上下文敏感性。医学术语可能有多个含义,根据上下文的不同,其语义可能会发生变化。因此,在医学术语的文本相似度匹配中,需要考虑上下文信息和多义词的处理。
结合基于深度学习模型的表征型匹配技术,通过对噪声进行基于规则的过滤可以提高表征型文本匹配的效果,但是在实际环境中,噪声“是什么”需要通过先验知识才可以确定,并且不同的数据集之间(比如不同来源的数据)的噪声类型并不固定,因此,根据先验知识的进行基于规则的噪声过滤在实际操作中难以实现以及推广(如,其他来源的数据集)。而本发明选择基于深度学习的表征型文本匹配技术作为基础文本映射技术,可以适应实际环境中对于文本匹配的算力要求,同时将文本生成技术应用于噪声过滤,实现在不需要先验知识的条件下减小噪声带来的影响,还能够有效提高文本映射的精准度以及技术本身的普适性。
相较于现有技术,本申请提出的医学文本的标准化处理方法至少存在以下优点:
1、本发明技术的精准度要比同类型的技术结果高。
本发明对输入文本进行了重构处理,并且在文本匹配阶段与同类型技术的结果进行了择优,因此能保证本发明的精准度用于高于同类型技术。在随机选取的某医保基金监管项目中,从医保系统中抽取了全部718条药品名称文本数据,其中传统的基于孪生网络(SBERT)模型的匹配准确率为81.06%,采用本发明的医学文本的标准化处理方法匹配准确率为85.10%。
2、本发明技术的普适度高于其他同类型技术。
本发明技术对于文本重构的处理来源于模型自动学习对噪声的理解,因此在推理阶段不需要任何的先验知识,因此重构结果要比需要先验知识的基于规则的重构效果要好,并且可以使得本技术可以完美适用于新数据。
除此之外,考虑到标准文本可能存在原始文本不存在的单词,比如“罗红霉素胶囊”中的“胶囊”并不存在于“罗红霉素/口服常释剂型”中,即便使用文本替换的方式进行重构也无法做到对不同噪声的有效处理。
3、本发明技术的计算复杂度可以适应实际要求,占用的计算资源较少,且计算效率更高。
因为本发明只使用了O(N)复杂度的深度神经网络向量计算,匹配阶段的O(N2)复杂度的向量余弦相似度计算需要的算力是极小的,因此可以满足实际应用环境的需求。
需要说明的是,尽管在上述实施例及附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
在介绍了本发明示例性实施方式的方法之后,接下来,参考图10对本发明示例性实施方式的医学文本的标准化处理装置进行介绍。
医学文本的标准化处理装置的实施可以参见上述方法的实施,重复之处不再赘述。以下所使用的术语“模块”或者“单元”,可以是实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
基于同一发明构思,本发明还提出了一种医学文本的标准化处理装置,如图10所示,该装置包括:
待处理医学文本获取模块1010,用于获取待处理医学文本;
文本重构模块1020,用于利用自然语言分析模型对所述待处理医学文本进行文本重构,得到第一文本;
相似度计算模块1030,用于根据所述第一文本的特征向量及医学标准文本的特征向量,确定所述第一文本与医学标准文本的文本第一相似度;
标准化处理模块1040,用于根据所述文本第一相似度,确定所述待处理医学文本对应的医学标准文本。
在一实施例中,标准化处理模块1040,根据所述文本第一相似度,确定所述待处理医学文本对应的医学标准文本,包括:
若所述文本第一相似度大于设定阈值,将所述文本第一相似度对应的医学标准文本,作为所述待处理医学文本对应的医学标准文本;
若所述文本第一相似度小于等于设定阈值,调用相似度计算模块1030,根据所述待处理医学文本的特征向量及医学标准文本的特征向量,确定所述待处理医学文本与医学标准文本的文本第二相似度;
根据所述文本第二相似度,确定所述待处理医学文本对应的医学标准文本。
在一实施例中,标准化处理模块1040,根据所述文本第二相似度,确定所述待处理医学文本对应的医学标准文本,包括:
在所述文本第一相似度及所述文本第二相似度中选取最大值,将所述最大值对应的医学标准文本,作为所述待处理医学文本对应的医学标准文本。
在一实施例中,标准化处理模块1040,在文本重构模块1020利用自然语言分析模型对所述待处理医学文本进行文本重构,得到第一文本之前,包括:
调用相似度计算模块1030,根据所述待处理医学文本的特征向量及医学标准文本的特征向量,确定所述待处理医学文本与医学标准文本的文本第二相似度;
若所述文本第二相似度大于设定阈值,将所述文本第二相似度对应的医学标准文本,作为所述待处理医学文本对应的医学标准文本;
若所述文本第二相似度小于等于设定阈值,则调用文本重构模块1020,利用自然语言分析模型对所述待处理医学文本进行文本重构,得到第一文本。
在一实施例中,标准化处理模块1040,根据所述文本第一相似度,确定所述待处理医学文本对应的医学标准文本,包括:
若所述文本第一相似度小于等于设定阈值,在所述文本第一相似度及所述文本第二相似度中选取最大值,将所述最大值对应的医学标准文本,作为所述待处理医学文本对应的医学标准文本。
在一实施例中,所述自然语言分析模型采用BART模型、T5模型、Seq2Seq模型、Transformer模型中的一种或多种的组合。
在一实施例中,文本重构模块1020具体用于:
通过自然语言分析模型的编码器对待处理医学文本进行编码,得到编码向量;其中,每一层所述编码器的嵌入层将待处理医学文本的每个单词或子词转换为嵌入向量,经过位置编码层为每个嵌入向量添加位置编码,依次经过多层编码器编码处理得到编码向量;
将所述编码向量作为自然语言分析模型的解码器的输入数据,通过解码器对输入数据进行解码,采用自回归方式根据已生成的文本信息及上下文信息,逐个预测下一个字符并输出,将输出结果组合后得到第一文本。
应当注意,尽管在上文详细描述中提及了医学文本的标准化处理装置的若干模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
基于前述发明构思,如图11所示,本发明还提出了一种计算机设备1100,包括存储器1110、处理器1120及存储在存储器1110上并可在处理器1120上运行的计算机程序1130,所述处理器1120执行所述计算机程序1130时实现前述医学文本的标准化处理方法。
基于前述发明构思,本发明提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现前述医学文本的标准化处理方法。
基于前述发明构思,本发明提出了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现医学文本的标准化处理方法。
本发明提出的医学文本的标准化处理方法及装置通过获取待处理医学文本;利用自然语言分析模型对所述待处理医学文本进行文本重构,得到第一文本;根据所述第一文本的特征向量及医学标准文本的特征向量,确定所述第一文本与医学标准文本的文本第一相似度;根据所述文本第一相似度,确定所述待处理医学文本对应的医学标准文本,整体方案通过自然语言分析模型与相似度计算模型搭建出医学文本标准化处理机制,对输入文本进行重构处理,并且在文本匹配阶段择优选出相应的医学标准文本,有效提高输出的医学标准文本得精准度;同时,本发明提出的医学文本标准化处理机制相较于现有技术具有更好的普适度,适应实际应用要求,占用的计算资源较少且有效提升了计算效率,为医学文本标准化处理提供了有力的技术支持。
本发明技术方案中对数据的获取、存储、使用、处理等均符合法律法规的相关规定。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (11)

1.一种医学文本的标准化处理方法,其特征在于,包括:
获取待处理医学文本;
利用自然语言分析模型对所述待处理医学文本进行文本重构,得到第一文本;
根据所述第一文本的特征向量及医学标准文本的特征向量,确定所述第一文本与医学标准文本的文本第一相似度;
根据所述文本第一相似度,确定所述待处理医学文本对应的医学标准文本。
2.根据权利要求1所述的方法,其特征在于,根据所述文本第一相似度,确定所述待处理医学文本对应的医学标准文本,包括:
若所述文本第一相似度大于设定阈值,将所述文本第一相似度对应的医学标准文本,作为所述待处理医学文本对应的医学标准文本;
若所述文本第一相似度小于等于设定阈值,根据所述待处理医学文本的特征向量及医学标准文本的特征向量,确定所述待处理医学文本与医学标准文本的文本第二相似度;
根据所述文本第二相似度,确定所述待处理医学文本对应的医学标准文本。
3.根据权利要求2所述的方法,其特征在于,根据所述文本第二相似度,确定所述待处理医学文本对应的医学标准文本,包括:
在所述文本第一相似度及所述文本第二相似度中选取最大值,将所述最大值对应的医学标准文本,作为所述待处理医学文本对应的医学标准文本。
4.根据权利要求1所述的方法,其特征在于,在利用自然语言分析模型对所述待处理医学文本进行文本重构,得到第一文本之前,包括:
根据所述待处理医学文本的特征向量及医学标准文本的特征向量,确定所述待处理医学文本与医学标准文本的文本第二相似度;
若所述文本第二相似度大于设定阈值,将所述文本第二相似度对应的医学标准文本,作为所述待处理医学文本对应的医学标准文本;
若所述文本第二相似度小于等于设定阈值,则利用自然语言分析模型对所述待处理医学文本进行文本重构,得到第一文本。
5.根据权利要求4所述的方法,其特征在于,根据所述文本第一相似度,确定所述待处理医学文本对应的医学标准文本,包括:
若所述文本第一相似度小于等于设定阈值,在所述文本第一相似度及所述文本第二相似度中选取最大值,将所述最大值对应的医学标准文本,作为所述待处理医学文本对应的医学标准文本。
6.根据权利要求1所述的方法,其特征在于,所述自然语言分析模型采用BART模型、T5模型、Seq2Seq模型、Transformer模型中的一种或多种的组合。
7.根据权利要求1所述的方法,其特征在于,利用自然语言分析模型对所述待处理医学文本进行文本重构,得到第一文本,包括:
通过自然语言分析模型的编码器对待处理医学文本进行编码,得到编码向量;其中,所述编码器的嵌入层将待处理医学文本的每个单词或子词转换为嵌入向量,经过位置编码层为每个嵌入向量添加位置编码,依次经过多层编码器编码处理得到编码向量;
将所述编码向量作为自然语言分析模型的解码器的输入数据,通过解码器对输入数据进行解码,采用自回归方式根据已生成的文本信息及上下文信息,逐个预测下一个字符并输出,将输出结果组合后得到第一文本。
8.一种医学文本的标准化处理装置,其特征在于,包括:
待处理医学文本获取模块,用于获取待处理医学文本;
文本重构模块,用于利用自然语言分析模型对所述待处理医学文本进行文本重构,得到第一文本;
相似度计算模块,用于根据所述第一文本的特征向量及医学标准文本的特征向量,确定所述第一文本与医学标准文本的文本第一相似度;
标准化处理模块,用于根据所述文本第一相似度,确定所述待处理医学文本对应的医学标准文本。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一所述方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至7任一所述方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至7任一所述方法。
CN202311008369.2A 2023-08-11 2023-08-11 医学文本的标准化处理方法及装置 Active CN116738985B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311008369.2A CN116738985B (zh) 2023-08-11 2023-08-11 医学文本的标准化处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311008369.2A CN116738985B (zh) 2023-08-11 2023-08-11 医学文本的标准化处理方法及装置

Publications (2)

Publication Number Publication Date
CN116738985A true CN116738985A (zh) 2023-09-12
CN116738985B CN116738985B (zh) 2024-01-26

Family

ID=87902965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311008369.2A Active CN116738985B (zh) 2023-08-11 2023-08-11 医学文本的标准化处理方法及装置

Country Status (1)

Country Link
CN (1) CN116738985B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116992861A (zh) * 2023-09-25 2023-11-03 四川健康久远科技有限公司 基于数据处理的医疗服务智慧处理方法及系统
CN117894482A (zh) * 2024-03-14 2024-04-16 北方健康医疗大数据科技有限公司 一种医学肿瘤的编码方法、系统、电子设备及存储介质
CN117998145A (zh) * 2024-04-03 2024-05-07 海看网络科技(山东)股份有限公司 一种字幕实时监测方法、系统和设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3637435A1 (en) * 2018-10-12 2020-04-15 Fujitsu Limited Medical diagnostic aid and method
CN112464662A (zh) * 2020-12-02 2021-03-09 平安医疗健康管理股份有限公司 医学短语匹配方法、装置、设备及存储介质
CN115270792A (zh) * 2022-07-07 2022-11-01 云知声智能科技股份有限公司 一种医疗实体识别方法及装置
CN115588486A (zh) * 2022-11-10 2023-01-10 南京中医药大学 一种基于Transformer的中医诊断生成装置及其应用

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3637435A1 (en) * 2018-10-12 2020-04-15 Fujitsu Limited Medical diagnostic aid and method
CN112464662A (zh) * 2020-12-02 2021-03-09 平安医疗健康管理股份有限公司 医学短语匹配方法、装置、设备及存储介质
CN115270792A (zh) * 2022-07-07 2022-11-01 云知声智能科技股份有限公司 一种医疗实体识别方法及装置
CN115588486A (zh) * 2022-11-10 2023-01-10 南京中医药大学 一种基于Transformer的中医诊断生成装置及其应用

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116992861A (zh) * 2023-09-25 2023-11-03 四川健康久远科技有限公司 基于数据处理的医疗服务智慧处理方法及系统
CN116992861B (zh) * 2023-09-25 2023-12-08 四川健康久远科技有限公司 基于数据处理的医疗服务智慧处理方法及系统
CN117894482A (zh) * 2024-03-14 2024-04-16 北方健康医疗大数据科技有限公司 一种医学肿瘤的编码方法、系统、电子设备及存储介质
CN117998145A (zh) * 2024-04-03 2024-05-07 海看网络科技(山东)股份有限公司 一种字幕实时监测方法、系统和设备

Also Published As

Publication number Publication date
CN116738985B (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
CN116738985B (zh) 医学文本的标准化处理方法及装置
WO2019226474A1 (en) Improving abstraction of text summarizaton
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111312356B (zh) 一种基于bert和融入功效信息的中药处方生成方法
Chitnis et al. Variable-length word encodings for neural translation models
CN113051371A (zh) 中文机器阅读理解方法、装置、电子设备及存储介质
CN112613322B (zh) 文本处理方法、装置、设备及存储介质
Schwartz et al. Neural polysynthetic language modelling
CN115080766A (zh) 基于预训练模型的多模态知识图谱表征系统及方法
WO2021239631A1 (en) Neural machine translation method, neural machine translation system, learning method, learning system, and programm
CN117217233A (zh) 文本纠正、文本纠正模型训练方法及装置
CN114708976A (zh) 辅助诊断技术的方法、装置、设备及存储介质
CN116050425A (zh) 建立预训练语言模型的方法、文本预测方法及装置
CN114529917B (zh) 一种零样本中文单字识别方法、系统、装置及存储介质
CN117877460A (zh) 语音合成方法、装置、语音合成模型训练方法、装置
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
Sun et al. Knowledge-aware audio-grounded generative slot filling for limited annotated data
CN116469374A (zh) 基于情感空间的语音合成方法、装置、设备及存储介质
Milintsevich et al. Enhancing sequence-to-sequence neural lemmatization with external resources
Zare et al. Deepnorm-a deep learning approach to text normalization
CN115270792A (zh) 一种医疗实体识别方法及装置
Kumar et al. Efficient text normalization via hybrid bi-directional lstm
Lu et al. Entity relationship extraction from Chinese electronic medical records based on feature augmentation and cascade binary tagging framework
Rohatgi et al. DeepNorm-A Deep learning approach to Text Normalization
CN116416968B (zh) 一种由双编码器组成的transformer的重庆方言语音识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant