CN113657086B - 词语处理方法、装置、设备及存储介质 - Google Patents
词语处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113657086B CN113657086B CN202110909777.XA CN202110909777A CN113657086B CN 113657086 B CN113657086 B CN 113657086B CN 202110909777 A CN202110909777 A CN 202110909777A CN 113657086 B CN113657086 B CN 113657086B
- Authority
- CN
- China
- Prior art keywords
- word
- words
- semantic
- similarity
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种词语处理方法、装置、设备及存储介质,属于人工智能技术领域。本申请通过非标准医学词语与各个标准医学词语之间的第一相似参数,从多个标准医学词语中筛选出多个第一候选词,由于第一相似参数能够表示非标准医学词语与各个标准医学词语之间的语义相似度和知识相似度,因此,能够提高筛选第一候选词的准确率,进一步将多个第一候选词中符合条件的第一候选词确定为非标准医学词语对应的标准医学词语,达到了提高医学词语标准化的准确率的目的。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种词语处理方法、装置、设备及存储介质。
背景技术
随着计算机技术的发展,人工智能的相关技术越来越多的被运用到医疗领域中。医学领域的词语处理是指进行医学词语标准化,医学词语标准化是医疗人工智能的重要基石,其目的是从数据库中的多个标准医学词语中,确定非标准医学词语对应的标准医学词语。相关技术中,对于给定的非标准医学词语,首先提取非标准医学词语和每个标准医学词语的文字特征,如分词特征、词性特征、字符特征等,然后基于文字特征,构建非标准医学词语与标准医学词语之间的映射概率分布模型,通过该映射概率分布模型,计算非标准医学词语与各个标准医学词语之间的相似度,将相似度最高的标准医学词语确定为该非标准医学词语对应的标准医学词语,实现医学词语标准化。
上述技术中,所提取的文字特征往往无法有效地表示非标准医学词语和标准医学词语,导致医学词语标准化的准确率较低。
发明内容
本申请实施例提供了一种词语处理方法、装置、设备及存储介质,该方法能够提高医学词语标准化的准确率。该技术方案如下:
一方面,提供了一种词语处理方法,该方法包括:
获取待处理的第一词语;
获取该第一词语与各个第二词语之间的第一相似参数,该第一相似参数用于表示该第一词语与该第二词语之间的语义相似度,以及,该第一词语与第二词语之间的知识相似度,该知识相似度用于表示词语在知识图谱中与其他词语之间的关系的相似度;
基于多个该第一相似参数,从多个该第二词语中确定多个第一候选词;
将该多个第一候选词中符合条件的第一候选词,确定为该第一词语对应的第二词语。
在一些实施例中,该第一词语为非标准医学词语,该第二词语为标准医学词语。
一方面,提供了一种词语处理种装置,该装置包括:
获取模块,用于获取待处理的第一词语;
该获取模块,用于获取该第一词语与各个第二词语之间的第一相似参数,该第一相似参数用于表示该第一词语与该第二词语之间的语义相似度,以及,该第一词语与第二词语之间的知识相似度,该知识相似度用于表示词语在知识图谱中与其他词语之间的关系的相似度;
确定模块,用于基于多个该第一相似参数,从多个该第二词语中确定多个第一候选词;
该确定模块,用于将该多个第一候选词中符合条件的第一候选词,确定为该第一词语对应的第二词语。
在一些实施例中,该获取模块,用于对目标文本进行语义提取,得到该目标文本的语义特征;基于该语义特征,获取该目标文本对应的第二词语的数量;在该数量为1的情况下,将该目标文本作为该第一词语;在该数量大于1的情况下,对该目标文本进行分词,得到多个该第一词语。
在一些实施例中,该多个第二词语包括多个第三词语和多个第四词语,各个该第三词语表示类目,各个该第四词语表示对应的第三词语下的子类目,该获取模块,用于获取该第一词语与各个该第三词语之间的第一相似参数;响应于该多个第三词语中存在第五词语,获取该第一词语与该第五词语对应的各个第四词语之间的第一相似参数,该第五词语为与该第一词语之间的第一相似参数大于第一阈值的第三词语。
在一些实施例中,该多个第二词语为国际伤害及死因分类标准第十版ICD10中的标准医学词语,每个第二词语对应一个ICD10编码;每个第三词语的ICD10编码为3位,每个第四词语的ICD10编码的前3位与对应的第三词语的ICD10编码相同。
在一些实施例中,该获取模块,用于基于该第一词语的第一语义特征和各个该第二词语的第二语义特征,获取该第一词语与各个该第二词语之间的语义相似参数;基于该第一词语、各个该第二词语和该知识图谱,获取该第一词语和各个该第二词语之间的知识相似参数,该知识相似参数用于表示该第一词语在该知识图谱中与其他词语之间的关系和各个该第二词语在该知识图谱中与其他词语之间的关系之间的相似度;基于该第一词语与各个该第二词语之间的该语义相似参数和对应的该知识相似参数,获取该第一词语与各个该第二词语之间的第一相似参数。
在一些实施例中,该获取模块,还用于获取该第一词语与各个该第二词语之间的简略文字特征,该简略文字特征用于表示该第一词语与各个该第二词语之间的文字编辑距离;基于该第一词语与各个该第二词语之间的简略文字特征、对应的该语义相似参数和对应的该知识相似参数,获取该第一词语与各个该第二词语之间的第一相似参数。
在一些实施例中,该获取模块,用于提取该第一词语在该知识图谱中与其他词语之间的关系信息,以及,各个该第二词语在该知识图谱中与其他词语之间的关系信息,得到该第一词语的第一知识特征和各个该第二词语的第二知识特征;基于该第一知识特征和各个该第二知识特征,获取该第一词语和各个该第二词语之间的知识相似参数。
在一些实施例中,该确定模块包括:
获取子模块,用于基于该第一语义特征、各个该第一候选词的第二语义特征、该第一词语与各个该第一候选词之间的精细文字特征,获取该第一词语与各个该第一候选词之间的第二相似参数,该精细文字特征用于表示该第一词语与各个该第一候选词之间多个维度的文字信息,该第二相似参数用于表示该第一词语与各个该第一候选词之间的语义相似度和文字相似度;
确定子模块,用于基于多个该第二相似参数,从该多个第一候选词中确定多个第二候选词;
该确定子模块,用于将该多个第二候选词中符合条件的第二候选词,确定为该第一词语对应的第二词语。
在一些实施例中,该获取子模块,用于对该第一语义特征和各个该第一候选词的第二语义特征进行降维,得到该第一词语的第三语义特征和各个该第一候选词的第四语义特征;将该第三语义特征与各个该精细文字特征拼接,得到该第一词语对应的各个第一拼接特征,将各个该第四语义特征与对应的该精细文字特征拼接,得到各个该第一候选词对应的第二拼接特征;基于各个该第一拼接特征与对应的该第二拼接特征,获取该第一词语与各个该第一候选词之间的第二相似参数。
在一些实施例中,该确定子模块,用于基于合理性规则,从该多个第二候选词中筛选出至少一个第三候选词;将第二相似参数最大的第三候选词确定为该第一词语对应的第二词语;
其中,该合理性规则用于基于该第一词语对该多个第二候选词进行否定词检查和医学合理性检查,该否定词检查指检查每个该第二候选词与该第一词语是否存在语义矛盾。
在一些实施例中,该获取模块,用于基于语义增强规则,为该目标文本补充与该目标文本语义相关的文字,得到语义增强文本;基于该语义增强文本,获取该第一词语。
在一些实施例中,该获取模块,用于获取白名单,该白名单包括多个第一词语和第二词语之间的对应关系;
该装置还包括:
匹配模块,用于将该目标文本与该白名单中的第一词语进行字符串匹配,若该目标文本与该白名单中任一第一词语匹配成功,将该白名单中该第一词语对应的第二词语确定为该目标文本对应的第二词语;若该目标文本与该白名单中所有第一词语均匹配失败,执行该获取待处理的第一词语的步骤。
在一些实施例中,该第一词语为非标准医学词语,该第二词语为标准医学词语。
一方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现该词语处理方法所执行的操作。
一方面,提供了一种计算机程序产品,该计算机程序产品包括至少一条计算机程序,该至少一条计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该至少一条计算机程序,处理器执行该至少一条计算机程序,使得该计算机设备实现该词语处理方法所执行的操作。
本申请实施例提供的技术方案,通过非标准医学词语与各个标准医学词语之间的第一相似参数,从多个标准医学词语中筛选出多个第一候选词,由于第一相似参数能够表示非标准医学词语与各个标准医学词语之间的语义相似度和知识相似度,因此,能够提高筛选第一候选词的准确率,进一步将多个第一候选词中符合条件的第一候选词确定为非标准医学词语对应的标准医学词语,达到了提高医学词语标准化的准确率的目的。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种词语处理方法的实施环境示意图;
图2是本申请实施例提供的一种词语处理方法的流程图;
图3是本申请实施例提供的一种词语处理方法的流程图;
图4是本申请实施例提供的一种词语处理界面的示意图;
图5是本申请实施例提供的一种词语处理方法的示意图;
图6是本申请实施例提供的一种词语数量预测模型的示意图;
图7是本申请实施例提供的一种精细召回模型的示意图;
图8是本申请实施例提供的一种词语处理方法的流程图;
图9是本申请实施例提供的一种词语处理装置的结构示意图;
图10是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
为了便于理解本申请实施例的技术过程,下面对本申请实施例所涉及的一些名词进行解释:
国际疾病伤害及死因分类标准第十版(International Classification ofDiseases-10,ICD10)是世界卫生组织(World Health Organization,WHO)依据疾病的某些特征,按照规则将疾病分门别类,并用编码的方式来表示的系统,现有版本包括15.5万种代码,并记录多种新型诊断及预测。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的技术方案还能够与云技术相结合,例如,将训练得到的目标预测模型部署在云端服务器。云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
其中,云技术中的医疗云(Medical Cloud)是指在云计算、移动技术、多媒体、4G通信、大数据、以及物联网等新技术基础上,结合医疗技术,使用“云计算”来创建医疗健康服务云平台,实现了医疗资源的共享和医疗范围的扩大。因为云计算技术的运用于结合,医疗云提高医疗机构的效率,方便居民就医。像现在医院的预约挂号、电子病历、医保等都是云计算与医疗领域结合的产物,医疗云还具有数据安全、信息共享、动态扩展、布局全局的优势。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
卷积神经网络(Convolutional Neural Networks,CNN),是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),它的人工神经元可以响应一部分覆盖范围内的周围单元,由一个或多个卷积层和顶端的全连接层(对应经典的神经网络)组成,同时也包括关联权重和池化层(Pooling Layer),是深度学习(DeepLearning)的代表算法之一。
线性整流函数(Rectified Linear Unit,ReLU),又称修正线性单元,是一种人工神经网络中常用的激活函数(Activation Function),通常指代以斜坡函数及其变种为代表的非线性函数。
下面对本申请实施例提出的词语处理方法的应用场景进行介绍。
在医学领域中,本申请实施例提供的词语处理方法,能够确定待处理的非标准医学词语对应的标准医学词语,实现医学词语标准化。该词语处理方法能够应用于以下三种场景:
(1)构建医疗数据中台
医院需要对患者的诊断信息进行存储,以构建医疗数据中台。然而在临床方面,同一种病症往往会有多种表达方式,而且医生为患者填写相关的诊断信息时也会有一些口语化的表达。因此,在存储患者的诊断信息之前,为保证数据的准确性和标准性,往往需要病案编码员基于ICD10将病患的诊断信息转换成标准医学词语,再将标准医学词语和对应的ICD10编码进行存储,会耗费大量的人力和时间,而基于本申请所提出的词语处理方法,能够快速、智能地确定诊断信息所对应的标准医学词语,减少病案编码员的工作量,从而帮助医院快速、低成本地构建起信息化存储和查询的数据中台。
(2)智能辅助核保
医保局为客户进行核保时,需要根据客户的体检结果来判断客户是否符合投保的要求,由于不同医院对同一病症的的表达方式有可能不同,医保局需要依靠大量人力进行核保,基于本申请所提出的词语处理方法,能够以统一标准将客户的体检结果进行医学词语标准化,基于经过标准化后的诊断结果,可以通过人工智能的相关技术实现智能核保,从而能够节省大量人力。
(3)智能疫情防控
基于本申请所提出的词语处理方法,能够将不同等级、不同地域的医院的数据以同一标准进行标准化,从而打通多家医院的数据,通过经过标准化后的多家医院的数据,构建智能化疫情防控大屏和智能疫情监管。
下面对本申请提供的词语处理方法的实施环境进行介绍。
图1是本申请实施例提供的一种词语处理方法的实施环境示意图,参见图1,该实施环境包括:终端101和服务器102。终端101和服务器102之间通过有线或者无线网络进行直接或间接地连接。
终端101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,本申请实施例对此不作限定。终端101可以运行有支持词语处理的应用程序,用户能够通过终端101运行的应用程序上传需要进行词语处理的文本,终端101能够将该文本发送至服务器102。
服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。该服务器102可以关联有数据库,该数据库用于存储多个用于词语处理的文本。该服务器102能够为上述支持词语处理的应用程序提供后台服务。
在一些实施例中,上述终端101和服务器102能够作为区块链系统中的节点。
可选地,终端101泛指多个终端中的一个,本实施例仅以终端101来举例说明。本领域技术人员能够知晓,上述终端101的数量能够更多。比如上述终端101为几十个或几百个,或者更多数量,此时上述词语处理方法的实施环境还包括其他终端,本申请实施例对终端的数量和设备类型不作限定。
基于图1所示的实施环境,本申请实施例结合图2对该词语处理方法进行说明,图2是本申请实施例提供的一种词语处理方法的流程图,该方法由服务器执行,如图2所示,该实施例包括以下步骤。
201、服务器获取待处理的第一词语。
在一些实施例中,服务器首先获取目标文本,然后基于目标文本获取第一词语。其中,该第一词语是非标准医学词语,可选地,该目标文本包括描述患者症状的词语或词组,如“腰疼”、“头疼头晕”等等,或者,该目标文本包括诊断病症的词语或词组,如“肺部感染”、“肺炎”等等,或者,该目标文本包括与医学领域不相关的词语或词组,如“喝可乐”、“坐下”等等,本申请实施对此不做限定。
在本申请实施例中,若该目标文本为与医学领域不相关的词语或词组,则服务器不执行基于目标文本获取第一词语的步骤。
202、服务器获取第一词语与各个第二词语之间的第一相似参数,第一相似参数用于表示第一词语与第二词语之间的语义相似度,以及,第一词语与第二词语之间的知识相似度,知识相似度用于表示词语在知识图谱中与其他词语之间的关系的相似度。
其中,该第二词语是存储在数据库中的标准医学词语,例如,该第二词语是ICD10中的标准医学词语。可选地,该多个第二词语也能够以列表形式存储,本申请实施例对此不做限定。
其中,该第一相似参数越大,表示第一词语与对应的第二词语之间的语义相似度和知识相似度越高,该第一相似参数越小,表示第一词语与对应的第二词语之间的语义相似度和知识相似度越低。
其中,该知识图谱为医学领域的知识图谱,由相互连接的实体以及实体之间的关系所构成。知识图谱中的实体为医学词语,关系为两个医学词语之间的关系,可选地,关系包括两种病症之间的包含关系,如,“癌症”与“胃癌”之间的关系为“父类”等,或者,关系包括病症与治疗方法之间的对应关系,如“感冒”与“阿司匹林”之间的关系为“治疗药物”等,本申请实施例对此不做限定。
203、服务器基于多个第一相似参数,从多个第二词语中确定多个第一候选词。
在确定多个第一候选词的过程中,由于综合考虑了第一词语和各个第二词语之间的语义相似度和知识相似度,从而能够提高确定多个第一候选词的准确率。
204、服务器将多个第一候选词中符合条件的第一候选词,确定为第一词语对应的第二词语。
在本申请实施例中,服务器通过对多个第一候选词进行再次筛选,从多个第一候选词中确定第一词语对应的第二词语,也即是,确定待处理的非标准医学词语对应的标准医学词语,从而实现医学词语标准化。
本申请实施例提供的技术方案,通过非标准医学词语与各个标准医学词语之间的第一相似参数,从多个标准医学词语中筛选出多个第一候选词,由于第一相似参数能够表示非标准医学词语与各个标准医学词语之间的语义相似度和知识相似度,因此,能够提高筛选第一候选词的准确率,进一步将多个第一候选词中符合条件的第一候选词确定为非标准医学词语对应的标准医学词语,达到了提高医学词语标准化的准确率的目的。
本申请实施例结合图3,对该词语处理方法进行详细说明,图3是本申请实施例提供的一种词语处理方法的流程图,该方法由服务器执行,如图3所示,该实施例包括以下步骤。
301、服务器获取目标文本。
在一些实施例中,服务器能够基于以下两种方式获取目标文本:
一种实现方式中,终端提供有如图4所示的词语处理界面,用户可以基于该词语处理界面上传目标文本,终端响应于该词语处理界面对目标文本的上传操作,向服务器发送处理请求,该处理请求携带目标文本,服务器接收终端的处理请求,获取该目标文本。
另一种实现方式中,服务器能够周期性地触发对已存储的多个目标文本的处理过程,也即是,服务器能够每隔目标时长,从数据库或列表中获取目标文本,以便对目标文本进行处理。
需要说明的是,若服务器获取了多个目标文本,能够以串行或并行的方式对该多个目标文本进行处理。
在一些实施例中,如图5中501部分所示,服务器获取目标文本后,能够基于白名单确定目标文本对应的第二词语。相应地,该步骤301还包括:服务器获取白名单,该白名单包括多个第一词语和第二词语之间的对应关系,将目标文本与白名单中的第一词语进行字符串匹配,若该目标文本与该白名单中任一第一词语匹配成功,将该白名单中该第一词语对应的第二词语确定为该目标文本对应的第二词语,若该目标文本与该白名单中所有第一词语均匹配失败,执行步骤302。其中,目标文本与白名单中任一第一词语匹配成功是指,目标文本的各个字符与该第一词语的各个字符均相同。
其中,该白名单是一个记录第一词语和第二词语之间的对应关系的列表,该白名单中的第一词语为在某个应用场景中出现频率大于预设阈值的非标准医学词语。示例性地,对服务器获取白名单的过程进行说明,服务器进行词语处理的过程中,能够实时对第一词语的出现次数进行统计,若某个第一词语的出现频率大于预设阈值,则将该第一词语和对应的第二词语之间的对应关系记录在白名单中,服务器能够基于处理过的第一词语的出现次数实时更新白名单。可选地,上述预设阈值为0.7。
通过该白名单,记录了出现频率较高的第一词语对应的第二词语,从而能够在目标文本与白名单中的第一词语匹配成功时,快速地确定目标文本对应的第二词语,大大提高了效率。
302、服务器基于目标文本,获取待处理的第一词语。
在一些实施例中,如图5中502部分所示,服务器首先获取目标文本的语义特征,然后基于目标文本的语义特征,预测该目标文本对应的第二词语的数量,基于预测得到的数量,采用对应的处理流程,来获取第一词语。下面基于步骤302A至步骤302C对上述过程进行说明。
302A、服务器对目标文本进行语义提取,得到该目标文本的语义特征。
在一些实施例中,如图6所示,服务器首先在目标文本之前拼接目标字符,得到拼接文本,然后将该拼接文本输入词语数量预测模型的语义特征提取子模型,分别提取拼接文本中每个字符与其他字符之间的关系信息,得到拼接文本中每个字符对应的输出特征,由于目标字符对应的输出特征包含了目标字符与目标文本中各个字符之间的关系,从而将目标文本中每个字符的语义信息进行了融合,因此,服务器将目标字符对应的输出特征,也即是输出数据中的第一个特征,作为该目标文本的语义特征。可选地,该目标字符为[CLS]。
示例性地,以该语义特征提取子模型是双向编码模型(Bidirectional EncoderRepresentations from Transformers,BERT)为例,对获取目标文本的语义特征的过程进行说明。该BERT模型包含多个编码器,每个编码器中包括一个多头自注意力单元,服务器基于该BERT模型中包含的多个多头自注意力单元,分别提取拼接文本中每个字符与其他字符之间的关系信息,得到拼接文本中每个字符对应的输出特征,将该目标字符对应的输出特征,作为目标文本的语义特征。
302B、服务器基于该语义特征,获取该目标文本对应的第二词语的数量。
在一些实施例中,如图6所示,服务器将该目标文本的语义特征输入词语数量预测模型的线性分类子模型,该线性分类子模型包括多个全连接层,服务器通过该多个全连接层,将该语义特征映射到分类空间,得到分类结果,该分类结果用于表示目标文本对应的第二词语的数量为0、1或者是大于1的整数。可选地,该线性分类子模型包括2个全连接层。
302C、服务器基于该目标文本对应的第二词语的数量,获取第一词语。
在一些实施例中,在该数量为1的情况下,服务器将该目标文本作为该第一词语。在该数量大于1的情况下,服务器对该目标文本进行分词,得到多个该第一词语。可选地,服务器基于命名体识别模型(Named Entity Recognition,NER)对目标文本进行分词。在该数量为0的情况下,也即是,该目标文本与医学领域不相关,服务器停止对该目标文本的进一步处理,不再执行后续步骤。可选地,在该数量为0的情况下,服务器向终端返回拒绝响应,该拒绝响应用于表示目标文本不存在对应的第二词语,终端接收该拒绝响应,在词语处理界面显示提示信息,该提示信息用于提示用户上传的目标文本不存在对应的第二词语。
在一些实施例中,如图5中503部分所示,服务器先对目标文本进行语义增强,然后基于语义增强后的文本,获取第一词语,相应地,本步骤302可以替换为:服务器基于语义增强规则,为该目标文本补充与该目标文本语义相关的文字,得到语义增强文本,基于该语义增强文本,通过与上述步骤302A至步骤302C同理的方法,以获取第一词语。
其中,该语义增强规则基于大量医学知识得到,该语义增强规则可以是医学领域中的常识或基本规则,可以基于实际的应用场景进行配置。该语义增强规则包括多个模板、对应的补充文字和对应的补充位置,该补充文字为与对应的模板语义相关的文字,补充位置用于指示对应的补充文字在目标文本中的填充位置。
示例性地,对上述获取语义增强文本的过程进行说明。服务器将目标文本与语义增强规则的多个模板进行字符串匹配,若与任一模板匹配成功,将该模板对应的补充文字填充在补充位置所指示的目标文本中的相应位置,得到语义增强文本。例如,若目标文本为“37周”,服务器将目标文本与语义增强规则的多个模板进行匹配,与“数字+周”这个模板匹配成功,该模板对应的补充文字为“怀孕”,对应的补充位置指示将补充文字填充在目标文字之前,则服务器将“怀孕”填充在“37周”之前,得到语义增强文本“怀孕37周”。通过该语义增强规则对目标文本进行处理,能够使所得到的语义增强文本包含更丰富的语义信息,进一步基于该语义增强文本来获取第一词语,能够有效提高医学词语标准化的准确率。
需要说明的是,若服务器获取了多个第一词语,服务器能够基于串行或并行的方式对该多个第一词语机型处理,本申请实施例对此不做限定。
可选地,对于上述步骤301至302,服务器获取目标文本后,可以先基于目标文本,获取第一词语,然后将得到的第一词语与白名单中的第一词语进行匹配。需要说明的是,若服务器通过目标文本进行分词,获取了多个第一词语,则服务器分别将所获取的多个第一词语与白名单中的第一词语进行匹配,将匹配成功的第一词语在白名单中对应的第二词语,确定为该匹配成功的第一词语对那个的第二词语,基于后续步骤对匹配失败的第一词语进行处理,从而确定匹配失败的第一词语对应的第二词语。
303、服务器获取多个第二词语。
在一些实施例中,服务器从数据库或列表中获取该多个第二词语。可选地,若该多个第二词语为ICD10的多个标准医学词语,服务器可以从数据库或列表中获取临床版ICD10的多个标准医学词语作为多个第二词语,或者,获取医保版ICD10的多个标准医学词语作为多个第二词语。其中,临床版ICD10和医保版ICD10为两个不同的医学标准体系,服务器可以基于应用场景的需求,获取不同医学标准体系下的多个第二词语,从而能够更加灵活地实现医学词语标准化。
在一些实施例中,服务器能够基于数据分块算法以及数据索引算法,将不同医学标准体系下的多个医学标准词语存储在数据库中,从而在需要进行医学词语标准化时,能够快速地从数据库中获取多个第二词语,达到提高效率的目的。可选地,服务器也能够以同理的方法将多个医学标准词语存储在列表中,以实现快速获取多个第二词语的目的,本申请实施例对此不做限定。
需要说明的是,对于上述获取第一词语和第二词语的过程,服务器可以先获取第一词语,然后获取多个第二词语,或者,服务器可以先获取多个第二词语,然后获取第一词语,本申请实施例对此不做限定。
在一些实施例中,上述多个第二词语分别存储在不同的区块链节点上,区块链系统中的各个节点均能够对上述多个第二词语进行查阅。或者,在一些情况下,如果用户想要对第二词语补充或者更新,也能够通过区块链系统来实现。比如用户在区块链系统中提出对第二词语进行补充,那么区块链系统中的多个节点能够对补充的内容进行投票,在区块链系统中的多个节点达成共识的情况下,区块链系统能够对补充的内容进行存储。当然,若用户想要对第二词语进行更新,区块链系统中的多个节点也能够对更新的内容进行投票,在区块链系统中的多个节点达成共识的情况下,区块链系统能够对更新的内容进行存储。通过将多个第二词语存储区块链系统中,能够保证区块链系统中的每个节点获取多个第二词语,从而在使用本申请实施例提供的词语处理方法时,能够准确地确定第一词语对应的第二词语。
304、服务器获取第一词语与各个第二词语之间的第一相似参数,第一相似参数用于表示第一词语与第二词语之间的语义相似度,以及,第一词语与第二词语之间的知识相似度,知识相似度用于表示词语在知识图谱中与其他词语之间的关系的相似度。
在一些实施例中,服务器首先获取第一词语和各个第二词语之间的语义相似参数和知识相似参数,然后基于所获取的语义相似参数和知识相似参数,获取第一词语与各个第二词语之间的第一相似参数,下面基于步骤303A至步骤303C对上述过程进行说明:
304A、服务器基于第一词语的第一语义特征和各个第二词语的第二语义特征,获取第一词语与各个第二词语之间的语义相似参数。
在一些实施例中,服务器首先获取第一语义特征和各个第二语义特征,然后基于第一语义特征和各个第二语义特征,获取第一词语和各个第二词语之间的语义相似参数。可选地,第一词语与各个第二词语之间的语义相似参数为第一知识特征与各个第二知识特征之间的余弦相似度或者欧氏距离等,本申请实施例对此不做限定。
示例性地,对上述获取第一语义特征和各个第二语义特征的过程进行说明。若在上述步骤302C中,服务器将目标文本作为第一词语,则将该目标文本的语义特征作为该第一语义特征。若在上述步骤302C中,服务器通过对目标文本进行分词得到第一词语,则服务器基于BERT模型,通过与上述步骤302A同理的方法,得到该第一语义特征和各个第二语义特征。可选地,服务器还可以基于其他的语义特征提取模型获取该第一语义特征和各个第二语义特征,如轻量级双向编码模型(A Lite Bidirectional Encoder Representationsfrom Transformers,ALBERT)或词向量表示模型(Word to Vector,Word2vec)等,相应地,该获取第一语义特征或任一第二语义特征的方法如公式(1)所示。
Vec=enc(w),enc∈{BERT,ALBERT,Word2vec} (1)
其中,Vec表示第一语义特征或第二语义特征,w表示第一词语或第二词语,enc()表示语义特征提取模型。
需要说明的是,第一语义特征和各个第二语义特征均为S维向量,可选地,S=768。
304B、服务器基于第一词语、各个第二词语和知识图谱,获取第一词语与各个第二词语之间的知识相似参数。
其中,该知识相似参数用于表示该第一词语在知识图谱中与其他词语之间的关系和各个第二词语在知识图谱中与其他词语之间的关系之间的相似度。
其中,该知识图谱包括实体集合E、关系集合R和关系三元组集合T,知识图谱G可以表示为G={E,R,T}。其中,关系三元组集合基于实体集合和关系集合得到,一个关系三元组(h,r,t)包括头实体h、关系r和尾实体t,用于表示知识图谱中的一条知识,例如,关系三元组(感冒,药物,阿司匹林),“感冒”为头实体,“药物”为关系,“阿司匹林”为尾实体。
在本申请实施例中,服务器基于知识图谱的关系三元组集合,训练翻译嵌入模型(Translating Embedding,TransE),使得该TransE模型能够提取任一医学词语在知识图谱中与其他相邻医学词语之间的关系信息,具体训练过程详见本实施例后面对各个模型训练过程的介绍。
在一些实施例中,服务器基于TransE模型,提取该第一词语在知识图谱中与其他词语之间的关系信息,得到第一知识特征,基于TransE模型,分别提取各个第二词语在知识图谱中与其他词语之间的关系信息,得到各个第二知识特征,然后基于第一知识特征和各个第二知识特征,获取第一词语和各个第二词语之间的知识相似参数。可选地,第一词语与各个第二词语之间的知识相似参数为第一知识特征与各个第二知识特征之间的余弦相似度或欧氏距离等,本申请实施例对此不做限定。
需要说明的是,对于上述步骤304A至304B,服务器可以先获取语义相似参数,然后获取知识相似参数,或者,服务器可以先获取知识相似参数,然后获取语义相似参数,本申请实施例对此不做限定。
304C、服务器基于第一词语与各个第二词语之间的语义相似参数和对应的知识相似参数,获取第一词语与各个第二词语之间的第一相似参数。
在一些实施例中,服务器将第一词语与各个第二词语之间的语义相似参数和对应的知识相似参数进行加权求和,得到第一词语与各个第二词语之间的第一相似参数。权重的取值可以根据具体的应用场景进行设定,本申请实施例对此不做限定。
在一些实施例中,该步骤304还包括:服务器获取第一词语与各个第二词语之间的简略文字特征,该简略文字特征用于表示第一词语与各个第二词语之间的文字编辑距离。其中,文字编辑距离(Edit Distance)也可称为莱文斯坦距离(Levenshtein Distance),两个词语之间的文字编辑距离是指,至少需要多少次处理才能将其中一个词语变成另一个词语,文字编辑距离越小,表示两个词语的文字相似度越高。
相应地,服务器获取第一词语与各个第二词语之间的第一相似参数的过程为:服务器基于该第一词语与各个该第二词语之间的简略文字特征、对应的该语义相似参数和对应的该知识相似参数,获取第一词语与各个第二词语之间的第一相似参数。可选地,该获取第一相似参数的方法如公式(2)所示。
/>
其中,A表示第一词语,B表示第二词语,dist(A,R)表示第一词语与第二词语之间的文字编辑距离,sim(A’,B’)表示第一词语与第二词语之间的语义相似参数,sim(A”,B”)表示第一词语与第二词语之间的知识相似参数。通过获取第一词语与各个第二词语之间的简略文字特征,并基于该简略文字特征、语义相似参数和只是相似参数,获取第一相似参数,使得该第一相似参数能够更加准确的表示第一词语与各个第二词语之间的相似度,达到提高医学词语标准化的准确率的目的。
在一些实施例中,该多个第二词语包括多个第三词语和多个第四词语,各个第三词语表示类目,各个第四词语表示对应的第三词语下的子类目,可选地,该第三词语为知识图谱中表示类目的病症名称,第四词语为知识图谱中表示子类目的病症名称,如,第三词语为“癌症”,对应的某个第四词语为“胃癌”。相应地,服务器获取第一词语与各个第二词语之间的第一相似参数的过程为:服务器获取第一词语与各个第三词语之间的第一相似参数,响应于该多个第三词语中存在第五词语,获取该第一词语与该第五词语对应的各个第四词语之间的第一相似参数,该第五词语为与第一词语之间的第一相似参数大于第一阈值的第三词语。上述过程可以称为基于粗粒度概念获取第一相似参数的过程。
其中,若该多个第二词语为ICD10中的标准医学词语,则每个第二词语对应一个ICD10编码,每个第三词语的ICD10编码为3位,每个第四词语的ICD10编码的前3位与对应的第三词语的ICD10编码相同。
示例性地,如表1所示,表1展示了部分ICD10中的标准医学词语和对应的ICD10编码,其中ICD10编码为“B45”的词语为第三词语,用于表示“隐球菌病”这一类目,表1中其他词语为该第三词语对应的多个第四词语,用于表示“隐球菌病”类目下的多个子类目,表1中多个第四词语的ICD10编码的前三位与对应的第三词语的ICD10编码相同,均为“B45”。在获取第一词语与表1中各个词语之间的第一相似参数时,首先获取第一词语与“隐球菌病”之间的第一相似参数,响应于该第一相似参数大于第一阈值,服务器获取第一词语与该“隐球菌病”对应的各个第四词语之间的第一相似参数。
基于粗粒度概念获取第一词语与各个第二词语之间的第一相似参数,服务器无需获取第一词语与所有第二词语之间的第一参数,从而减少了计算复杂度,提高了效率,同时也能够进一步提高了确定多个第一候选词的准确性。
表1
B45 | 隐球菌病 |
B45.0 | 肺隐球菌病 |
B45.001+J99.8* | 肺隐球菌病 |
B45.002+J99.8* | 新型隐球菌肺炎 |
B45.1 | 大脑隐球菌病 |
B45.191+G02.1* | 隐球菌脑膜炎 |
B45.102+G02.1* | 新型隐球菌脑膜炎 |
B45.103+G05.2* | 隐球菌脑炎 |
B45.2 | 皮肤隐球菌病 |
B45.201+L99.8* | 皮肤隐球菌病 |
B45.3 | 骨隐球菌病 |
B45.301+M90.2* | 骨隐球菌病 |
B45.7 | 散播性隐球菌病 |
B45.701 | 散播性隐球菌病 |
B45.8 | 其他形式的隐球菌病 |
B45.801 | 胆道隐球菌病 |
B45.802 | 前列腺隐球菌病 |
B45.9 | 未特指的隐球菌病 |
B45.901 | 隐球菌病 |
305、服务器基于多个第一相似参数,从多个第二词语中确定多个第一候选词。
在一些实施例中,服务器基于该第一相似参数从大到小的顺序,对多个第二词语进行排序,将位于前M位的第二词语确定为该多个第一候选词,M为大于0且小于J的整数,J为第二词语的数量,可选地,M=100。
需要说明的是,上述步骤304至步骤305对应于图5中504部分,为服务器基于第一词语与各个第二词语之间的语义相似度、知识相似度,从多个第二词语中筛选出多个第一候选词的过程。
306、服务器基于第一词语的第一语义特征、各个第一候选词的第二语义特征、第一词语与各个第一候选词之间的精细文字特征,获取第一词语与各个第一候选词之间的第二相似参数。
其中,第二相似参数用于表示该第一词语与各个该第一候选词之间的语义相似度和精细文字相似度,精细文字特征用于表示第一词语与各个第一候选词之间多个维度的文字信息,可选地,第一词语与各个第一候选词之间多个维度的文字信息包括第一词语与各个第一候选词之间的文字编辑距离、拼音编辑距离、相同偏旁部首数量、最长公共子序列和身体部位关系信息等等。其中,两个词语之间的拼音编辑距离指至少需要多少次处理,才能将一个词语的拼音变成另一个词语的拼音;两个词语之间的相同偏旁部首数量指,一个词语的各个字符与另一个词语的各个字符之间相同偏旁部首的数量;两个词语之间的最长公共子序列指,一个词语与另一个词语之间最长的连续相同字符的数量;两个词语之间的身体部位关系信息指,两个词语对应的身体部位之间的相关性。
在一些实施例中,服务器基于精细召回模型,获取多个第一拼接特征和多个第二拼接特征,该多个第一拼接特征用于表示第一词语的语义信息,以及第一词语与各个第一候选词之间的文字信息,该多个第二拼接特征用于表示多个第一候选词的语义信息,以及第一词语与各个第一候选词之间的文字信息,然后基于各个第一拼接特征和对应的第二拼接特征,获取第一词语与各个第一候选词之间的第二相似参数。其中,精细召回模型的结构如图7所示,该精细召回模型包括第一网络和第二网络,该第一网络和第二网络为孪生的两个网络,该第一网络和第二网络共享权值。下面基于步骤306A至306C对上述过程进行说明:
306A、服务器对第一语义特征和各个第一候选词的第二语义特征进行降维,得到第一词语的第三语义特征和各个第一候选词的第四语义特征。
在一些实施例中,服务器基于精细召回模型中第一网络的多个全连接层(Dense),对第一语义特征进行多次降维,得到第三语义特征,基于精细召回模型中第二网络的多个全连接层,对各个第一候选词的第二语义特征进行多次降维,得到各个第一候选词的第四特征。可选地,第一网络和第二网络均包含3个全连接层。
306B、服务器将第三语义特征分别与各个精细文字特征拼接,得到第一词语对应的各个第一拼接特征,将各个第四语义特征与对应的该精细文字特征拼接,得到各个第一候选词对应的第二拼接特征。
在一些实施例中,服务器基于精细召回模型中第一网络的拼接层,将第三语义特征分别与各个精细文字特征拼接,得到第一词语对应的各个第一拼接特征,基于精细召回模型中第二网络的拼接层,分别将各个第一候选词的第四语义特征与对应的各个精细文字特征拼接,得到各个第一候选词对应的第二拼接特征。
306C、服务器基于各个第一拼接特征与对应的第二拼接特征,获取第一词语与各个第一候选词之间的第二相似参数。
在一些实施例中,服务器将各个第一拼接特征与对应的第二拼接特征的欧氏距离的相反数或者余弦相似度,作为该第一词语与各个第二词语之间的第二相似参数,本申请实施例对此不做限定。
307、服务器基于多个第二相似参数,从多个第一候选词中确定多个第二候选词。
在一些实施例中,服务器基于该第二相似参数从大到小的顺序,对多个第一候选词进行排序,将位于前K位的第一候选词确定为该多个第二候选词,K为大于0且小于M的整数,可选地,K=5,或,K=10。
需要说明的是,上述步骤306至步骤307对应于图5中505部分,为服务器基于第一词语与各个第一候选词之间的语义相似度和文字相似度,从多个第一候选词中筛选出多个第二候选词的过程。
308、服务器将多个第二候选词中符合条件的第二候选词,确定为第一词语对应的第二词语。
在一些实施例中,如图5中506部分所示,服务器基于合理性规则,从该多个第二候选词中筛选出至少一个第三候选词,将第二相似参数最大的第三候选词确定为该第一词语对应的第二词语。
其中,该合理性规则用于基于第一词语对多个第二候选词进行否定词检查和医学合理性检查,该否定词检查指检查每个该第二候选词与该第一词语是否存在语义矛盾。该合理性规则包括多个词语对,任一词语对为两个语义相互矛盾的医学词语或者两个不符合医学合理性的医学词语。
例如,该合理性规则包括词语对“无发烧”和“发烧”,若第一词语是“无发烧”,某个第二候选词为“发烧”,两者存在语义矛盾,则服务器基于该合理性规则,将“发烧”这个词语排除掉,将其他第二候选词筛选为第三候选词。又例如,该合理性规则包括词语对“男性生理疾病”和“宫颈癌”,若第一词语是“男性生理疾病”,某个第二候选词为“宫颈癌”,两者不符合医学合理性,则服务器基于合理性规则,排除“宫颈癌”这个词语,将其他第二候选词筛选为第三候选词。
可选地,该合理性规则还能够对多个第二候选词进行其他方面的检查,可以基于实际应用场景进行配置,本申请实施例对此不做限定。
通过该合理性规则对第二候选词进行进一步筛选,能够保证得到的第三候选词与第一词语符合医学和理性且不存在语义矛盾,从而能够进一步提高医学此与标准化的准确率。
下面基于大量真实场景下的实验数据,对本申请的方法和现有技术的方法进行对比。
其中,实验数据包括253个有效文本和400个无效文本,有效文本指与医学领域相关的文本,无效文本指与医学领域无关的文本,其中,253个有效文本中有140个文本对应多个第二词语,该253个有效文本对应的第二词语通过人工标注的方式得到。表2展示了本申请的方法与现有技术方法的对比结果,如表2所示,本申请的方法相对于现有技术的方法F1分数有接近10%的提升,由此可以证明,本申请所提出的词语处理方法能够大大提高医学词语标准化的准确率。同时,还将本申请的方法与现有技术的方法的效率进行了对比,实验表明,本申请的方法处理10000个文本耗时2.5分钟,现有技术的方法处理10000个文本耗时10分钟,由此可以表明,本申请所提出的词语数理方法能够有效提高医学词语标准化的效率。
表2
精准率(Precision) | 召回率(Recall) | F1分数 | |
现有技术 | 0.78 | 0.78 | 0.78 |
本申请 | 0.91 | 0.78 | 0.88 |
本申请实施例提供的技术方案,通过非标准医学词语与各个标准医学词语之间的第一相似参数,从多个标准医学词语中筛选出多个第一候选词,由于第一相似参数能够表示非标准医学词语与各个标准医学词语之间的语义相似度和知识相似度,因此,能够提高筛选第一候选词的准确率,进一步将多个第一候选词中符合条件的第一候选词确定为非标准医学词语对应的标准医学词语,达到了提高医学词语标准化的准确率的目的。
下面对上述实施例中涉及到的几个模型的训练过程进行介绍。
(1)词语数量预测模型
该词语数量预测模型包括语义特征提取子模型和线性分类子模型,训练该词语数量预测模型的过程包括两个部分,首先,对语义特征提取子模型进行预训练,然后,基于经过预训练的语义特征提取子模型,对词语数量预测模型进行整体训练,具体过程如以下步骤(a)至步骤(b)。
(a)服务器基于多个医学词语和对应的第一标签,对语义特征提取子模型进行预训练。若该语义特征提取子模型为BERT模型,则经过多个医学词语训练的BERT模型可以称为医学BERT模型(MedBERT)。
(b)该词语数量预测模型基于多个样本文本和对应的第一标签训练得到,该第一标签用于表示对应的样本文本对应的第二词语的数量,该数量为0、1或者大于1的整数,训练过程包括样本文本准备和模型训练两个过程:
过程1、样本文本准备。该多个样本文本包括在线问诊文本、多个原始医学文本和对多个原始医学文本进行增广所得到的文本。其中,在线问诊文本指患者问诊的文本,该在线问诊文本的第一标签可以通过医生对应的回复中包含的标准医学词语的数量得到,对原始医学文本进行增广是指在原始医学文本的前面或后面添加“了”或“吗”等无意义的助词。
过程2、模型训练。该词语数量预测模型的训练过程基于多次迭代实现,在任一次迭代的过程中,服务器基于样本文本和经过预训练的语义特征提取子模型,通过与上述步骤302A同理的方法,获取样本文本的样本语义特征,基于该样本语义特征和线性分类子模型,通过与上述步骤302B同理的方法,获取样本文本的预测分类结果,基于该预测分类结果和对应的第一标签,对该词语数量预测模型进行训练。
(2)TransE模型
该TransE模型基于多个关系三元组和对应的第二标签训练得到,该第二标签用于表示对应的关系三元组为正确三元组或错误三元组,正确三元组为知识图谱的关系三元组集合中的关系三元组,错误三元组为对正确三元组中的头实体或尾实体进行替换后得到的关系三元组。
该训练过程基于多次迭代得到,在任一次迭代的过程中,服务器随机获取一个正确三元组(h1,r1,t1)和一个错误三元组(h2,r2,t2),基于TransE模型,分别获取正确三元组和错误三元组中头实体、关系和尾实体的知识特征(h1’,r1’,t1’)和(h2’,r2’,t2’),基于所得到的知识表征向量和如下述公式(3)所示的损失函数,获取第一损失值,基于该第一损失值,对TransE模型进行训练。
L1=max(0,d_pos-d_neg+margin1) (3)
其中,d_pos表示正确三元组的得分,d_neg表示错误三元组的得分,margin1为设定的得分参数,用于表示正确三元组得分与错误三元组得分之间的最小差值。可选地,margin1=0.2。
其中,正确三元组的得分或错误三元组的得分基于得分函数(Scoring Function)得到,该得分函数如下述公式(4)所示。
其中,h’、r’、t’分别表示正确三元组或错误三元组中头实体、关系、尾实体对应的知识特征。基于上述损失函数,能够使正确三元组中h’与r’相加的值尽可能与t’接近,也即是,尽可能保持正确三元组中h’+r’=t’成立,从而使基于TransE得到任一医学词语的知识特征,包含了该医学词语在知识图谱中与其他相邻医学词语之间的关系信息。
(3)精细召回模型
该精细召回模型基于多个样本词语对和对应的第三标签训练得到,该第三标签用于表示对应的样本词语对是正样本词语对或负样本词语对,正样本词语对指对应样本词语对中的两个词语为同义词,负样本词语对指对应样本词语对中的两个词语不是同义词。训练过程包括样本词语对准备和模型训练两个过程:
过程1、样本词语对准备。服务器首先从数据库获取多个带有标注的样本词语,该标注用于指示样本词语对应的第二词语,基于多个样本词语和对应的第二词语,获取多个正样本词语对,然后服务器基于多个样本词语和经过训练的TransE模型,通过与上述步骤304至305同理的方法,获取分多个样本词语对应的多个第一样本候选词,对于任一样本词语,该样本词语对应的多个第一样本候选词包括该样本词语对应的第二词语,服务器基于除该样本词语对应的第二词语之外的其他第一样本候选词和该样本词语,获取该样本词语对应的多个负样本词语对。
过程2、模型训练。该精细召回模型的训练过程基于多次迭代实现,在任一次迭代的过程中,服务器基于与上述步骤306A同理的方法,获取该多个样本词语对的多个第三样本语义特征和多个第四样本语义特征,基于该多个第三样本语义特征和多个第四样本语义特征,通过与步骤306B同理的方法,获取该多个样本视频对的多个第一样本拼接特征和多个第二样本拼接特征,基于该多个第一样本拼接特征、多个第二样本拼接特征、对应的第三标签和如公式(5)所示的对比损失函数(Contrastive Loss),获取第二损失值,基于该第二损失值,对精细召回模型进行训练。
其中,N表示样本词语对的数量,yi表示第i个样本词语对的第三标签,di表示第i个样本词语对对应的第一样本拼接特征和第二样本拼接特征之间的欧氏距离,margin2为设定的距离参数,用于表示负样本词语对的拼接特征之间的欧氏距离的最小值,若负样本词语对的拼接特征之间的欧氏距离大于的margin2取值,则会使损失值变大,可选地,margin2=0.5。通过上述对比损失函数对精细召回模型进行训练,能够使正样本词语对对应的两个拼接特征之间的欧氏距离变小,使负样本对的两个拼接特征之间的欧式距离变大,从而使得基于该精细召回模型得到拼接特征能够准确地表示第一词语和第一候选词之间的相似度。
本申请实施例以构建医疗数据中台场景为例,结合图8对该词语处理方法进行说明,图8是本申请实施例提供的一种词语处理方法的流程图,如图8所示,该方法包括以下步骤。
801、终端向服务器发送处理请求,该处理请求用于指示服务器确定诊断信息对应的标准医学词语。
在一些实施例中,医务工作人员能够通过终端的词语处理界面,上传诊断信息,终端响应于该词语处理界面的上传操作,向服务器发送处理请求,该处理请求携带诊断信息,或者,医务工作人员能够通过终端的词语处理界面,触发对已存储在数据库或列表中的诊断信息的处理过程,终端响应于在词语处理界面上对诊断信息处理过程的触发操作,向服务器发送处理请求。
802、服务器响应于终端的处理请求,基于诊断信息,获取待处理的第一词语。
在一些实施例中,服务器响应于该处理请求,从处理请求中获取该诊断信息,或者,从数据库或列表中获取诊断信息,基于诊断信息,通过与步骤302同理的方法,获取待处理的第一词语。
可选地,服务器能够周期性地触发对已存储的诊断信息的处理过程,也即是,服务器能够每隔目标时长,从数据库或列表中获取诊断信息,以便对诊断信息进行处理。
需要说明的是,服务器可以获取多个诊断信息,通过串行或并行的方式对该多个诊断信息进行处理。
803、服务器获取多个第二词语。
其中,该多个第二词语为存储在数据库或列表中的ICD10的标准医学词语。
在一些实施例中,数据库或列表中还存储了各个第二词语对应的ICD10编码,服务器从数据库或列表中获取该多个第二词语和对应的ICD10编码。
804、服务器获取第一词语与各个第二词语之间的第一相似参数,第一相似参数用于表示第一词语与第二词语之间的语义相似度,以及,第一词语与第二词语之间的知识相似度,知识相似度用于表示词语在知识图谱中与其他词语之间的关系的相似度。
805、服务器基于多个第一相似参数,从多个第二词语中确定多个第一候选词。
806、服务器基于第一词语的第一语义特征、各个第一候选词的第二语义特征、第一词语与各个第一候选词之间的精细文字特征,获取第一词语与各个第一候选词之间的第二相似参数。
807、服务器基于多个第二相似参数,从多个第一候选词中确定多个第二候选词。
808、服务器将多个第二候选词中符合条件的第二候选词,确定为第一词语对应的第二词语。
在一些实施例中,上述步骤804至步骤808与上述步骤304至308同理,在此不再赘述。
809、服务器向终端发送成功响应,该成功响应用于表示已完成确定诊断信息对应的标准医学词语的过程。
在一些实施例中,服务器首先将该诊断信息对应的标准医学词语和对应的ICD10编码进行存储,然后向终端发送成功响应,以实现构建医疗数据中台的目的。
需要说明的是,若在上述步骤802中,服务器将该诊断信息作为第一词语,则将该第一词语对应的第二词语作为该诊断信息对应的标准医学词语,将该标准医学词语和对应的ICD10编码进行存储;若在上述步骤802中,服务器通过对诊断信息进行分词,得到多个第一词语,则将该多个第一词语对应的多个第二词语,作为该诊断信息对应的多个标准医学词语,将该多个标准医学词语和对应的多个ICD10编码进行存储。
本申请实施例提供的技术方案,通过非标准医学词语与各个标准医学词语之间的第一相似参数,从多个标准医学词语中筛选出多个第一候选词,由于第一相似参数能够表示非标准医学词语与各个标准医学词语之间的语义相似度和知识相似度,因此,能够提高筛选第一候选词的准确率,进一步将多个第一候选词中符合条件的第一候选词确定为非标准医学词语对应的标准医学词语,达到了提高医学词语标准化的准确率的目的。
图9是本申请实施例提供的一种词语处理装置的结构示意图,参见图9,该装置包括:获取模块901和确定模块902。
获取模块901,用于获取待处理的第一词语;
该获取模块901,用于获取该第一词语与各个第二词语之间的第一相似参数,该第一相似参数用于表示该第一词语与该第二词语之间的语义相似度,以及,该第一词语与第二词语之间的知识相似度,该知识相似度用于表示词语在知识图谱中与其他词语之间的关系的相似度;
确定模块902,用于基于多个该第一相似参数,从多个该第二词语中确定多个第一候选词;
该确定模块902,用于将该多个第一候选词中符合条件的第一候选词,确定为该第一词语对应的第二词语。
在一些实施例中,该获取模块901,用于对目标文本进行语义提取,得到该目标文本的语义特征;基于该语义特征,获取该目标文本对应的第二词语的数量;在该数量为1的情况下,将该目标文本作为该第一词语;在该数量大于1的情况下,对该目标文本进行分词,得到多个该第一词语。
在一些实施例中,该多个第二词语包括多个第三词语和多个第四词语,各个该第三词语表示类目,各个该第四词语表示对应的第三词语下的子类目,该获取模块901,用于获取该第一词语与各个该第三词语之间的第一相似参数;响应于该多个第三词语中存在第五词语,获取该第一词语与该第五词语对应的各个第四词语之间的第一相似参数,该第五词语为与该第一词语之间的第一相似参数大于第一阈值的第三词语。
在一些实施例中,该多个第二词语为国际伤害及死因分类标准第十版ICD10中的标准医学词语,每个第二词语对应一个ICD10编码;每个第三词语的ICD10编码为3位,每个第四词语的ICD10编码的前3位与对应的第三词语的ICD10编码相同。
在一些实施例中,该获取模块901,用于基于该第一词语的第一语义特征和各个该第二词语的第二语义特征,获取该第一词语与各个该第二词语之间的语义相似参数;基于该第一词语、各个该第二词语和该知识图谱,获取该第一词语和各个该第二词语之间的知识相似参数,该知识相似参数用于表示该第一词语在该知识图谱中与其他词语之间的关系和各个该第二词语在该知识图谱中与其他词语之间的关系之间的相似度;基于该第一词语与各个该第二词语之间的该语义相似参数和对应的该知识相似参数,获取该第一词语与各个该第二词语之间的第一相似参数。
在一些实施例中,该获取模块901,还用于获取该第一词语与各个该第二词语之间的简略文字特征,该简略文字特征用于表示该第一词语与各个该第二词语之间的文字编辑距离;基于该第一词语与各个该第二词语之间的简略文字特征、对应的该语义相似参数和对应的该知识相似参数,获取该第一词语与各个该第二词语之间的第一相似参数。
在一些实施例中,该获取模块901,用于提取该第一词语在该知识图谱中与其他词语之间的关系信息,以及,各个该第二词语在该知识图谱中与其他词语之间的关系信息,得到该第一词语的第一知识特征和各个该第二词语的第二知识特征;基于该第一知识特征和各个该第二知识特征,获取该第一词语和各个该第二词语之间的知识相似参数。
在一些实施例中,该确定模块902模块包括:
获取子模块,用于基于该第一语义特征、各个该第一候选词的第二语义特征、该第一词语与各个该第一候选词之间的精细文字特征,获取该第一词语与各个该第一候选词之间的第二相似参数,该精细文字特征用于表示该第一词语与各个该第一候选词之间多个维度的文字信息,该第二相似参数用于表示该第一词语与各个该第一候选词之间的语义相似度和文字相似度;
确定子模块,用于基于多个该第二相似参数,从该多个第一候选词中确定多个第二候选词;
该确定子模块,用于将该多个第二候选词中符合条件的第二候选词,确定为该第一词语对应的第二词语。
在一些实施例中,该获取子模块,用于对该第一语义特征和各个该第一候选词的第二语义特征进行降维,得到该第一词语的第三语义特征和各个该第一候选词的第四语义特征;将该第三语义特征与各个该精细文字特征拼接,得到该第一词语对应的各个第一拼接特征,将各个该第四语义特征与对应的该精细文字特征拼接,得到各个该第一候选词对应的第二拼接特征;基于各个该第一拼接特征与对应的该第二拼接特征,获取该第一词语与各个该第一候选词之间的第二相似参数。
在一些实施例中,该确定子模块,用于基于合理性规则,从该多个第二候选词中筛选出至少一个第三候选词;将第二相似参数最大的第三候选词确定为该第一词语对应的第二词语;
其中,该合理性规则用于基于该第一词语对该多个第二候选词进行否定词检查和医学合理性检查,该否定词检查指检查每个该第二候选词与该第一词语是否存在语义矛盾。
在一些实施例中,该获取模块901,用于基于语义增强规则,为该目标文本补充与该目标文本语义相关的文字,得到语义增强文本;基于该语义增强文本,获取该第一词语。
在一些实施例中,该获取模块901,用于获取白名单,该白名单包括多个第一词语和第二词语之间的对应关系;
该装置还包括:匹配模块,用于将该目标文本与该白名单中的第一词语进行字符串匹配,若该目标文本与该白名单中任一第一词语匹配成功,将该白名单中该第一词语对应的第二词语确定为该目标文本对应的第二词语;若该目标文本与该白名单中所有第一词语均匹配失败,执行该获取待处理的第一词语的步骤。
在一些实施例中,该第一词语为非标准医学词语,该第二词语为标准医学词语。
需要说明的是:上述实施例提供的词语处理装置在进行词语处理时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的词语处理装置与词语处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本公开实施例提供了一种用于执行上述词语处理方法的计算机设备,在一些实施例中,该计算机设备被提供为服务器,图10是本申请实施例提供的一种服务器的结构示意图,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central Processing Units,CPU)1001和一个或多个的存储器1002,其中,该一个或多个存储器1002中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器1001加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器1000还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器1000还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括至少一条程序代码的存储器,上述至少一条程序代码可由处理器执行以完成上述实施例中的词语处理方法。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品包括至少一条计算机程序,该至少一条计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该至少一条计算机程序,处理器执行该至少一条计算机程序,使得该计算机设备执行上述词语处理方法所执行的操作。
在一些实施例中,本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (24)
1.一种词语处理方法,其特征在于,所述方法包括:
获取待处理的第一词语;
获取所述第一词语与各个第二词语之间的第一相似参数,所述第一相似参数用于表示所述第一词语与所述第二词语之间的语义相似度,以及,所述第一词语与第二词语之间的知识相似度,所述知识相似度用于表示词语在知识图谱中与其他词语之间的关系的相似度;
基于多个所述第一相似参数,从多个所述第二词语中确定多个第一候选词;
对所述第一词语的第一语义特征和各个所述第一候选词的第二语义特征进行降维,得到所述第一词语的第三语义特征和各个所述第一候选词的第四语义特征;
将所述第三语义特征与各个精细文字特征拼接,得到所述第一词语对应的各个第一拼接特征,将各个所述第四语义特征与对应的所述精细文字特征拼接,得到各个所述第一候选词对应的第二拼接特征;所述精细文字特征用于表示所述第一词语与各个所述第一候选词之间多个维度的文字信息;
基于各个所述第一拼接特征与对应的所述第二拼接特征,获取所述第一词语与各个所述第一候选词之间的第二相似参数;所述第二相似参数用于表示所述第一词语与各个所述第一候选词之间的语义相似度和文字相似度;
基于多个所述第二相似参数,从所述多个第一候选词中确定多个第二候选词;将所述多个第二候选词中符合条件的第二候选词,确定为所述第一词语对应的第二词语。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理的第一词语包括:
对目标文本进行语义提取,得到所述目标文本的语义特征;
基于所述语义特征,获取所述目标文本对应的第二词语的数量;
在所述数量为1的情况下,将所述目标文本作为所述第一词语;
在所述数量大于1的情况下,对所述目标文本进行分词,得到多个所述第一词语。
3.根据权利要求1所述的方法,其特征在于,所述多个第二词语包括多个第三词语和多个第四词语,各个所述第三词语表示类目,各个所述第四词语表示对应的第三词语下的子类目,所述获取所述第一词语与各个第二词语之间的第一相似参数包括:
获取所述第一词语与各个所述第三词语之间的第一相似参数;
响应于所述多个第三词语中存在第五词语,获取所述第一词语与所述第五词语对应的各个第四词语之间的第一相似参数,所述第五词语为与所述第一词语之间的第一相似参数大于第一阈值的第三词语。
4.根据权利要求3所述的方法,其特征在于,所述多个第二词语为国际伤害及死因分类标准第十版ICD10中的标准医学词语,每个第二词语对应一个ICD10编码;
每个第三词语的ICD10编码为3位,每个第四词语的ICD10编码的前3位与对应的第三词语的ICD10编码相同。
5.根据权利要求3所述的方法,其特征在于,所述获取所述第一词语与各个第二词语之间的第一相似参数包括:
基于所述第一词语的第一语义特征和各个所述第二词语的第二语义特征,获取所述第一词语与各个所述第二词语之间的语义相似参数;
基于所述第一词语、各个所述第二词语和所述知识图谱,获取所述第一词语和各个所述第二词语之间的知识相似参数,所述知识相似参数用于表示所述第一词语在所述知识图谱中与其他词语之间的关系和各个所述第二词语在所述知识图谱中与其他词语之间的关系之间的相似度;
基于所述第一词语与各个所述第二词语之间的所述语义相似参数和对应的所述知识相似参数,获取所述第一词语与各个所述第二词语之间的第一相似参数。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取所述第一词语与各个所述第二词语之间的简略文字特征,所述简略文字特征用于表示所述第一词语与各个所述第二词语之间的文字编辑距离;
相应地,所述基于所述第一词语与各个所述第二词语之间的语义相似参数和对应的所述知识相似参数,获取所述第一词语与各个所述第二词语之间的第一相似参数包括:
基于所述第一词语与各个所述第二词语之间的简略文字特征、对应的所述语义相似参数和对应的所述知识相似参数,获取所述第一词语与各个所述第二词语之间的第一相似参数。
7.根据权利要求5所述的方法,其特征在于,所述基于所述第一词语、各个所述第二词语和所述知识图谱,获取所述第一词语和各个所述第二词语之间的知识相似参数包括:
提取所述第一词语在所述知识图谱中与其他词语之间的关系信息,以及,各个所述第二词语在所述知识图谱中与其他词语之间的关系信息,得到所述第一词语的第一知识特征和各个所述第二词语的第二知识特征;
基于所述第一知识特征和各个所述第二知识特征,获取所述第一词语和各个所述第二词语之间的知识相似参数。
8.根据权利要求1所述的方法,其特征在于,所述将所述多个第二候选词中符合条件的第二候选词,确定为所述第一词语对应的第二词语包括:
基于合理性规则,从所述多个第二候选词中筛选出至少一个第三候选词;
将第二相似参数最大的第三候选词确定为所述第一词语对应的第二词语;
其中,所述合理性规则用于基于所述第一词语对所述多个第二候选词进行否定词检查和医学合理性检查,所述否定词检查指检查每个所述第二候选词与所述第一词语是否存在语义矛盾。
9.根据权利要求2所述的方法,其特征在于,所述获取待处理的第一词语包括:
基于语义增强规则,为所述目标文本补充与所述目标文本语义相关的文字,得到语义增强文本;
基于所述语义增强文本,获取所述第一词语。
10.根据权利要求2所述的方法,其特征在于,所述获取待处理的第一词语之前,所述方法还包括:
获取白名单,所述白名单包括多个第一词语和第二词语之间的对应关系;
将所述目标文本与所述白名单中的第一词语进行字符串匹配,若所述目标文本与所述白名单中任一第一词语匹配成功,将所述白名单中所述第一词语对应的第二词语确定为所述目标文本对应的第二词语;
若所述目标文本与所述白名单中所有第一词语均匹配失败,执行所述获取待处理的第一词语的步骤。
11.根据权利要求1-10中任一项权利要求所述的方法,其特征在于,所述第一词语为非标准医学词语,所述第二词语为标准医学词语。
12.一种词语处理装置,其特征在于,所述装置包括:
获取模块,用于获取待处理的第一词语;
所述获取模块,用于获取所述第一词语与各个第二词语之间的第一相似参数,所述第一相似参数用于表示所述第一词语与所述第二词语之间的语义相似度,以及,所述第一词语与第二词语之间的知识相似度,所述知识相似度用于表示词语在知识图谱中与其他词语之间的关系的相似度;
确定模块,用于基于多个所述第一相似参数,从多个所述第二词语中确定多个第一候选词;
所述确定模块,用于将所述多个第一候选词中符合条件的第一候选词,确定为所述第一词语对应的第二词语;
其中,所述确定模块包括:
获取子模块,用于对所述第一词语的第一语义特征和各个所述第一候选词的第二语义特征进行降维,得到所述第一词语的第三语义特征和各个所述第一候选词的第四语义特征;将所述第三语义特征与各个精细文字特征拼接,得到所述第一词语对应的各个第一拼接特征,将各个所述第四语义特征与对应的所述精细文字特征拼接,得到各个所述第一候选词对应的第二拼接特征;所述精细文字特征用于表示所述第一词语与各个所述第一候选词之间多个维度的文字信息;基于各个所述第一拼接特征与对应的所述第二拼接特征,获取所述第一词语与各个所述第一候选词之间的第二相似参数;所述第二相似参数用于表示所述第一词语与各个所述第一候选词之间的语义相似度和文字相似度;
确定子模块,用于基于多个所述第二相似参数,从所述多个第一候选词中确定多个第二候选词;
所述确定子模块,用于将所述多个第二候选词中符合条件的第二候选词,确定为所述第一词语对应的第二词语。
13.根据权利要求12所述的装置,其特征在于,所述获取模块,用于对目标文本进行语义提取,得到所述目标文本的语义特征;基于所述语义特征,获取所述目标文本对应的第二词语的数量;在所述数量为1的情况下,将所述目标文本作为所述第一词语;在所述数量大于1的情况下,对所述目标文本进行分词,得到多个所述第一词语。
14.根据权利要求12所述的装置,其特征在于,所述多个第二词语包括多个第三词语和多个第四词语,各个所述第三词语表示类目,各个所述第四词语表示对应的第三词语下的子类目,所述获取模块,用于获取所述第一词语与各个所述第三词语之间的第一相似参数;响应于所述多个第三词语中存在第五词语,获取所述第一词语与所述第五词语对应的各个第四词语之间的第一相似参数,所述第五词语为与所述第一词语之间的第一相似参数大于第一阈值的第三词语。
15.根据权利要求14所述的装置,其特征在于,所述多个第二词语为国际伤害及死因分类标准第十版ICD10中的标准医学词语,每个第二词语对应一个ICD10编码;每个第三词语的ICD10编码为3位,每个第四词语的ICD10编码的前3位与对应的第三词语的ICD10编码相同。
16.根据权利要求14所述的装置,其特征在于,所述获取模块,用于基于所述第一词语的第一语义特征和各个所述第二词语的第二语义特征,获取所述第一词语与各个所述第二词语之间的语义相似参数;基于所述第一词语、各个所述第二词语和所述知识图谱,获取所述第一词语和各个所述第二词语之间的知识相似参数,所述知识相似参数用于表示所述第一词语在所述知识图谱中与其他词语之间的关系和各个所述第二词语在所述知识图谱中与其他词语之间的关系之间的相似度;基于所述第一词语与各个所述第二词语之间的所述语义相似参数和对应的所述知识相似参数,获取所述第一词语与各个所述第二词语之间的第一相似参数。
17.根据权利要求16所述的装置,其特征在于,所述获取模块,还用于获取所述第一词语与各个所述第二词语之间的简略文字特征,所述简略文字特征用于表示所述第一词语与各个所述第二词语之间的文字编辑距离;基于所述第一词语与各个所述第二词语之间的简略文字特征、对应的所述语义相似参数和对应的所述知识相似参数,获取所述第一词语与各个所述第二词语之间的第一相似参数。
18.根据权利要求16所述的装置,其特征在于,所述获取模块,用于提取所述第一词语在所述知识图谱中与其他词语之间的关系信息,以及,各个所述第二词语在所述知识图谱中与其他词语之间的关系信息,得到所述第一词语的第一知识特征和各个所述第二词语的第二知识特征;基于所述第一知识特征和各个所述第二知识特征,获取所述第一词语和各个所述第二词语之间的知识相似参数。
19.根据权利要求12所述的装置,其特征在于,所述确定子模块,用于基于合理性规则,从所述多个第二候选词中筛选出至少一个第三候选词;将第二相似参数最大的第三候选词确定为所述第一词语对应的第二词语;
其中,所述合理性规则用于基于所述第一词语对所述多个第二候选词进行否定词检查和医学合理性检查,所述否定词检查指检查每个所述第二候选词与所述第一词语是否存在语义矛盾。
20.根据权利要求13所述的装置,其特征在于,所述获取模块,用于基于语义增强规则,为所述目标文本补充与所述目标文本语义相关的文字,得到语义增强文本;基于所述语义增强文本,获取所述第一词语。
21.根据权利要求13所述的装置,其特征在于,所述获取模块,用于获取白名单,所述白名单包括多个第一词语和第二词语之间的对应关系;
所述装置还包括:
匹配模块,用于将所述目标文本与所述白名单中的第一词语进行字符串匹配,若所述目标文本与所述白名单中任一第一词语匹配成功,将所述白名单中所述第一词语对应的第二词语确定为所述目标文本对应的第二词语;若所述目标文本与所述白名单中所有第一词语均匹配失败,执行所述获取待处理的第一词语的步骤。
22.根据权利要求12-21中任一项权利要求所述的装置,其特征在于,所述第一词语为非标准医学词语,所述第二词语为标准医学词语。
23.一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求11任一项所述的词语处理方法所执行的操作。
24.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求11任一项所述的词语处理方法所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110909777.XA CN113657086B (zh) | 2021-08-09 | 2021-08-09 | 词语处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110909777.XA CN113657086B (zh) | 2021-08-09 | 2021-08-09 | 词语处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113657086A CN113657086A (zh) | 2021-11-16 |
CN113657086B true CN113657086B (zh) | 2023-08-15 |
Family
ID=78478665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110909777.XA Active CN113657086B (zh) | 2021-08-09 | 2021-08-09 | 词语处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657086B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114417856B (zh) * | 2021-12-29 | 2022-11-04 | 北京百度网讯科技有限公司 | 文本的稀疏编码方法、装置及电子设备 |
CN114693396A (zh) * | 2022-02-28 | 2022-07-01 | 广州华多网络科技有限公司 | 地址信息匹配方法及其装置、设备、介质、产品 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109256216A (zh) * | 2018-08-14 | 2019-01-22 | 平安医疗健康管理股份有限公司 | 医学数据处理方法、装置、计算机设备和存储介质 |
CN109543690A (zh) * | 2018-11-27 | 2019-03-29 | 北京百度网讯科技有限公司 | 用于提取信息的方法和装置 |
CN111128394A (zh) * | 2020-03-26 | 2020-05-08 | 腾讯科技(深圳)有限公司 | 医疗文本语义识别方法、装置、电子设备及可读存储介质 |
CN111160012A (zh) * | 2019-12-26 | 2020-05-15 | 上海金仕达卫宁软件科技有限公司 | 医学术语识别方法、装置和电子设备 |
CN111444724A (zh) * | 2020-03-23 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 医疗问答对质检方法、装置、计算机设备和存储介质 |
CN111538894A (zh) * | 2020-06-19 | 2020-08-14 | 腾讯科技(深圳)有限公司 | 查询反馈方法、装置、计算机设备及存储介质 |
CN111898374A (zh) * | 2020-07-30 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、存储介质和电子设备 |
CN112185574A (zh) * | 2020-09-28 | 2021-01-05 | 云知声智能科技股份有限公司 | 远程医疗实体链接的方法、装置、设备及存储介质 |
CN112507715A (zh) * | 2020-11-30 | 2021-03-16 | 北京百度网讯科技有限公司 | 确定实体之间关联关系的方法、装置、设备和存储介质 |
WO2021139229A1 (zh) * | 2020-07-31 | 2021-07-15 | 平安科技(深圳)有限公司 | 文本修辞句的生成方法、装置、设备及可读存储介质 |
CN113191156A (zh) * | 2021-04-29 | 2021-07-30 | 浙江禾连网络科技有限公司 | 一种基于医学知识图谱与预训练模型的医学检查项目标准化的系统与方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3516566A1 (en) * | 2016-09-22 | 2019-07-31 | nference, inc. | Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities |
US10846288B2 (en) * | 2018-07-02 | 2020-11-24 | Babylon Partners Limited | Computer implemented method for extracting and reasoning with meaning from text |
-
2021
- 2021-08-09 CN CN202110909777.XA patent/CN113657086B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109256216A (zh) * | 2018-08-14 | 2019-01-22 | 平安医疗健康管理股份有限公司 | 医学数据处理方法、装置、计算机设备和存储介质 |
CN109543690A (zh) * | 2018-11-27 | 2019-03-29 | 北京百度网讯科技有限公司 | 用于提取信息的方法和装置 |
CN111160012A (zh) * | 2019-12-26 | 2020-05-15 | 上海金仕达卫宁软件科技有限公司 | 医学术语识别方法、装置和电子设备 |
CN111444724A (zh) * | 2020-03-23 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 医疗问答对质检方法、装置、计算机设备和存储介质 |
CN111128394A (zh) * | 2020-03-26 | 2020-05-08 | 腾讯科技(深圳)有限公司 | 医疗文本语义识别方法、装置、电子设备及可读存储介质 |
CN111538894A (zh) * | 2020-06-19 | 2020-08-14 | 腾讯科技(深圳)有限公司 | 查询反馈方法、装置、计算机设备及存储介质 |
CN111898374A (zh) * | 2020-07-30 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、存储介质和电子设备 |
WO2021139229A1 (zh) * | 2020-07-31 | 2021-07-15 | 平安科技(深圳)有限公司 | 文本修辞句的生成方法、装置、设备及可读存储介质 |
CN112185574A (zh) * | 2020-09-28 | 2021-01-05 | 云知声智能科技股份有限公司 | 远程医疗实体链接的方法、装置、设备及存储介质 |
CN112507715A (zh) * | 2020-11-30 | 2021-03-16 | 北京百度网讯科技有限公司 | 确定实体之间关联关系的方法、装置、设备和存储介质 |
CN113191156A (zh) * | 2021-04-29 | 2021-07-30 | 浙江禾连网络科技有限公司 | 一种基于医学知识图谱与预训练模型的医学检查项目标准化的系统与方法 |
Non-Patent Citations (1)
Title |
---|
Knowledge-Based Document Retrieval in Medical Domain;Wang Weiming;2008 International Symposium on Knowledge Acquisition and Modeling;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113657086A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131366B (zh) | 训练文本分类模型及文本分类的方法、装置及存储介质 | |
Lee et al. | Machine learning in relation to emergency medicine clinical and operational scenarios: an overview | |
WO2022068314A1 (zh) | 神经网络训练的方法、神经网络的压缩方法以及相关设备 | |
CN112131393A (zh) | 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法 | |
Hu et al. | Automatic construction of Chinese herbal prescriptions from tongue images using CNNs and auxiliary latent therapy topics | |
WO2023029506A1 (zh) | 病情分析方法、装置、电子设备及存储介质 | |
CN112149400B (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN113657086B (zh) | 词语处理方法、装置、设备及存储介质 | |
CN112580352B (zh) | 关键词提取方法、装置和设备及计算机存储介质 | |
WO2022001724A1 (zh) | 一种数据处理方法及装置 | |
CN111881292B (zh) | 一种文本分类方法及装置 | |
Liu et al. | Concept placement using BERT trained by transforming and summarizing biomedical ontology structure | |
US10936962B1 (en) | Methods and systems for confirming an advisory interaction with an artificial intelligence platform | |
CN115858886B (zh) | 数据处理方法、装置、设备及可读存储介质 | |
Yuan et al. | Llm for patient-trial matching: Privacy-aware data augmentation towards better performance and generalizability | |
CN113657105A (zh) | 基于词汇增强的医学实体抽取方法、装置、设备及介质 | |
Yuan et al. | Large language models for healthcare data augmentation: An example on patient-trial matching | |
Thukral et al. | Knowledge graph enrichment from clinical narratives using NLP, NER, and biomedical ontologies for healthcare applications | |
CN113724830B (zh) | 基于人工智能的用药风险检测方法及相关设备 | |
Alwan et al. | Diabetes diagnosis system using modified Naive Bayes classifier | |
US11281855B1 (en) | Reinforcement learning approach to decode sentence ambiguity | |
CN116956934A (zh) | 任务处理方法、装置、设备及存储介质 | |
CN116861875A (zh) | 基于人工智能的文本处理方法、装置、设备及存储介质 | |
US20210133627A1 (en) | Methods and systems for confirming an advisory interaction with an artificial intelligence platform | |
CN115132372A (zh) | 术语处理方法、装置、电子设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40055338 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |