CN115034225A - 应用于医学领域的词语处理方法、装置、电子设备和介质 - Google Patents
应用于医学领域的词语处理方法、装置、电子设备和介质 Download PDFInfo
- Publication number
- CN115034225A CN115034225A CN202210654252.0A CN202210654252A CN115034225A CN 115034225 A CN115034225 A CN 115034225A CN 202210654252 A CN202210654252 A CN 202210654252A CN 115034225 A CN115034225 A CN 115034225A
- Authority
- CN
- China
- Prior art keywords
- word
- words
- processed
- vector
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本公开的实施例公开了应用于医学领域的词语处理方法、装置、电子设备和介质。该方法的一具体实施方式包括:获取待处理词语;生成待处理词语的词向量;基于词向量,生成待处理词语的语义向量;基于语义向量,确定语义向量对应的预测类别值;计算待处理词语与预设标准词语库中标准词语的相似度,得到相似度集合;基于预测类别值和相似度集合,从预设标准词语库中选择出目标标准词语。该实施方式通过生成待处理词语的词向量、语义向量,学习向量序列之间的语义关联,再根据确定的预测类别值和相似度集合,选择出待处理词语对应的目标标准词语。提高了医学词语标准化的效率和准确度,为医疗数据被应用提供了重要帮助。
Description
技术领域
本公开的实施例涉及医疗服务领域,具体涉及应用于医学领域的词语处理方法、装置、电子设备和介质。
背景技术
随着大数据时代的到来,医疗健康已成为大数据应用的重要领域,医疗数据可应用于疾病的辅助诊断、治疗方案确定、流行病预测、药物副作用分析、医学临床研究等诸多方面。由于在书写医疗相关记录时用词中会有许多形态和语法的变化,也会使用不同的词序或同义词,这为医疗数据的应用带来了极大的困难。目前应用的基于规则来处理医学词语的方法不仅耗时耗力,且准确率也无法得到保障。由此,急需一种高效、准确的词语标准化的处理方法。
发明内容
有鉴于此,本公开实施例提供了一种应用于医学领域的词语处理方法、装置、电子设备和介质,以解决现有技术中如何实现医学词语标准化的问题。
本公开实施例的第一方面,提供了一种应用于医学领域的词语处理方法,包括:获取待处理词语;生成待处理词语的词向量;基于上述词向量,生成上述待处理词语的语义向量;基于上述语义向量,确定上述语义向量对应的预测类别值;计算上述待处理词语与预设标准词语库中标准词语的相似度,得到相似度集合;基于上述预测类别值和上述相似度集合,从上述预设标准词语库中选择出目标标准词语。
本公开实施例的第二方面,提供了一种应用于医学领域的词语处理装置,装置包括:获取单元,被配置成获取待处理词语;词向量生成单元,被配置成生成待处理词语的词向量;语义向量生成单元,被配置成基于上述词向量,生成上述待处理词语的语义向量;确定单元,被配置成基于上述语义向量,确定上述语义向量对应的预测类别值;计算单元,被配置成计算上述待处理词语与预设标准词语库中标准词语的相似度,得到相似度集合;选择单元,被配置成基于上述预测类别值和上述相似度集合,从上述预设标准词语库中选择出目标标准词语。
本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可以在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本公开的上述各个实施例中的一个实施例具有如下有益效果:首先,获取待处理词语;然后,生成待处理词语的词向量;再然后,基于上述词向量,生成上述待处理词语的语义向量;之后,基于上述语义向量,确定上述语义向量对应的预测类别值;再之后,计算上述待处理词语与预设标准词语库中标准词语的相似度,得到相似度集合;最后,基于上述预测类别值和上述相似度集合,从上述预设标准词语库中选择出目标标准词语。本公开提供的方法可以通过生成待处理词语的词向量、语义向量,学习向量序列之间的语义关联,再根据确定的预测类别值和相似度集合,选择出待处理词语对应的目标标准词语。提高了医学词语标准化的效率和准确度,为医疗数据被应用提供了重要帮助。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是根据本公开的一些实施例的应用于医学领域的词语处理方法的一个应用场景的示意图;
图2是根据本公开的应用于医学领域的词语处理方法的一些实施例的流程示意图;
图3是根据本公开的应用于医学领域的词语处理方法的门控循环单元结构的网络结构示意图;
图4是根据本公开的应用于医学领域的词语处理装置的一些实施例的结构示意图;
图5是适于用来实现本公开的一些实施例的电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
下面将结合附图详细说明根据本公开实施例的一种应用于医学领域的词语处理方法、装置、电子设备和介质。
图1是根据本公开的一些实施例的应用于医学领域的词语处理方法的一个应用场景的示意图。
在图1的应用场景中,首先,计算设备101可以获取待处理词语102。然后,计算设备101可以生成待处理词语102的词向量103。再然后,基于上述词向量103,计算设备101可以生成上述待处理词语102的语义向量104。之后,基于上述语义向量104,计算设备101可以确定上述语义向量104对应的预测类别值105。再之后,计算设备101可以计算上述待处理词语102与预设标准词语库106中标准词语的相似度,得到相似度集合,如附图标记107所示。最后,基于上述预测类别值105和上述相似度集合107,计算设备101可以从上述预设标准词语库106中选择出目标标准词语108。
需要说明的是,上述计算设备101可以是硬件,也可以是软件。当计算设备为硬件时,可以实现成多个服务器或终端设备组成的分布式集群,也可以实现成单个服务器或单个终端设备。当计算设备体现为软件时,可以安装在上述所列举的硬件设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的计算设备的数目仅仅是示意性的。根据实现需要,可以具有任意数目的计算设备。
图2是根据本公开的应用于医学领域的词语处理方法的一些实施例的流程示意图。图2的应用于医学领域的词语处理方法可以由图1的计算设备101执行。如图2所示,该应用于医学领域的词语处理方法,包括以下步骤:
步骤S201,获取待处理词语。
在一些实施例中,应用于医学领域的词语处理方法的执行主体(如图1所示的计算设备101)可以通过无线连接方式获取上述待处理词语。这里,待处理词语可以是需要进行标准化处理的医学领域的词语。作为示例,待处理词语可以是“胃舒平”。
需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
在一些实施例的一些可选的实现方式中,上述方法还包括:对上述待处理词语进行预处理,得到预处理完成的待处理词语。可选的,上述预处理包括但不限于以下至少一项处理:大小写转换处理,多余符号处理。
步骤S202,生成待处理词语的词向量。
在一些实施例中,上述执行主体可以将上述待处理词语输入至预先训练的神经网络模型,输出得到上述待处理词语的词向量。这里,上述神经网络模型采用了全局平均池化方法。
优选的,上述神经网络模型可以是Bert模型,采用最后一个隐藏层的序列的输出作为基础输出,采用全局平均池化方法计算向量表征,全局平均池化方法可以是对于输出的每个维度都去求平均值作为最终的输出。
上文陈述的词向量可以是对待处理词语进行词嵌入得到的词向量。词嵌入是自然语言处理(Natural Language Processing,NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。具体地,词向量(word vector)可以是单词或短语通过词嵌入方法被映射到实数的向量。从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。
步骤S203,基于上述词向量,生成上述待处理词语的语义向量。
在一些实施例中,上述执行主体可以将上述词向量输入至预先训练的循环神经网络进行语义学习,输出得到语义向量。优选的,上述循环神经网络可以采用门控循环单元结构(Gated Recurrent Units,GRU),能够捕捉序列之间的语义关联,缓解梯度消失或爆炸现象。
作为示例,上述门控循环单元结构网络的网络结构可以参考图3。如图3所示,门控循环单元结构包括更新门和重置门。计算过程:第一步,计算更新门门值Zt和重置门门值Rt,计算方法为使用当前时间步输入Xt与上一个时间步的隐藏状态Ht-1拼接进行线性变换,再经过sigmoid激活函数(sigmoid函数可以将值压缩再0和1之间),重置门门值作用在上一个时间步隐藏状态Ht-1上,表征控制上一时间步传来的信息有多少可以被利用;第二步,适用重置后的Ht-1与当前时间步输入Xt拼接进行线性变化,经过tanh函数激活,得到新的Ht-1;第三步,更新门的门值作用在新的Ht,而1-门值会作用在Ht-1上,将二者结果相加,得到隐藏状态输出的Ht,更新门有能力保留之前的结果,门值趋于1时,输出的是新的Ht,而当门值趋于0时,输出的是上一时间步的Ht-1。
步骤S204,基于上述语义向量,确定上述语义向量对应的预测类别值。
在一些实施例中,上述执行主体可以将上述语义向量输入归一化指数函数,得到作为上述预测类别值的值。这里,归一化指数函数可以是Softmax函数。预测类别值可以是预测上述待处理词语对应的标准词语的数量类别的预测值。
作为示例,假设有一个数组V有j个元素,Vi表征数组V中的第i个元素,那么,第i个元素的Softmax值为:
第i个元素的Softmax值为第i个元素的指数与所有元素指数和的比值。
作为示例,可以将预测类别分为4种,分别用1、2、3、4来表示。其中,1、2、3分别表示待处理词语对应1、2、3个标准词语,4表示待处理词语对应的标准词语大于3个。
在一些实施例中,在经过预先训练的神经网络模型(Bert模型)、循环神经网络(预先训练的神经网络模型)和归一化指数函数(Softmax)后,输出得到的为概率值。作为示例,待处理词语在经过上述模型和函数后输出的概率值可以是“0.01,0.02,0.03,0.94”,上述执行主体可以确定预测类别值为“0.94”,也就是预测上述待处理词语对应的标准词语数量为3个以上的概率为0.94。
步骤S205,计算上述待处理词语与预设标准词语库中标准词语的相似度,得到相似度集合。
在一些实施例中,上述执行主体可以利用余弦相似度算法来计算上述待处理词语与预设标准词语库中标准词语的相似度,得到相似度集合。这里,余弦相似度算法是通过计算两个词语的向量的夹角余弦值来评估相似性的方法,取值范围为[-1,1],值越大表示相关性越大,反之表示相关性越小。作为示例,上述预设标准词语库的构建可以是参考《国际疾病分类ICD-10北京临床版v601》构建完成的。
步骤S206,基于上述预测类别值和上述相似度集合,从上述预设标准词语库中选择出目标标准词语。
在一些实施例中,响应于确定上述预测类别值小于预设阈值,上述执行主体可以从上述预设标准词语库中按照相似度由高到低的顺序选择与上述预测类别值表征的相同数量的标准词语作为目标标准词语,得到目标标准词语集合。响应于确定上述预测类别值等于上述预设阈值,上述执行主体可以从上述预设标准词语库中选择相似度超过预设相似度阈值的标准词语作为目标标准词语,得到目标标准词语集合。
作为示例,预设阈值可以是4,若预测类别值为3,上述执行主体可以从上述预设标准词语库中按照相似度由高到低的顺序选择3个标准词语作为上述目标标准词语,得到标标准词语集合。若预测类别值为4,上述执行主体可以从上述预设标准词语库中选择相似度超过预设相似度阈值(例如,预设相似度阈值可以是0.6)的标准词语作为目标标准词语,得到目标标准词语集合。
在一些实施例的一些可选的实现方式中,上述方法还包括:将上述待处理词语和上述目标标准词语集合进行组合,得到组合结果;将上述组合结果传输至具有显示功能的目标设备,以及控制上述目标设备显示上述组合结果。作为示例,上述执行主体可以将待处理词语“胃舒平”和目标标准词集合“氢氧化铝”进行组合,得到组合结果“胃舒平的标准词语为氢氧化铝”。
在一些实施例的一些可选的实现方式中,上述方法还包括:对上述组合结果中的目标标准词语添加编码,得到新的组合结果,以及将上述组合结果替换为上述新的组合结果。
作为示例,添加的目标标准词语的编码可以是参考《国际疾病分类ICD-10北京临床版v601》中标准词语对应的编码。例如,残胃癌并肝转移的标准词语为:残胃恶性肿瘤,C16.903,肝继发恶性肿瘤,C78.700x011。
本公开的上述各个实施例中的一个实施例具有如下有益效果:首先,获取待处理词语;然后,生成待处理词语的词向量;再然后,基于上述词向量,生成上述待处理词语的语义向量;之后,基于上述语义向量,确定上述语义向量对应的预测类别值;再之后,计算上述待处理词语与预设标准词语库中标准词语的相似度,得到相似度集合;最后,基于上述预测类别值和上述相似度集合,从上述预设标准词语库中选择出目标标准词语。本公开提供的方法可以通过生成待处理词语的词向量、语义向量,学习向量序列之间的语义关联,再根据确定的预测类别值和相似度集合,选择出待处理词语对应的目标标准词语。提高了医学词语标准化的效率和准确度,因为目标标准词语的数量不唯一,所以也提升了医疗词语一对多映射的准确性,为医疗数据被应用提供了重要帮助。另外,利用的神经网络模型采用了全局平均池化方法可以将空间上的信息用均值替代,参数量会大幅减少,从而提高了模型的泛化能力,防止模型过拟合(过拟合可以是验证集表现好,实际测试集表现差),且整合了全局空间信息,加强模型的鲁棒性。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图4是根据本公开的应用于医学领域的词语处理装置的一些实施例的结构示意图。如图4所示,该应用于医学领域的词语处理装置包括:获取单元401、词向量生成单元402、语义向量生成单元403、确定单元404、计算单元405和选择单元406。其中,获取单元401,被配置成获取待处理词语;词向量生成单元402,被配置成生成待处理词语的词向量;语义向量生成单元403,被配置成基于上述词向量,生成上述待处理词语的语义向量;确定单元404,被配置成基于上述语义向量,确定上述语义向量对应的预测类别值;计算单元405,被配置成计算上述待处理词语与预设标准词语库中标准词语的相似度,得到相似度集合;选择单元406,被配置成基于上述预测类别值和上述相似度集合,从上述预设标准词语库中选择出目标标准词语。
在一些实施例的一些可选的实现方式中,应用于医学领域的词语处理装置被进一步配置成:对上述待处理词语进行预处理,得到预处理完成的待处理词语,其中,上述预处理包括以下至少一项处理:大小写转换处理,多余符号处理。
在一些实施例的一些可选的实现方式中,应用于医学领域的词语处理装置的词向量生成单元402被进一步配置成:将上述待处理词语输入至预先训练的神经网络模型,输出得到上述待处理词语的词向量,其中,上述神经网络模型采用了全局平均池化方法。
在一些实施例的一些可选的实现方式中,应用于医学领域的词语处理装置的语义向量生成单元403被进一步配置成:将上述词向量输入至预先训练的循环神经网络进行语义学习,输出得到语义向量。
在一些实施例的一些可选的实现方式中,应用于医学领域的词语处理装置的确定单元404被进一步配置成:将上述语义向量输入归一化指数函数,得到作为上述语义向量对应的预测类别值的值。
在一些实施例的一些可选的实现方式中,应用于医学领域的词语处理装置的选择单元406被进一步配置成:响应于确定上述预测类别值小于预设阈值,从上述预设标准词语库中按照相似度由高到低的顺序选择上述预测类别值表征的相同数量的标准词语作为目标标准词语,得到目标标准词语集合;响应于确定上述预测类别值等于上述预设阈值,从上述预设标准词语库中选择相似度超过预设相似度阈值的标准词语作为目标标准词语,得到目标标准词语集合。
在一些实施例的一些可选的实现方式中,应用于医学领域的词语处理装置被进一步配置成:将上述待处理词语和上述目标标准词语集合进行组合,得到组合结果;将上述组合结果传输至具有显示功能的目标设备,以及控制上述目标设备显示上述组合结果。
可以理解的是,该装置中记载的诸单元与参考图2描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置及其中包含的单元,在此不再赘述。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
图5是本公开实施例提供的计算机设备5的示意图。如图5所示,该实施例的计算机设备5包括:处理器501、存储器502以及存储在该存储器502中并且可以在处理器501上运行的计算机程序503。处理器501执行计算机程序503时实现上述各个方法实施例中的步骤。或者,处理器501执行计算机程序503时实现上述各装置实施例中各模块/单元的功能。
示例性地,计算机程序503可以被分割成一个或多个模块/单元,一个或多个模块/单元被存储在存储器502中,并由处理器501执行,以完成本公开。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序503在计算机设备5中的执行过程。
计算机设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算机设备。计算机设备5可以包括但不仅限于处理器501和存储器502。本领域技术人员可以理解,图5仅仅是计算机设备5的示例,并不构成对计算机设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如,计算机设备还可以包括输入输出设备、网络接入设备、总线等。
处理器501可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器502可以是计算机设备5的内部存储单元,例如,计算机设备5的硬盘或内存。存储器502也可以是计算机设备5的外部存储设备,例如,计算机设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器502还可以既包括计算机设备5的内部存储单元也包括外部存储设备。存储器502用于存储计算机程序以及计算机设备所需的其它程序和数据。存储器502还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
在本公开所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。
Claims (10)
1.一种应用于医学领域的词语处理方法,包括:
获取待处理词语;
生成待处理词语的词向量;
基于所述词向量,生成所述待处理词语的语义向量;
基于所述语义向量,确定所述语义向量对应的预测类别值;
计算所述待处理词语与预设标准词语库中标准词语的相似度,得到相似度集合;
基于所述预测类别值和所述相似度集合,从所述预设标准词语库中选择出目标标准词语。
2.根据权利要求1所述的应用于医学领域的词语处理方法,其特征在于,所述生成待处理词语的词向量之前,所述方法还包括:
对所述待处理词语进行预处理,得到预处理完成的待处理词语,其中,所述预处理包括以下至少一项处理:大小写转换处理,多余符号处理。
3.根据权利要求1所述的应用于医学领域的词语处理方法,其特征在于,所述生成待处理词语的词向量,包括:
将所述待处理词语输入至预先训练的神经网络模型,输出得到所述待处理词语的词向量,其中,所述神经网络模型采用了全局平均池化方法。
4.根据权利要求1所述的应用于医学领域的词语处理方法,其特征在于,所述基于所述词向量,生成所述待处理词语的语义向量,包括:
将所述词向量输入至预先训练的循环神经网络进行语义学习,输出得到语义向量。
5.根据权利要求1所述的应用于医学领域的词语处理方法,其特征在于,所述基于所述语义向量,确定所述语义向量对应的预测类别值,包括:
将所述语义向量输入归一化指数函数,得到作为所述语义向量对应的预测类别值的值。
6.根据权利要求1所述的应用于医学领域的词语处理方法,其特征在于,所述基于所述预测类别值和所述相似度集合,从所述预设标准词语库中选择出目标标准词语,包括:
响应于确定所述预测类别值小于预设阈值,从所述预设标准词语库中按照相似度由高到低的顺序选择所述预测类别值表征的相同数量的标准词语作为目标标准词语,得到目标标准词语集合;
响应于确定所述预测类别值等于所述预设阈值,从所述预设标准词语库中选择相似度超过预设相似度阈值的标准词语作为目标标准词语,得到目标标准词语集合。
7.根据权利要求6所述的应用于医学领域的词语处理方法,其特征在于,所述方法还包括:
将所述待处理词语和所述目标标准词语集合进行组合,得到组合结果;
将所述组合结果传输至具有显示功能的目标设备,以及控制所述目标设备显示所述组合结果。
8.一种应用于医学领域的词语处理装置,包括:
获取单元,被配置成获取待处理词语;
词向量生成单元,被配置成生成待处理词语的词向量;
语义向量生成单元,被配置成基于所述词向量,生成所述待处理词语的语义向量;
确定单元,被配置成基于所述语义向量,确定所述语义向量对应的预测类别值;
计算单元,被配置成计算所述待处理词语与预设标准词语库中标准词语的相似度,得到相似度集合;
选择单元,被配置成基于所述预测类别值和所述相似度集合,从所述预设标准词语库中选择出目标标准词语。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210654252.0A CN115034225A (zh) | 2022-06-10 | 2022-06-10 | 应用于医学领域的词语处理方法、装置、电子设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210654252.0A CN115034225A (zh) | 2022-06-10 | 2022-06-10 | 应用于医学领域的词语处理方法、装置、电子设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115034225A true CN115034225A (zh) | 2022-09-09 |
Family
ID=83122201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210654252.0A Pending CN115034225A (zh) | 2022-06-10 | 2022-06-10 | 应用于医学领域的词语处理方法、装置、电子设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115034225A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116070641A (zh) * | 2023-03-13 | 2023-05-05 | 北京点聚信息技术有限公司 | 一种电子合同的在线解读方法 |
-
2022
- 2022-06-10 CN CN202210654252.0A patent/CN115034225A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116070641A (zh) * | 2023-03-13 | 2023-05-05 | 北京点聚信息技术有限公司 | 一种电子合同的在线解读方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522942B (zh) | 一种图像分类方法、装置、终端设备和存储介质 | |
US10599686B1 (en) | Method and system for extracting information from graphs | |
WO2020061489A1 (en) | Training neural networks for vehicle re-identification | |
US11314842B1 (en) | Hardware implementation of mathematical functions | |
CN112163601A (zh) | 图像分类方法、系统、计算机设备及存储介质 | |
EP4318313A1 (en) | Data processing method, training method for neural network model, and apparatus | |
CN115100185A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN115880317A (zh) | 一种基于多分支特征融合精炼的医学图像分割方法 | |
CN115330813A (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
CN115496144A (zh) | 配电网运行场景确定方法、装置、计算机设备和存储介质 | |
CN115034225A (zh) | 应用于医学领域的词语处理方法、装置、电子设备和介质 | |
CN115223662A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN111160049A (zh) | 文本翻译方法、装置、机器翻译系统和存储介质 | |
Asim et al. | ADH-PPI: An attention-based deep hybrid model for protein-protein interaction prediction | |
CN112085175A (zh) | 基于神经网络计算的数据处理方法和装置 | |
CN117036894B (zh) | 基于深度学习的多模态数据分类方法、装置及计算机设备 | |
US20230281826A1 (en) | Panoptic segmentation with multi-database training using mixed embedding | |
CN115206421B (zh) | 药物重定位方法、重定位模型的训练方法及装置 | |
CN111091099A (zh) | 一种场景识别模型的构建方法、场景识别方法及设备 | |
CN115860802A (zh) | 产品价值预测方法、装置、计算机设备和存储介质 | |
CN112328879B (zh) | 新闻推荐方法、装置、终端设备及存储介质 | |
CN115952724A (zh) | 航空发动机剩余寿命预测方法、系统、设备及介质 | |
US20220172055A1 (en) | Predicting biological functions of proteins using dilated convolutional neural networks | |
CN114969386B (zh) | 应用于医学领域的消歧方法、装置、电子设备和介质 | |
Pietras et al. | FPGA implementation of logarithmic versions of Baum-Welch and Viterbi algorithms for reduced precision hidden Markov models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |