CN110781646B - 名称标准化方法、装置、介质及电子设备 - Google Patents
名称标准化方法、装置、介质及电子设备 Download PDFInfo
- Publication number
- CN110781646B CN110781646B CN201910976425.9A CN201910976425A CN110781646B CN 110781646 B CN110781646 B CN 110781646B CN 201910976425 A CN201910976425 A CN 201910976425A CN 110781646 B CN110781646 B CN 110781646B
- Authority
- CN
- China
- Prior art keywords
- word
- name
- vector
- context
- standardized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种名称标准化方法、装置、介质及电子设备,其中,所述名称标准化方法包括:构建待标准化名称的表示向量;其中,待标准化名称的表示向量是通过将该名称中所有字的字向量进行拼接并且从拼接结果映射得到的;计算每个标准名称的表示向量与所述待标准化名称的表示向量之间的距离,根据所述距离确定所述待标准化名称所对应的标准名称。本发明用向量来表示待标准化名称,并且通过向量计算来确定待标准化名称所对应的标准名称,提高了名称标准化的准确度。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种名称标准化方法、装置、介质及电子设备。
背景技术
在进行数据分析之前,通常需要先将数据进行标准化以实现不同性质数据的可比性,从而便于综合测评分析。在保险领域,客户购买相关健康险产品时需要进行体检,保险公司需要根据客户的体检信息来判断是否对客户进行承保,这个过程称为核保。然而,出自不同体检机构或者不同医院的体检数据在体检项的命名上会存在差异,如果能将不同的体检项名称统一到一套标准化的名称上,则会方便后续对体检信息进行自动化分析,从而提升体检大数据处理效率。具体来说,在核保过程中通常以影像的形式记录客户投保资料,并且通过相关的人工智能技术来提取影像中的文本信息(包括体检信息),之后关键的一步就是对体检信息进行标准化,因为只有标准化的体检项数据才能输送到后续步骤进行体检项阴阳性判断和特征提取,直至进行自动化的核保判断。因此,对体检项的名称进行标准化尤为重要。
当前,对体检项名称进行标准化通常采用编辑距离方法,该方法包括:确定所有标准体检项名称,计算待标准化的体检项名称与每一个标准体检名称之间的编辑距离,将待标准化的体检项名称转换成与其编辑距离最小的标准体检项名称。然而,编辑距离方法仅仅是比较两个字符串所包含的字符的符号级差异,并未考虑名称的语义信息,因此导致准确性较低。
发明内容
为解决上述现有技术中存在的问题,根据本发明的一个实施例,提供一种名称标准化方法,包括:构建待标准化名称的表示向量;其中,所述待标准化名称的表示向量是通过将所述待标准化名称中所有字的字向量进行拼接并且从拼接结果映射得到的;计算每个标准名称的表示向量与所述待标准化名称的表示向量之间的距离,根据所述距离确定所述待标准化名称所对应的标准名称。
上述方法中,构建待标准化名称的表示向量包括:构建所述待标准化名称中每个字的字向量;将所述待标准化名称中所有字的字向量进行拼接;将拼接结果输入训练好的名称向量化模型,得到所述待标准化名称的表示向量。
上述方法中,构建所述待标准化名称中每个字的字向量包括:对于所述待标准化名称中的每个字,构建该字的字形向量和上下文向量,将该字的字形向量和上下文向量进行拼接得到该字的字向量;其中,所述字形向量是根据该字的字形图构建的,并且所述上下文向量是根据所述待标准化名称中在该字之前和/或之后出现的字构建的。
上述方法中,对于所述待标准化名称中的每个字,构建该字的字形向量包括:获取所述字的字形图;将所述字的字形图输入训练好的字形向量化模型,得到所述字的字形向量。
上述方法中,所述字形向量化模型为包括输入层、隐藏层和输出层的自编码神经网络;以及所述字形向量化模型的训练步骤包括:从字形库中选取用于训练的字形图;将所选取的字形图中的每个字形图作为所述字形向量化模型的输入和对应的输出,训练所述字形向量化模型。
上述方法中,对于所述待标准化名称中的每个字,构建该字的上下文向量包括:在所述待标准化名称中获取在所述字的上下文中出现的字,并且获取在所述字的上下文中出现的字的字形图;将所获取的字形图进行拼合;将拼合结果输入训练好的上下文向量化模型,得到所述字的上下文向量。
上述方法中,所述上下文向量化模型为包括输入层、隐藏层和输出层的神经网络,所述隐藏层包括卷积层和全连接层;以及所述上下文向量化模型的训练步骤包括:从文本资料中选取用于训练的名称;对于所选取的名称中的每个字,在所选取的包括该字的每个名称中获取在该字的上下文中出现的字并且将在该字的上下文中出现的字的字形图进行拼合,将拼合结果作为所述上下文向量化模型的输入,将该字的字形向量作为对应的输出,训练所述上下文向量化模型。
上述方法中,所述名称向量化模型为包括输入层、隐藏层和输出层的神经网络,所述隐藏层为包括循环神经网络、注意机制和全连接层的架构;以及所述名称向量化模型的训练步骤包括:在表示同一事物的多个名称中确定一个名称作为所述事物的标准名称,并且将除标准名称之外的名称作为所述事物的别名;对于所述事物的每个别名,将其中所有字的字向量拼接结果作为所述名称向量化模型的输入,将所述事物的标准名称中所有字的字向量的平均向量作为对应的输出,训练所述名称向量化模型。
根据本发明的一个实施例,还提供一种名称标准化装置,其特征在于,包括:
向量构建模块,用于构建待标准化名称的表示向量;其中,名称的表示向量是通过将该名称中所有字的字向量进行拼接并且从拼接结果映射得到的;
标准名称计算模块,用于计算每个标准名称的表示向量与所述待标准化名称的表示向量之间的距离,根据所述距离确定所述待标准化名称所对应的标准名称。
根据本发明的一个实施例,还提供一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述名称标准化方法。
根据本发明的一个实施例,还提供一种电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个计算机程序,当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述电子设备实现上述名称标准化方法。
本发明实施例提供的技术方案可具有如下的有益效果:
本发明用向量来表示待标准化名称,并且通过向量计算来确定待标准化名称所对应的标准名称,提高了名称标准化的准确度。其中,将字形因素和上下文语义因素引入了字的向量化计算,从而实现名称的向量化,这弥补了当前名称标准化方法缺失语义的问题,进一步提高了名称标准化的准确度。此外,还将神经网络技术应用到自然语言处理,利用了既有的数据积累,方便了后续的数据分析及处理操作。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性示出根据本发明一个实施例的名称标准化方法的流程图;
图2示意性示出根据本发明一个实施例的构建待标准化名称的表示向量的方法流程图;
图3示意性示出字的字形图;
图4示意性示出字的上下文字形图;
图5示意性示出根据本发明一个实施例的名称标准化装置的框图;
图6示意性示出适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
根据本发明的一个实施例,提供一种名称标准化方法,该方法在具有计算功能和存储功能的计算设备中执行,计算设备可以位于服务器处或者客户端处。概括而言,该名称标准化方法包括:构建待标准化名称的表示向量;以及,计算每个标准名称的表示向量与该待标准化名称的表示向量之间的距离,根据距离来确定该待标准化名称所对应的标准名称。
图1示意性地示出了根据本发明一个实施例的名称标准化方法的流程图,现参照图1,描述该名称标准化方法的具体步骤:
步骤S11.构建待标准化名称的表示向量。
同一事物可以有多个名称,包括标准名称和非标准名称。其中,标准名称可以是确定好的、便于后续的数据分析与处理的统一名称,例如医疗领域的“红细胞计数”;非标准名称也称作事物的别名,例如医疗领域的“红细胞”、“红细胞数”等(“红细胞计数”的别名)。待标准化名称通常是非标准名称,在不清楚一个名称所表示的事物的标准名称前,将该名称称作待标准化名称。构建待标准化名称的表示向量,即以向量的形式来表示该待标准化名称,表示向量可以是高维度向量或者是低维度向量,图2示意性示出了根据本发明一个实施例的构建待标准化名称的表示向量的方法流程图,现参照图2,描述步骤S11的各个子步骤:
步骤S111.构建待标准化名称中的每个字的字向量。
构建待标准化名称中的每个字的字向量包括:分别构建字的字形向量和上下文向量,将字的字形向量和上下文向量进行拼接,得到字的字向量。其中,字形向量是根据该字的字形图来构建的,而字的上下文向量是根据字在待标准化名称中的上下文来构建的。根据本发明的一个实施例,构建待标准化名称中的每个字的字向量包括对于待标准化名称中的每个字,执行如下的过程:
步骤S1111.构建字的字形向量。
以待标准化名称“红细胞”中的“红”字为例,首先,从中文汉字字形库(简称字形库)中获取该字的字形图,图3示出了“红”的字形图,该字形图为一张固定大小的图片(例如,图片的大小为28像素×28像素,即共有786个像素);随后,将获取的字形图输入事先训练好的字形向量化模型,得到字的字形向量。
根据本发明的一个实施例,字形向量化模型为自编码神经网络(例如卷积自编码神经网络)。该自编码神经网络有三层,分别是输入层、隐藏层和输出层,自编码神经网络是一种能够通过无监督学习学到输入数据高效表示的人工神经网络,本发明利用自编码神经网络来提取字的字形特征。字形向量化模型的训练方法包括:从中文汉字字形图库中选取多个字的字形图,以用于训练字形向量化模型;将所选取的每个字的字形图作为字形向量化模型的输入和对应的输出(对应自编码神经网络中的输入层和输出层),并执行训练过程。训练完成后,当向训练好的字形向量化模型输入某个字的字形图后,以隐藏层的输出作为该字的字形向量。
在训练字形向量化模型时以及在使用训练好的字形向量化模型时,每次输入字形图,实际上输入的是由字形图中的所有像素所对应的数值构成的像素向量。具体地,首先将字形图中的每个像素映射为取值在0-255之间的一个数值。在一个具体的实施例中,可以取像素的灰度值作为该像素所对应的数值。接着使用字形图中的所有像素所对应的数值构建像素向量作为输入向量。假设如上文所述,字形图的大小为28像素×28像素,则输入向量为786维的向量。
步骤S1112.构建字的上下文向量。
字的上下文向量与该字在待标准化名称中的上下文有关,也就是说,除了字形因素,本发明还考虑了字的上下文语义因素。根据本发明的一个实施例,构建字的上下文向量包括如下过程:
首先,从待标准化名称中获取在该字的上下文中出现的字。例如,设置窗口长度为n并且n=2(应理解,在其他实施例中n可以是任意的正整数),假设要从待标准化名称“红细胞”中获取在“红”的上下文中出现的字,则以“红”为中心取前两个字和后两个字。需要注意的是,如果在待标准化名称中“红”的前面或者后面不足两个字,则需记录这种情况,例如以空格表示“红”前面或后面不存在的字。因此,在待标准化名称“红细胞”中,在“红”的上下文中出现的字可以表示为“细胞”。
接着,从中文汉字字形图库中获取在该字的上下文中出现的每个字的字形图,其中不存在的字以空白的字形图表示;以及,将在该字的上下文中出现的每个字的字形图按前后顺序拼合成上下文字形图。举例而言,在待标准化名称“红细胞”中,“红”的上下文字形图如图4所示。
随后,将该字的上下文字形图输入已事先训练好的上下文向量化模型,得到该字的上下文向量。其中,上下文向量化模型为神经网络,包括输入层、输出层和隐藏层,其中隐藏层为卷积层+全连接层,本发明利用该神经网络来提取字的上下文语义特征。上下文向量化模型的训练方法包括:从文本资料(例如医疗领域文本资料)中获取多个名称(例如体检项名称),作为训练用名称;对于所获取的名称中出现的每个字,从包含该字的每个名称(即包含该字的每个训练用名称)中获取在该字的上下文中出现的字,从而得到与包含该字的每个名称对应的上下文字形图,将上下文字形图作为输入,并且将该字的字形向量作为输出,从而训练上下文向量化模型。在训练完成后,当向训练好的上下文向量化模型输入某个字的上下文字形图后,以隐藏层中的全连接层输出的权重向量作为该字的上下文向量。
步骤S1113.将字的字形向量和上下文向量拼接起来,得到该字的字向量,字的字向量可以表示如下:
vi=<vic,vip>
其中,i表示待标准化名称中的第i个字,vic表示第i个字的上下文向量,vip表示第i个字的字形向量。
步骤S112.将待标准化名称中所有字的字向量进行拼接,得到待标准化名称的名称向量。
名称的名称向量由该名称中的所有字的字向量按前后顺序拼接而成,例如,名称“红细胞”的名称向量由“红”对应的字向量、“细”对应的字向量以及“胞”对应的字向量拼接而成。根据本发明的一个实施例,待标准化名称的名称向量可以表示如下:
v=<v1,v2…vn>
其中,vi(1≤i≤n)表示待标准化名称中的第i个字的字向量,n表示待标准化名称中有n个字。
步骤S113.将待标准化名称的名称向量映射为表示向量。
具体地,在步骤S113中将待标准化名称的名称向量输入事先训练好的名称向量化模型,得到该待标准化名称的表示向量。
根据本发明的一个实施例,名称向量化模型为包括输入层、隐藏层和输出层的神经网络,其中,隐藏层为RNN(循环神经网络)+Attention(注意机制)+全连接层的架构。该名称向量化模型的训练方法包括:从名称数据库(例如医疗领域名称数据库)中获取多个事物(例如体检项)所对应的多个名称;对于每个事物确定一个标准名称以及一个或多个别名(即,除标准名称之外的名称),构建每个别名的名称向量作为输入(包括:计算该别名中每个字的字向量,拼接成该别名的名称向量),将该事物标准名称中所有字的字向量的平均向量作为对应的输出,训练该名称向量化模型。在训练完成后,当向训练好的名称向量化模型输入某个名称的名称向量后,将隐藏层的输出所形成的向量作为该名称的表示向量。
步骤S12.计算待标准化名称的表示向量与每个标准名称的表示向量之间的距离,根据距离确定待标准化名称所对应的标准名称。
其中,标准名称是事先确定好的名称,每个事物对应有一个标准名称。对于每个标准名称,通过事先训练好的名称向量化模型得到标准名称的表示向量,这个过程包括:将标准名称中所有字的字向量拼接起来,形成标准名称的名称向量作为训练好的名称向量化模型的输入,进行前向计算,并且将隐藏层的输出所形成的向量作为该标准名称的表示向量。
根据本发明的一个实施例,计算待标准化名称的表示向量与每个标准名称的表示向量之间的距离包括:对于每个标准名称的表示向量SHCIj(1≤j≤N,N为标准名称的个数);计算待标准化名称的表示向量HCIt与SHCIj的余弦距离Dtj=cos(HCIt,SHCIj);将最小余弦距离所对应的标准名称作为该待标准化名称的标准名称。
在上述实施例中,将字形因素和上下文语义因素引入了字的向量化计算,并进一步实现名称的向量化,这弥补了当前名称标准化方法缺失语义的问题,提高了名称标准化的准确度。此外,上述实施例还将神经网络技术应用到自然语言处理,利用了既有的数据积累,方便了后续的数据分析及处理等操作。
以下结合附图介绍本发明的装置实施例。
图5示意性地示出了根据本发明一个实施例的名称标准化装置500的框图。
参见图5,名称标准化装置500包括向量构建模块501和标准名称计算模块502。其中,向量构建模块501用于构建待标准化名称的表示向量,名称的表示向量是根据上述实施例通过将该名称中所有字的字向量进行拼接并且从拼接结果映射得到的;标准名称计算模块502用于计算每个标准名称的表示向量与待标准化名称的表示向量之间的距离,根据该距离确定待标准化名称所对应的标准名称。
向量构建模块501用于构建待标准化名称中每个字的字向量;将待标准化名称中所有字的字向量进行拼接;以及将拼接结果输入训练好的名称向量化模型,得到待标准化名称的表示向量。其中,向量构建模块501用于根据上述实施例对于待标准化名称中的每个字,构建该字的字形向量和上下文向量,将该字的字形向量和上下文向量进行拼接得到该字的字向量;其中,字形向量是根据该字的字形图构建的,并且上下文向量是根据待标准化名称中在该字之前和/或之后出现的字构建的。
根据本发明的一个实施例,对于待标准化名称中的每个字,构建该字的字形向量包括:获取字的字形图;将字的字形图输入训练好的字形向量化模型,得到字的字形向量。对于待标准化名称中的每个字,构建该字的上下文向量包括:在待标准化名称中获取在该字的上下文中出现的字,并且获取在该字的上下文中出现的字的字形图;其中,对于不存在的字采用空白字形图;将所获取的字形图进行拼合;将拼合结果输入训练好的上下文向量化模型,得到字的上下文向量。
由于本实施例的名称标准化装置500的各个功能模块与上文结合图1-2描述的名称标准化方法实施例的步骤对应,因此对于本装置实施例中未披露的细节,请参照结合图1-2描述的名称标准化方法的实施例。
根据本发明的一个实施例,还提供一种适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。参见图6,计算机系统600包括总线605,耦合到总线605的设备之间可以快速地传输信息。处理器601与总线605耦合,用于执行由计算机程序代码所指定的一组动作或操作,处理器601可以单独地或者与其他设备组合实现为机械、电、磁、光、量子或者化学部件等。
计算机系统600还包括耦合到总线605的存储器603,存储器603(例如,RAM或者其他动态存储设备)存储可由计算机系统600改变的数据,包括实现上述实施例所述的名称标准化方法的指令或计算机程序。当处理器601执行该指令或计算机程序时,使得计算机系统600能够实现上述实施例中描述的名称标准化方法,例如,可以实现如图1-2中所示的各个步骤。存储器603还可以存储处理器601执行指令或计算机程序期间产生的临时数据,以及系统操作所需的各种程序和数据。计算机系统600还包括耦合到总线605的只读存储器602以及非易失性储存设备608,例如磁盘或光盘等,用于存储当计算机系统600被关闭或掉电时也能持续的数据。
计算机系统600还包括诸如键盘、传感器等的输入设备606,以及诸如阴极射线管(CRT)、液晶显示器(LCD)、打印机等的输出设备607。计算机系统600还包括耦合到总线605的通信接口604,通信接口604可以提供对外部设备的单向或双向的通信耦合。例如,通信接口604可以是并行端口、串行端口、电话调制解调器或者局域网(LAN)卡。计算机系统600还包括耦合到总线605的驱动设备609以及可拆卸设备610,诸如磁盘、光盘、磁光盘、半导体存储器等等,其根据需要安装在驱动设备609上,以便于从其上读出的计算机程序根据需要被安装入储存设备608。
根据本发明的另一个实施例,还提供一种计算机可读介质,该计算机可读介质可以是上述计算机系统600中所包含的,也可以是单独存在而未装配入该计算机系统600中的。该计算机可读介质承载有一个或者多个计算机程序或者指令,当所述一个或者多个计算机程序或者指令被处理器执行时,使得该计算机系统600实现上述实施例中所述的名称标准化方法。需要说明的是,计算机可读介质指的是向处理器601提供数据的任意介质,这种介质可以采取任意形式,包括但不限于,计算机可读存储介质(例如,非易失性介质、易失性介质)以及传输介质。其中,非易失性介质诸如包括光盘或磁盘,例如储存设备608;易失性介质例如包括存储器604。传输介质例如包括同轴电缆、铜线、光纤电缆以及在没有电缆和线缆的情况下通过空间的载波,例如声波和电磁波,包括无线电、光和红外波。计算机可读介质的一般形式包括:软盘、柔性盘、硬盘、磁带、任意其它磁介质、CD-ROM、CDRW、DVD、任意其它光介质、穿孔卡片、纸带、光标记表单、具有孔或其它光可识别标识的图案的任意其它物理介质、RAM、PROM、EPROM、FLASH-EPROM、任意其它存储器芯片或磁带盒、载波、或计算机可读取的任意其它介质。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (6)
1.一种名称标准化方法,其特征在于,包括:
构建待标准化名称的表示向量;其中,所述待标准化名称的表示向量是通过将所述待标准化名称中所有字的字向量进行拼接并且从拼接结果映射得到的;
计算每个标准名称的表示向量与所述待标准化名称的表示向量之间的距离,根据所述距离确定所述待标准化名称所对应的标准名称;
其中,构建待标准化名称的表示向量包括:
构建所述待标准化名称中每个字的字向量;
将所述待标准化名称中所有字的字向量进行拼接;
将拼接结果输入训练好的名称向量化模型,得到所述待标准化名称的表示向量;
其中构建所述待标准化名称中每个字的字向量包括:
对于所述待标准化名称中的每个字,构建该字的字形向量和上下文向量,将该字的字形向量和上下文向量进行拼接得到该字的字向量;其中,所述字形向量是根据该字的字形图构建的,并且所述上下文向量是根据所述待标准化名称中在该字之前和/或之后出现的字构建的;
其中,对于所述待标准化名称中的每个字,构建该字的字形向量包括:
获取所述字的字形图;
将所述字的字形图输入训练好的字形向量化模型,得到所述字的字形向量;
以及,其中对于所述待标准化名称中的每个字,构建该字的上下文向量包括:
在所述待标准化名称中获取在所述字的上下文中出现的字,并且获取在所述字的上下文中出现的字的字形图;
将所获取的字形图进行拼合;
将拼合结果输入训练好的上下文向量化模型,得到所述字的上下文向量。
2.根据权利要求1所述的方法,其特征在于,所述上下文向量化模型为包括输入层、隐藏层和输出层的神经网络,所述隐藏层包括卷积层和全连接层;以及
所述上下文向量化模型的训练步骤包括:
从文本资料中选取用于训练的名称;
对于所选取的名称中的每个字,在所选取的包括该字的每个名称中获取在该字的上下文中出现的字并且将在该字的上下文中出现的字的字形图进行拼合,将拼合结果作为所述上下文向量化模型的输入,将该字的字形向量作为对应的输出,训练所述上下文向量化模型。
3.根据权利要求1所述的方法,其特征在于,所述名称向量化模型为包括输入层、隐藏层和输出层的神经网络,所述隐藏层为包括循环神经网络、注意机制和全连接层的架构;以及
所述名称向量化模型的训练步骤包括:
在表示同一事物的多个名称中确定一个名称作为所述事物的标准名称,并且将除标准名称之外的名称作为所述事物的别名;
对于所述事物的每个别名,将其中所有字的字向量拼接结果作为所述名称向量化模型的输入,将所述事物的标准名称中所有字的字向量的平均向量作为对应的输出,训练所述名称向量化模型。
4.一种名称标准化装置,其特征在于,包括:
向量构建模块,用于构建待标准化名称的表示向量;其中,名称的表示向量是通过将该名称中所有字的字向量进行拼接并且从拼接结果映射得到的;
标准名称计算模块,用于计算每个标准名称的表示向量与所述待标准化名称的表示向量之间的距离,根据所述距离确定所述待标准化名称所对应的标准名称;
其中构建所述待标准化名称中每个字的字向量包括:
对于所述待标准化名称中的每个字,构建该字的字形向量和上下文向量,将该字的字形向量和上下文向量进行拼接得到该字的字向量;其中,所述字形向量是根据该字的字形图构建的,并且所述上下文向量是根据所述待标准化名称中在该字之前和/或之后出现的字构建的;
其中,对于所述待标准化名称中的每个字,构建该字的字形向量包括:
获取所述字的字形图;
将所述字的字形图输入训练好的字形向量化模型,得到所述字的字形向量;
以及,其中对于所述待标准化名称中的每个字,构建该字的上下文向量包括:
在所述待标准化名称中获取在所述字的上下文中出现的字,并且获取在所述字的上下文中出现的字的字形图;
将所获取的字形图进行拼合;
将拼合结果输入训练好的上下文向量化模型,得到所述字的上下文向量。
5.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的方法。
6.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个计算机程序,当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1至3中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910976425.9A CN110781646B (zh) | 2019-10-15 | 2019-10-15 | 名称标准化方法、装置、介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910976425.9A CN110781646B (zh) | 2019-10-15 | 2019-10-15 | 名称标准化方法、装置、介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110781646A CN110781646A (zh) | 2020-02-11 |
CN110781646B true CN110781646B (zh) | 2023-08-22 |
Family
ID=69385606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910976425.9A Active CN110781646B (zh) | 2019-10-15 | 2019-10-15 | 名称标准化方法、装置、介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110781646B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279552A (zh) * | 2014-06-18 | 2016-01-27 | 清华大学 | 一种基于字的神经网络的训练方法和装置 |
CN107526798A (zh) * | 2017-08-18 | 2017-12-29 | 武汉红茶数据技术有限公司 | 一种基于神经网络的实体识别和规范化联合方法及模型 |
CN108595416A (zh) * | 2018-03-27 | 2018-09-28 | 义语智能科技(上海)有限公司 | 字符序列处理方法及设备 |
CN108681537A (zh) * | 2018-05-08 | 2018-10-19 | 中国人民解放军国防科技大学 | 一种基于神经网络及词向量的中文实体链接方法 |
WO2018218705A1 (zh) * | 2017-05-27 | 2018-12-06 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN109033080A (zh) * | 2018-07-12 | 2018-12-18 | 上海金仕达卫宁软件科技有限公司 | 基于概率转移矩阵的医疗术语标准化方法及系统 |
CN109522553A (zh) * | 2018-11-09 | 2019-03-26 | 龙马智芯(珠海横琴)科技有限公司 | 命名实体的识别方法及装置 |
CN109582955A (zh) * | 2018-11-14 | 2019-04-05 | 金色熊猫有限公司 | 医疗术语的标准化方法、装置及介质 |
CN109741732A (zh) * | 2018-08-30 | 2019-05-10 | 京东方科技集团股份有限公司 | 命名实体识别方法、命名实体识别装置、设备及介质 |
CN109949938A (zh) * | 2017-12-20 | 2019-06-28 | 北京亚信数据有限公司 | 用于将医疗非标准名称标准化的方法及装置 |
CN110032728A (zh) * | 2019-02-01 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 疾病名称标准化的转换方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10083167B2 (en) * | 2014-10-03 | 2018-09-25 | At&T Intellectual Property I, L.P. | System and method for unsupervised text normalization using distributed representation of words |
-
2019
- 2019-10-15 CN CN201910976425.9A patent/CN110781646B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279552A (zh) * | 2014-06-18 | 2016-01-27 | 清华大学 | 一种基于字的神经网络的训练方法和装置 |
WO2018218705A1 (zh) * | 2017-05-27 | 2018-12-06 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN107526798A (zh) * | 2017-08-18 | 2017-12-29 | 武汉红茶数据技术有限公司 | 一种基于神经网络的实体识别和规范化联合方法及模型 |
CN109949938A (zh) * | 2017-12-20 | 2019-06-28 | 北京亚信数据有限公司 | 用于将医疗非标准名称标准化的方法及装置 |
CN108595416A (zh) * | 2018-03-27 | 2018-09-28 | 义语智能科技(上海)有限公司 | 字符序列处理方法及设备 |
CN108681537A (zh) * | 2018-05-08 | 2018-10-19 | 中国人民解放军国防科技大学 | 一种基于神经网络及词向量的中文实体链接方法 |
CN109033080A (zh) * | 2018-07-12 | 2018-12-18 | 上海金仕达卫宁软件科技有限公司 | 基于概率转移矩阵的医疗术语标准化方法及系统 |
CN109741732A (zh) * | 2018-08-30 | 2019-05-10 | 京东方科技集团股份有限公司 | 命名实体识别方法、命名实体识别装置、设备及介质 |
CN109522553A (zh) * | 2018-11-09 | 2019-03-26 | 龙马智芯(珠海横琴)科技有限公司 | 命名实体的识别方法及装置 |
CN109582955A (zh) * | 2018-11-14 | 2019-04-05 | 金色熊猫有限公司 | 医疗术语的标准化方法、装置及介质 |
CN110032728A (zh) * | 2019-02-01 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 疾病名称标准化的转换方法和装置 |
Non-Patent Citations (1)
Title |
---|
基于上下文信息的中文命名实体消歧方法研究;王旭阳;姜喜秋;;计算机应用研究(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110781646A (zh) | 2020-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11341333B2 (en) | Natural language sentence generation for radiology | |
CN111783466A (zh) | 一种面向中文病历的命名实体识别方法 | |
US20220222925A1 (en) | Artificial intelligence-based image processing method and apparatus, device, and storage medium | |
CN110705301A (zh) | 实体关系抽取方法及装置、存储介质、电子设备 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN107910060A (zh) | 用于生成信息的方法和装置 | |
CN114708952B (zh) | 一种图像标注方法、装置、存储介质和电子设备 | |
Hartsock et al. | Vision-language models for medical report generation and visual question answering: A review | |
US20220375576A1 (en) | Apparatus and method for diagnosing a medical condition from a medical image | |
CN114780701B (zh) | 自动问答匹配方法、装置、计算机设备及存储介质 | |
US20210271705A1 (en) | Generating accurate and natural captions for figures | |
Zhu | Pain expression recognition based on pLSA model | |
CN115861462A (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN113920497B (zh) | 一种铭牌识别模型的训练、铭牌的识别方法及相关装置 | |
Wang et al. | Recognizing handwritten mathematical expressions as LaTex sequences using a multiscale robust neural network | |
CN113553411B (zh) | 查询语句的生成方法、装置、电子设备和存储介质 | |
CN116450829A (zh) | 医疗文本分类方法、装置、设备及介质 | |
CN110781646B (zh) | 名称标准化方法、装置、介质及电子设备 | |
CN115357710B (zh) | 表格描述文本生成模型的训练方法、装置及电子设备 | |
CN117038099A (zh) | 医疗类术语标准化方法以及装置 | |
CN116258136A (zh) | 检错模型训练方法、医学影像报告检测方法、系统及设备 | |
CN115994239A (zh) | 一种基于原型对比学习的半监督遥感图像检索方法及系统 | |
CN109657073A (zh) | 用于生成信息的方法和装置 | |
CN115295133A (zh) | 一种面向手术操作的编码校验方法 | |
CN115359867B (zh) | 电子病历分类方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |