CN111581976A

CN111581976A - 医学术语的标准化方法、装置、计算机设备及存储介质

Info

Publication number: CN111581976A
Application number: CN202010229313.XA
Authority: CN
Inventors: 施维; 郭建福; 张旭
Original assignee: Ping An Medical and Healthcare Management Co Ltd
Current assignee: Shenzhen Ping An Medical Health Technology Service Co Ltd
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2020-08-25
Anticipated expiration: 2040-03-27
Also published as: CN111581976B

Abstract

本申请公开了一种医学术语的标准化方法、装置、计算机设备和存储介质，所述方法包括：获取医学文本数据，并对医学文本数据进行数据清洗，得到初始文本；采用分词引擎对的初始文本进行分词处理，得到初始文本对应的分词单元；通过医学知识的深度学习实体识别的方式，识别出分词单元中的医学特征词，得到目标分词；对目标分词进行倒排索引，确认包含目标分词的医学术语文本和目标分词在医学术语文本出现的频率，获取医学术语文本，作为候选文本；选取相似度值最大的候选文本，作为标准医学术语文本。本申请有利于有效的提高医学术语标准化的准确率，进而提高医学术语文本的数据的可用性。

Description

医学术语的标准化方法、装置、计算机设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及医学术语的标准化方法、装置、计算机设备及存储介质。

背景技术

医学术语是医学领域里的专业用语，用来指称医学领域里的各种事物、现象、特性、关系和过程等(如疾病、药物、手术操作、检查检验等)。这些术语是临床信息系统表达医学信息的必要成分。

医学文本数据在没有经过数据的标准化处理时，医学文本数据含有诸多不标准的数据，如不标准的医学别名，同义词等等，做不到统一的标准，这样医学术语数据对很难被后续的医学应用，造成数据的浪费。数据的标准化处理即：将不标准的数据如别名、同义词等统一对应到一份标准名称，便于数据的后续应用。

现有的医学术语标准化，通常将医学文本数据上传计算机中，通过搜索出医学特征词，再对应出每个医学特征词的医学术语标准表述，但是这种医学术语标准化方式，容易出现遗落搜索医学特征词的同义词、近义词等词汇，造成医学术语标准化的准确率波动较大，进而导致医学术语标准化的数据的可用性降低。如何提高医学术语标准化的准确率成为了一个亟需处理的问题。

发明内容

本申请实施例的目的在于提出一种医学术语的标准化方法，解决现有技术医学术语的标准准确率准确性低的问题。

为了解决上述技术问题，本申请实施例提供一种医学术语的标准化方法，包括：

获取医学文本数据，并对所述医学文本数据进行数据清洗，得到初始文本；

采用分词引擎对所述的初始文本进行分词处理，得到所述初始文本对应的分词单元；

通过医学知识的深度学习实体识别的方式，识别出所述分词单元中的医学特征词，得到目标分词；

对所述目标分词进行倒排索引，根据所述倒排索引结果，统计每个所述目标分词在预设医学术语文本中的出现频率，并将所述出现频率高于预设阈值的所述目标分词对应的医学术语文本，作为候选文本；

基于预设深度学习模型，统计所述候选文本与所述医学文本数据的相似度值，得到M个相似度值，选取相似度值最大的所述候选文本，作为标准医学术语文本，其中，M为正整数。

进一步的，所述通过医学知识的深度学习实体识别的方式，识别出所述分词单元中的医学特征词，得到目标分词包括：

获取预置的医学术语库；

针对每个所述分词单元，通过遍历的方式，将所述分词单元分别与所述预置的医学术语库中的每个词汇进行命名实体识别，得到实体识别结果；

若所述实体识别结果为存在相同命名实体，则获取所述识别结果对应的分词单元和医学特征词，并使用所述医学特征词替代所述分词单元，并将所述医学特征词作为目标分词。

进一步的，所述通过医学知识的深度学习实体识别的方式，识别出所述分词单元中的医学特征词，得到目标分词还包括：

采用N-gram模型，对所述分词单元进行词性标注，并赋予所述分词单元标签，得到词性单元；

删除词性为虚词的词性单元，得到词性为实词的词性单元，将所述词性为实词的词性单元作为目标分词。

进一步的，所述采用N-gram模型，对所述分词单元进行词性标注，并赋予所述分词单元标签，得到词性单元包括：

读取所述预置的医学术语库的标签序列；

采用所述N-gram模型，对所述分词单元进行词性标注，得到词性标注单元；

针对所述词性为实词的所述词性标注单元，遍历所述预置的医学术语库，查询与所述词性为实词的所述词性标注单元所在的标签，得到目标标签；

赋予所述词性为实词的所述词性标注单元所述的目标标签，得到所述词性单元。

进一步的，所述对所述目标分词进行倒排索引，根据所述倒排索引结果，统计每个所述目标分词在预设医学术语文本中的出现频率，并将所述出现频率高于预设阈值的所述目标分词对应的医学术语文本，作为候选文本包括：

基于所述目标分词，将相同标签的所述目标分词组合在一起，建立倒排索引表；

根据所述倒排索引表，统计每个所述目标分词在预设医学术语文本中的出现频率，并将所述出现频率高于预设阈值的所述目标分词对应的医学术语文本，作为基础文本；

判断所述基础文本是否存在相同文本，若存在，则删除多余相同所述基础文本，保留其中一份所述基础文本；

将保留的所述基础文本作为候选文本。

进一步的，所述基于预设深度学习模型，统计所述候选文本与所述医学文本数据的相似度值，得到M个相似度值，选取相似度值最大的所述候选文本，作为标准医学术语文本，其中，M为正整数包括：

获取预设深度学习模型；

通过特征工程的方式，统计所述候选文本与所述医学文本数据的相似度值，得到M个相似度值，其中，M为正整数；

按相似度值从大到小的顺序排列，选取相似度值最大的所述候选文本，作为标准医学术语文本；

输出所述标准医学术语文本。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种医学术语的标准化装置，包括：

初始文本获取模块，用于获取医学文本数据，并对所述医学文本数据进行数据清洗，得到初始文本；

分词单元获取模块，用于采用分词引擎对所述的初始文本进行分词处理，得到所述初始文本对应的分词单元；

目标分词获取模块，用于通过医学知识的深度学习实体识别的方式，识别出所述分词单元中的医学特征词，得到目标分词；

候选文本获取模块，用于对所述目标分词进行倒排索引，根据所述倒排索引结果，统计每个所述目标分词在预设医学术语文本中的出现频率，并将所述出现频率高于预设阈值的所述目标分词对应的医学术语文本，作为候选文本；

标准医学术语文本模块，用于基于预设深度学习模型，统计所述候选文本与所述医学文本数据的相似度值，得到M个相似度值，选取相似度值最大的所述候选文本，作为标准医学术语文本，其中，M为正整数。

进一步的，所述目标分词获取模块包括：

医学术语库获取单元，用于获取预置的医学术语库；

实体识别结果获取单元，用于针对每个所述分词单元，通过遍历的方式，将所述分词单元分别与所述预置的医学术语库中的每个词汇进行命名实体识别，得到实体识别结果；

目标分词确认单元，用于若所述实体识别结果为存在相同命名实体，则获取所述识别结果对应的分词单元和医学特征词，并使用所述医学特征词替代所述分词单元，并将所述医学特征词作为目标分词。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种计算机设备，包括，一个或多个处理器；存储器，用于存储一个或多个程序，使得一个或多个处理器实现上述任意一项所述的医学术语的标准化方案。

为解决上述技术问题，本发明采用的一个技术方案是：一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的医学术语的标准化方案。

以上方案中的一种医学术语的标准化方法，通过将医学文本数据进行数据清理，并进行分词处理，得到分词单元，有利于将医学文本数据进行初步的整理，清除杂糅的文本数据，然后通过识别分词单元中的医学特征词，作为目标分词，实现识别医学相关的词语，为后续获取候选文本提供基础，再通过倒排索引的方式，获取目标分词对应的医学术语文本，实现得到一系列和医学文本数据相关的候选文本，使用倒排索引的方式，有利于获取一系列医学术语的标准化准确度不同的候选文本，最后通过对候选文本的相似度计算，得到相似度最大的对应候选文本，作为标准医学术语文本。通过对医学文本数据进行数据清洗，识别医学特征词，再根据倒排索引的方式，获得候选文本，最后选出相似度最大的候选文本，作为最终的标准医学术语文本，通过这种方式的层层识别和筛选，有利于有效的提高医学术语标准化的准确率，进而提高医学术语文本的数据的可用性。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的医学术语的标准化方法的应用环境示意图；

图2根据本申请实施例提供的医学术语的标准化方法的一实现流程图；

图3是本申请实施例提供的医学术语的标准化方法中步骤S3的一实现流程图；

图4是本申请实施例提供的医学术语的标准化方法中步骤S3的另一实现流程图；

图5是本申请实施例提供的医学术语的标准化方法中步骤S34的一实现流程图；

图6是本申请实施例提供的医学术语的标准化方法中步骤S4的一实现流程图；

图7是本申请实施例提供的医学术语的标准化方法中步骤S5的一实现流程图；

图8是本申请实施例提供的医学术语的标准化装置示意图；

图9是本申请实施例提供的计算机设备的示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

下面结合附图和实施方式对本发明进行详细说明。

请参阅图1，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、搜索类应用、即时通信工具等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的一种医学术语的标准化方法一般由服务器执行，相应地，一种医学术语的标准化装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

请参阅图2，图2示出了医学术语的标准化方法的一种具体实施方式。

需注意的是，若有实质上相同的结果，本发明的方法并不以图2所示的流程顺序为限，该方法包括如下步骤：

S1：获取医学文本数据，并对医学文本数据进行数据清洗，得到初始文本。

具体的，医学术语是医学领域里的专业用语，用来指称医学领域里的各种事物、现象、特性、关系和过程等(如疾病、药物、手术操作、检查检验等)。这些术语是临床信息系统表达医学信息的必要成分。医学文本数据在没有经过数据的标准化处理时，含有诸多不标准的数据，如医学别名，同义词等，做不到统一的标准，这种未经标准化处理的医学术语数据很难被后续的医学应用，造成数据的浪费。本实施例通过获取医学文本数据，并对医学文本数据进行数据清洗，对医学文本数据进行重新审查和校验，删除医学文本数据中的重复信息、纠正医学文本数据中存在的错误，并提供数据一致性校验，便于后续对医学文本数据进一步的处理，并将进行数据清理后的医学文本数据作为初始文本。

其中，数据的标准化处理包括等不限于：将医学别名、同义词等统一对应到一份标准名称，便于数据的后续应用。

其中，数据清洗(Data cleaning)是对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。在本申请中，通过数据清洗，将医学文本数据的数据进行整理，删除医学文本数据中重复的信息和纠正存在的错误，确保数据的一致性。

S2：采用分词引擎对的初始文本进行分词处理，得到初始文本对应的分词单元。

具体的，通过分词引擎中多种算法的处理，将初始文本进行分词处理，得到分词单元。对初始文本进行分词处理，有利于后续对文本中的医学特征词的识别，特征词的词性标注等。

其中，分词引擎中多种算法的处理包括但不限于：维比特(vibiter)算法、最大匹配法和结巴(jieba)分词等。

S3：通过医学知识的深度学习实体识别的方式，识别出分词单元中的医学特征词，得到目标分词。

具体的，通过上述步骤S1和S2的处理，医学文本数据经过了数据清洗和分词处理，将医学文本数据分成了诸多分词，但是这些分词中，含有很多不是医学领域的分词，这就需要对这些分词进行识别，将医学领域中的医学特征词识别出来，并把这些医学特征词进行同义替换，用标准的医学词汇代替其中不规范的医学特征词，并将这些标准的医学词汇进行词性的标注，进行词性标注的目的在于便于后续建立倒排索引表；进行词性标注后，对其按照预置的医学术语库归类和赋予其标签。

具体的，通过结合预置的医学术语库，采用命名实体识别的的形式，识别出分词单元中的医学特征词，并将其作为目标分词。

在一具体实施例中，经过步骤S2分词处理后，分词单元有“进行”“输送血液”“流产”“堕胎”“形式”等等，通过获取预置的医学术语库，采用命名实体识别的形式，将这些分词与预置的医学术语库的词汇进行命名实体识别，命名实体识别的结果显示，上述分词中的“输送血液”、“流产”、“堕胎”属于医学特征词，其中，“输送血液”这个分词单元在预置的医学术语的标准词汇为“输血”，并将“输血”这一医学特征词代替“输送血液”这一词汇；其中的，“流产”和“堕胎”在预置的医学术语库中，这两个医学特征词属于同一个意思的特征词，可以使用“流产”特征词代替“堕胎”，或者“堕胎”特征词代替“流产”。在医学特征词的识别和替换之后，通过采用N-gram模型的形式，对上述的医学特征词进行词性标注，例如：“流产”这一特征词，通过词性标注后，可以得出“流产”属于动词和名词，在特征词的词性标注过程，会删除词性为虚词的词汇。进行词性标注后，通过读取预置的医学术语库的标签序列，将被词性标注的医学特征词进行标签归类，例如，“流产”医学特征词就属于“临床医学”这一标签序列，通过将这些医学特征词进行标签归类，便于下一步的构建倒排索引表，获取一系列的候选文本，提高医学术语标准化的效率。

S4：对目标分词进行倒排索引，根据倒排索引结果，统计每个目标分词在预设医学术语文本中的出现频率，并将出现频率高于预设阈值的目标分词对应的医学术语文本，作为候选文本。

具体的，通过上述步骤S3获取到的医学特征词，并将其进行词性标注和赋予标签后，通过相同的标签的不同目标分词进行组合，构建不同的倒排索引表，确认包含目标分词的医学术语文本和目标分词在医学术语文本出现的频率，并将出现频率高于预设阈值的目标分词对应的医学术语文本，得到候选文本。

其中，预设阈值根据实际需要获取的文本进行设置，此处不做限定。

其中，倒排索引(inverted index)源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引。倒排索引表用来记录有哪些文档包含了某个单词。一般在文档集合里会有很多文档包含某个单词，每个文档会记录文档编号，单词在这个文档中出现的次数及单词在文档中哪些位置出现过等信息，这样与一个文档相关的信息被称做倒排索引项，包含这个单词的一系列倒排索引项形成了列表结构，这就是某个单词对应的倒排列表。在本申请中，通过倒排索引的方式，获取到一批匹配可能性比较高的候选文本，这项候选文本中，存在医学术语标准化的文本，通过后续的相似度的计算，选出标准医学术语文本。

S5：基于预设深度学习模型，统计候选文本与医学文本数据的相似度值，得到M个相似度值，选取相似度值最大的候选文本，作为标准医学术语文本，其中，M为正整数。

具体的，利用优化好的深度学习模型，对的候选集文本和医学文本数据进行相似性比对和计算，得出每个候选文本与医学文本数据的相似度值，将这些相似度值按照从大到小的顺序排列，选取相似度值最大对应的候选文本，将该候选文本作为标准医学术语文本，并将其输出。

其中，相似度值的计算包括但不限于：特征工程、闵可夫斯基距离(MinkowskiDistance)、曼哈顿距离(Manhattan Distance)和欧氏距离(Euclidean Distance)等。

优选的，本实施例选择特征工程的方式，进行候选文本与医学文本数据的相似度值的统计；通过特征工程的方式，计算每个候选文本与医学文本数据的相似距离，从而能够得出每个候选文本与医学文本数据的相似度值，最终能够根据相似度值确定标准化医学术语文本。

本实施例中，通过将医学文本数据进行数据清理，并进行分词处理，得到分词单元，有利于将医学文本数据进行初步的整理，清除杂糅的文本数据，然后通过识别分词单元中的医学特征词，作为目标分词，实现识别医学相关的词语，为后续获取候选文本提供基础，再通过倒排索引的方式，获取目标分词对应的医学术语文本，实现得到一系列和医学文本数据相关的候选文本，使用倒排索引的方式，有利于获取一系列医学术语的标准化准确度不同的候选文本，最后通过对候选文本的相似度计算，得到相似度最大的对应候选文本，作为标准医学术语文本。通过对医学文本数据进行数据清洗，识别医学特征词，再根据倒排索引的方式，获得候选文本，最后选出相似度最大的候选文本，作为最终的标准医学术语文本，通过这种方式的层层识别和筛选，有利于有效的提高医学术语标准化的准确率，进而提高医学术语文本的数据的可用性。

请参阅图3，图3示出了步骤S3的一种具体实施方式，步骤S3中，通过医学知识的深度学习实体识别的方式，识别出分词单元中的医学特征词，得到目标分词的具体实现过程，详叙如下：

S31：获取预置的医学术语库。

具体的，预置的医学术语库中包括有医学特征词以及医学特征词的标准解释等等内容，通过获取预置的医学术语库，用以医学数据文本的标准化处理。

其中，预置的医学术语库包括但不限于：医学知识图谱等。

S32：针对每个分词单元，通过遍历的方式，将分词单元分别与预置的医学术语库中的每个词汇进行命名实体识别，得到实体识别结果。

具体的，通过遍历的方式，将分词单元一一与预置的医学术语库中的每个词汇进行命名实体识别，得到不同的识别结果，该识别结果可能是存在相同的命名实体，也有可能是不相同的命名实体。

在一具体实施例中，识别到的两个命名实体“流产”和“堕胎”，表面上是不同的分词，字面描述不同，但对应的语义都是“流产”的含义，需要进行实体命名合并。

S33：若实体识别结果为存在相同命名实体，则获取识别结果对应的分词单元和医学特征词，并使用医学特征词替代分词单元，并将医学特征词作为目标分词。

具体地，实体识别结果为存在相同命名实体，即两个分词对应的语义都是相同的含义，通过获取识别结果对应的分词单元和医学特征词，并使用医学特征词替代分词单元，得到目标分词。

在一具体实施例中，一个分词单元命名实体“感冒”，另一个分词单元命名实体“伤风”，通过步骤S32中的命名实体识别，可以的得出实体识别结果为相同命名实体，通过获取分词单元“感冒”、“伤风”和标准词汇“感冒”，通过“感冒”替换“伤风”，得到目标分词“感冒”。

本实施中，通过遍历预置的医学术语库，识别出分词单元的医学特征词，得到目标分词，有利于识别出标准医学词汇，为后续识别候选文本提供基础。

请参阅图4，图4示出了步骤S3的另一种具体实施方式，具体实现过程，详叙如下：

S34：采用N-gram模型，对分词单元进行词性标注，并赋予分词单元标签，得到词性单元。

具体的，每个分词单元都有自己的词性和标签，采用N-gram模型，对分词单元进行词性标注，并根据预置的医学术语库的标签分类，对分词单元进行一一附上标签，得到词性单元。

其中，N-gram模型是大词汇连续语音识别中常用的一种语言模型，对中文而言，称之为汉语语言模型(CLM,Chinese Language Model)，能够实现对词汇的词性标注。

在一具体实施例中，通过分词处理后，得到的分词有“手术”“而”，采用N-gram模型对上述分词进行词性标注，则“手术”为“名词”，即为“实词”，“而”为“连词”，即为“虚词”。

S35：删除词性为虚词的词性单元，得到词性为实词的词性单元，将词性为实词的词性单元作为目标分词。

具体的，由于分词单元的词性为虚词的，没有实际的医学标准化作用，所以通过删除词性为虚词的词性单元，保留得到词性为实词的词性单元，并将词性为实词的词性单元作为目标分词。

本实施例中，通过对分词单元进行词性标注和标签，并且删除词性为虚词的词性单元，保留得到词性为实词的词性单元，并将词性为实词的词性单元作为目标分词，有利于对分词单元的分类，对识别医学特征词和筛选候选文本提供基础。

请参阅图5，图5示出了步骤S34的一种具体实施方式，步骤S3中，用N-gram模型，对分词单元进行词性标注，并赋予分词单元标签，得到词性单元的具体实现过程，详叙如下：

S341：读取预置的医学术语库的标签序列。

具体的，预置的医学术语库都有标签序列，对每种医学词汇用以分类，通过读取预置的医学术语库的标签序列，获取医学词汇的分类情况。

S342：采用N-gram模型，对分词单元进行词性标注，得到词性标注单元。

具体的，采用N-gram模型，对分词单元进行词性标注，对不同的分词单元进行标注和区分，得到词性标注单元。

S343：针对词性为实词的词性标注单元，遍历预置的医学术语库，查询与词性为实词的词性标注单元所在的标签，得到目标标签。

具体的，每个词性的医学词汇都可以在预置的医学术语库的标签序列中一一对应找到，采用遍历预置的医学术语库，查询与词性为实词的词性标注单元所在的标签的方式，获取词性为实词的词性标注单元所对应的标签序列，得到目标标签。

S344：赋予词性为实词的词性标注单元的目标标签，得到词性单元。

具体的，在上述步骤S343中，查询到词性为实词的词性标注单元所对应的标签序列，通过赋予词性为实词的词性标注单元的目标标签，得到词性单元。

本实施例中，通过读取预置的医学术语库的标签序列，查询词性为实词的词性标注单元所对应的标签序列，通过赋予目标标签，得到词性单元，使得每个分词单元都有自己的标签序列，有利于对分词单元的分类。

请参阅图6，图6示出了步骤S4的一种具体实施方式，步骤S4中，对目标分词进行倒排索引，根据倒排索引结果，统计每个目标分词在预设医学术语文本中的出现频率，并将出现频率高于预设阈值的目标分词对应的医学术语文本，作为候选文本的具体实现过程，详叙如下：

S41：基于目标分词，将相同标签的目标分词组合在一起，建立倒排索引表。

具体的，通过上述步骤S34和S35，不同分词单元被赋予了各自的标签，通过将相同标签的目标分词组合在一起，构建倒排索引表。

S42：根据倒排索引表，统计每个目标分词在预设医学术语文本中的出现频率，并将出现频率高于预设阈值的目标分词对应的医学术语文本，作为基础文本。

具体的，倒排索引表记载了出现过目标分词的所有文档的文档列表及目标分词在该文档中出现的位置信息，并且即可获知哪些文档包含某个目标分词，进而确认包含目标分词的医学术语文本和目标分词在医学术语文本出现的频率，将出现频率高于预设阈值的目标分词对应的医学术语文本，作为基础文本。

S43:判断基础文本是否存在相同文本，若存在，则删除多余相同基础文本，保留其中一份基础文本。

具体的，由于不同的目标分词可能存在相同的医学术语文本之中，这样就存在了相同文本的可能。通过判断基础文本是否存在相同文本，若存在，则删除多余相同基础文本，保留其中一份医学术语文本。

S44：将保留的基础文本作为候选文本。

具体的，不同的基础文本各自保留下来一份，作为候选文本，这些候选文本中，存在着不同程度的与标准医学术语文本相似的文本。

本实施例中，采用倒排索引的方式，筛选出候选文本，有利于筛选出最适合的标准医学术语文本，提高医学文本数据标准化的准确度。

请参阅图7，图7示出了步骤S5的一种具体实施方式，步骤S5中，基于预设深度学习模型，统计候选文本与医学文本数据的相似度值，得到M个相似度值，选取相似度值最大的候选文本，作为标准医学术语文本的具体实现过程，详叙如下：

S51：获取预设深度学习模型。

具体的，针对候选文本，获取预设的深度学习模型，用于识别候选文本中与医学文本数据更为相关的文本。

其中，深度学习是学习样本数据的内在规律和表示层次，在学习过程中获取到对诸如文字，图像和声音等数据的表征具有较大影响的信息，实现让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。在本申请中，通过获取预设深度学习模型，识别候选文本中的信息。

S52：通过特征工程的方式，统计候选文本与医学文本数据的相似度值，得到M个相似度值，其中，M为正整数。

具体的，采用特征工程的方式，分别将每一个候选文本和医学文本数据单独进行相似度值的计算，得到M个相似度值，其中，M为候选文集的文本数量。

其中，相似度值表示候选文集与医学文本数据的接近程度，从而更为精准的获得标准医学术语文本。

S53：按相似度值从大到小的顺序排列，选取相似度值最大的候选文本，作为标准医学术语文本。

具体的，不同的候选文本与医学文本数据的相似度不同，从而通过上述步骤S53获得的相似度值也不同，通过相似度值从大到小的顺序排列，选取相似度值最大的候选文本，这相似度值最大的候选文本就是最接近医学标准的候选文本，所以将其作为标准医学术语文本。

S54：输出标准医学术语文本。

具体的，将相似度值最大的候选文本作为标准医学术语文本，输出标准医学术语文本。

本实施例中，通过获取预设深度学习模型，并对候选文本和医学文本数据进行相似度计算，选择其中相似度值最大的作为标准医学术语文本，并将其输出，使得医学数据的标准化的准确率更高。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

请参考图8，作为对上述图1所示方法的实现，本申请提供了一种医学术语的标准化装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图8所示，本实施例的医学术语的标准化装置包括：初始文本获取模块61、分词单元获取模块62、目标分词获取模块63、候选文本获取模块64及标准医学术语文本模块65，其中：

初始文本获取模块61，用于获取医学文本数据，并对医学文本数据进行数据清洗，得到初始文本；

分词单元获取模块62，用于采用分词引擎对的初始文本进行分词处理，得到初始文本对应的分词单元；

目标分词获取模块63，用于通过医学知识的深度学习实体识别的方式，识别出分词单元中的医学特征词，得到目标分词；

候选文本获取模块64，用于对目标分词进行倒排索引，根据倒排索引结果，统计每个目标分词在预设医学术语文本中的出现频率，并将出现频率高于预设阈值的目标分词对应的医学术语文本，作为候选文本；

标准医学术语文本模块65，用于基于预设深度学习模型，统计候选文本与医学文本数据的相似度值，得到M个相似度值，选取相似度值最大的候选文本，作为标准医学术语文本，其中，M为正整数。

进一步的，分词单元获取模块62包括：

医学术语库获取单元，用于获取预置的医学术语库；

实体识别结果获取单元，用于针对每个分词单元，通过遍历的方式，将分词单元分别与预置的医学术语库中的每个词汇进行命名实体识别，得到实体识别结果；

目标分词确认单元，用于若实体识别结果为存在相同命名实体，则获取识别结果对应的分词单元和医学特征词，并使用医学特征词替代分词单元，并将医学特征词作为目标分词。

进一步的，分词单元获取模块62还包括：

词性标注获取单元，用于采用N-gram模型，对分词单元进行词性标注，并赋予分词单元标签，得到词性单元；

实词获取单元，用于删除词性为虚词的词性单元，得到词性为实词的词性单元，将词性为实词的词性单元作为目标分词。

进一步的，词性标注获取单元包括：

术语库读取子单元，用于读取预置的医学术语库的标签序列；

词性标注子单元，用于采用N-gram模型，对分词单元进行词性标注，得到词性标注单元；

目标标签获取子单元，用于针对词性为实词的词性标注单元，遍历预置的医学术语库，查询与词性为实词的词性标注单元所在的标签，得到目标标签；

目标标签赋予子单元，用于赋予词性为实词的词性标注单元的目标标签，得到词性单元。

进一步的，候选文本获取模块64包括：

倒排索引表确认单元，用于基于目标分词，将相同标签的目标分词组合在一起，建立倒排索引表；

医学术语文本获取单元，用于根据倒排索引表，统计每个目标分词在预设医学术语文本中的出现频率，并将出现频率高于预设阈值的目标分词对应的医学术语文本，作为基础文本；

相同文本处理单元，用于判断基础文本是否存在相同文本，若存在，则删除多余相同基础文本，保留其中一份基础文本；

候选文本确定单元，用于将保留的基础文本作为候选文本。

进一步的，标准医学术语文本模块65包括：

深度学习模型获取单元，用于获取预设深度学习模型；

相似度值计算单元，用于通过特征工程的方式，统计候选文本与医学文本数据的相似度值，得到M个相似度值，其中，M为正整数；

候选文本选取单元，用于按相似度值从大到小的顺序排列，选取相似度值最大的候选文本，作为标准医学术语文本；

标准医学术语文本输出单元，用于输出标准医学术语文本。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图9，图9为本实施例计算机设备基本结构框图。

计算机设备7包括通过系统总线相互通信连接存储器71、处理器72、网络接口73。需要指出的是，图中仅示出了具有三种组件存储器71、处理器72、网络接口73的计算机设备7，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

存储器71至少包括一种类型的可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器71可以是计算机设备7的内部存储单元，例如该计算机设备7的硬盘或内存。在另一些实施例中，存储器71也可以是计算机设备7的外部存储设备，例如该计算机设备7上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器71还可以既包括计算机设备7的内部存储单元也包括其外部存储设备。本实施例中，存储器71通常用于存储安装于计算机设备7的操作系统和各类应用软件，例如医学术语的标准化方法的程序代码等。此外，存储器71还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器72在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器72通常用于控制计算机设备7的总体操作。本实施例中，处理器72用于运行存储器71中存储的程序代码或者处理数据，例如运行一种医学术语的标准化方法的程序代码。

网络接口73可包括无线网络接口或有线网络接口，该网络接口73通常用于在计算机设备7与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，计算机可读存储介质存储有服务器维护程序，服务器维护程序可被至少一个处理器执行，以使至少一个处理器执行如上述的一种医学术语的标准化方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种医学术语的标准化方法，其特征在于，包括：

2.根据权利要求1所述的医学术语的标准化方法，其特征在于，所述通过医学知识的深度学习实体识别的方式，识别出所述分词单元中的医学特征词，得到目标分词包括：

获取预置的医学术语库；

3.根据权利要求2所述的医学术语的标准化方法，其特征在于，所述通过医学知识的深度学习实体识别的方式，识别出所述分词单元中的医学特征词，得到目标分词还包括：

4.根据权利要求3所述的医学术语的标准化方法，其特征在于，所述采用N-gram模型，对所述分词单元进行词性标注，并赋予所述分词单元标签，得到词性单元包括：

读取所述预置的医学术语库的标签序列；

5.根据权利要求1所述的医学术语的标准化方法，其特征在于，所述对所述目标分词进行倒排索引，根据所述倒排索引结果，统计每个所述目标分词在预设医学术语文本中的出现频率，并将所述出现频率高于预设阈值的所述目标分词对应的医学术语文本，作为候选文本包括：

将保留的所述基础文本作为候选文本。

6.根据权利要求1至5任一项所述的医学术语的标准化方法，其特征在于，所述基于预设深度学习模型，统计所述候选文本与所述医学文本数据的相似度值，得到M个相似度值，选取相似度值最大的所述候选文本，作为标准医学术语文本，其中，M为正整数包括：

获取预设深度学习模型；

输出所述标准医学术语文本。

7.一种医学术语的标准化装置，其特征在于，包括：

8.根据权利要求7所述的医学术语的标准化装置，其特征在于，所述目标分词获取模块包括：

医学术语库获取单元，用于获取预置的医学术语库；

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的医学术语的标准化方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的医学术语的标准化方法。