CN112015900A

CN112015900A - 医学属性知识图谱构建方法、装置、设备及介质

Info

Publication number: CN112015900A
Application number: CN202010928809.6A
Authority: CN
Inventors: 何义龙; 朱威
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2020-12-01
Anticipated expiration: 2040-09-07
Also published as: WO2021159733A1; CN112015900B

Abstract

本发明涉及大数据的知识图谱技术领域，本发明公开了一种医学属性知识图谱构建方法、装置、设备及介质，所述方法包括：获取待识别文本；通过正则化表达式技术和预设的医学字典，识别出待识别文本中的医学属性；通过属性分类识别模型对识别出的所有医学属性进行实体分类，识别出属性类别；根据属性类别构建医学属性组合单元；通过医学属性关系识别模型对医学属性组合单元进行关系抽取识别，得到识别结果；根据所有识别结果构建出与待识别文本对应的医学属性知识图谱。本发明实现了能够快速地、准确地构建医学属性知识图谱，避免了人工构建的遗漏情况，提升了构建准确率和效率。本发明适用于智慧医疗等领域，可进一步推动智慧城市的建设。

Description

医学属性知识图谱构建方法、装置、设备及介质

技术领域

本发明涉及大数据的知识图谱技术领域，尤其涉及一种医学属性知识图谱构建方法、装置、设备及介质。

背景技术

现有技术中，都是通过人工阅读药品说明书以挖掘出药物的结构化数据以构建该药物的知识图谱，结构化数据的属性包括药品的对象、用法、用量，这些属性在药品说明书中是无序的分布在各个位置，人工阅读时需要自行查找出这些属性位置后再通过这些属性的内容进行组合，确定出属性之间的关系，再根据这些属性之间的关系输出结构化数据以构建该药物的知识图谱，由于人工阅读的颗粒度不同，具备的医学知识不同，查找到属性的内容就会出现错误或者遗漏的情况，最终确定出属性之间的关系会不完全，导致构建的结构化数据不完整，如此，现有技术方案中，构建一个药物的知识图谱的门槛高、时间长和效率低，而且准确性和完整性不高。

发明内容

本发明提供一种医学属性知识图谱构建方法、装置、设备及介质，实现了能够快速地、准确地构建医学属性知识图谱，避免了人工构建的遗漏情况，提升了构建医学属性知识图谱的准确性和完整性，提升了构建准确率和效率，本发明适用于智慧医疗等领域，可进一步推动智慧城市的建设。

一种医学属性知识图谱构建方法，包括：

获取待识别文本；

通过正则化表达式技术和预设的医学字典，识别出所述待识别文本中的医学属性；

通过属性分类识别模型对识别出的所有所述医学属性进行实体分类，获取与各所述医学属性对应的属性类别；

根据所述属性类别构建医学属性组合单元；所述医学属性组合单元中包含所述属性类别不同的任意两个所述医学属性；

将各所述医学属性组合单元输入医学属性关系识别模型中，通过所述医学属性关系识别模型对所述医学属性组合单元进行关系抽取识别，得到与所述医学属性组合单元对应的识别结果；

根据所有所述识别结果构建出与所述待识别文本对应的医学属性知识图谱。

一种医学属性知识图谱构建装置，包括：

获取模块，用于获取待识别文本；

识别模块，用于通过正则化表达式技术和预设的医学字典，识别出所述待识别文本中的医学属性；

分类模块，用于通过属性分类识别模型对识别出的所有所述医学属性进行实体分类，获取与各所述医学属性对应的属性类别；

组合模块，用于根据所述属性类别构建医学属性组合单元；所述医学属性组合单元中包含所述属性类别不同的任意两个所述医学属性；

关系识别模块，用于将各所述医学属性组合单元输入医学属性关系识别模型中，通过所述医学属性关系识别模型对所述医学属性组合单元进行关系抽取识别，得到与所述医学属性组合单元对应的识别结果；

构建模块，用于根据所有所述识别结果构建出与所述待识别文本对应的医学属性知识图谱。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述医学属性知识图谱构建方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述医学属性知识图谱构建方法的步骤。

本发明提供的医学属性知识图谱构建方法、装置、计算机设备及存储介质，通过获取待识别文本；通过正则化表达式技术和预设的医学字典，识别出所述待识别文本中的医学属性；通过属性分类识别模型对识别出的所有所述医学属性进行实体分类，获取与各所述医学属性对应的属性类别；根据所述属性类别构建医学属性组合单元；所述医学属性组合单元中包含所述属性类别不同的任意两个所述医学属性；将各所述医学属性组合单元输入医学属性关系识别模型中，通过所述医学属性关系识别模型对所述医学属性组合单元进行关系抽取识别，得到与所述医学属性组合单元对应的识别结果；根据所有所述识别结果构建出与所述待识别文本对应的医学属性知识图谱，如此，实现了通过获取待识别文本；自动识别出所述待识别文本中的医学属性；并实体分类出各医学属性的属性类别；构建医学属性组合单元；通过所述医学属性关系识别模型对所述医学属性组合单元进行关系抽取识别，得到识别结果，根据所有识别结果构建出与所述待识别文本对应的医学属性知识图谱，因此，实现了通过正则化表达式技术和医学字典识别出医学属性，并通过构建医学属性组合单元，对其进行关系抽取识别，识别出医学属性之间的关系，从而构建出与该待识别文本对应的医学属性知识图谱，能够快速地、准确地构建医学属性知识图谱，避免了人工构建的遗漏情况，提升了构建医学属性知识图谱的准确性和完整性，提升了构建准确率和效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中医学属性知识图谱构建方法的应用环境示意图；

图2是本发明一实施例中医学属性知识图谱构建方法的流程图；

图3是本发明一实施例中医学属性知识图谱构建方法的步骤S20的流程图；

图4是本发明一实施例中医学属性知识图谱构建方法的步骤S30的流程图；

图5是本发明一实施例中医学属性知识图谱构建方法的步骤S50的流程图；

图6是本发明另一实施例中医学属性知识图谱构建方法的步骤S50的流程图；

图7是本发明一实施例中医学属性知识图谱构建方法的步骤S60的流程图；

图8是本发明一实施例中医学属性知识图谱构建装置的原理框图；

图9是本发明一实施例中计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的医学属性知识图谱构建方法，可应用在如图1的应用环境中，其中，客户端(计算机设备)通过网络与服务器进行通信。其中，客户端(计算机设备)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种医学属性知识图谱构建方法，其技术方案主要包括以下步骤S10-S60：

S10，获取待识别文本。

可理解地，在需要对药品说明书或者电子病历本中的内容进行构建医学属性知识图谱时，触发构建请求，在接收到构建请求后，获取到所述待识别文本，所述待识别文本为包含有医学属性的电子文本，比如药品说明书或者电子病历本等等，所述医学属性为与医学相关的属性，比如药品的名称、药品的用法、药品的剂量、药品的对象等等。

S20，通过正则化表达式技术和预设的医学字典，识别出所述待识别文本中的医学属性。

可理解地，所述正则表达式技术为通过制定正则表达式规则，检索出符合制定的正则表达式规则的文本的技术，所述正则表达式规则为是对字符串(包括普通字符(例如，a到z之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑规则，通过所述正则表达式规则搜索文本中匹配的一个或多个字符串，将匹配出的字符串确定为常规医学属性，所述常规医学属性为在传统的药品说明书或者电子病历中常见的医学属性，所述医学字典包含有所有医学名词的字典，通过对所述待识别文本中进行分词，拆分出若干个单元词语，通过文本相似度匹配算法，将能与所述医学字典中的医学名词匹配的所述单元词语记录为特殊医学属性，所述文本相似度匹配算法为将两个文本转换成词向量，然后计算转换后的词向量之间的余弦相似度，通过判断计算得到的余弦相似度是否达到预设阈值，从而确定出两个文本是否匹配。

其中，通过所述正则化表达式技术和所述医学字典，从所述待识别文本中识别出医学属性，例如：待识别文本中包含有“阿米巴病，每日按体重35～50mg/kg，分3次口服，10日为一个疗程”，识别出的医学属性有“阿米巴病”、“35～50mg/kg”、“3次”、“口服”、“10日”。

在一实施例中，如图3所示，所述步骤S20中，即所述通过正则化表达式技术和预设的医学字典，识别出所述待识别文本中的医学属性，包括：

S201，通过正则化表达式技术，从所述待识别文本中匹配出符合预设正则化规则的常规医学属性。

可理解地，所述正则表达式技术为通过制定正则表达式规则，检索出符合制定的正则表达式规则的文本的技术，所述正则表达式规则为是对字符串(包括普通字符(例如，a到z之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑规则，通过所述正则表达式规则搜索文本中匹配的一个或多个字符串，将匹配出的字符串确定为常规医学属性，所述常规医学属性为在传统的药品说明书或者电子病历中常见的医学属性，例如：定义的正则表达式规则为“*mg/kg”、“分*次”“*日”和“*服”，待识别文本中包含有“阿米巴病，每日按体重35～50mg/kg，分3次口服，10日为一个疗程”，则从待识别文本中匹配出“35～50mg/kg”、“3次”、“口服”、“10日”。

S202，将匹配出的所有所述常规医学属性从所述待识别文本中去除，对去除所有所述常规医学属性之后的所述待识别文本进行分词及词向量转换，得到若干个词向量单元。

可理解地，从所述待识别文本中去除所有所述常规医学属性，将去除后的所述待识别文本进行分词处理，将去除后的所述待识别文本中的内容拆分成若干个词语，并将拆分出的各词语进行词向量转换，所述词向量转换为将词语输入基于所述医学字典训练完成的Word2Vec模型，通过所述Word2Vec模型转换成与该词语对应的词向量单元。

S203，自所述医学字典中查询到与所述词向量单元匹配的特殊医学属性。

可理解地，所述医学字典包含有所有医学名词的字典，所述医学字典中还包括与各所述医学名词对应的词向量，将所述医学字典中的与各所述医学名词对应的词向量和各词向量单元进行匹配，即计算与各所述医学名词对应的词向量和各词向量单元之间的相似度值，将与达到预设阈值的相似度值对应的所述词向量单元确定为所述特殊医学属性，所述特殊医学属性为与医学术语或者名称相关的医学属性。

S204，将所有所述常规医学属性和查询到的各所述特殊医学属性均记录为医学属性。

可理解地，将所有匹配出的所述常规医学属性和查询到的所有所述特殊医学属性确认为与所述待识别文本对应的所有医学属性。

本发明实现了通过正则化表达式技术，从所述待识别文本中匹配出符合预设正则化规则的常规医学属性；将匹配出的所有所述常规医学属性从所述待识别文本中去除，对去除所有所述常规医学属性之后的所述待识别文本进行分词及词向量转换，得到若干个词向量单元；自所述医学字典中查询到与所述词向量单元匹配的特殊医学属性；将所有所述常规医学属性和查询到的各所述特殊医学属性均记录为医学属性，如此，实现了通过更加符合医学场景的正则化表达式规则，以及包含医学名词的医学字典，识别出所述待识别文本中的医学属性，从而提高了识别医学属性的准确率，降低了遗漏识别的风险，提升了识别的准确性和可靠性，提升了提取待识别文本中的医学属性的质量。

S30，通过属性分类识别模型对识别出的所有所述医学属性进行实体分类，获取与各所述医学属性对应的属性类别。

可理解地，所述属性分类识别模型为训练完成的神经网络模型，所述属性分类识别模型能够实现识别出所述医学属性在所述待识别文本中的属性类别，所述属性类别为根据所述医学属性的特性而划分的分类，所述属性类别包括人群属性、对象属性、药剂属性、频率属性、用法属性和持续属性等等，所述人群属性为适用的人群，比如药品说明书中提到成人和小儿的用药剂量，其中，医学属性“成人”和“小儿”就是人群属性，所述对象属性为针对的对象，比如药品说明书中提到针对的疾病，其中，针对的疾病的医学属性即为对象属性，所述药剂属性为与药剂的用量相关的属性，比如药物说明书中提到“一次0.4克”，其中，医学属性“一次0.4克”为药剂属性，所述频率属性为用药频率的属性，比如药品说明书中提到的“一日3次”，其中，医学属性“一日3次”为频率属性，所述用法属性为用药的方法的属性，比如药品说明书中提到的“口服”，其中，医学属性“口服”为用法属性，所述持续属性为用药的持续时间的属性，比如药品说明书中提到的“连服10日”，其中，医学属性“10日”为持续属性。

其中，所述实体分类为提取各识别出的所有所述医学属性中的属性类型特征，所述属性类型特征为与医学属性的类别相关的特征，所述属性分类识别模型的网络结构可以根据需求设定，比如属性分类识别模型的网络结构可以为VGG16、GoogleNet、ResNet网络结构等等，通过历史收集的医学属性作为样本进行训练，训练完成的所述属性分类识别模型对所述待识别文本中的医学属性进行实体分类，如此，提高了识别的准确率和可靠性，节省了人工识别的工作量，提升了效率。

在一实施例中，如图4所示，所述步骤S30中，即所述通过属性分类识别模型对识别出的所有所述医学属性进行实体分类，获取与各所述医学属性对应的属性类别，包括：

S301，通过所述属性分类识别模型对识别出的所述医学属性进行上下文词义转换，得到与所述医学属性对应的医学特征向量图。

可理解地，获取各所述医学属性的上下文，即获取各所述医学属性的上文(前一句)和下文(后一句)，将获取到的所述医学属性的上下文转换成预设长度的向量，将其确定为与该医学属性对应的上下文向量，即将所述医学属性的上文和下文中的各字或词语转换成词向量，将各字或词语的词向量进行拼接然后转换成所述预设长度的向量，从而得到与各所述医学属性对应的所述上下文向量，所述上下文词义转换为获取各所述医学属性对应的所述上下文向量，通过属性分类识别模型中的嵌入层(Embedding层)将所述医学属性转换成与其对应的词向量，将与所述医学属性对应的上下文向量和词向量进行拼接，并通过预设的单元矩阵将拼接后的所述上下文向量和所述词向量转换成与所述医学属性对应的所述医学特征向量图，所述医学特征向量图能够体现所述医学属性及其上下文词义之间的属性类型特征。

S302，运用注意力机制，通过所述属性分类识别模型对所述医学特征向量图提取属性类型特征。

可理解低，所述注意力机制为通过不同的权重对所述医学特征向量图中的所述上下文向量和所述词向量进行增强，运用所述注意力机制，通过所述属性分类识别模型可以按照不同的权重提取所述医学特征向量图中的所述属性类型特征，所述属性类型特征为与医学属性的类别相关的特征。

S303，通过所述属性分类识别模型根据提取的属性类型特征进行识别，得到与各所述医学属性对应的属性类别。

可理解低，根据提取到的与识别到的所述医学属性对应的的属性类型特征，通过所述属性分类识别模型识别出该医学属性的属性类别，即识别出该医学属性属于人群属性、对象属性、药剂属性、频率属性、用法属性和持续属性中的其中一个属性类别。

本发明实现了通过所述属性分类识别模型对识别出的所述医学属性进行上下文词义转换，得到与所述医学属性对应的医学特征向量图；运用注意力机制，通过所述属性分类识别模型对所述医学特征向量图提取属性类型特征；通过所述属性分类识别模型根据提取的属性类型特征进行识别，得到与各所述医学属性对应的属性类别，如此，实现了通过识别出的医学属性上下文词义，转换得到医学特征向量图，运用注意力机制，提取属性类型特征识别出医学属性的属性类别，能够结合上下文词义，更加准确地识别出医学属性的属性类别，提高了识别准确率，为后续的识别提供了数据保证，提高了识别质量。

S40，根据所述属性类别构建医学属性组合单元；所述医学属性组合单元中包含所述属性类别不同的任意两个所述医学属性。

可理解地，将不同属性类别的两个所述医学属性进行组合，构建所述医学属性组合单元，所述医学属性组合单元中包含所述属性类别不同的任意两个所述医学属性，例如：药剂属性“一次0.4克”和人群属性“成人”，构建成一个医学属性组合单元{一次0.4克，成人}。

S50，将各所述医学属性组合单元输入医学属性关系识别模型中，通过所述医学属性关系识别模型对所述医学属性组合单元进行关系抽取识别，得到与所述医学属性组合单元对应的识别结果。

可理解地，将各所述医学属性组合单元分别输入所述医学属性关系识别模型中，所述医学属性关系识别模型为训练完成的神经网络模型，所述医学属性关系识别模型能够通过关系抽取识别出所述医学属性组合单元是否存在关系，所述关系抽取为通过提取两个医学属性之间的关联信息，判断两者是否存在关系，甚至判断出两者之间存在的哪类关系，所述关联信息包括两个所述医学属性在所述待识别文本中的位置属性，所述位置属性为所述医学属性在所述待识别文本中的位置，所述关联信息还包括两个所述医学属性之间的全局共性特征，例如两个医学属性“一次0.4克”和“一日3次”之间的存在联合可行性特征，可执行的关系特性。

其中，所述识别结果包括所述医学属性组合单元以及与所述医学属性组合单元对应的关系标注结果，所述识别结果表明了所述医学属性组合单元中的两个所述医学属性是否存在关系，所述关系标注结果包括关系成立和关系失败，所述识别结果还包括在关系关系成立的情况下与所述医学属性组合单元对应的概率值，所述关系成立表明所述医学属性组合单元中的两个所述医学属性存在关系，并可根据预设需求进行标注，以及包括其成立的概率值，所述关系失败表明所述医学属性组合单元中的两个所述医学属性不存在关系，并根据所述预设需求进行标注。

在一实施例中，如图5所示，所述步骤S50中，即所述通过所述医学属性关系识别模型对所述医学属性组合单元进行关系抽取识别，得到与所述医学属性组合单元对应的识别结果，包括：

S501，通过所述医学属性关系识别模型根据所述医学属性中的位置属性，确定出与所述医学属性组合单元对应的欧式距离。

可理解地，所述医学属性包括位置属性，所述位置属性为所述医学属性在所述待识别文本中的位置，所述医学属性关系识别模型根据所述医学属性组合单元中的两个所述医学属性的所述位置属性，计算出两个所述医学属性之间的欧式距离，所述欧式距离也称欧几里得距离，是通过空间距离衡量出多维空间中两个点之间的绝对距离，其中，多维空间包括多个维度的空间的位置，例如：多维空间包括横向空间、纵向空间、药物说明书页码空间等等，能够得到与所述医学属性组合单元对应的欧式距离。

S502，通过所述医学属性关系识别模型将所述医学属性组合单元中的两个与所述医学属性对应的所述医学特征向量图进行拼接，得到与所述医学属性组合单元对应的待识别关系向量。

可理解地，获取所述医学属性组合单元中的两个与所述医学属性对应的所述医学特征向量图，通过所述医学属性关系识别模型将获取的两个所述医学特征向量图进行拼接，从而合并得到一个所述待识别关系向量，所述待识别关系向量为包含了两个所述医学属性特征的特征向量矩阵。

S503，通过所述医学属性关系识别模型对所述欧式距离和所述待识别关系向量进行关系抽取识别，得到所述识别结果；

可理解地，所述关系抽取为通过提取两个医学属性之间的关联信息，判断两者是否存在关系，甚至判断出两者之间存在的哪类关系，所述关联信息包括两个所述医学属性在所述待识别文本中的位置属性，所述位置属性为所述医学属性在所述待识别文本中的位置，所述关联信息还包括两个所述医学属性之间的全局共性特征，例如两个医学属性“一次0.4克”和“一日3次”之间的存在联合可行性特征，可执行的关系特性。

其中，所述识别结果包括所述医学属性组合单元以及与所述医学属性组合单元对应的关系标注结果，所述识别结果表明了所述医学属性组合单元中的两个所述医学属性是否存在关系，所述关系标注结果包括关系成立和关系失败，所述识别结果还包括在关系成立的情况下与所述医学属性组合单元对应的概率值，所述关系成立表明所述医学属性组合单元中的两个所述医学属性存在关系，所述关系成立可标注为[0，1]，以及包括其成立的概率值，所述关系失败表明所述医学属性组合单元中的两个所述医学属性不存在关系，所述关系失败可标注为[1，0]，例如：医学属性组合单元{一次0.4克，成人}的识别结果为“{一次0.4克，成人}，[0，1]，97.9％”。

本发明实现了通过所述医学属性关系识别模型根据所述医学属性中的位置属性，确定出与所述医学属性组合单元对应的欧式距离；通过所述医学属性关系识别模型将所述医学属性组合单元中的两个与所述医学属性对应的所述医学特征向量图进行拼接，得到与所述医学属性组合单元对应的待识别关系向量；通过所述医学属性关系识别模型对所述欧式距离和所述待识别关系向量进行关系抽取识别，得到所述识别结果，如此，通过结合多维度空间位置和医学特征向量，得出医学属性组合单元的欧氏距离和待识别关系向量，通过医学属性关系识别模型进行关系抽取识别，能够准确地识别出两个医学属性之间的关系，节省了人工识别的时间，大大提高了识别效率和准确率。

在一实施例中，如图6所示，所述步骤S50之前，即所述将各所述医学属性组合单元输入医学属性关系识别模型之前，包括：

S504，获取属性关系样本集；所述属性关系样本集包括多个属性关系样本，一个所述属性关系样本与一个三元组关系标签关联，一个所述属性关系样本包括两个样本医学属性以及两个样本位置属性。

可理解地，所述属性关系样本集为收集的所述属性关系样本的集合，所述属性关系样本为人工识别的历史收集的两个样本医学属性之间的样本，一个所述属性关系样本与一个所述三元组关系标签关联，所述三元组关系标签为通过三元组格式的标签，将两个医学属性作为三元组的两个实体，关系作为三元组的实体关系标注，例如：属性关系样本{一次0.4克，成人}的三元组关系标签为“{一次0.4克，成人，[0，1]}”，一个所述属性关系样本包括两个样本医学属性以及两个样本位置属性，即一个所述属性关系样本包含有两个所述样本医学属性，以及与各所述样本医学属性对应的样本位置属性，所述样本医学属性为收集的人工标注的医学属性，所述样本位置属性为收集所述样本医学属性对应的位置。

S505，将所述属性关系样本输入含有初始参数的初始多任务模型；所述初始多任务模型为基于RoBERTa模型构建的模型。

可理解低，所述初始多任务模型为多任务分类的神经网络模型，所述初始多任务模型包含所述初始参数，所述初始多任务模型为基于RoBERTa模型构建的模型，所述RoBERTa(a Robustly Optimized BERT Pretraining Approach)模型主要通过掩藏(Masking)的方式对输入的内容进行多任务分类识别。

S506，通过所述初始多任务模型中的RoBERTa算法对所述属性关系样本进行随机掩藏，得到多个样本掩码向量。

可理解地，所述RoBERTa算法为开始把输入的所述属性关系样本复制10份数据，每一份都随机选择15％的Tokens进行Masking，然后每份数据都训练N/10个epoch，相当于在这N个epoch的训练中，每个数据都被随机掩藏，从而每个tokens(数据)是会变化的，得到多个所述样本掩码向量，所述样本掩码向量为通过掩藏后得到的特征向量图，如此，通过动态掩藏，提高了识别的准确率。

S507，通过所有所述样本掩码向量进行多任务的关系抽取识别，得到与所述属性关系样本对应的样本结果。

可理解地，通过对所述样本掩码向量进行关系抽取识别，多个所述样本掩码向量的关系抽取识别实现了多分支任务的关系抽取识别，对所述阉属性关系样本的识别更加准确，从而得到与所述属性关系样本对应的所述样本结果。

S508，根据所述样本结果与所述三元组关系标签，确定出损失值。

可理解地，将所述样本结果和所述三元组关系标签输入所述初始多任务模型中的损失函数中，通过所述损失函数计算出所述样本结果和所述三元组关系标签之间的损失值，所述损失函数可以根据需求设定，比如所述损失函数为交叉熵损失函数，所述损失值表明了所述样本结果和所述三元组关系标签之间的差距。

S509，在所述损失值未达到预设的收敛条件时，迭代更新所述初始多任务模型的初始参数，直至所述损失值达到所述预设的收敛条件时，将收敛之后的所述初始多任务模型记录为所述医学属性关系识别模型。

可理解地，所述收敛条件可以为所述损失值经过了3000次计算后值为很小且不会再下降的条件，即在所述损失值经过3000次计算后值为很小且不会再下降时，停止训练，并将收敛之后的所述初始多任务模型记录为所述医学属性关系识别模型；所述收敛条件也可以为所述损失值小于设定阈值的条件，即在所述损失值小于设定阈值时，停止训练，并收敛之后的所述初始多任务模型记录为所述医学属性关系识别模型，如此，在所述损失值未达到预设的收敛条件时，不断调整所述初始多任务模型中的初始参数，并触发通过所述初始多任务模型中的RoBERTa算法对所述属性关系样本进行随机掩藏，得到多个样本掩码向量的步骤，可以不断向准确的结果靠拢，让识别的准确率越来越高。

本发明实现了通过基于RoBERTa模型的初始多任务模型进行训练，可以提高了识别的准确率，提高了识别的可靠性。

S60，根据所有所述识别结果构建出与所述待识别文本对应的医学属性知识图谱。

可理解地，从所有所述识别结果中筛选出所有存在关系的所述识别结果，即筛选出与所述关系标注结果为关系成立对应的所述识别结果，将筛选后的所述识别结果确定为可选识别结果，以及获取与所述属性类别为药剂属性对应的所述医学属性；从所述可选识别结果中提取所述待处理结果，所述待处理结果是指包含有与所述属性类别为药剂属性对应的所述医学属性的所述识别结果；筛选出包含待构建属性的所述待处理结果，并将所述待构建属性与所述待处理结果均关联；所述待构建属性是指至少两个所述待处理结果中均包含的与药剂属性对应的所述医学属性，即所述待构建属性为与其他医学属性存在关系的且属于药剂属性的医学属性；根据所有所述待处理结果，构建与该待构建属性对应的分支知识图谱，即将所有所述待处理结果中进行分类，将相同所述构建属性归为一类，根据与各所述待构建属性对应的分支知识图谱构建医学属性知识图谱，如此，构建出与各个所述待构建属性对应的所述分支知识图谱，即一个所述待构建属性构建出一个所述分支知识图谱，所述分支知识图谱为以一个所述待构建属性为核心，其他医学属性与之关联的医学属性构成的知识图谱，通过所有所述分支知识图谱构建成与所述待识别文本对应的医学属性知识图谱。

在一实施例中，如图7所示，所述步骤S60中，所述根据所有所述识别结果构建出与所述待识别文本对应的医学属性知识图谱，包括：

S601，自所有所述识别结果中筛选出可选识别结果，并获取与所述属性类别为药剂属性对应的所述医学属性。

可理解地，从所有所述识别结果中筛选出可选识别结果，所述可选识别结果为与所述关系标注结果为关系成立对应的所述识别结果，并且获取与所述属性类别为所述药剂属性对应的所述医学属性，即获取属性类别为药剂属性的所述医学属性。

S602，自所有所述可选识别结果中提取待处理结果，所述待处理结果是指包含有与药剂属性对应的所述医学属性的所述识别结果。

可理解地，从所有所述可选识别结果中提取出所述待处理结果，所述待处理结果是指包含有与所述属性类别为药剂属性对应的所述医学属性的所述识别结果。

S603，确定出包含待构建属性的所述待处理结果，并将所述待构建属性与包含该待构建属性的所述待处理结果均关联；所述待构建属性是指至少两个所述待处理结果中均包含的与药剂属性对应的所述医学属性。

可理解地，根据所有所述待处理结果，筛选出包含有所述待构建属性的所述待处理结果，并将所述待构建属性与包含该待构建属性的所述待处理结果均关联，所述待构建属性是指至少两个所述待处理结果中均包含的与药剂属性对应的所述医学属性，即所述待构建属性为与其他医学属性存在关系的且属于药剂属性的医学属性。

S604，根据与每一个所述待构建属性关联的所有所述待处理结果，构建与该待构建属性对应的分支知识图谱。

可理解地，根据所有所述待处理结果，构建与该待构建属性对应的分支知识图谱，即将所有所述待处理结果中进行分类，将相同所述构建属性归为一类，根据与各所述待构建属性对应的分支知识图谱构建医学属性知识图谱，

S605，根据与各所述待构建属性对应的分支知识图谱构建医学属性知识图谱。

可理解地，根据所有所述分支知识图谱构建出结构化数据的所述医学属性知识图谱，通过所述医学属性知识图谱可以便于存储以及作为后续医学行为的数据基础等等。

本发明实现了通过自所有所述识别结果中筛选出可选识别结果，并获取与所述属性类别为药剂属性对应的所述医学属性；自所有所述可选识别结果中提取待处理结果；确定出包含待构建属性的所述待处理结果，并将所述待构建属性与包含该待构建属性的所述待处理结果均关联；根据与每一个所述待构建属性关联的所有所述待处理结果，构建与该待构建属性对应的分支知识图谱；根据与各所述待构建属性对应的分支知识图谱构建医学属性知识图谱，如此，实现了通过以药剂属性作为核心，构建的医学属性知识图谱，能够快速地提供药物的药剂属性，并便于存储以及作为后续医学行为的数据基础等等，提高了医学属性知识图谱的准确性和质量。

在一实施例中，提供一种医学属性知识图谱构建装置，该医学属性知识图谱构建装置与上述实施例中医学属性知识图谱构建方法一一对应。如图8所示，该医学属性知识图谱构建装置包括获取模块11、识别模块12、分类模块13、组合模块14、关系识别模块15和构建模块16。各功能模块详细说明如下：

获取模块11，用于获取待识别文本；

识别模块12，用于通过正则化表达式技术和预设的医学字典，识别出所述待识别文本中的医学属性；

分类模块13，用于通过属性分类识别模型对识别出的所有所述医学属性进行实体分类，获取与各所述医学属性对应的属性类别；

组合模块14，用于根据所述属性类别构建医学属性组合单元；所述医学属性组合单元中包含所述属性类别不同的任意两个所述医学属性；

关系识别模块15，用于将各所述医学属性组合单元输入医学属性关系识别模型中，通过所述医学属性关系识别模型对所述医学属性组合单元进行关系抽取识别，得到与所述医学属性组合单元对应的识别结果；

构建模块16，用于根据所有所述识别结果构建出与所述待识别文本对应的医学属性知识图谱。

在一实施例中，所述识别模块12包括：

匹配子模块121，用于通过正则化表达式技术，从所述待识别文本中匹配出符合预设正则化规则的常规医学属性；

去除子模块122，用于将匹配出的所有所述常规医学属性从所述待识别文本中去除，对去除所有所述常规医学属性之后的所述待识别文本进行分词及词向量转换，得到若干个词向量单元；

查询子模块123，用于自所述医学字典中查询到与所述词向量单元匹配的特殊医学属性；

记录子模块124，用于将所有所述常规医学属性和查询到的各所述特殊医学属性均记录为医学属性。

关于医学属性知识图谱构建装置的具体限定可以参见上文中对于医学属性知识图谱构建方法的限定，在此不再赘述。上述医学属性知识图谱构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种医学属性知识图谱构建方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中医学属性知识图谱构建方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中医学属性知识图谱构建方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种医学属性知识图谱构建方法，其特征在于，包括：

获取待识别文本；

2.如权利要求1所述的医学属性知识图谱构建方法，其特征在于，所述通过正则化表达式技术和预设的医学字典，识别出所述待识别文本中的医学属性，包括：

通过正则化表达式技术，从所述待识别文本中匹配出符合预设正则化规则的常规医学属性；

将匹配出的所有所述常规医学属性从所述待识别文本中去除，对去除所有所述常规医学属性之后的所述待识别文本进行分词及词向量转换，得到若干个词向量单元；

自所述医学字典中查询到与所述词向量单元匹配的特殊医学属性；

将所有所述常规医学属性和查询到的各所述特殊医学属性均记录为医学属性。

3.如权利要求1所述的医学属性知识图谱构建方法，其特征在于，所述通过属性分类识别模型对识别出的所有所述医学属性进行实体分类，获取与各所述医学属性对应的属性类别，包括：

通过所述属性分类识别模型对识别出的所述医学属性进行上下文词义转换，得到与所述医学属性对应的医学特征向量图；

运用注意力机制，通过所述属性分类识别模型对所述医学特征向量图提取属性类型特征；

通过所述属性分类识别模型根据提取的属性类型特征进行识别，得到与各所述医学属性对应的属性类别。

4.如权利要求2所述的医学属性知识图谱构建方法，其特征在于，所述通过所述医学属性关系识别模型对所述医学属性组合单元进行关系抽取识别，得到与所述医学属性组合单元对应的识别结果，包括：

通过所述医学属性关系识别模型根据所述医学属性中的位置属性，确定出与所述医学属性组合单元对应的欧式距离；

通过所述医学属性关系识别模型将所述医学属性组合单元中的两个与所述医学属性对应的所述医学特征向量图进行拼接，得到与所述医学属性组合单元对应的待识别关系向量；

通过所述医学属性关系识别模型对所述欧式距离和所述待识别关系向量进行关系抽取识别，得到所述识别结果。

5.如权利要求1所述的医学属性知识图谱构建方法，其特征在于，所述将各所述医学属性组合单元输入医学属性关系识别模型之前，包括：

获取属性关系样本集；所述属性关系样本集包括多个属性关系样本，一个所述属性关系样本与一个三元组关系标签关联，一个所述属性关系样本包括两个样本医学属性以及两个样本位置属性；

将所述属性关系样本输入含有初始参数的初始多任务模型；所述初始多任务模型为基于RoBERTa模型构建的模型；

通过所述初始多任务模型中的RoBERTa算法对所述属性关系样本进行随机掩藏，得到多个样本掩码向量；

通过所有所述样本掩码向量进行多任务的关系抽取识别，得到与所述属性关系样本对应的样本结果；

根据所述样本结果与所述三元组关系标签，确定出损失值；

在所述损失值未达到预设的收敛条件时，迭代更新所述初始多任务模型的初始参数，直至所述损失值达到所述预设的收敛条件时，将收敛之后的所述初始多任务模型记录为所述医学属性关系识别模型。

6.如权利要求4所述的医学属性知识图谱构建方法，其特征在于，所述根据所有所述识别结果构建出与所述待识别文本对应的医学属性知识图谱，包括：

自所有所述识别结果中筛选出可选识别结果，并获取与所述属性类别为药剂属性对应的所述医学属性；

自所有所述可选识别结果中提取待处理结果，所述待处理结果是指包含有与药剂属性对应的所述医学属性的所述识别结果；

确定出包含待构建属性的所述待处理结果，并将所述待构建属性与包含该待构建属性的所述待处理结果均关联；所述待构建属性是指至少两个所述待处理结果中均包含的与药剂属性对应的所述医学属性；

根据与每一个所述待构建属性关联的所有所述待处理结果，构建与该待构建属性对应的分支知识图谱；

根据与各所述待构建属性对应的分支知识图谱构建医学属性知识图谱。

7.一种医学属性知识图谱构建装置，其特征在于，包括：

获取模块，用于获取待识别文本；

8.如权利要求7所述的医学属性知识图谱构建装置，其特征在于，所述识别模块包括：

匹配子模块，用于通过正则化表达式技术，从所述待识别文本中匹配出符合预设正则化规则的常规医学属性；

去除子模块，用于将匹配出的所有所述常规医学属性从所述待识别文本中去除，对去除所有所述常规医学属性之后的所述待识别文本进行分词及词向量转换，得到若干个词向量单元；

查询子模块，用于自所述医学字典中查询到与所述词向量单元匹配的特殊医学属性；

记录子模块，用于将所有所述常规医学属性和查询到的各所述特殊医学属性均记录为医学属性。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述医学属性知识图谱构建方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述医学属性知识图谱构建方法。