CN113688256A

CN113688256A - 临床知识库的构建方法、装置

Info

Publication number: CN113688256A
Application number: CN202111251950.8A
Authority: CN
Inventors: 秦晓宏; 刘焕春; 华宗楠
Original assignee: Shanghai Clinbrain Information Technology Co Ltd
Current assignee: Shanghai Clinbrain Information Technology Co Ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2021-11-23
Anticipated expiration: 2041-10-27
Also published as: CN113688256B

Abstract

本申请提供了一种临床知识库的构建方法、装置，包括：从医学教材中获取对应的第一文本数据，并从网络资源中获取第二文本数据；基于第一文本数据获取第一三元组集合，并基于第二文本数据获取第二三元组集合；合并第一三元组集合和第二三元组集合，并对合并后的三元组集合中的三元组进行去重，得到目标三元组集合；基于目标三元组集合构建对应的医学知识图谱。该方案在构建三元组的过程中，利用数据中携带的章节主题与章节文本之间的第一对应关系、以及医学主题与网络文本之间的第二对应关系确定实体对，进而提高了医学知识图谱构建的效率，引入了医学教材这一准确率高的数据来源，提高了构建的医学知识图谱的准确性。

Description

临床知识库的构建方法、装置

技术领域

本申请涉及计算机技术领域，具体而言，本申请涉及一种临床知识库构建方法、装置。

背景技术

自Google（谷歌）于2012年首次提出知识图谱的概念以来，它就以非常快的速度在人工智能领域发展。就其本身而言，知识图谱通常以三元组（头实体（head），实体关系（relation），尾实体（tail））的方式存储。三元组可显示图谱内部结构和关系的特征。要构建知识图谱，首先需要获取三元组。

目前医学知识图谱的三元组的获取过程通常是先从网络资源中抓取医学数据，然后再从抓取的医学数据中识别出实体，并抽取实体关系，进而根据实体和实体关系构建对应的三元组。但是，在现有基于网络资源的医学知识图谱构建方式中，由于抽取实体关系计算量大，网络资源可信度低，导致医学知识图谱的获取效率低，且最终获取的医学知识图谱准确性低。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一，本申请实施例所提供的技术方案如下：

第一方面，本申请实施例提供了一种临床知识库构建方法，包括：

从医学教材中获取对应的第一文本数据，并从网络资源中获取第二文本数据，第一文本数据包括至少一个章节文本、以及各章节文本与章节主题之间的第一对应关系，第二文本数据包括至少一个网络文本、以及各网络文本与医学主题之间的第二对应关系；

基于第一文本数据中各章节文本以及第一对应关系，获取第一三元组集合，并基于第二文本数据中各医学主题以及第二对应关系，获取第二三元组集合；

合并第一三元组集合和第二三元组集合，得到合并后的三元组集合，并对合并后的三元组集合中的三元组进行去重，得到目标三元组集合；

基于目标三元组集合构建对应的医学知识图谱。

在本申请的一种可选实施例中，从医学教材中获取对应的第一文本数据，包括：

对医学教材的图像进行文字识别，得到对应的目录文本和正文文本；

对目录文本和正文文本进行章节主题匹配和页码匹配，从正文文本中确定各章节主题对应的文本内容；

将各章节主题对应的文本内容进行拼接，得到各章节主题对应的章节文本，进而得到各章节文本与章节主题之间的第一对应关系；

基于各章节文本和第一对应关系，得到第一文本数据。

在本申请的一种可选实施例中，从网络资源中获取第二文本数据，包括：

通过预设爬虫程序，从网络资源中抓取至少一个网络内容；

对网络内容进行分析，获取网络内容对应的医学主题；

将医学主题对应的网络内容的文本，作为医学主题对应的网络文本，进而得到网络文本与医学主题之间的第二对应关系；

基于各网络文本和第二对应关系，得到第二文本数据。

在本申请的一种可选实施例中，对网络内容进行分析，获取网络内容对应的医学主题，包括：

对网络内容的文本进行分析，统计网络内容的高频医学词汇；

获取教材数据库中的教材名称列表，将教材名称列表中各个教材名称与高频医学词汇进行匹配，得到最佳匹配教材名称；其中，教材数据库由多个教材对应的第一文本数据构成；

获取最佳匹配教材名称对应的教材的章节列表，将章节列表中的每一章节名称与网络内容的文本进行相关度匹配，将匹配度最高的章节名作为网络内容对应的医学主题。

在本申请的一种可选实施例中，基于第一文本数据中各章节文本以及第一对应关系，获取第一三元组集合，包括：

对于每一章节文本，将该章节文本输入训练好的实体识别模型，得到至少一个第一实体和各第一实体的属性；

将每一章节文本对应的章节主题作为头实体、基于第一对应关系将该章节文本对应的各第一实体作为尾实体、将各第一实体对应的属性分别作为头实体与各尾实体之间的实体关系，得到至少一个第一三元组；

基于各章节文本对应的各第一三元组构建第一三元组集合。

在本申请的一种可选实施例中，基于第二文本数据中各医学主题以及第二对应关系，获取第二三元组集合，包括：

对于每一网络文本，将该网络文本输入训练好的实体识别模型，得到至少一个第二实体和各第二实体的属性；

将每一网络文本对应的医学主题作为头实体、基于第二对应关系将该网络文本对应的各第二实体作为尾实体、将各第二实体对应的属性分别作为头实体与各尾实体之间的实体关系，得到至少一个第二三元组；

基于各网络文本对应的各第二三元组构建第二三元组集合。

在本申请的一种可选实施例中，对合并后的三元组集合中的三元组进行去重，包括：

遍历合并后的三元组集合，对于任意两个三元组，若任意两个三元组的头实体、实体关系和尾实体三种组成部分中仅有一种不同的组成部分，则获取任意两个三元组不同的组成部分之间的相似度，且若相似度不小于预设阈值，则基于不同的组成部分的种类和任意两个三元组的来源，删除任意两个三元组中的一个三元组；或，

若任意两个三元组的一个三元组的头实体和尾实体分别与另一个三元组尾实体和头实体对应相同，且任意两个三元组的实体关系相同，则删除任意两个三元组中的任意一个三元组。

在本申请的一种可选实施例中，获取任意两个三元组不同的组成部分之间的相似度，包括：

若不同的组成部分为头实体或尾实体，则确认任意两个三元组不同的组成部分是否为同义词，若为同义词，则确定任意两个三元组不同的组成部分之间的相似度不小于预设阈值；若不为同义词，则获取任意两个三元组不同的组成部分对应的特征向量，并将任意两个三元组不同的组成部分对应的特征向量之间的相似度，作为任意两个三元组不同的组成部分之间的相似度；

若不同的组成部分为实体关系，则获取任意两个三元组不同的组成部分对应的特征向量，并将任意两个三元组不同的组成部分对应的特征向量之间的相似度，作为任意两个三元组不同的组成部分之间的相似度。

在本申请的一种可选实施例中，基于不同的组成部分的种类和任意两个三元组的来源，删除任意两个三元组中的一个三元组，包括：

若不同的组成部分为实体关系或尾实体，则删除任意两个三元组中的任意一个三元组；或

若不同的组成部分为头实体，且任意两个三元组都来源于医学教材或网络资源，则删除任意两个三元组中的任意一个三元组；或

若不同的组成部分为头实体，且任意两个三元组分别来源于医学教材和网络资源，则删除任意两个三元组中的来源于网络资源的三元组，并将来源于网络资源的三元组的头实体作为来源于医学教材的三元组的头实体的附加属性。

第二方面，本申请实施例提供了一种临床知识库构建装置，包括：

文本数据获取模块，用于从医学教材中获取对应的第一文本数据，并从网络资源中获取第二文本数据，第一文本数据包括至少一个章节文本、以及各章节文本与章节主题之间的第一对应关系，第二文本数据包括至少一个网络文本、以及各网络文本与医学主题之间的第二对应关系；

三元组集合获取模块，用于基于第一文本数据中各章节文本以及第一对应关系，获取第一三元组集合，并基于第二文本数据中各医学主题以及第二对应关系，获取第二三元组集合，第一对应关系指示第一三元组集合中各三元组的头实体与尾实体的对应关系，第二对应关系指示第二三元组集合中各三元组的头实体与尾实体的对应关系；

三元组去重模块，用于合并第一三元组集合和第二三元组集合，得到合并后的三元组集合，并对合并后的三元组集合中的三元组进行去重，得到目标三元组集合；

知识图谱构建模块，用于基于目标三元组集合构建对应的医学知识图谱。

在本申请的一种可选实施例中，文本数据获取模块具体用于：

基于各章节文本和第一对应关系，得到第一文本数据。

通过预设爬虫程序，从网络资源中抓取至少一个网络内容；

对各网络内容进行分析，获取各网络内容对应的医学主题；

将各医学主题对应的网络内容进行拼接，得到各医学主题对应的网络文本，进而得到各网络文本与医学主题之间的第二对应关系；

基于各医学主题和第二对应关系，得到第二文本数据。

在本申请的一种可选实施例中，三元组集合获取模块具体用于：

基于各章节文本对应的各第一三元组构建第一三元组集合。

基于各网络文本对应的各第二三元组构建第二三元组集合。

在本申请的一种可选实施例中，三元组去重模块具体用于：

遍历合并后的三元组集合，对于任意两个三元组，若任意两个三元组的头实体、实体关系和尾实体三种组成部分中仅有一种不同的组成部分，则获取任意两个三元组不同的组成部分之间的相似度，且若相似度不小于预设阈值，则基于所述不同的组成部分的种类和所述任意两个三元组的来源，删除任意两个三元组中的一个三元组；或，

在本申请的一种可选实施例中，三元组去重模块进一步用于：

若不同的组成部分为实体关系或尾实体，则删除任意两个三元组中的任意一个三元组；或，

若不同的组成部分为头实体，且任意两个三元组都来源于医学教材或网络资源，则删除任意两个三元组中的任意一个三元组；或，

第三方面，本申请实施例提供了一种电子设备，包括存储器和处理器；

存储器中存储有计算机程序；

处理器，用于执行计算机程序以实现第一方面实施例或第一方面任一可选实施例中所提供的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现第一方面实施例或第一方面任一可选实施例中所提供的方法。

第五方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行时实现第一方面实施例或第一方面任一可选实施例中所提供的方法。

本申请提供的技术方案带来的有益效果是：

通过来源于医学教材和网络资源的文本数据构建三元组，在构建三元组的过程中，利用数据中携带的章节主题与章节文本之间的第一对应关系、以及医学主题与网络文本之间的第二对应关系确定实体对，在获取实体关系过程中无需再确定实体对，减小了获取实体关系的计算量，进而提高了医学知识图谱构建的效率，同时，由于引入了医学教材这一准确率高的数据来源，提高了临床知识库所构建的医学知识图谱的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种临床知识库中临床知识库的构建方法的流程示意图；

图2为本申请实施例的一个示例中临床知识库的构建方法的具体流程示意图；

图3为本申请实施例的一个示例中依据章节主题获取对应的章节文本的匹配判断流程示意图；

图4为本申请实施例提供的一种临床知识库中临床知识库的构建装置的结构框图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

现有的临床知识库的医学知识图谱构建方案中，从网络资源中爬取网络文本，再利用一个预设网络模型从网络文本中识别出实体，然后再利用另一个预设网络模型抽取这些识别出的实体之间的实体关系，进而根据实体和实体关系获取三元组，最后根据获取到的三元组构建对应的医学知识图谱。在确定实体关系的过程中，首先需要从这些实体中确定出实体对（即相互对应的头实体和尾实体），即需要识别出这些实体之间的对应关系，然后再确定实体对之间的实体关系。由以上三元组的获取过程可知，在识别出实体后，在获取实体关系过程中除了抽取实体关系外，还需要确定实体对，使得获取三元组过程中计算量过大，进而使得构建的医学知识图谱的效率过低。同时，由于网络资源的可靠性不高，使得获取到的三元组的准确性不高，进而使得构建的医学知识图谱的准确性不高。

针对上述问题，针对医疗知识图谱，本申请实施例提供了一种临床知识库构建方法、装置及计算机可读存储介质。下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图1为本申请实施例提供的一种临床知识库中临床知识库的构建方法的流程示意图，如图1所示，该方法可以包括：

步骤S101，从医学教材中获取对应的第一文本数据，并从网络资源中获取第二文本数据，第一文本数据包括至少一个章节文本、以及各章节文本与章节主题之间的第一对应关系，第二文本数据包括至少一个网络文本、以及各网络文本与医学主题之间的第二对应关系。

其中，医学主题可以理解为某一医学名词、短语或句子，例如，对于一篇论述某一药物对咳嗽治疗效果的论文，其医学主题可以确定为该药物或咳嗽等。

具体地，医学教材和网络资源都是可以直接获取的公共资源，医学教材本身包含有章节关系，且医学教材中包含的实体表达规范准确，而网络资源中包含的实体表达更丰富。

进一步地，第一文本数据和第二文本数据分别来源于医学教材和网络资源，使得两种文本数据分别具有其数据来源的特点。具体来说，第一文本数据包含有多个章节文本，且每个章节文本都有确定的章节主题，即章节文本与章节主题的对应关系确定。第二文本数据包含多个网络文本，且每个网络文本都有确定的医学主题，即网络文本与医学主题的对应关系确定。

可以理解的是，首先，来源于医学教材的第一文本数据携带有第一对应关系，并具有实体表达准确性高的特点，来源于网络资源的第二文本数据携带有第二对应关系，使得后续在基于第一文本数据和第二文本数据构建医学知识图谱过程中，可以利用第一对应关系和第二对应关系这两个已有信息，减少计算量，并使得构建的医学图谱同样具有实体表达准确性高。同时，由于网络资源来自于许多不同的创造者，例如，医生、病患、科研人员、科普工作者等，这些具有不同知识背景的创作者创作的内容在表达上各不相同，举例来说，对于同一种药品或疾病，医生和患者的表达都不相同，这就使得来源于网络资源的第二文本数据还具有实体表达丰富的特点。换言之，第二文本数据比第一文本数据的实体表达更丰富，在采用第一文本数据构建医学知识图谱的基础上，引入第二文本数据，可以使得构建的医学知识图谱实体表达更丰富，医学知识图谱使用过程中鲁棒性更高。总而言之，本申请实施例中采用多数据源（即医学教材和网络资源）获取用于构建三元组的文本数据，既利用来源于医学教材的第一文本数据弥补了来源于网络资源的第二文本数据的准确性低的问题，也利用第二文本数据弥补了第一文本数据的实体丰富度表达不够丰富的问题，使得最后构建得到的医学知识图谱兼顾了实体表达准确和实体表达丰富。

步骤S102，基于第一文本数据中各章节文本、以及各章节文本与章节主题之间的第一对应关系，获取第一三元组集合，并基于第二文本数据中各医学主题、以及各网络文本与医学主题之间的第二对应关系，获取第二三元组集合，第一对应关系指示第一三元组集合中各三元组的头实体与尾实体的对应关系，第二对应关系指示第二三元组集合中各三元组的头实体与尾实体的对应关系。

其中，三元组包含头实体、尾实体和实体关系三个组成部分，举例来说，三元组“急性上呼吸道感染，药品，磷酸奥司他韦”中各部分依次为头实体、实体关系和尾实体，其对应的事件可以是“治疗急性上呼吸道感染可以用药：磷酸奥司他韦品”，三元组“急性上呼吸道感染，症状，咳嗽” 中各部分依次为头实体、实体关系和尾实体，其对应的事件可以是“急性上呼吸道感染有咳嗽的症状”，三元组“急性上呼吸道感染，检验，病原学检查” 中各部分依次为头实体、实体关系和尾实体，其对应的事件可以是“可以通过做病原学检查确诊急性上呼吸道感染”。

具体地，在基于第一文本数据获得对应的第一三元组集合的过程中，除了获取第一文本数据中的实体，还需要利用第一对应关系所指示的头实体和尾实体的对应关系，即需要利用第一对应关系确定获取的实体中，哪些可以组成实体对。具体来说，首先，对于第一文本数据中多个章节主题和多个章节文本，获取其中包含的实体，并确定出头实体和尾实体。然后，根据第一对应关系指示的章节主题与章节文本之间的对应关系，确定对应的头实体与尾实体的对应关系，进而构建多个三元组。举例来说，首先，从章节主题中获取头实体，从章节文本中获取尾实体，然后，根据第一对应关系获取章节文本对应的章节主题，并将章节文本中包含的尾实体与对应的章节主题中包含的头实体相对应，即确定了实体对，进而基于上述实体对构建三元组，得到第一三元组集合。举例来说，第一对应关系中包含了章节主题“急性上呼吸道感染”对应的章节文本，那么该章节文本中包含的多个实体，都可以分别与“急性上呼吸道感染”构成三元组，且每个三元组的头实体都是“急性上呼吸道感染”。

在基于第二文本数据获得对应的第二三元组集合的过程中，除了获取第二文本数据中的实体，还需要利用第二对应关系所指示的头实体和尾实体的对应关系，即需要利用第二对应关系确定获取的实体中，哪些可以组成实体对。具体来说，首先，对于第二文本数据中多个医学主题和多个网络文本，获取其中包含的实体，并确定出头实体和尾实体。然后，根据第二对应关系指示的医学主题与网络文本之间的对应关系，确定对应的头实体与尾实体的对应关系，进而构建多个三元组。举例来说，首先，从医学主题中获取头实体，从网络文本中获取尾实体，然后，根据第二对应关系获取网络文本对应的医学主题，并将网络文本中包含的尾实体与对应的医学主题中包含的头实体相对应，即确定了实体对，进而基于上述实体对构建三元组，得到第二三元组集合。举例来说，第二对应关系中包含了医学主题“急性上呼吸道感染”对应的网络文本，那么该网络文本中包含的多个实体，都可以分别与“急性上呼吸道感染”构成三元组，且每个三元组的头实体都是“急性上呼吸道感染”。

可以理解的是，在上述获取构建三元组的过程中，通过文本数据中携带的第一对应关系和第二对应关系，即可确定实体对。而第一对应关系和第二对应关系可以根据数据来源的本身特点获取的，其获取过程的计算量要远小于通过模型抽取的计算量，因此可以提高三元组获取的效率。

步骤S103，合并第一三元组集合和第二三元组集合，得到合并后的三元组集合，并对合并后的三元组集合中的三元组进行去重，得到目标三元组集合。

步骤S104，基于目标三元组集合构建对应的医学知识图谱。

具体地，将两种数据来源的三元组集合合并，合并后的三元组集合中可能存在重复的三元组，为了进一步提高三元组的构建效率和准确性，可以先对合并后的三元组集合中的三元组进行去重处理，得到目标三元组集合，进而根据目标三元组集合中的三元组构建对应的医学知识图谱。需要说明的是，在得到目标三元组集合之后，还可以进一步对目标三元组集合中的三元组进行人工筛查以确保三元组的准确性，最终基于通过筛查的三元组构建对应的医学知识图谱。如图2所示，给出了临床知识库的构建的具体流程。

现有技术中，知识图谱的三元组中的关系并不能表示三元组的头实体和尾实体之间的现实关系，知识图谱中的所有实体的特征向量、实体关系的特征向量并不能准确、全面的反映所有关系、实体在知识图谱中的定义。

本申请实施例提供的方案兼顾准确和全面，为了对多个源数据的内容实体对象之间所表现的现实关系进行表达，通过第一对应关系表示教材中文本数据现实关系的初始表达，通过第二对应关系表示网络内容获取的文本数据现实关系的初始表达，在初始表达的整理基础上，分别利用第一对应关系得到第一三元组集合、第二对应关系得到第二三元组集合，继而来源于医学教材的第一三元组、来源与网络资源的文本数据的第二三元组进行融合。在构建三元组的过程中，利用数据中携带的章节主题与章节文本之间的第一对应关系、以及医学主题与网络文本之间的第二对应关系确定实体对，在获取实体关系过程中无需再确定实体对，减小了获取实体关系的计算量，进而提高了医学知识图谱构建的效率，同时，由于引入了医学教材这一准确率高的数据来源，提高了构建的医学知识图谱的准确性。

基于各章节文本和第一对应关系，得到第一文本数据。

具体地，获取医学教材的图像文件，然后对图像进行文字识别，例如，可以采用OCR（Optical Character Recognition，光学字符识别）对医学教材文本进行识别，得到对应文本。由教材的特点可知，医学教材在内容上一般可以分为目录部分和正文部分，在进行文字识别过程中，可以根据排版等视觉特征，分别输出目录文本和正文文本。然后，分别提取目录中每一章节主题和该章节主题对应的页码，与正文文本进行匹配，确定该章节主题对应的章节文本。如图3所示，每一章节主题与正文文本的匹配分为两个方面，一方面是通过页码进行匹配，即将目录中章节主题对应的页码范围与正文文本该页码范围内的文本内容相对应。另一方面，在页码匹配之后，确定该页码范围内的文本内容中是否出现该章节主题，若是则确定匹配通过，进而确定该页码范围内的文本内容为该章节主题对应的章节文本。一般来说，在对医学教材进行文字识别过程中，由于同一章节可能出现在多个图像中，因此该章节可能会被识别输出为多个文本内容。那么，若该页码范围内包括多个文本内容，可以将这多个文本内容拼接起来构成对应的同一章节的章节文本。在完成目录中所有章节主题的匹配之后，即可分别确定出所有章节主题对应的章节文本，即获取了第一对应关系。

具体来说，在实践过程中，获取第一文本数据可以包含以下几个步骤：

第一步：对医学教材PDF版本扫描得到对应的图像文件，再对图像文件进行切割，获取每行文本的坐标信息，包括：起始横坐标，结束横坐标，起始纵坐标，结束纵坐标，以及每行字符宽度，每行字符间距。

第二步：通过上一步骤获取的每行文本的坐标信息、字符宽度和字符间距等，获取段落识别所选的视觉特征，包括：缩进、行宽、每页字符宽度、每页字符间距。根据这些视觉特征对教材图像进行版面分析，去除无关信息，得到去除无关信息后的图像文件。再通过OCR工具识别去除无关信息后的图像文件中的文字。

第三步：通过医学教材的布局特征划分出识别的文字中的目录和正文，即确定出目录的页码范围和正文的页码范围。

第四步：通过页码匹配和标题匹配两级匹配，将医学教材的目录与正文链接起来，得到每一个目录完整的文本信息，即得到各章节文本与章节主题之间的第一对应关系。

通过预设爬虫程序，从网络资源中抓取至少一个网络内容；

对网络内容进行分析，获取网络内容对应的医学主题；

基于各网络文本和第二对应关系，得到第二文本数据。

其中，从网络资源中抓取的网络内容可以包括：文本、图片、音视频等多种内容，例如，医学期刊论文（可包含文本、图片）、医学科普文章（可包含文本、图片、音视频）、电子病历。

具体地，在从网络资源中抓取多个网络内容后，需要对每个网络内容进行分析，以确定其对应的医学主题，那么确定出的医学主题即与该网络内容相对应。进一步地，需要从网络内容中获取其医学主题对应的网络文本，对于仅包含文本内容的网络内容，可以将其中的文本内容直接作为其医学主题对应的网络文本。对于包含文本、图片、音视频等的网络内容，可以提取图片、音视频等中包含的文本内容，并将提取出的文本内容和本身包含的文本作为其医学主题对应的文本内容。在确定出所有网络内容的医学主题、以及医学主题对应的网络文本后，即确定了第二对应关系。

对网络内容的文本进行分析，统计网络内容的高频医学词汇。通过爬虫程序获取的网络内容可以包括：文本、图片、视频等多种内容。本步骤中仅针对网络内容中的文本进行分析，统计网络内容的高频医学词汇。具体而言，可以使用词频统计工具对网络内容的文本进行词频统计得到高频词汇。由于网络内容主要涉及医学知识相关的内容，因此可以使用词性分类工具保留高频词汇中的名词作为高频医学词汇，也可以使用医学词典匹配的方式保留高频词汇中与医学相关的词汇作为高频医学词汇。本发明实施例中对于每个网络内容而言，所提取的高频医学词汇可以是预设数量的词汇，具体可以为一个，或者多个。

获取教材数据库中的教材名称列表，将所述教材名称列表中各个教材名称与所述高频医学词汇进行匹配，得到最佳匹配教材名称；其中，所述教材数据库由多个教材对应的第一文本数据构成。

具体地，本发明实施例中对每个教材数据提取了第一文本数据，这些第一文本数据会被存储至教材数据库中。也就是说，教材数据库由多个教材对应的第一文本数据构成，可以理解的是，教材数据库中包括多个第一文本数据对应的教材名称和章节列表信息，构成了教材名称列表和每个教材对应的章节目录列表。对于每个网络内容，本步骤将前述步骤获取的一个或多个高频医学词汇与教材数据库中的教材名称列表进行匹配，具体可以使用医学字典进行词义相关度匹配，将与一个或多个高频医学词汇综合匹配度最高的教材名称作为最佳匹配教材名称。本步骤是基于教材中的信息，确定网络内容的医学主题最有可能出现在教材数据库中的哪本教材。

获取所述最佳匹配教材名称对应的教材的章节列表，将所述章节列表中的每一章节名称与所述网络内容的文本进行相关度匹配，将匹配度最高的章节名作为所述网络内容对应的医学主题。具体地，在确定了网络内容的医学主题最有可能出现在教材数据库中的哪本教材之后，需要进一步确定网络内容的医学主题最有可能是最佳匹配教材名称对应的教材的哪一个具体章节。根据教材数据库中包含的数据内容，首先可以从教材数据库中获取最佳匹配教材名称对应的章节列表。然后可以将章节列表中的每一章节名称与所述网络内容的文本进行相关度匹配，具体可以采用现有技术中基于自然语言处理的文本匹配技术，对于每一章节名称都会计算出一个相关度匹配值，将相关度匹配值最高的章节名作为网络内容对应的医学主题。

本发明实施例提供的确定网络内容的医学主题的方法，利用教材信息对网络内容进行相关度匹配，得到其医学主题，为后续从网络内容中提取医学知识图谱的三元组，提供了必要的医学语义信息。

由网络内容初步提取的医学主题被用于确定头实体时，本实施例结合了最佳匹配教材名称、具体章节列表对该初步的医学主题进行进一步精准匹配，兼顾计算量和精准度对网络内容的医学主题实施了必要性的修正。

在本申请的一种可选实施例中，基于各章节文本、以及各章节文本与章节主题之间的第一对应关系，获取第一三元组集合，包括：

基于各章节文本对应的各第一三元组构建第一三元组集合。

具体地，三元组的构建主要是确定实体和实体关系，其中实体关系包括实体对的确定和实体关系的确定两个方面。具体来说，对于一个章节文本，首先，将其输入训练好的实体识别模型，输出多个第一实体和各第一实体的属性。然后，将该章节文本对应的章节主题作为头实体，将模型识别的多个第一实体都作为尾实体，那么可以得到多个实体对，且每个实体对中的头实体都为章节主题。最后，将各实体对中尾实体（即第一实体）的属性作为实体关系，进而基于头实体、尾实体和实体关系得到对应的三元组。显然，通过一个章节文本和对应的章节主题可以得到多个三元组，且这些三元组的头实体都是该章节文本对应的头实体。

在本申请的一种可选实施例中，基于各医学主题、以及各网络文本与医学主题之间的第二对应关系，获取第二三元组集合，包括：

基于各网络文本对应的各第二三元组构建第二三元组集合。

具体地，三元组的构建主要是确定实体和实体关系，其中实体关系包括实体对的确定和实体关系的确定两个方面。具体来说，对于一个网络文本，首先，将其输入训练好的实体识别模型，输出多个第二实体和各第二实体的属性。然后，将该网络文本对应的医学主题作为头实体，将模型识别的多个第二实体都作为尾实体，那么可以得到多个实体对，且每个实体对中的头实体都为医学主题。最后，将各实体对中尾实体（即第二实体）的属性作为实体关系，进而基于头实体、尾实体和实体关系得到对应的三元组。显然，通过一个网络文本和对应的医学主题可以得到多个三元组，且这些三元组的头实体都是该网络文本对应的头实体。

需要说明的是，前述实施例中采用的实体识别模型，可以是预训练的PCL-MedBERT模型（Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding）。具体来说，首先，获取已标注的样本数据集，每个样本数据上标注了实体和对应的实体属性，其中来源于医学教材的样本数据和来源于网络资源的样本数据比例可以为1：1。将样本数据集分为训练数据集（可以占样本数据集的70%）和测试数据集（可以占样本数据集的30%）。然后，利用训练数据集对模型进行BiLSTM（Bi-directional LongShort-Term Memory，双向长短时记忆）、CRF（Conditional Random Field，条件随机场）神经网络的训练，直至收敛。最后，用测试数据集对训练得到的模型进行测试，并根据测试结果来调整网络结构或训练参数。其中，实体识别模型输出的实体属性可以理解为实体类别，例如，输出结果中标注了某一文本中的实体分别有阿莫西林、咳嗽，实体“阿莫西林”的实体属性标注为“药品”，实体“咳嗽”的实体属性标注为“症状”。

进一步地，对于应用于网络文本的实体识别模型，可以通过以下步骤训练得到：

第一步，爬虫获得的医学知识，与临床教材的知识汇总，比例为1: 1；

第二步，使用数据标注平台将语料数据处理成标注数据；

第三步，使用PCL-MedBERT医疗预训练模型，将已标注的数据集的70%作为训练集，引入噪声的训练方式（对抗训练），对参数进行正则化，提升模型鲁棒性和泛化能力。

其中，训练过程中，采用交叉熵作为损失，往增大损失的方向增加扰动。在输入上进行梯度上升(增大loss)，在参数上进行梯度下降(减小loss)，在embedding上进行梯度上升。进行BiLSTM、CRF 神经网络的训练，在训练收敛后，用剩下的30%进行测试，并根据测试结果来调整网络结构或训练参数，进而得到训练好的实体识别模型。

可以理解的是，首先，无论从何种数据源获取的三元组都有可能存在重复的三元组。第二，由于本申请采用多数据源获取三元组，因此存在重复三元组的可能性更大。第三，由于本申请采用多数据源来获取三元组，因此需要对其中可能存在的重复三元组进行融合，以保留更丰富的信息。综上所示，为了进一步提高医学知识图谱的准确性和丰富性，在获取了合并后的三元组集合后，还需要对三元组进行去重处理，以下将对不同情形下的三元组的具体去重方式进行说明。

遍历合并后的三元组集合，对于任意两个三元组，若任意两个三元组的头实体、实体关系和尾实体三种组成部分中仅有一种不同的组成部分，则获取任意两个三元组不同的组成部分之间的相似度，且若相似度不小于预设阈值，则基于不同的组成部分的种类和任意两个三元组的来源，删除任意两个三元组中的一个三元组；

具体地，遍历合并后的三元组集合，对集合中存在的重复三元组进行去重处理。需要进行去重处理的情形一般有：

第一，对于合并后的三元组，若任意两个三元组头实体、实体关系以及尾实体这三种组成部分分别一一对应相同，则删除其中任意一个三元组。

第二，若任意两个三元组的一个三元组的头实体和尾实体分别与另一个三元组尾实体和头实体对应相同，且任意两个三元组的实体关系相同，则删除任意两个三元组中的任意一个三元组。该情形中两个三元组一般来源于不同的医学教材，由于教材的编写形式不同导致上述情形的出现，两者实际上完全相同，可以删除其中任意一个三元组。例如，高级临床检验对应的教材以检验项目为主要章节（病原学检查，检验，急性上呼吸道感染），内科住院医师手册对应的教材以疾病为主要章节（急性上呼吸道感染，检验，病原学检查）。

第三，对于合并后的三元组，若任意两个三元组头实体和尾实体这三种组成部分仅一种不相同，则根据不同的组成部分的相似度来确定是否需要删除任意一个三元组。若相似度不小于预设阈值，则说明不同的组成部分相似度较高，可以认为两个不同的组成部分实际上相同，因此需要删除其中任意一个三元组，避免重复。若相似度小于预设阈值，则说明不同的组成部分相似度较低，可以认为两个不同的组成部分实际上不相同，因此这两个三元组都需要保留。可以理解的是，上述预设阈值可以根据实际需求进行设置。

对于第三种情形，还可以细分为不相同的组成部分为头实体的情形、不同的组成部分为尾实体的情形以及不同的组成部分为实体关系的情形。

在本申请的一种可选实施例中，若不同的组成部分为头实体或尾实体，则获取任意两个三元组不同的组成部分之间的相似度，包括：

确认任意两个三元组不同的组成部分是否为同义词，若为同义词，则确定任意两个三元组不同的组成部分之间的相似度不小于预设阈值；

若不为同义词，则获取任意两个三元组不同的组成部分对应的特征向量，并将任意两个三元组不同的组成部分对应的特征向量之间的相似度，作为任意两个三元组不同的组成部分之间的相似度。

其中，特征向量包含以下任意一种或多种的自由组合：基于上下文的特征、基于语义标签的特征或基于医学词典的词向量特征获取的特征向量。例如，头实体的特征向量可以由基于头实体的上下文的特征、基于头实体的语义标签的特征或基于头实体在医学词典的词向量特征获取的特征向量中一种或多种来确定。例如，头实体和尾实体的特征向量，可以由基于头实体和尾实体的上下文的特征、基于头实体和尾实的语义标签的特征或基于头实体和尾实在医学词典的词向量特征获取的特征向量中一种或多种来确定。

具体地，针对上述第三种去重处理情形，若不同的组成部分为头实体或尾实体，则获取不同的组成部分之间的相似度的方式包括：第一，根据两个不同的组成部分是否为同义词，确定相似度。第二，根据两个不同的组成部分对应的特征向量之间的相似度，确定相似度。

需要说明的是，在具体实践过程中，可以只采用两种相似度获取方式中的任意一种。也可以两种方式同时采用，且同时采用时，需要先执行第一种相似度获取方式，再执行第二种相似度获取方式，具体来说，首先确定两个不同的组成部分是否为同义词，若为同义词则说明两者的相似度不小于预设阈值，直接删除任意一个三元组。若不为同义词，则分别获取两者对应的特征向量，并将两者的特征向量之间的相似度作为两者的相似度。

进一步地，确定两个不同的组成部分是否为同义词，可以将在预设的同义词库中进行查询，若能够查询到两者的同义词对应关系，则确定两者为同义词，若不能够查询到两者的同义词对应关系，则确定两者不为同义词。可以理解的是，由于预设的同义词库覆盖范围受限，因此虽然在同义词库中查询不到两个不同的组成部分对应的同义词对应关系，但两者可能也是相似的词，因此可以进一步采用第二种相似度获取方式进行判断。

进一步地，若两个不同的组成部分为尾实体，且两者不为同义词，将任意两个三元组分别记为三元组G1＝(S1，R1，E1)和三元组G2＝(S2，R2，E2)，则两个不同的组成部分之间的相似度可以通过如下公式计算得到：

Score1=(cos(ve1-E1，ve2-E2)

其中， Score1为相似度得分，ve1-E1为三元组G1中尾实体对应的特征向量，ve2-E2为三元组G2中尾实体对应的特征向量。

若两个不同的组成部分为头实体，且两者不为同义词，则两个不同的组成部分之间的相似度可以通过如下公式计算得到：

Score2=(cos(ve1-（S1-S1’），ve2-（S2-S2’）)+cos(ve1-（S1-R1），ve2-（S2-R2）)+cos(ve1-（S1-E1），ve2-（S2-E2）))/3

其中，Score2为相似度得分，ve1-（S1-S1’）为三元组G1中头实体和头实体附加属性的融合特征向量，ve2-（S2-S2’）为三元组G2中头实体和头实体附加属性的融合特征向量，ve1-（S1-R1）为三元组G1中头实体和实体关系的融合特征向量，ve2-（S2-R2）为三元组G2中头实体和实体关系的融合特征向量，ve1-（S1-E1）为三元组G1中头实体和尾实体的融合特征向量，ve2-（S2-E2）为三元组G2中头实体和尾实体的融合特征向量。

若不同的组成部分为实体关系或尾实体，则删除任意两个三元组中的任意一个三元组；

若不同的组成部分为头实体，且任意两个三元组都来源于医学教材或网络资源，则删除任意两个三元组中的任意一个三元组；

具体地，举例来说，任意两个三元组G1＝(S1，R1，E1)和G2＝(S2，R2，E2)，若确定G1和G2相似度不小于预设阈值，则需要删除其中的某一个三元组，那么具体删除哪个三元组，需要参考两个三元组的不同的组成部分的种类、以及三元组的来源来确定。

具体来说，若不同的组成部分为实体关系或尾实体，则删除任意两个三元组中的任意一个三元组。例如，若两个三元组分别为“小儿发热、药品、布洛芬混悬液”和“小儿发热、药品、布洛芬混悬滴剂”，两者尾实体相似，因此可以删除其中任一三元组，保留另外一个三元组。

若不同的组成部分为头实体，且任意两个三元组都来源于医学教材或网络资源，则删除任意两个三元组中的任意一个三元组。例如，两个三元组“布洛芬混悬液、症状、小儿高热”和“布洛芬混悬滴剂、症状、小儿高热”都来源于网络资源，两者头实体相似，因此可以删除其中任一三元组，保留另外一个三元组。

若不同的组成部分为头实体，且任意两个三元组分别来源于医学教材和网络资源，则删除任意两个三元组中的来源于网络资源的三元组，并将来源于网络资源的三元组的头实体作为来源于医学教材的三元组的头实体的附加属性。一方面，由于来源于医学教材的三元组中实体表达更准确，因此在去重时，为了保证后续构建的医学知识图谱的准确性，选择删除来源于网络资源的三元组。另一方面，为了增加后续构建的医学知识图谱的信息丰富性，可以将来源于网络资源的三元组的头实体作为来源于医学教材的头实体的附加属性。例如，两个三元组“布洛芬混悬液、症状、小儿高热”和“美林、症状、小儿高热”，前者来源于医学教材，后者来源于网络资源，两者头实体相似，因此可以删除后者，并将后者的头实体（美林）作为前者的头实体的附加属性。显然，医学教材中对于缓解小儿高热的药物的实体表达“布洛芬混悬液”更准确，当网络资源中的实体表达“美林”也很常用，将其作为附加属性，既保证了后续构建的医学知识图谱的实体表达准确性，也提高了医学知识图谱信息丰富性。

在本申请的一种可选实施例中，若不同的组成部分为实体关系，则获取任意两个三元组不同的组成部分之间的相似度，包括：

获取任意两个三元组不同的组成部分对应的特征向量，并将任意两个三元组不同的组成部分对应的特征向量之间的相似度，作为任意两个三元组不同的组成部分之间的相似度。

具体地，针对上述第三种去重处理情形，若不同的组成部分为实体关系，则两个不同的组成部分之间的相似度可以通过如下公式计算得到：

Score2=(cos(ve1-（S1-R1），ve2-（S2-R2）)+cos(ve1-（E1-R1），ve2-（E2-R2）)/2

其中，ve1-（S1-R1）为三元组G1中头实体和实体关系的融合特征向量，ve2-（S2-R2）为三元组G2中头实体和实体关系的融合特征向量，ve1-（E1-R1）为三元组G1中尾实体和实体关系的融合特征向量，ve2-（E2-R2）为三元组G2中尾实体和实体关系的融合特征向量。

图4本申请实施例提供了一种临床知识库构建装置的结构框图，如图4所示，该装置400用于构建医学知识图谱，可以包括：文本数据获取模块401、三元组集合获取模块402、三元组去重模块403和知识图谱构建模块404，其中：

文本数据获取模块401用于从医学教材中获取对应的第一文本数据，并从网络资源中获取第二文本数据，第一文本数据包括至少一个章节文本、以及各章节文本与章节主题之间的第一对应关系，第二文本数据包括至少一个网络文本、以及各网络文本与医学主题之间的第二对应关系；

三元组集合获取模块402用于基于第一文本数据中各章节文本、以及各章节文本与章节主题之间的第一对应关系，获取第一三元组集合，并基于第二文本数据中各医学主题、以及各网络文本与医学主题之间的第二对应关系，获取第二三元组集合，第一对应关系指示第一三元组集合中各三元组的头实体与尾实体的对应关系，第二对应关系指示第二三元组集合中各三元组的头实体与尾实体的对应关系；

三元组去重模块403用于合并第一三元组集合和第二三元组集合，得到合并后的三元组集合，并对合并后的三元组集合中的三元组进行去重，得到目标三元组集合；

知识图谱构建模块404用于基于目标三元组集合构建对应的医学知识图谱。

基于各章节文本和第一对应关系，得到第一文本数据。

通过预设爬虫程序，从网络资源中抓取至少一个网络内容；

对网络内容进行分析，获取网络内容对应的医学主题；

基于各网络文本和第二对应关系，得到第二文本数据。

在本申请的一种可选实施例中，文本数据获取模块进一步用于：

基于各章节文本对应的各第一三元组构建第一三元组集合。

基于各网络文本对应的各第二三元组构建第二三元组集合。

在本申请的一种可选实施例中，三元组去重模块具体用于：

本申请实施例提供的方案，通过来源于医学教材和网络资源的文本数据构建三元组，在构建三元组的过程中，利用数据中携带的章节主题与章节文本之间的第一对应关系、以及医学主题与网络文本之间的第二对应关系确定实体对，在获取实体关系过程中无需再确定实体对，减小了获取实体关系的计算量，进而提高了医学知识图谱构建的效率，同时，由于引入了医学教材这一准确率高的数据来源，提高了构建的医学知识图谱的准确性。

下面参考图5，其示出了适于用来实现本申请实施例的电子设备（例如执行图1所示方法的终端设备或服务器）500的结构示意图。本申请实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）、可穿戴设备等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

电子设备包括：存储器以及处理器，存储器用于存储执行上述各个方法实施例所述方法的程序；处理器被配置为执行存储器中存储的程序。其中，这里的处理器可以称为下文所述的处理装置501，存储器可以包括下文中的只读存储器（ROM）502、随机访问存储器（RAM）503以及存储装置508中的至少一项，具体如下所示：

如图5所示，电子设备500可以包括处理装置（例如中央处理器、图形处理器等）501，其可以根据存储在只读存储器（ROM）502中的程序或者从存储装置508加载到随机访问存储器（RAM）503中的程序而执行各种适当的动作和处理。在RAM503中，还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM503通过总线504彼此相连。输入/输出（I/O）接口505也连接至总线504。

通常，以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506；包括例如液晶显示器（LCD）、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从ROM 502被安装。在该计算机程序被处理装置501执行时，执行本申请实施例的方法中限定的上述功能。

需要说明的是，本申请上述的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP（HyperText TransferProtocol，超文本传输协议）之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信（例如，通信网络）互连。通信网络的示例包括局域网（“LAN”），广域网（“WAN”），网际网（例如，互联网）以及端对端网络（例如，ad hoc端对端网络），以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：

从医学教材中获取对应的第一文本数据，并从网络资源中获取第二文本数据，第一文本数据包括至少一个章节文本、以及各章节文本与章节主题之间的第一对应关系，第二文本数据包括至少一个网络文本、以及各网络文本与医学主题之间的第二对应关系；基于第一文本数据中各章节文本、以及各章节文本与章节主题之间的第一对应关系，获取第一三元组集合，并基于第二文本数据中各医学主题、以及各网络文本与医学主题之间的第二对应关系，获取第二三元组集合，第一对应关系指示第一三元组集合中各三元组的头实体与尾实体的对应关系，第二对应关系指示第二三元组集合中各三元组的头实体与尾实体的对应关系；合并第一三元组集合和第二三元组集合，得到合并后的三元组集合，并对合并后的三元组集合中的三元组进行去重，得到目标三元组集合；基于目标三元组集合构建对应的医学知识图谱。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块或单元的名称在某种情况下并不构成对该单元本身的限定，例如，文本数据获取模块还可以被描述为“获取文本数据的模块”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、片上系统（SOC）、复杂可编程逻辑设备（CPLD）等等。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的计算机可读介质被电子设备执行时实现的具体方法，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行时实现如下情况：

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种临床知识库的构建方法，其特征在于，包括：

从医学教材中获取对应的第一文本数据，并从网络资源中获取第二文本数据，所述第一文本数据包括至少一个章节文本、以及各章节文本与章节主题之间的第一对应关系，所述第二文本数据包括至少一个网络文本、以及各网络文本与医学主题之间的第二对应关系；

基于所述第一文本数据中各章节文本以及所述第一对应关系，获取第一三元组集合，并基于所述第二文本数据中各医学主题以及所述第二对应关系，获取第二三元组集合；

合并所述第一三元组集合和所述第二三元组集合，得到合并后的三元组集合，并对所述合并后的三元组集合中的三元组进行去重，得到目标三元组集合；

基于所述目标三元组集合构建对应的医学知识图谱。

2.根据权利要求1所述的方法，其特征在于，所述从医学教材中获取对应的第一文本数据，包括：

对所述医学教材的图像进行文字识别，得到对应的目录文本和正文文本；

对所述目录文本和正文文本进行章节主题匹配和页码匹配，从所述正文文本中确定各章节主题对应的文本内容；

基于各章节文本和所述第一对应关系，得到所述第一文本数据。

3.根据权利要求1所述的方法，其特征在于，所述从网络资源中获取第二文本数据，包括：

通过预设爬虫程序，从所述网络资源中抓取至少一个网络内容；

对所述网络内容进行分析，获取所述网络内容对应的医学主题；

将所述医学主题对应的所述网络内容的文本，作为所述医学主题对应的网络文本，进而得到所述网络文本与所述医学主题之间的第二对应关系；

基于各网络文本和所述第二对应关系，得到所述第二文本数据。

4.根据权利要求3所述的方法，其特征在于，所述对所述网络内容进行分析，获取所述网络内容对应的医学主题，包括：

对所述网络内容的文本进行分析，统计所述网络内容的高频医学词汇；

获取教材数据库中的教材名称列表，将所述教材名称列表中各个教材名称与所述高频医学词汇进行匹配，得到最佳匹配教材名称；其中，所述教材数据库由多个教材对应的第一文本数据构成；

获取所述最佳匹配教材名称对应的教材的章节列表，将所述章节列表中的每一章节名称与所述网络内容的文本进行相关度匹配，将匹配度最高的章节名作为所述网络内容对应的医学主题。

5.根据权利要求1所述的方法，其特征在于，所述基于所述第一文本数据中各章节文本以及所述第一对应关系，获取第一三元组集合，包括：

将每一章节文本对应的章节主题作为头实体、基于所述第一对应关系将该章节文本对应的各第一实体作为尾实体、将各第一实体对应的属性分别作为所述头实体与各尾实体之间的实体关系，得到至少一个第一三元组；

基于各章节文本对应的各第一三元组构建所述第一三元组集合。

6.根据权利要求1所述的方法，其特征在于，所述基于所述第二文本数据中各医学主题以及所述第二对应关系，获取第二三元组集合，包括：

将每一网络文本对应的医学主题作为头实体、基于所述第二对应关系将该网络文本对应的各第二实体作为尾实体、将各第二实体对应的属性分别作为所述头实体与各尾实体之间的实体关系，得到至少一个第二三元组；

基于各网络文本对应的各第二三元组构建所述第二三元组集合。

7.根据权利要求1所述的方法，其特征在于，所述对所述合并后的三元组集合中的三元组进行去重，包括：

遍历所述合并后的三元组集合，对于任意两个三元组，若所述任意两个三元组的头实体、实体关系和尾实体三种组成部分中仅有一种不同的组成部分，则获取所述任意两个三元组不同的组成部分之间的相似度，且若所述相似度不小于预设阈值，则基于所述不同的组成部分的种类和所述任意两个三元组的来源，删除所述任意两个三元组中的一个三元组；或，

若所述任意两个三元组的一个三元组的头实体和尾实体分别与另一个三元组尾实体和头实体对应相同，且所述任意两个三元组的实体关系相同，则删除所述任意两个三元组中的任意一个三元组。

8.根据权利要求7所述的方法，其特征在于，所述获取所述任意两个三元组不同的组成部分之间的相似度，包括：

若所述不同的组成部分为头实体或尾实体，则确认所述任意两个三元组不同的组成部分是否为同义词，若为同义词，则确定所述任意两个三元组不同的组成部分之间的相似度不小于所述预设阈值；若不为同义词，则获取所述任意两个三元组不同的组成部分对应的特征向量，并将所述任意两个三元组不同的组成部分对应的特征向量之间的相似度，作为所述任意两个三元组不同的组成部分之间的相似度；

若所述不同的组成部分为实体关系，则获取所述任意两个三元组不同的组成部分对应的特征向量，并将所述任意两个三元组不同的组成部分对应的特征向量之间的相似度，作为所述任意两个三元组不同的组成部分之间的相似度。

9.根据权利要求7所述的方法，其特征在于，所述基于所述不同的组成部分的种类和所述任意两个三元组的来源，删除所述任意两个三元组中的一个三元组，包括：

若所述不同的组成部分为实体关系或尾实体，则删除所述任意两个三元组中的任意一个三元组；或，

若所述不同的组成部分为头实体，且所述任意两个三元组都来源于所述医学教材或所述网络资源，则删除所述任意两个三元组中的任意一个三元组；或，

若所述不同的组成部分为头实体，且所述任意两个三元组分别来源于所述医学教材和所述网络资源，则删除所述任意两个三元组中的来源于所述网络资源的三元组，并将来源于所述网络资源的三元组的头实体作为来源于所述医学教材的三元组的头实体的附加属性。

10.一种临床知识库的构建装置，其特征在于，包括：

文本数据获取模块，用于从医学教材中获取对应的第一文本数据，并从网络资源中获取第二文本数据，所述第一文本数据包括至少一个章节文本、以及各章节文本与章节主题之间的第一对应关系，所述第二文本数据包括至少一个网络文本、以及各网络文本与医学主题之间的第二对应关系；

三元组集合获取模块，用于基于所述第一文本数据中各章节文本以及所述第一对应关系，获取第一三元组集合，并基于所述第二文本数据中各医学主题以及所述第二对应关系，获取第二三元组集合；

三元组去重模块，用于合并所述第一三元组集合和所述第二三元组集合，得到合并后的三元组集合，并对所述合并后的三元组集合中的三元组进行去重，得到目标三元组集合；

知识图谱构建模块，用于基于所述目标三元组集合构建对应的医学知识图谱。