CN109509556A

CN109509556A - 知识图谱生成方法、装置、电子设备及计算机可读介质

Info

Publication number: CN109509556A
Application number: CN201811331424.0A
Authority: CN
Inventors: 刘冕; 黄真茹
Original assignee: Tianjin Xinkai Life Technology Co Ltd; Tianjin Happy Life Technology Co Ltd
Current assignee: Tianjin Xinkai Life Technology Co Ltd; Tianjin Happy Life Technology Co Ltd
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2019-03-22

Abstract

本公开涉及一种医学知识图谱生成方法、装置、电子设备及计算机可读介质。涉及计算机信息处理领域，该方法包括：对医学数据进行数据处理，生成文本数据，所述医学数据包括结构化数据与非结构化数据；对所述文本数据进行实体词抽取处理以生成实体词集合；匹配确定实体词之间的关系，生成实体词关系集合，实体词之间的关系包括分类关系与非分类关系；以及根据所述实体词集合与所述实体词关系集合生成所述医学知识图谱。本公开涉及的医学知识图谱生成方法、装置、电子设备及计算机可读介质，能够对海量复杂、异构的医学信息进行快速分析挖掘和关联能力，完成医学知识图谱的构建。

Description

知识图谱生成方法、装置、电子设备及计算机可读介质

技术领域

本公开涉及计算机信息处理领域，具体而言，涉及一种医学知识图谱生成方法、装置、电子设备及计算机可读介质。

背景技术

临床医疗工作中，会产生大量的医疗数据，主要包括患者的病历文本、医嘱信息、护理文书、检查所见、检查结论、检验结果等。这些数据反映了患者的基本信息、临床诊断、治疗过程和结果。随着医疗信息系统信息化的建立和完善，通过这些医疗文本构建出病例与病症以及处理方式的关系网络，对目前医疗术语集的建设和进一步的位置关系的预测，具有重要意义。

现有技术中，对于医疗关系网络的技术的利用和研究有很大欠缺，所以面对涉及到各部分的医疗数据时，急需一种方法对这些数据进行清洗处理，使之变成有高利用价值的医学知识图谱。

因此，需要一种新的医学知识图谱生成方法、装置、电子设备及计算机可读介质。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本公开提供一种医学知识图谱生成方法、装置、电子设备及计算机可读介质，能够对海量复杂、异构的医学信息进行快速分析挖掘和关联能力，完成医学知识图谱的构建。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一方面，提出一种医学知识图谱生成方法，该方法包括：对医学数据进行数据处理，生成文本数据，所述医学数据包括结构化数据与非结构化数据；对所述文本数据进行实体词抽取处理以生成实体词集合；匹配确定实体词之间的关系，生成实体词关系集合，实体词之间的关系包括分类关系与非分类关系；以及根据所述实体词集合与所述实体词关系集合生成所述医学知识图谱。

在本公开的一种示例性实施例中，对医学数据进行数据处理，生成文本数据包括：将医学数据进行数据预处理生成预处理数据；以及对所述预处理数据进行数据清洗生所述成文本数据。

在本公开的一种示例性实施例中，对所述文本数据进行实体词抽取处理以生成实体词集合包括：对所述文本数据进行分词处理，生成分词数据，所述分词数据中包括多个词汇；对所述分词数据中的各个词汇进行词性标注；根据所述词性标注结果识别所述分词数据中的实体词，以生成所述实体词集合。

在本公开的一种示例性实施例中，匹配确定实体词之间的关系，生成实体词关系集合包括：通过所述实体词生成元数据；将所述元数据与医学数据集合进行匹配获取所述实体词之间的关系；以及通过实体词之间的关系生成实体词关系集合。

在本公开的一种示例性实施例中，将所述元数据与医学数据集合进行匹配获取所述实体词之间的关系包括：通过医学数据集合与文本数据生成机器学习模型的关系候选集；以及将所述元数据与所述关系候选集输入所述机器学习模型，经过所述机器学习模型的训练，生成所述实体词之间的关系。

在本公开的一种示例性实施例中，通过医学数据集合与文本数据生成所述机器学习模型的关系候选集包括：通过医学数据集合生成规则库；通过数据挖掘获取所述文本数据中实体词之间的关系及频率；以及根据所述规则库，所述实体词之间的关系及频率生成所述机器学习模型的所述关系候选集。

在本公开的一种示例性实施例中，根据所述实体词集合与所述实体词关系集合生成所述医学知识图谱包括：将所述实体词集合中的实体词作为节点；将所述实体词之间的关系作为边；以及通过所述节点和所述边生成所述医学知识图谱。

根据本公开的一方面，提出一种医学知识图谱生成装置，该装置包括：数据处理模块，用于对医学数据进行数据处理，生成文本数据，所述医学数据包括结构化数据与非结构化数据；抽取模块，用于对所述文本数据进行实体词抽取处理以生成实体词集合；匹配模块，用于匹配确定实体词之间的关系，生成实体词关系集合，实体词之间的关系包括分类关系与非分类关系；以及图谱模块，用于根据所述实体词集合与所述实体词关系集合生成所述医学知识图谱。

根据本公开的一方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上文的方法。

根据本公开的一方面，提出一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上文中的方法。

根据本公开的医学知识图谱生成方法、装置、电子设备及计算机可读介质，对医学数据进行数据处理之后，抽取实体词集合以及实体词之间的关系集合，通过实体词集合与所述实体词关系集合构成医学知识图谱，能够对海量复杂、异构的医学信息进行快速分析挖掘和关联能力，完成医学知识图谱的构建。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种医学知识图谱生成方法及装置的系统框图。

图2是根据一示例性实施例示出的一种医学知识图谱生成方法的流程图。

图3是根据另一示例性实施例示出的一种医学知识图谱生成方法的流程图。

图4是根据另一示例性实施例示出的一种医学知识图谱生成方法的示意图。

图5是根据一示例性实施例示出的一种医学知识图谱生成装置的框图。

图6是根据另一示例性实施例示出的一种医学知识图谱生成装置的框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

图8是根据一示例性实施例示出一种计算机可读存储介质示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应理解，虽然本文中可能使用术语第一、第二、第三等来描述各种组件，但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此，下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用，术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本公开所必须的，因此不能用于限制本公开的保护范围。

本申请的发明人发现，随着医疗信息系统信息化的建立和完善，越来越多的医疗数据由人工记录的方式转为电子化录入。目前，对于病历、医嘱、护理文书和检验检测报告中的临床信息主要是由医护人员通过自然语言的方式书写而成，信息结构较为复杂。目前面对这些大量非结构化数据进行处理、分析和挖掘是医疗信息化建设中的重要障碍。必不可少的方法是进行医疗命名实体识别。但是随着数据量的上升，海量的命名实体不进行关系的建设将变得异常难用。将识别出来的医疗文本实体构建出关系网络，对目前医疗术语集的建设和进一步的位置关系的预测，具有重要意义。

现有技术中，知识图谱的构建步骤一般是抽取数据、中文分词、实体识别、关系识别。而关系识别是目前最难以解决的问题。其主要工作是：实体挖掘+关系标注。而现有方法无法做到持续的改进关系的标注、或者强烈依赖外部知识输入和人工干预。现有的实体关系识别，或者受限于领域，或者受限于非结构化数据，实用性狭窄，无法大规模应用。

目前医疗文本关系模型通过预设好医学术语集关系，根据医学知识和理论，构建标准术语集。现有技术具有如下缺点：

主要是从理论出发，但是在临床医疗文本书写中，不是每个医护人员都是严格按照标准的医学术语及书写规范进行书写；部分术语集受限成员国和版权要求，中国大陆无法直接使用；术语集本身只是提供一个规范建议，在不同国家不同地区甚至不同医院都会有一定的差异，单纯一套严格的术语集无法覆盖所有情况。

针对现有的解决冷启动问题的方法，本申请中的医学知识图谱生成方法提出了结合实际医学文本挖掘实体和现有可用医学术语集结合的方式构建体系，面向医学科研的构建知识图谱的系统及方法，将句法训练和关联规则相结合，既减少了外部输入和人工干预、又能持续识别实体关系。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所登录操作的医学数据类网站提供支持的后台服务器。后台服务器可以对接收到的医疗相关数据进行分析等处理，并将处理结果(例如医学知识图谱)反馈给终端设备。

服务器105可例如对医学数据进行数据处理，生成文本数据，所述医学数据包括结构化数据与非结构化数据；服务器105可例如对所述文本数据进行实体词抽取处理以生成实体词集合；服务器105可例如匹配确定实体词之间的关系，生成实体词关系集合，实体词之间的关系包括分类关系与非分类关系；服务器105可例如根据所述实体词集合与所述实体词关系集合生成所述医学知识图谱。

服务器105可以是一个实体的服务器，还可例如为多个服务器组成，服务器105中的一部分可例如作为本公开中的数据处理，用于对医学数据进行数据处理，生成文本数据；以及服务器105中的一部分还可例如作为本公开中的分词系统，用于对所述文本数据进行实体词抽取处理以生成实体词集合。

需要说明的是，本公开实施例所提供的医学知识图谱生成方法可以由服务器105执行，相应地，医学知识图谱生成装置可以设置于服务器105中。而提供给用户进行操作的网页端一般位于终端设备101、102、103中。

图2是根据一示例性实施例示出的一种医学知识图谱生成方法的流程图。医学知识图谱生成方法20至少包括步骤S202至S208。

如图2所示，在S202中，对医学数据进行数据处理，生成文本数据，所述医学数据包括结构化数据与非结构化数据。可例如将医学数据进行数据预处理生成预处理数据；以及对所述预处理数据进行数据清洗生所述成文本数据。

在S204中，对所述文本数据进行实体词抽取处理以生成实体词集合。可例如包括：对所述文本数据进行分词处理，生成分词数据，所述分词数据中包括多个词汇；对所述分词数据中的各个词汇进行词性标注；根据所述词性标注结果识别所述分词数据中的实体词，以生成所述实体词集合。

在一个实施例中，可例如，将所述医学文本中的文字的词性通过词性向量标注。词向量为离散向量。

在一个实施例中，可例如，将所述词向量和所述词性向量输入深度学习模型中，经过深度学习模型的学习训练，以识别所述分词数据中的实体词。

在S206中，匹配确定实体词之间的关系，生成实体词关系集合，实体词之间的关系包括分类关系与非分类关系。

在一个实施例中，匹配确定实体词之间的关系，生成实体词关系集合包括：通过所述实体词生成元数据；将所述元数据与医学数据集合进行匹配获取所述实体词之间的关系；以及通过实体词之间的关系生成实体词关系集合。

其中，元数据(Metadata)，又称中介数据、中继数据，为描述数据的数据(dataabout data)，主要是描述数据属性(property)的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录，为了达到编制目录的目的，必须在描述并收藏数据的内容或特色，进而达成协助数据检索的目的。元数据是关于数据的组织、数据域及其关系的信息。

在一个实施例中，将所述元数据与医学数据集合进行匹配获取所述实体词之间的关系包括：通过医学数据集合与文本数据生成机器学习模型的关系候选集；以及将所述元数据与所述关系候选集输入所述机器学习模型，经过所述机器学习模型的训练，生成所述实体词之间的关系。

在S208中，根据所述实体词集合与所述实体词关系集合生成所述医学知识图谱。其中，知识图谱的前身是语义网，它吸收了语义网、本体在知识组织和表达方面的理念，使得知识更易于在计算机之间和计算机与人之间交换、流通和加工。具体来说，一个知识图谱由模式图、数据图及两者之间的关系组成：模式图对人类知识领域的概念层面进行描述，强调概念及概念关系的形式化表达，模式图中节点是概念实体，边是概念间的语义关系，通过数据图对物理世界层面进行描述，强调一系列客观事实。数据图中的节点有两类，一是模式图中的概念实体，二是描述性字符串，数据图中的边是具体事实的语义描述；模式图和数据图之间的关系指数据图的实例与模式图的概念之间的对应。

在本公开的一种示例性实施例中，根据所述实体词集合与所述实体词关系集合生成所述医学知识图谱包括：将所述实体词集合中的实体词作为节点；将所述实体词之间的关系作为边；以及通过所述节点和所述边生成所述医学知识图谱。在本申请中，可例如将医学实体之间的分类关系作为图中的第一类边，将医学实体之间的非分类关系作为图中的第二类边，生成医学图谱。也可例如，将医学实体之间的分类关系作为图中的边，将医学实体之间的非分类关系作为图中的节点的描述，生成医学图谱。

根据本公开的医学知识图谱生成方法，能够对海量复杂、异构的医学信息进行快速分析挖掘和关联能力，完成医学知识图谱的构建。

应清楚地理解，本公开描述了如何形成和使用特定示例，但本公开的原理不限于这些示例的任何细节。相反，基于本公开公开的内容的教导，这些原理能够应用于许多其它实施例。

图3是根据另一示例性实施例示出的一种医学知识图谱生成方法的流程图。如图3所示的医学知识图谱生成方法30是对图2所述的医学知识图谱生成方法20中“对所述文本数据进行实体词抽取处理以生成实体词集合”的详细描述。

如图3所示，在S302中，对所述文本数据进行分词处理，生成分词数据，所述分词数据中包括多个词汇。

其中，分词处理可例如为对utf-8编码的汉字进行中文分词处理，中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。

字符匹配又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大(最长)匹配和最小(最短)匹配。

理解法，这种分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。

统计法，从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词，同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

在一个实施例中，可例如通过字符串匹配法对所述数据进行分词处理，生成分词数据。本申请中的分词方法还可例如使用上文中介绍的统计分词方法或理解分词法进行，还可例如通过字符串匹配法、理解分词法与统计分词法中的一种或几种结合进行，本申请不以此为限。其中，所述字符串匹配法中的机器词典包括：ICH国际医学用语词典中的标准词；以及医学专业词汇字典。

在S304中，对所述分词数据中的各个词汇进行词性标注。

其中，词性标注(part-of-speech tagging)，又称为词类标注或者简称标注，是指为分词结果中的每个单词标注一个正确的词性的程序，也即确定每个词是名词、动词、形容词或者其他词性的过程。

词性标注是很多NLP(深度学习)任务的预处理步骤，如句法分析，经过词性标注后的文本会带来很大的便利性，但也不是不可或缺的步骤。在汉语中，大多数词语只有一个词性，或者出现频次最高的词性远远高于第二位的词性。据说单纯选取最高频词性，就能实现80％准确率的中文词性标注程序。

词性标注主要可以分为基于规则和基于统计的方法，可例如：基于最大熵的词性标注；基于统计最大概率输出词性；基于HMM的词性标注。在本申请的词性标注过程中，可以通过上述任一方法实现词性标注，本申请不以此为限。

在S306中，根据所述词性标注结果识别所述分词数据中的实体词，以生成所述实体词集合。实体词可例如为临床数据术语识别词，可例如为，从临床病例的长文本中，自动识别出的目标医学术语，如诊断、症状、手术、药品等。

图4是根据另一示例性实施例示出的一种医学知识图谱生成方法的示意图。如图4所示的医学知识图谱生成方法40是对图2所述的医学知识图谱生成方法20中“匹配确定实体词之间的关系，生成实体词关系集合，实体词之间的关系包括分类关系与非分类关系”的详细描述。

在一个实施例中，通过所述实体词生成元数据；将所述元数据与医学数据集合进行匹配获取所述实体词之间的关系；以及通过实体词之间的关系生成实体词关系集合。

在一个实施例中，通过医学数据集合与文本数据生成所述机器学习模型的关系候选集包括：通过医学数据集合生成规则库；通过数据挖掘获取所述文本数据中实体词之间的关系及频率；以及根据所述规则库，所述实体词之间的关系及频率生成所述机器学习模型的所述关系候选集。

其中，机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

机器学习类型包括：

监督学习，具有已知期望输出的训练数据。

无监督学习，识别数据中的模式而不被告知预期的结果。

强化学习，从与环境的交互中学习。

在本申请中，可例如通过具有监督学习特征的机器学习算法生成所述关系候选集。

在具体计算中可例如，将上文中获得的规则库，所述实体词之间的关系及频率输入机器学习模型中，在机器学习生成训练语料时，通过人工标注的方法，为不同的语料指定不同的标签。标签可例如指定实体词A与实体词B之间的关系(第一关系或第二关系)等。经过语料库中实体词汇的反复训练，机器学习模型能够输出所有实体词之间的关系，生成关系集合。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图5是根据一示例性实施例示出的一种医学知识图谱生成装置的框图。医学知识图谱生成装置50包括：数据处理模块502，抽取模块504，匹配模块506，以及图谱模块508。

数据处理模块502用于对医学数据进行数据处理，生成文本数据，所述医学数据包括结构化数据与非结构化数据。可例如将医学数据进行数据预处理生成预处理数据；以及对所述预处理数据进行数据清洗生所述成文本数据。

抽取模块504用于对所述文本数据进行实体词抽取处理以生成实体词集合。可例如包括：对所述文本数据进行分词处理，生成分词数据，所述分词数据中包括多个词汇；对所述分词数据中的各个词汇进行词性标注；根据所述词性标注结果识别所述分词数据中的实体词，以生成所述实体词集合。

匹配模块506用于匹配确定实体词之间的关系，生成实体词关系集合，实体词之间的关系包括分类关系与非分类关系。包括：通过所述实体词生成元数据；将所述元数据与医学数据集合进行匹配获取所述实体词之间的关系；以及通过实体词之间的关系生成实体词关系集合。

图谱模块508用于根据所述实体词集合与所述实体词关系集合生成所述医学知识图谱。可例如，将所述实体词集合中的实体词作为节点；将所述实体词之间的关系作为边；以及通过所述节点和所述边生成所述医学知识图谱。

根据本公开的医学知识图谱生成装置，能够对海量复杂、异构的医学信息进行快速分析挖掘和关联能力，完成医学知识图谱的构建。

图6是根据另一示例性实施例示出的一种医学知识图谱生成装置的框图。医学知识图谱生成装置60包括：数据采集模块602，文本抽取模块604，实体识别模块606，术语组合模块608，以及实体关系提取模块610。

数据采集模块602对采集到的数据进行清洗和简单预处理之后输出到文本抽取模块604。

文本抽取模块604对采集到的结构化和非结构化数据进行数据清洗和预处理，将处理完的文本输送到实体识别模块606。

实体识别模块606对于接收到的文本数据，首先对文本分词，然后对分好的单词进行词性标注，在词性标注完成后，对术语进行分析提取，抽取的结果输送到术语组合模块608。

术语组合模块608分析提取的实体之间的关系，再通过本体构建工具生成语义元数据模型，并利用现有的医学术语集进行匹配，然后输出到实体关系提取模块610。

实体关系提取模块610通过提取包括分类关系、非分类关系，最后形成知识图谱。

图7是根据一示例性实施例示出的一种电子设备的框图。

下面参照图7来描述根据本公开的这种实施方式的电子设备200。图7显示的电子设备200仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于：至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元210执行，使得所述处理单元210执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元210可以执行如图2，图3，图4中所示的步骤。

所述存储单元220可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202，还可以进一步包括只读存储单元(ROM)2203。

所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204，这样的程序模块2205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线230可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备200交互的设备通信，和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且，电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。

图8示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。

参考图8所示，描述了根据本公开的实施方式的用于实现上述方法的程序产品400，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现如下功能：对医学数据进行数据处理，生成文本数据，所述医学数据包括结构化数据与非结构化数据；对所述文本数据进行实体词抽取处理以生成实体词集合；匹配确定实体词之间的关系，生成实体词关系集合，实体词之间的关系包括分类关系与非分类关系；以及根据所述实体词集合与所述实体词关系集合生成所述医学知识图谱。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。

通过以上的详细描述，本领域的技术人员易于理解，根据本公开实施例的医学知识图谱生成方法、装置、电子设备及计算机可读介质具有以下优点中的一个或多个。

实现了从收集医学信息开始，一次进行文本抽取、文本分词、词性标注、术语分析、实体识别、语法分析、语义分析、实体关系提取与构建等一系列技术，最后完成自动半自动构建知识图谱，极大地减少了构建高质量医学知识图谱所需要耗费的人力。

可以实现快速自动高效地挖掘所需要分析的医学文本中的实体及实体关系，并将实体通过实体关系自动版自动关联到庞大的医学知识图谱中，并且将现有标准术语集和现实实际术语集进行组合。

可以实现对海量复杂、异构的医学信息进行快速分析挖掘和关联能力，完成医学知识图谱的半自动构建。

极大地提升了基于人工智能的医疗信息自动识别、医疗文本实体关联、医疗文本质量评估、疾病信息挖掘分析的能力，并能极大地减少信息抽取时中文医学文本解读歧义

以上具体地示出和描述了本公开的示例性实施例。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

此外，本说明书说明书附图所示出的结构、比例、大小等，均仅用以配合说明书所公开的内容，以供本领域技术人员了解与阅读，并非用以限定本公开可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本公开所能产生的技术效果及所能实现的目的下，均应仍落在本公开所公开的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“第一”、“第二”及“一”等的用语，也仅为便于叙述的明了，而非用以限定本公开可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当也视为本公开可实施的范畴。

Claims

1.一种医学知识图谱生成方法，其特征在于，包括：

对医学数据进行数据处理，生成文本数据，所述医学数据包括结构化数据与非结构化数据；

对所述文本数据进行实体词抽取处理以生成实体词集合；

匹配确定实体词之间的关系，生成实体词关系集合，实体词之间的关系包括分类关系与非分类关系；以及

根据所述实体词集合与所述实体词关系集合生成所述医学知识图谱。

2.如权利要求1所述的方法，其特征在于，对医学数据进行数据处理，生成文本数据包括：

将医学数据进行数据预处理生成预处理数据；以及

对所述预处理数据进行数据清洗生成所述文本数据。

3.如权利要求1所述的方法，其特征在于，对所述文本数据进行实体词抽取处理以生成实体词集合包括：

对所述文本数据进行分词处理，生成分词数据，所述分词数据中包括多个词汇；

对所述分词数据中的各个词汇进行词性标注；

根据所述词性标注结果识别所述分词数据中的实体词，以生成所述实体词集合。

4.如权利要求1所述的方法，其特征在于，匹配确定实体词之间的关系，生成实体词关系集合包括：

通过所述实体词生成元数据；

将所述元数据与医学数据集合进行匹配获取所述实体词之间的关系；以及

通过实体词之间的关系生成实体词关系集合。

5.如权利要求4所述的方法，其特征在于，将所述元数据与医学数据集合进行匹配获取所述实体词之间的关系包括：

通过医学数据集合与文本数据生成机器学习模型的关系候选集；以及

将所述元数据与所述关系候选集输入所述机器学习模型，经过所述机器学习模型的训练，生成所述实体词之间的关系。

6.如权利要求5所述的方法，其特征在于，通过医学数据集合与文本数据生成所述机器学习模型的关系候选集包括：

通过医学数据集合生成规则库；

通过数据挖掘获取所述文本数据中实体词之间的关系及频率；以及

根据所述规则库，所述实体词之间的关系及频率生成所述机器学习模型的所述关系候选集。

7.如权利要求1所述的方法，其特征在于，根据所述实体词集合与所述实体词关系集合生成所述医学知识图谱包括：

将所述实体词集合中的实体词作为节点；

将所述实体词之间的关系作为边；以及

通过所述节点和所述边生成所述医学知识图谱。

8.一种医学知识图谱生成装置，其特征在于，包括：

数据处理模块，用于对医学数据进行数据处理，生成文本数据，所述医学数据包括结构化数据与非结构化数据；

抽取模块，用于对所述文本数据进行实体词抽取处理以生成实体词集合；

匹配模块，用于匹配确定实体词之间的关系，生成实体词关系集合，实体词之间的关系包括分类关系与非分类关系；以及

图谱模块，用于根据所述实体词集合与所述实体词关系集合生成所述医学知识图谱。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。