CN110287270A

CN110287270A - 实体关系挖掘方法及设备

Info

Publication number: CN110287270A
Application number: CN201910514578.1A
Authority: CN
Inventors: 王春宇; 夏源; 施振辉; 陆超; 黄海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2019-09-27
Anticipated expiration: 2039-06-14
Also published as: CN110287270B

Abstract

本发明实施例提供一种实体关系挖掘方法及设备，该方法包括：将预设疾病列表输入词向量模型，获得包括症状与对应疾病之间相似度的第一列表；从所述词向量模型导出包括每种症状对应的词频的症状词表；根据所述相似度和所述词频，确定所述第一列表中每种症状与对应疾病之间的第一概率，获得第二列表；根据所述第二列表和预设疾病科室列表，确定各症状与对应科室之间的第二概率，获得第三列表；将所述第三列表作为最终医学实体关系列表输出，以对原有的医学实体关系列表进行更新。本实施例提供的方法能够充分利用已有资源、快速准确的获得症状‑科室的医学实体关系列表，从而方便快捷的对医学实体关系列表进行及时更新和扩充。

Description

实体关系挖掘方法及设备

技术领域

本发明实施例涉及数据挖掘技术领域，尤其涉及一种实体关系挖掘方法及设备。

背景技术

近几年来，人工智能技术得到了越来越广泛的关注，作为其子领域的机器学习、深度学习等方法也被应用到各行各业当中，不仅仅停留于理论阶段的研究，诸多企业将这一方法应用在实际的业务场景中，结合相关的技术，如图像检测、自然语言处理、模式识别等研发成实际的落地产品，尤其是现在许多互联网公司致力于AI医疗领域，研发出智能问诊、智能分导诊等互联网医疗领域的产品。随着人工智能技术在医学领域的广泛应用，人们对于智能分导诊中人机交互的信息准确性以及用户体验感有了越来越高的要求，医学实体关系表亟待扩充。

现有技术中通常采用医学人员手动标注的方式进行医学实体关系的挖掘。具体由医学人员们通过阅读大量的权威医学文献，人工的标注出里面的医学实体(疾病，症状等)，找出各科室所对应的症状或疾病，凭个人经验给出症状对应该科室的转移概率。

然而，每个医学人员都有自己擅长的科室，很难做到擅长所有的领域，所以导致在标注症状到科室关系时会出现症状未覆盖的情况，并且单纯的通过人工的方式标注，非常繁琐，耗时很久。

发明内容

本发明实施例提供一种实体关系挖掘方法及设备，以提高实体关系挖掘的效率以及准确率。

第一方面，本发明实施例提供一种实体关系挖掘方法，包括：

将预设疾病列表输入词向量模型，获得第一列表；所述第一列表中包括每种疾病对应的多种症状分别与该疾病之间的相似度；

从所述词向量模型导出症状词表，所述症状词表包括每种症状对应的词频；

根据所述相似度和所述词频，确定所述第一列表中每种症状与对应疾病之间的第一概率，获得包括所述第一概率的第二列表；

根据所述第二列表和预设疾病科室列表，确定各症状与对应科室之间的第二概率，获得包括所述第二概率的第三列表；

将所述第三列表作为最终医学实体关系列表输出，以对原有的医学实体关系列表进行更新。

在一种可能的设计中，所述根据所述第二列表和预设疾病科室列表，确定各症状与对应科室之间的第二概率，获得包括所述第二概率的第三列表之后，还包括：

将所述第三列表中各症状输入深度学习模型，获得第四列表；所述第四列表包括每种症状与对应科室之间的第三概率；

针对第三列表中每个科室，对该科室对应所有第二概率进行分区，并分别对各分区内的第二概率进行分桶操作，确定每种症状与对应科室之间的第四概率，并获得包括该第四概率的第五列表；

根据预设融合策略，将所述第四列表中的第三概率和所述第五列表中的第四概率进行融合，获得第六列表；

所述将所述第三列表作为最终医学实体关系列表输出，以对原有的医学实体关系列表进行更新，包括：

将所述第六列表作为最终医学实体关系列表输出，以对原有的医学实体关系列表进行更新。

在一种可能的设计中，所述根据预设融合策略，将所述第四列表中的第三概率和所述第五列表中的第四概率进行融合，包括：

针对每个第四概率，计算所述第四概率与对应的第三概率之间的比值，以及所述第四概率与对应的第三转移概率之间的差值，并根据所述比值和所述差值，确定所述第四概率对应的最终概率；

根据各最终概率及各最终概率分别对应的症状和科室，获得所述第六列表。

在一种可能的设计中，所述根据所述比值和所述差值，确定所述第四概率对应的最终概率，包括：

将所述比值与第一预设阈值进行比较，将所述差值的绝对值与第二预设阈值进行比较；

若所述比值大于第一预设阈值，则将所述第四概率和所述第三概率中的较大值，作为所述第四概率对应的症状和科室所对应的最终转移概率；

若所述差值的绝对值大于第二预设阈值，则将所述第四概率和所述第三概率的平均值，作为所述第四概率对应的症状和科室所对应的最终转移概率；

若所述比值小于第一预设阈值并且所述差值的绝对值小于所述第二预设阈值，则将所述第四概率和所述第三概率中的较小值，作为所述第四概率对应的症状和科室所对应的最终转移概率。

在一种可能的设计中，在所述将预设疾病列表输入词向量模型之前，还包括：

获取多条自然问询语句，并对每条自然问询语句进行NLU解析，获得多条NLU问询语句；

根据所述多条自然问询语句和所述多条NLU问询语句对待训练模型进行训练，获得所述词向量模型；

在一种可能的设计中，所述多条自然问询语句包括第一预设数量的医生与患者之间的多轮交互问诊语句，和/或，第二预设数量的患者单方描述病情的语句。

在一种可能的设计中，所述根据所述相似度和所述词频，确定所述第一列表中每种症状与对应疾病之间的第一概率，包括：

针对每种症状，将所述词表中对应于所述症状的词频进行对数运算后，获得词频对数值，并计算所述词频对数值与所述症状对应的相似度之间的乘积，作为所述症状与对应疾病之间的第一概率。

在一种可能的设计中，所述预设疾病科室列表中每个科室对应多种疾病，所述根据所述第二列表和预设疾病科室列表，确定各症状与对应科室之间的第二概率，包括：

基于所述第二列表中疾病与症状的对应关系和所述预设疾病科室列表中疾病与科室的对应关系，将所述第二列表和所述预设疾病科室列表进行融合，获得第七列表；所述第七列表包括科室、疾病与症状的对应关系以及各症状对应的第一概率；

在所述第七列表中查找对应于同一科室的各疾病之间是否存在相同症状；

若存在，则将各相同症状分别对应的第一概率进行归一化处理，获得该相同症状对应的第二概率；

若不存在，则将每种症状对应的第一概率作为所述症状与对应科室之间的第二概率。

第二方面，本发明实施例提供一种实体关系挖掘设备，包括：

第一输入模块，用于将预设疾病列表输入词向量模型，获得第一列表；所述第一列表中包括每种疾病对应的多种症状分别与该疾病之间的相似度；

导出模块，用于从所述词向量模型导出症状词表，所述症状词表包括每种症状对应的词频；

第一确定模块，用于根据所述相似度和所述词频，确定所述第一列表中每种症状与对应疾病之间的第一概率，获得包括所述第一概率的第二列表；

第二确定模块，用于根据所述第二列表和预设疾病科室列表，确定各症状与对应科室之间的第二概率，获得包括所述第二概率的第三列表；

输出模块，用于将所述第三列表作为最终医学实体关系列表输出，以对原有的医学实体关系列表进行更新。

在一种可能的设计中，所述设备还包括：

第二输入模块，用于将所述第三列表中各症状输入深度学习模型，获得第四列表；所述第四列表包括每种症状与对应科室之间的第三概率；

第三确定模块，用于针对第三列表中每个科室，对该科室对应所有第二概率进行分区，并分别对各分区内的第二概率进行分桶操作，确定每种症状与对应科室之间的第四概率，并获得包括该第四概率的第五列表；

融合模块，用于根据预设融合策略，将所述第四列表中的第三概率和所述第五列表中的第四概率进行融合，获得第六列表；

所述输出模块具体用于：

在一种可能的设计中，所述融合模块具体用于：

在一种可能的设计中，所述设备还包括：

解析模块，用于获取多条自然问询语句，并对每条自然问询语句进行NLU解析，获得多条NLU问询语句；

训练模块，用于根据所述多条自然问询语句和所述多条NLU问询语句对待训练模型进行训练，获得所述词向量模型。

在一种可能的设计中，所述第一确定模块，具体用于：

在一种可能的设计中，所述预设疾病科室列表中每个科室对应多种疾病，所述第二确定模块具体用于：

第三方面，本发明实施例提供一种实体关系挖掘设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的实体关系挖掘方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能的设计所述的实体关系挖掘方法。

本实施例提供的实体关系挖掘方法及设备，该方法通过将疾病列表导入词向量模型，获得基于该疾病列表中各疾病的疾病-症状列表(第一列表)，根据该第一列表中症状与疾病的相似度以及从词向量模型中导出的词表中每种症状对应的词频确定症状与疾病之间的第一概率，根据包括该第一概率的第二列表和已有的疾病-科室列表生成症状-科室列表(第三列表)，并将该第三列表作为最终的医学实体关系列表输出。本实施例通过词向量列表导出疾病症状列表，并通过词频对相似度进行修正得到第一概率，进而结合已有的疾病-科室列表得到症状-科室列表，能够充分利用已有资源、快速准确的获得症状-科室的医学实体关系列表，从而方便快捷的对已有的医学实体关系列表进行及时更新。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的基于实体关系的智能分导诊系统的架构示意图；

图2为本发明又一实施例提供的实体关系挖掘方法的流程示意图；

图3为本发明又一实施例提供的实体关系挖掘方法的流程示意图；

图4为本发明又一实施例提供的实体关系挖掘设备的结构示意图；

图5为本发明又一实施例提供的实体关系挖掘设备的结构示意图；

图6为本发明又一实施例提供的实体关系挖掘设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明一实施例提供的基于实体关系的智能分导诊系统的架构示意图。如图1所示，本实施例提供的系统包括本实施例提供的系统包括终端101和服务器102。其中，终端101可以为手机、平板、计算机等。本实施例对终端101的实现方式不做特别限制，只要该终端101能够与用户进行语音或文字交互即可。

患者向终端101输入描述病情的第一自然语句，该终端101可以根据该第一自然语句进行关键信息提取，并根据提取的关键信息和医学实体关系列表，生成第一问询语句，并将该第一问询语句输出给患者；患者再根据该第一问询语句向终端101输入进一步描述病情的第二自然语句，该终端101根据该第二自然语句进行关键信息提取，并根据提取的关键信息和医学实体关系列表，生成第二询问语句，并将该第二问询语句输出给患者；以此类推，进行多次交互直至终端101根据患者输入的多个自然语句给出建议科室。具体地，该终端101可以通过自身的处理器对各自然语句处理生成相应的询问语句以及建议科室，也可以将该自然语句发送给服务器102，由服务器102进行处理生成对应的询问语句以及建议科室，然后反馈给终端101。本实施例对具体的实现方式不做特别限制。

然而，随着医学技术的不断发展，为了提升交互的准确性以及用户体验感，在智能问诊过程中所采用的医学实体关系列表是需要进行不断更新与扩充的，但是目前都是通过医学人员手动标注的方式，耗费大量的人力和时间，所以提出一种自动化挖掘医学实体关系的方法，在保证分科准确率的前提下，节省大量的人工成本，同时可以优化用户体验感。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本发明又一实施例提供的实体关系挖掘方法的流程示意图，如图2所示，该方法可以包括：

201、将预设疾病列表输入词向量模型，获得第一列表；所述第一列表中包括每种疾病对应的多种症状分别与该疾病之间的相似度。

实际应用中，本实施例的执行主体可以为具有数据处理能力的终端设备，例如计算机、平板、手机等。

所述词向量模型可以利用由问诊语料组成的训练集训练得到，所述问诊语料的获取方式有多种，例如可以从互联网中各医疗网站患者输入的病情描述语句以及医生的回答语句获得，还可以采集科室内医患问答语句作为问诊语料，本实施例对此不做限定。向所述词向量模型输入疾病名称可以得到该疾病对应的各症状，以及每个症状与对应疾病之间的相似度。所述预设疾病列表可以从已有的疾病科室列表中提取获得。

具体的，将已有的疾病列表输入词向量模型，该词向量模型针对该疾病列表中每个疾病输出该疾病对应各症状，以及每个症状与该疾病之间的相似度。将各疾病以及每个疾病对应的各症状以及每个症状与对应疾病之间的相似度进行关联生成第一列表。

例如：该第一列表的形式可以为：

疾病名称	症状名称	相似度
			疾病A	症状a	70％
疾病A	症状b	40％
			疾病B	症状c	60％
疾病B	症状d	50％

202、从所述词向量模型导出症状词表，所述症状词表包括每种症状对应的词频。

本实施例中，可以从词向量模型中导出症状词表，该症状词表中包括多个症状以及每个症状的关键词对应的词频。例如，该词表的形式可以为：

症状名称	词频
		症状a	11k
症状b	10k
		症状c	12k
症状d	9k

需要说明的是，本实施例中对步骤201和步骤202的执行顺序不做限定，例如，可以首先执行导出症状词表的步骤202，再执行将预设疾病列表输入词向量模型获得第一列表的步骤201，还可以首先执行步骤201，再执行步骤202，还可以将步骤201和步骤202并行执行。

203、根据所述相似度和所述词频，确定所述第一列表中每种症状与对应疾病之间的第一概率，获得包括所述第一概率的第二列表。

实际应用中，为了简化数据提高运算速度，可以先对第一列表进行预处理，例如，可以基于相似度的大小，将相似度小于预设值的症状进行过滤，从而减小数据量。对第一列表进行预处理后，针对当前列表中每种疾病对应的各个症状，计算每种症状的第一概率，具体的，针对每种症状，将所述词表中对应于所述症状的词频进行对数运算后，获得词频对数值，并计算所述词频对数值与所述症状对应的相似度之间的乘积，作为所述症状与对应疾病之间的第一概率。

204、根据所述第二列表和预设疾病科室列表，确定各症状与对应科室之间的第二概率，获得包括所述第二概率的第三列表。

可选地，为了进一步简化运算，可以对第二列表进行预处理后，再进行后续生成第三列表的步骤。具体的，可以基于所述第一概率，将对应的第一概率小于预设值的各症状进行过滤，形成预处理后的第二列表。例如，可以将第一概率值进行降序排列，选取排名top20<疾病-症状>关系对作为候选关系对，这样就可以得到已有疾病列表中，每个疾病相似度排名top20的<疾病-症状>关系。由于已知疾病-科室列表，每个疾病的科室是确定的，所以可以将该疾病对应的各症状对应到该科室中，但是，存在着一个问题，假设疾病A和疾病B属于同一科室，疾病A拉取的各症状中包含症状k，疾病B拉取的各症状同样包含着症状k，但两者的相似度不同，所以针对于这一细节，将<症状-科室>存在的多个概率值归一化为一个概率值。作为该<症状-科室>的第二概率，由此可以得到一个<症状、科室、第二概率>列表。

本实施例中，根据所述第二列表和预设疾病科室列表获得症状科室列表的方式很多，例如，可以采用以下步骤实现：

2041、基于所述第二列表中疾病与症状的对应关系和所述预设疾病科室列表中疾病与科室的对应关系，将所述第二列表和所述预设疾病科室列表进行融合，获得第七列表；所述第七列表包括科室、疾病与症状的对应关系以及各症状对应的第一概率。

2042、在所述第七列表中查找对应于同一科室的各疾病之间是否存在相同症状。

2043、若存在，则将各相同症状分别对应的第一概率进行归一化处理，获得该相同症状对应的第二概率。

2044、若不存在，则将每种症状对应的第一概率作为所述症状与对应科室之间的第二概率。

205、将所述第三列表作为最终医学实体关系列表输出，以对原有的医学实体关系列表进行更新。

本实施例中，医学实体关系列表被应用于智能分导诊中，该医学实体关系列表的准确性与完整性是影响分导诊结果的重要因素，因此通过将第三列表对原有医学实体关系列表进行及时更新，能够提高分导诊的准确性以及提升用户体验。

本实施例提供的实体关系挖掘方法，通过将疾病列表导入词向量模型，获得基于该疾病列表中各疾病的疾病-症状列表(第一列表)，根据该第一列表中症状与疾病的相似度以及从词向量模型中导出的词表中每种症状对应的词频确定症状与疾病之间的第一概率，根据包括该第一概率的第二列表和已有的疾病-科室列表生成症状-科室列表(第三列表)，并将该第三列表作为最终的医学实体关系列表输出。本实施例通过词向量列表导出疾病症状列表，并通过词频对相似度进行修正得到第一概率，进而结合已有的疾病-科室列表得到症状-科室列表，能够充分利用已有资源、快速准确的获得症状-科室的医学实体关系列表，从而方便快捷的对已有的医学实体关系列表进行及时更新。

图3为本发明又一实施例提供的实体关系挖掘方法的流程示意图，本实施例在图2实施例的基础上，对本实施例的具体实现过程进行了详细说明。如图3所示，该方法包括：

301、获取多条自然问询语句，并对每条自然问询语句进行NLU解析，获得多条自然语言理解(Natural Language Understanding，NLU)问询语句。

可选地，所述多条自然问询语句包括第一预设数量的医生与患者之间的多轮交互问诊语句，和/或，第二预设数量的患者单方描述病情的语句。所述第一预设数量与第二预设数量可以为百万级别的数字。

可选地，可以将第一预设数量的医生与患者之间的多轮交互问诊语句作为第一语料，将第二预设数量的患者单方面描述病情的语句作为第二语料。

具体的，对第一语料进行NLU解析得到第三语料，对第二语料进行NLU解析得到第四语料。对第一语料进行分词处理得到第五语料，对第二语料进行分词处理得到第六语料。

实际应用中可以对所述第一语料至第六语料进行不同的组合后获得多个训练集，例如将第一语料与第二语料组合作为第一训练集，将第一语料与第三语料组合作为第二训练集，将第一语料、第三语料与第五语料组合作为第三训练集，将第一语料至第六语料组合作为第四训练集等等。

302、根据所述多条自然问询语句和所述多条NLU问询语句对待训练模型进行训练，获得所述词向量模型。

在具体实现过程中，可以采用上述第一语料至第六语料经过不同组合得到的多个训练集，分别对所述待训练模型进行训练，得到对应于不同训练集的多个词向量模型。

可选地，可以对该多个词向量模型进行测试，选择最优模型作为后续步骤中的词向量模型。测试过程可以为用训练好的各词向量模型分别拉取同一种疾病-科室列表中的各疾病对应的症状，根据拉取情况的准确性，确定出最优模型作为后续步骤中的词向量模型。

303、将预设疾病列表输入词向量模型，获得第一列表；所述第一列表中包括每种疾病对应的多种症状分别与该疾病之间的相似度。

304、从所述词向量模型导出症状词表，所述症状词表包括每种症状对应的词频。

305、根据所述相似度和所述词频，确定所述第一列表中每种症状与对应疾病之间的第一概率，获得包括所述第一概率的第二列表。

306、根据所述第二列表和预设疾病科室列表，确定各症状与对应科室之间的第二概率，获得包括所述第二概率的第三列表。

本实施例中步骤303至步骤306与上述实施例中步骤201至步骤204相类似，此处不再赘述。

307、将所述第三列表中各症状输入深度学习模型，获得第四列表；所述第四列表包括每种症状与对应科室之间的第三概率。

实际应用中，所述深度学习模型可以为现有的智能分导诊所采用的用于一步分科的深度学习模型。该深度学习模型可以根据患者的主诉直接给出所要挂号的建议科室。当然也可以通过训练集进行训练获得，例如该深度学习模型的训练语料可以来源于百万条问诊语料以及病例数据。

具体的，可以将第三列表中的每个症状放入到深度学习的模型中，可以得到排名top3的建议科室信息，可以整理成为<症状，科室i,概率i>(i＝1，2，3)的形式，获得第四列表。例如：该第四列表的形式可以为：

症状名称	建议科室	第三概率
			症状a	科室1	概率1
症状a	科室2	概率2
			症状a	科室3	概率3

308、针对第三列表中每个科室，对该科室对应所有第二概率进行分区，并分别对各分区内的第二概率进行分桶操作，确定每种症状与对应科室之间的第四概率，并获得包括该第四概率的第五列表。

可选地，为了简化运算数据量，可以先对第三列表基于第二概率值进行过滤。例如：根据每个症状-科室概率值，降序排列，取排名top n关系(可选地，n为2)。之后，由于第二概率是一个大于1的值，所以需要将挖掘出的第二概率归一化到[0，1]区间，所采用的方式是分桶操作，根据症状过滤之后，按照每个科室进行分桶操作，根据科室所有症状的第二概率的分布，分为四个强度，分别是1/4区间阈值，1/2区间阈值和3/4区间阈值。概率分布在不同的区间采用不同的分桶操作。当然，该分桶操作还可以选用其他区间数量，例如可以采用三个强度或五个强度并分别对应的将第二概率分为三个区间或五个区间。通过分桶操作后获得第四概率，以及包括第四概率的第五列表。该第五列表的形式可以为：

症状名称	建议科室	第四概率
			症状a	科室1	70％
症状b	科室2	40％
			症状c	科室3	60％

309、根据预设融合策略，将所述第四列表中的第三概率和所述第五列表中的第四概率进行融合，获得第六列表。

本实施例中，所述预设融合策略可以采用多种方式，例如：可针对每个第四概率，计算所述第四概率与对应的第三概率之间的比值，以及所述第四概率与对应的第三转移概率之间的差值，并根据所述比值和所述差值，确定所述第四概率对应的最终概率；根据各最终概率及各最终概率分别对应的症状和科室，获得所述第六列表。具体可以采用以下步骤实施：

310、将所述第六列表作为最终医学实体关系列表输出，以对原有的医学实体关系列表进行更新。

本实施例中步骤310与上述实施例中步骤205相类似，此处不再赘述。

本实施例提供的实体关系挖掘方法，通过采用百万条病患交互语料和患者病情描述语料训练得到词向量模型，并将词向量模型和深度学习模型的输出结果进行融合，使得得到的实体关系列表更加准确，能够充分利用已有资源、快速准确的获得症状-科室的医学实体关系列表，从而方便快捷的对已有的医学实体关系列表进行及时更新。。

图4为本发明又一实施例提供的实体关系挖掘设备的结构示意图。如图4所示，该实体关系挖掘设备40包括：第一输入模块401、导出模块402、第一确定模块403、第二确定模块404以及输出模块405。

第一输入模块401，用于将预设疾病列表输入词向量模型，获得第一列表；所述第一列表中包括每种疾病对应的多种症状分别与该疾病之间的相似度；

导出模块402，用于从所述词向量模型导出症状词表，所述症状词表包括每种症状对应的词频；

第一确定模块403，用于根据所述相似度和所述词频，确定所述第一列表中每种症状与对应疾病之间的第一概率，获得包括所述第一概率的第二列表；

第二确定模块404，用于根据所述第二列表和预设疾病科室列表，确定各症状与对应科室之间的第二概率，获得包括所述第二概率的第三列表；

输出模块405，用于将所述第三列表作为最终医学实体关系列表输出，以对原有的医学实体关系列表进行更新。

本实施例提供的设备，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

图5为本发明又一实施例提供的实体关系挖掘设备的结构示意图。如图5所示，本实施例在图4实施例的基础上，还包括：第二输入模块406、第三确定模块407、融合模块408、解析模块409、和训练模块410。

在一种可能的设计中，所述设备还包括：

第二输入模块406，用于将所述第三列表中各症状输入深度学习模型，获得第四列表；所述第四列表包括每种症状与对应科室之间的第三概率；

第三确定模块407，用于针对第三列表中每个科室，对该科室对应所有第二概率进行分区，并分别对各分区内的第二概率进行分桶操作，确定每种症状与对应科室之间的第四概率，并获得包括该第四概率的第五列表；

融合模块408，用于根据预设融合策略，将所述第四列表中的第三概率和所述第五列表中的第四概率进行融合，获得第六列表；

所述输出模块405具体用于：

在一种可能的设计中，所述融合模块408具体用于：

在一种可能的设计中，所述设备还包括：

解析模块409，用于获取多条自然问询语句，并对每条自然问询语句进行NLU解析，获得多条NLU问询语句；

训练模块410，用于根据所述多条自然问询语句和所述多条NLU问询语句对待训练模型进行训练，获得所述词向量模型。

在一种可能的设计中，所述第一确定模块403，具体用于：

在一种可能的设计中，所述预设疾病科室列表中每个科室对应多种疾病，所述第二确定模块404具体用于：

图6为本发明又一实施例提供的实体关系挖掘设备的硬件结构示意图。如图6所示，本实施例的实体关系挖掘设备60包括：处理器601以及存储器602；其中

存储器602，用于存储计算机执行指令；

处理器601，用于执行存储器存储的计算机执行指令，以实现上述实施例中接收设备所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。

可选地，存储器602既可以是独立的，也可以跟处理器601集成在一起。

当存储器602独立设置时，该实体关系挖掘设备还包括总线603，用于连接所述存储器602和处理器601。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的实体关系挖掘方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种实体关系挖掘方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第二列表和预设疾病科室列表，确定各症状与对应科室之间的第二概率，获得包括所述第二概率的第三列表之后，还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据预设融合策略，将所述第四列表中的第三概率和所述第五列表中的第四概率进行融合，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述比值和所述差值，确定所述第四概率对应的最终概率，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，在所述将预设疾病列表输入词向量模型之前，还包括：

根据所述多条自然问询语句和所述多条NLU问询语句对待训练模型进行训练，获得所述词向量模型。

6.根据权利要求5所述的方法，其特征在于，所述多条自然问询语句包括第一预设数量的医生与患者之间的多轮交互问诊语句，和/或，第二预设数量的患者单方描述病情的语句。

7.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述相似度和所述词频，确定所述第一列表中每种症状与对应疾病之间的第一概率，包括：

8.根据权利要求1-4任一项所述的方法，其特征在于，所述预设疾病科室列表中每个科室对应多种疾病，所述根据所述第二列表和预设疾病科室列表，确定各症状与对应科室之间的第二概率，包括：

9.一种实体关系挖掘设备，其特征在于，包括：

10.根据权利要求9所述的设备，其特征在于，所述设备还包括：

所述输出模块具体用于：

11.根据权利要求10所述的设备，其特征在于，所述融合模块具体用于：

12.根据权利要求11所述的设备，其特征在于，所述融合模块具体用于：

13.根据权利要求9-12任一项所述的设备，其特征在于，所述设备还包括：

14.根据权利要求13所述的设备，其特征在于，所述多条自然问询语句包括第一预设数量的医生与患者之间的多轮交互问诊语句，和/或，第二预设数量的患者单方描述病情的语句。

15.根据权利要求9-12任一项所述的设备，其特征在于，所述第一确定模块，具体用于：

16.根据权利要求9-12任一项所述的设备，其特征在于，所述预设疾病科室列表中每个科室对应多种疾病，所述第二确定模块具体用于：

17.一种实体关系挖掘设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至8任一项所述的实体关系挖掘方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至8任一项所述的实体关系挖掘方法。