CN110222319A

CN110222319A - 用于挖掘数据的方法和装置

Info

Publication number: CN110222319A
Application number: CN201910531496.8A
Authority: CN
Inventors: 林义明; 郭辉; 徐伟建; 罗雨; 彭卫华; 史亚冰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2019-09-10

Abstract

本公开实施例公开了用于挖掘数据的方法和装置。该方法的一具体实施方式包括：对获取的医疗知识页面对应的HTML文件进行解析，得到文档对象模型树，其中，上述文档对象模型树包括至少一个树节点；基于预先设定的第一标签属性，从上述至少一个树节点中确定树节点组成树节点集合；基于预先设定的第二标签属性，将上述树节点集合划分为至少一个树节点子集合；对于上述至少一个树节点子集合中的树节点子集合，获取该树节点子集合中树节点的数据，以及使用所获取的数据生成重构节点数据；基于得到的至少一个重构节点数据，构建针对上述医疗知识页面的内容树。该实施方式实现了对医疗知识的挖掘。

Description

用于挖掘数据的方法和装置

技术领域

本公开实施例涉及计算机技术领域，具体涉及用于挖掘数据的方法和装置。

背景技术

构建一个权威、准确、全面的医疗行业知识图谱是许多上层应用的基础数据需求，比较出名的一个应用就是临床决策支持系统(Clinical Decision Support System，CDSS)。权威医疗书籍中的医疗知识是人们总结以及论证过的智慧结晶，将医疗书籍中的医疗知识挖掘出来，形成实体化的数据格式，是建立医疗知识图谱的重要组成部分。现有的医疗知识挖掘方法通常是从HTML(Hyper Text Markup Language，超级文本标记语言)电子书中人工整理或者通过程序直接从HTML页面中提取医疗知识文本后进一步人工审核。然后从医疗知识文本中识别医疗实体，识别医疗实体的属性等等。

发明内容

本公开实施例提出了用于挖掘数据的方法和装置。

第一方面，本公开实施例提供了一种用于挖掘数据的方法，该方法包括：对获取的医疗知识页面对应的HTML文件进行解析，得到文档对象模型树，其中，上述文档对象模型树包括至少一个树节点；基于预先设定的第一标签属性，从上述至少一个树节点中确定树节点组成树节点集合；基于预先设定的第二标签属性，将上述树节点集合划分为至少一个树节点子集合；对于上述至少一个树节点子集合中的树节点子集合，获取该树节点子集合中树节点的数据，以及使用所获取的数据生成重构节点数据；基于得到的至少一个重构节点数据，构建针对上述医疗知识页面的内容树。

在一些实施例中，上述方法还包括：基于上述内容树，生成由医疗实体、属性和属性值组成的三元组。

在一些实施例中，上述基于上述内容树，生成由医疗实体、属性和属性值组成的三元组，包括：依次遍历上述内容树的节点，对所遍历的当前节点执行以下判断步骤：响应于确定当前节点包括子节点，确定当前节点的子节点中的数据是否与预先设定的属性集合中的属性相匹配；如果匹配，确定当前节点描述的对象为医疗实体，当前节点的子节点描述的对象为上述医疗实体的属性和属性值；获取当前节点和当前节点的子节点中的数据生成包括医疗实体、属性和属性值的三元组。

在一些实施例中，上述方法还包括：对于所获取的三元组，执行以下操作中的至少一项，确定该三元组中医疗实体的类别：基于该三元组中的属性确定该三元组中医疗实体的类别；基于预先设定的医疗实体类别列表，确定该三元组中医疗实体的类别；基于命名实体识别结果，确定该三元组中医疗实体的类别。

在一些实施例中，上述方法还包括：从上述内容树中识别出疾病类医疗实体和与疾病类医疗实体相关的属性，以及将与疾病类医疗实体相关的属性作为第一属性；基于预先存储的第一属性和第二属性的对应关系，从第一属性中确定第二属性词条。

在一些实施例中，上述基于得到的至少一个重构节点数据，构建针对上述医疗知识页面的内容树，包括：创建根节点，其中，上述根节点的父节点为空；以上述根节点为当前节点，执行以下构建步骤：针对上述至少一个重构节点数据中未插入的一个重构节点数据，从当前节点开始向上遍历，基于预先设定的第三标签属性，确定与该重构节点数据对应的节点存在父子关系的目标节点；将上述目标节点标记为父节点；将该重构节点数据对应的节点插入到上述目标节点的子节点位置；以最新插入的节点为当前节点，继续执行上述构建步骤，直至上述至少一个重构节点数据中的重构节点数据全部被插入，得到上述医疗知识页面对应的内容树。

第二方面，本公开实施例提供了一种用于挖掘数据的装置，装置包括：解析单元，被配置成对获取的医疗知识页面对应的HTML文件进行解析，得到文档对象模型树，其中，上述文档对象模型树包括至少一个树节点；第一确定单元，被配置成基于预先设定的第一标签属性，从上述至少一个树节点中确定树节点组成树节点集合；第二确定单元，被配置成基于预先设定的第二标签属性，将上述树节点集合划分为至少一个树节点子集合；生成单元，被配置成对于上述至少一个树节点子集合中的树节点子集合，获取该树节点子集合中树节点的数据，以及使用所获取的数据生成重构节点数据；构建单元，被配置成基于得到的至少一个重构节点数据，构建针对上述医疗知识页面的内容树。

在一些实施例中，上述装置还包括：三元组生成单元，被配置成基于上述内容树，生成由医疗实体、属性和属性值组成的三元组。

在一些实施例中，上述三元组生成单元进一步被配置成：依次遍历上述内容树的节点，对所遍历的当前节点执行以下判断步骤：响应于确定当前节点包括子节点，确定当前节点的子节点中的数据是否与预先设定的属性集合中的属性相匹配；如果匹配，确定当前节点描述的对象为医疗实体，当前节点的子节点描述的对象为上述医疗实体的属性和属性值；获取当前节点和当前节点的子节点中的数据生成包括医疗实体、属性和属性值的三元组。

在一些实施例中，上述装置还包括：类别确定单元，被配置成对于所获取的三元组，执行以下操作中的至少一项，确定该三元组中医疗实体的类别：基于该三元组中的属性确定该三元组中医疗实体的类别；基于预先设定的医疗实体类别列表，确定该三元组中医疗实体的类别；基于命名实体识别结果，确定该三元组中医疗实体的类别。

在一些实施例中，上述装置还包括：识别单元，被配置成从上述内容树中识别出疾病类医疗实体和与疾病类医疗实体相关的属性，以及将与疾病类医疗实体相关的属性作为第一属性；词条确定单元，被配置成基于预先存储的第一属性和第二属性的对应关系，从第一属性中确定第二属性词条。

在一些实施例中，上述构建单元进一步被配置成：创建根节点，其中，上述根节点的父节点为空；以上述根节点为当前节点，执行以下构建步骤：针对上述至少一个重构节点数据中未插入的一个重构节点数据，从当前节点开始向上遍历，基于预先设定的第三标签属性，确定与该重构节点数据对应的节点存在父子关系的目标节点；将上述目标节点标记为父节点；将该重构节点数据对应的节点插入到上述目标节点的子节点位置；以最新插入的节点为当前节点，继续执行上述构建步骤，直至上述至少一个重构节点数据中的重构节点数据全部被插入，得到上述医疗知识页面对应的内容树。

第三方面，本公开实施例提供了一种设备，该设备包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面，本公开实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

本公开实施例提供的用于挖掘数据的方法和装置，首先对获取的医疗知识页面对应的HTML文件进行解析得到包括至少一个树节点的文档对象模型树，而后基于预先设定的第一标签属性从至少一个树节点中确定树节点组成树节点集合，然后基于预先设定的第二标签属性将树节点集合划分为至少一个树节点子集合，对于至少一个树节点子集合中的每一个树节点子集合，获取该树节点子集合中树节点的数据，并使用所获取的数据组成重构节点数据，最后基于得到的至少一个重构节点数据构建针对医疗知识页面的内容树，从而有效利用了医疗知识页面的HTML文件的结构化特点，基于HTML文件解析得到文档对象模型树构建针对医疗知识页面的内容树，实现了对医疗知识的挖掘。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本公开的用于挖掘数据的方法的一个实施例的流程图；

图3a是本公开的用于挖掘数据的方法例举的一个医疗知识页面的示意图；

图3b是图3a所示的医疗知识页面对应的HTML文件中第一部分的源代码的示意图；

图3c是图3a所示的医疗知识页面对应的HTML文件中第二部分的源代码的示意图；

图4以图3a所示的医疗知识页面为例得到的内容树的示意图。

图5是根据本公开的用于挖掘数据的方法的一个应用场景的示意图；

图6是根据本公开的用于挖掘数据的方法的又一个实施例的流程图；

图7是根据本公开的用于挖掘数据的装置的一个实施例的结构示意图；

图8是适于用来实现本公开实施例的设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开实施例的用于挖掘数据的方法或用于挖掘数据的装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如电子书阅读软件、网页浏览器应用、购物类应用等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏并且支持数据处理的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的信息提供支持的后台服务器。后台服务器可以对获取的医疗知识页面对应的HTML文件进行解析等处理，并将处理结果(例如针对医疗知识页面构建的内容树)反馈给终端设备101、102、103。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

需要说明的是，本公开实施例所提供的用于挖掘数据的方法可以通过终端设备101、102、103执行，也可以通过服务器105执行。相应地，用于挖掘数据的装置可以设置于终端设备101、102、103中，也可以设置于服务器105中。本申请对此不做限定。

继续参考图2，示出了根据本公开的用于挖掘数据的方法的一个实施例的流程200。该用于挖掘数据的方法，包括以下步骤：

步骤201，对获取的医疗知识页面对应的HTML文件进行解析，得到文档对象模型树。

在本实施例中，用于挖掘数据的方法的执行主体(例如图1所示的终端设备101、102、103或者服务器105)可以首先获取医疗知识页面对应的HTML文件。这里，医疗知识页面可以是医疗相关的电子书籍中的页面，该电子书籍可以是HTML格式的。医疗知识页面还可以是网页。之后，执行主体可以对HTML文件进行解析，得到文档对象模型(Document ObjectModel，简称DOM)树。其中，DOM树包括至少一个树节点。作为示例，执行主体可以使用现有的HTML文件解析工具将医疗知识页面对应的HTML文件解析为DOM树，即将HTML文件中的标签按照嵌套关系整理成树状结构。

步骤202，基于预先设定的第一标签属性，从至少一个树节点中确定树节点组成树节点集合。

在本实施例中，执行主体可以基于预先设定的第一标签属性，从至少一个树节点中确定树节点组成树节点集合。通常，一本电子书籍的一个HTML页面主要由两部分组成，一是描述篇、章、节、标题等信息的第一部分；二是描述医疗知识的详细信息的第二部分。

以图3a所示的医疗知识页面为例，该医疗知识页面对应的HTML文件中用于描述篇、章、节、标题等信息的第一部分的源代码可以如图3b所示，实践中，该部分内容可以利用HTML标签属性(例如，class属性)直接提取。该医疗知识页面对应的HTML文件中用于描述医疗知识的详细信息的第二部分的源代码可以如图3c所示。以该医疗知识页面为例，由第二部分中记载的内容可知，【临床表现】、【诊断要点】、【治疗方案及原则】是属于“第三节喉梅毒”的内容，而“声嘶、咳嗽、痰中带血、吞咽障碍和呼吸困难”等是【临床表现】的内容。但这些结构在HTML文件解析得到的DOM树中并没有得到体现。因此，为了体现这些结构信息需要基于DOM树重新构建内容树，该内容树中会把【临床表现】、【诊断要点】、【治疗方案及原则】构建为“第三节喉梅毒”的子节点，而“声嘶、咳嗽、痰中带血、吞咽障碍和呼吸困难”会建成【临床表现】的值。

通常，每类或每本电子书籍的页面的各部分的位置可以通过一种或者几种HTML标签属性确定。以图3c为例，可以使用id＝"endText"确定第二部分的位置。实践中，可以通过各种方式(例如人工统计)的方式，确定某类或者某本电子书籍的页面的第二部分对应的HTML标签属性，并将确定的HTML标签属性作为第一标签属性。这样，执行主体可以根据第一标签属性确定第二部分的位置，并根据确定的位置从至少一个树节点中确定树节点组成树节点集合。

步骤203，基于预先设定的第二标签属性，将树节点集合划分为至少一个树节点子集合。

在本实施例中，执行主体可以基于预先设定的第二标签属性，将步骤202中确定的树节点集合划分为至少一个树节点子集合。通常，每类或者每本电子书籍的页面的第二部分中的内容可以通过一种或者几种HTML标签属性划分为更小的单元。以图3c为例，可以使用id＝"CHP***"将页面的第二部分中的内容划分为更小的单元。实践中，可以通过各种方式(例如人工统计)的方式，确定用于将某类或者每本电子书籍的页面的第二部分进行划分的HTML标签属性，并将确定的HTML标签属性作为第二标签属性。这样，执行主体可以根据第二标签属性将树节点集合划分为至少一个树节点子集合。

步骤204，对于至少一个树节点子集合中的树节点子集合，获取该树节点子集合中树节点的数据，以及使用所获取的数据生成重构节点数据。

本实施例中，对于步骤203中划分得到的至少一个树节点子集合中的每一个树节点子集合，执行主体可以获取该树节点子集合中的每一个树节点中的数据，并使用所获取的数据按预设规则生成重构节点数据。这样，执行主体可以基于至少一个树节点子集合，得到至少一个重构节点数据。以图3c为例，得到的一个重构节点数据可以为{“id”：“CHP3-4-3-1”，“key”：“【临床表现】”，“value”：“1﹒声嘶、咳嗽、痰中带血、吞咽障碍和呼吸困难。\n2﹒多数无疼痛或疼痛轻微。”}。上述预设规则可以根据实际需要进行设定。

步骤205，基于得到的至少一个重构节点数据，构建针对医疗知识页面的内容树。

在本实施例中，执行主体可以根据步骤204中得到的至少一个重构节点数据，构建针对上述医疗知识页面的内容树。实践中，执行主体可以通过各种方式使用至少一个重构节点数据构建针对医疗知识页面的内容树。

在本实施例的一些可选的实现方式中，步骤205可以具体如下进行：

首先，创建根节点。

在本实现方式中，执行主体可以创建根节点，其中，所创建的根节点的根节点的父节点为空。作为示例，执行主体可以使用上述至少一个重构节点数据中的某一个重构节点数据创建根节点。

之后，以根节点为当前节点，执行以下构建步骤S1～S3。

在本实现方式中，执行主体可以将根节点作为当前节点，执行以下构建步骤：

步骤S1，针对至少一个重构节点数据中未插入的一个重构节点数据，从当前节点开始向上遍历，基于预先设定的第三标签属性，确定与该重构节点数据对应的节点存在父子关系的目标节点。

这里，针对上述至少一个重构节点数据中未插入的一个重构节点数据，执行主体可以从当前节点开始向上遍历，基于预先设定的第三标签属性，确定与该重构节点数据对应的节点存在父子关系的目标节点。通常，每类或者每本电子书籍的页面的第二部分中的各划分单元的内容之间的关系可以通过一种或者几种HTML标签属性表示，可以将这些用于表示各划分单元的内容之间的关系的HTML标签属性作为第三标签属性。以图3c为例，可以根据第三标签属性id＝"CHP3-4-3"、id＝"CHP3-4-3-1"、id＝"CHP3-4-3-2"和id＝"CHP3-4-3-3"等等，确定各重构节点数据对应的节点之间父子关系。显然，基于id＝"CHP3-4-3"确定的重构节点数据对应的节点为基于id＝"CHP3-4-3-1"、id＝"CHP3-4-3-2"和id＝"CHP3-4-3-3"确定的重构节点数据对应的节点的父节点。这样，执行主体可以根据第三标签属性，确定与该重构节点数据对应的节点存在父子关系的目标节点。

步骤S2，将目标节点标记为父节点.

这里，执行主体可以将步骤S1中确定的目标节点记为父节点。

步骤S3，将该重构节点数据对应的节点插入到目标节点的子节点位置。

这里，执行主体可以将该重构节点数据对应的节点插入到目标节点的子节点位置。通过这种方式，执行主体可以将该重构节点数据对应的节点插入所创建的内容树中。

最后，以最新插入的节点为当前节点，继续执行构建步骤，直至至少一个重构节点数据中的重构节点数据全部被插入，得到医疗知识页面对应的内容树。

在本实现方式中，执行主体可以将最新插入的节点作为当前节点，继续执行上述构建步骤S1～S3，直至上述至少一个重构节点数据中的所有重构节点数据全部被插入，得到医疗知识页面对应的内容树。以图3a所示的医疗知识页面为例，可以得到如图4所示的内容树。

在本实施例的一些可选的实现方式中，上述用于挖掘数据的方法还可以包括图2中未示出的以下步骤：

首先，从内容树中识别出疾病类医疗实体和与疾病类医疗实体相关的属性，以及将与疾病类医疗实体相关的属性作为第一属性。

在本实现方式中，执行主体可以通过各种方式从上述内容树中识别出疾病类医疗实体，以及与疾病类医疗实体相关的属性。作为示例，执行主体内部可以预先存储有疾病名称列表。实践中，该疾病名称列表可以是国际疾病分类(international Classificationof diseases，ICD)疾病列表，还可以是从医疗书籍、病历、网站中收集信息得到的列表等等。这样，执行主体可以将内容树中各个节点中的数据与疾病名称列表中的疾病名称进行匹配，如果某一个节点中数据与疾病名称相匹配，则可以从该节点中识别出疾病类医疗实体。这里，相匹配可以是指相同，或者存在尾缀关系，例如，疾病名称“鼻炎”与“慢性鼻炎”存在尾缀关系。在识别出疾病类医疗实体之后，执行主体还可以从内容树中识别出与疾病类医疗实体相关的属性，通常，疾病类医疗实体相关的属性包括病因、病理、治疗、临床表现等等。执行主体可以将与疾病类医疗实体相关的属性作为第一属性。

之后，基于预先存储的第一属性和第二属性的对应关系，从第一属性中确定第二属性词条。

在本实现方式中，执行主体中可以预先存储有第一属性和第二属性的对应关系。这里，疾病类医疗实体的第二属性可以包括症状、体征、诊断所需检查、诊断所需检验、治疗建议手术、治疗建议用药、鉴别诊断疾病等。通常，某一类病类医疗实体的第二属性可以从该病类医疗实体的第一属性中挖掘得到。第一属性和第二属性的对应关系可以用于表明哪些第一属性可以挖掘出哪些第二属性，举例来说，第一属性“临床表现”中可以挖掘出第二属性“症状”、“体征”等等，第一属性“治疗”中可以挖掘出第二属性“治疗建议手术”、“治疗建议用药”等等。

作为一个示例，执行主体可以利用第一属性和第二属性的对应关系以及预先建立的第二属性列表，从第一属性中确定第二属性词条。这里的第二属性列表是指针对每种第二属性所建立的列表。以第二属性“症状”为例，第二属性列表中可以包括与疾病的症状有关的各种词语。例如，针对病类医疗实体“喉梅毒”，第一属性“临床表现”包括“声嘶、咳嗽、痰中带血、吞咽障碍和呼吸困难。多数无疼痛或疼痛轻微”，执行主体可以将第一属性中包括的词语与第二属性列表中的词语进行匹配，将相匹配的词语作为挖掘得到的第二属性词条。作为另一个示例，执行主体还可以利用第一属性和第二属性的对应关系以及自然语言处理工具，从第一属性中确定第二词条。实践中，执行主体还可以将通过多种方式确定的第二属性词条进行去重处理。

继续参见图5，图5是根据本实施例的用于挖掘数据的方法的应用场景的一个示意图。在图5的应用场景中，终端设备501首先对获取的医疗知识页面502对应的HTML文件进行解析，得到文档对象模型树，其中，文档对象模型树包括多个树节点。之后，终端设备501基于预先设定的第一标签属性，从多个树节点中确定树节点组成树节点集合。其次，终端设备501基于预先设定的第二标签属性，将树节点集合划分为多个树节点子集合。然后，对于多个树节点子集合中的每一个树节点子集合，终端设备501可以获取该树节点子集合中树节点的数据，以及使用所获取的数据生成重构节点数据。最后，终端设备501基于得到的多个重构节点数据，构建针对医疗知识页面502的内容树503。

本公开的上述实施例提供的方法有效利用了医疗知识页面的HTML文件的结构化特点，基于HTML文件解析得到文档对象模型树构建针对医疗知识页面的内容树，实现了对医疗知识的挖掘。

进一步参考图6，其示出了用于挖掘数据的方法的又一个实施例的流程600。该用于挖掘数据的方法的流程600，包括以下步骤：

步骤601，对获取的医疗知识页面对应的HTML文件进行解析，得到文档对象模型树。

在本实施例中，步骤601与图2所示实施例的步骤201类似，此处不再赘述。

步骤602，基于预先设定的第一标签属性，从至少一个树节点中确定树节点组成树节点集合。

在本实施例中，步骤602与图2所示实施例的步骤202类似，此处不再赘述。

步骤603，基于预先设定的第二标签属性，将树节点集合划分为至少一个树节点子集合。

在本实施例中，步骤603与图2所示实施例的步骤203类似，此处不再赘述。

步骤604，对于至少一个树节点子集合中的树节点子集合，获取该树节点子集合中树节点的数据，以及使用所获取的数据生成重构节点数据。

在本实施例中，步骤604与图2所示实施例的步骤204类似，此处不再赘述。

步骤605，基于得到的至少一个重构节点数据，构建针对医疗知识页面的内容树。

在本实施例中，步骤605与图2所示实施例的步骤205类似，此处不再赘述。

步骤606，基于内容树，生成由医疗实体、属性和属性值组成的三元组。

在本实施例中，执行主体可以基于步骤605构建的内容树，生成由医疗实体、属性和属性值组成的三元组。作为示例，执行主体可以首先识别出内容树中的医疗实体，之后，识别出各医疗实体对应的属性和属性值。最后，使用识别出的医疗实体、属性和属性值组成三元组。

在本实施例的一些可选的实现方式中，上述步骤606可以具体如下进行：依次遍历内容树的节点，对所遍历的当前节点执行以下判断步骤：

首先，响应于确定当前节点包括子节点，确定当前节点的子节点中的数据是否与预先设定的属性集合中的属性相匹配。

在本实现方式中，执行主体可以判断当前节点是否包括子节点，如果当前节点包括子节点，则执行主体可以进一步判断当前节点的子节点中的数据是否与预先设定的属性集合中的属性相匹配。这里，属性集合中的属性可以根据实际需要进行设定，作为示例，可以将医疗实体对应的属性作为属性集合中的属性。以疾病类医疗实体为例，属性集合中的属性可以包括病因、病理、治疗、临床表现等等。

然后，如果匹配，确定当前节点描述的对象为医疗实体，当前节点的子节点描述的对象为医疗实体的属性和属性值。

在本实现方式中，如果确定当前节点的子节点中的数据与预先设定的属性集合中的属性相匹配(例如，相同)，则执行主体可以确定当前节点描述的对象为医疗实体，当前节点的子节点描述的对象为医疗实体的属性和属性值。以疾病类医疗实体为例，属性集合中的属性可以包括病因、病理、治疗、临床表现等等。这样，如果当前节点的子节点中的数据与属性集合中的病因、病理、治疗、临床表现等等相匹配，则执行主体可以确定当前节点描述的对象为疾病类的医疗实体。

最后，获取当前节点和当前节点的子节点中的数据生成包括医疗实体、属性和属性值的三元组。

在本实现方式中，执行主体可以获取当前节点和当前节点的子节点中的数据生成包括医疗实体、属性和属性值的三元组。以图4所示的内容树为例，可以生成三元组{医疗实体：“喉梅毒”，属性：“【临床表现】”，属性值：“1﹒声嘶、咳嗽、痰中带血、吞咽障碍和呼吸困难。\n2﹒多数无疼痛或疼痛轻微。”}、三元组{医疗实体：“喉梅毒”，属性：“【诊断要点】”，属性值：“1﹒家族史或……”}等等。

在本实施例的一些可选的实现方式中，上述用于挖掘数据的方法还可以包括以下内容：

对于所获取的每一个三元组，执行主体可以执行以下操作中的至少一项，确定该三元组中医疗实体的类别：

1)基于该三元组中的属性确定该三元组中医疗实体的类别。

在本实现方式中，医疗实体的类别可以包括疾病类、症状类、检查类、检验类、手术类等等类别，而每种类别的医疗实体都有相对应的属性。例如，疾病类医疗实体对应的属性可以包括病因、病理、临床特征等等。又例如，检查类、检验类医疗实体对应的属性可以包括临床意义、参考值等等。这样，执行主体可以根据该三元组中的属性确定该三元组中的医疗实体的类别。

2)基于预先设定的医疗实体类别列表，确定该三元组中医疗实体的类别。

在本实现方式中，执行主体中可以预先存储有医疗实体类别列表，该医疗实体类别列表中可以记录有各种医疗实体所属的类别。这样，执行主体可以根据该医疗实体类别列表，确实该三元组中医疗实体的类别。

3)基于命名实体识别结果，确定该三元组中医疗实体的类别。

在本实现方式中，执行主体可以对该三元组中的医疗实体进行命名实体识别，并根据命名实体识别结果确定该三元组中医疗实体的类别。

从图6中可以看出，与图2对应的实施例相比，本实施例中的用于挖掘数据的方法的流程600突出了生成由医疗实体、属性和属性值组成的三元组的步骤。由此，本实施例描述的方案可以实现从医疗知识页面中挖掘出由医疗实体、属性和属性值组成的三元组，从而实现了对医疗知识的挖掘。

进一步参考图7，作为对上述各图所示方法的实现，本公开提供了一种用于挖掘数据的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的用于挖掘数据的装置700包括：解析单元701、第一确定单元702、第二确定单元703、生成单元704和构建单元705。其中，解析单元701被配置成对获取的医疗知识页面对应的HTML文件进行解析，得到文档对象模型树，其中，上述文档对象模型树包括至少一个树节点；第一确定单元702被配置成基于预先设定的第一标签属性，从上述至少一个树节点中确定树节点组成树节点集合；第二确定单元703被配置成基于预先设定的第二标签属性，将上述树节点集合划分为至少一个树节点子集合；生成单元704被配置成对于上述至少一个树节点子集合中的树节点子集合，获取该树节点子集合中树节点的数据，以及使用所获取的数据生成重构节点数据；构建单元705被配置成基于得到的至少一个重构节点数据，构建针对上述医疗知识页面的内容树。

在本实施例中，用于挖掘数据的装置700的解析单元701、第一确定单元702、第二确定单元703、生成单元704和构建单元705的具体处理及其所带来的技术效果可分别参考图2对应实施例中步骤201、步骤202、步骤203、步骤204和步骤205的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，上述装置700还包括：三元组生成单元(图中未示出)，被配置成基于上述内容树，生成由医疗实体、属性和属性值组成的三元组。

在本实施例的一些可选的实现方式中，上述三元组生成单元进一步被配置成：依次遍历上述内容树的节点，对所遍历的当前节点执行以下判断步骤：响应于确定当前节点包括子节点，确定当前节点的子节点中的数据是否与预先设定的属性集合中的属性相匹配；如果匹配，确定当前节点描述的对象为医疗实体，当前节点的子节点描述的对象为上述医疗实体的属性和属性值；获取当前节点和当前节点的子节点中的数据生成包括医疗实体、属性和属性值的三元组。

在本实施例的一些可选的实现方式中，上述装置700还包括：类别确定单元(图中未示出)，被配置成对于所获取的三元组，执行以下操作中的至少一项，确定该三元组中医疗实体的类别：基于该三元组中的属性确定该三元组中医疗实体的类别；基于预先设定的医疗实体类别列表，确定该三元组中医疗实体的类别；基于命名实体识别结果，确定该三元组中医疗实体的类别。

在本实施例的一些可选的实现方式中，上述装置700还包括：识别单元(图中未示出)，被配置成从上述内容树中识别出疾病类医疗实体和与疾病类医疗实体相关的属性，以及将与疾病类医疗实体相关的属性作为第一属性；词条确定单元(图中未示出)，被配置成基于预先存储的第一属性和第二属性的对应关系，从第一属性中确定第二属性词条。

在本实施例的一些可选的实现方式中，上述构建单元705进一步被配置成：创建根节点，其中，上述根节点的父节点为空；以上述根节点为当前节点，执行以下构建步骤：针对上述至少一个重构节点数据中未插入的一个重构节点数据，从当前节点开始向上遍历，基于预先设定的第三标签属性，确定与该重构节点数据对应的节点存在父子关系的目标节点；将上述目标节点标记为父节点；将该重构节点数据对应的节点插入到上述目标节点的子节点位置；以最新插入的节点为当前节点，继续执行上述构建步骤，直至上述至少一个重构节点数据中的重构节点数据全部被插入，得到上述医疗知识页面对应的内容树。

下面参考图8，其示出了适于用来实现本公开的实施例的电子设备(例如图1中的服务器或终端设备)800的结构示意图。图8示出的电子设备仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。

如图8所示，电子设备800可以包括处理装置(例如中央处理器、图形处理器等)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储装置808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有电子设备800操作所需的各种程序和数据。处理装置801、ROM 802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

通常，以下装置可以连接至I/O接口805：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置806；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置807；包括例如磁带、硬盘等的存储装置808；以及通信装置809。通信装置809可以允许电子设备800与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备800，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图8中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置809从网络上被下载和安装，或者从存储装置808被安装，或者从ROM 802被安装。在该计算机程序被处理装置801执行时，执行本公开的实施例的方法中限定的上述功能。

需要说明的是，本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：对获取的医疗知识页面对应的HTML文件进行解析，得到文档对象模型树，其中，所述文档对象模型树包括至少一个树节点；基于预先设定的第一标签属性，从所述至少一个树节点中确定树节点组成树节点集合；基于预先设定的第二标签属性，将所述树节点集合划分为至少一个树节点子集合；对于所述至少一个树节点子集合中的树节点子集合，获取该树节点子集合中树节点的数据，以及使用所获取的数据生成重构节点数据；基于得到的至少一个重构节点数据，构建针对所述医疗知识页面的内容树。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括解析单元、第一确定单元、第二确定单元、生成单元和构建单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，解析单元还可以被描述为“对获取的医疗知识页面对应的HTML文件进行解析得到文档对象模型树的单元”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于挖掘数据的方法，包括：

对获取的医疗知识页面对应的HTML文件进行解析，得到文档对象模型树，其中，所述文档对象模型树包括至少一个树节点；

基于预先设定的第一标签属性，从所述至少一个树节点中确定树节点组成树节点集合；

基于预先设定的第二标签属性，将所述树节点集合划分为至少一个树节点子集合；

对于所述至少一个树节点子集合中的树节点子集合，获取该树节点子集合中树节点的数据，以及使用所获取的数据生成重构节点数据；

基于得到的至少一个重构节点数据，构建针对所述医疗知识页面的内容树。

2.根据权利要求1所述的方法，其中，所述方法还包括：

基于所述内容树，生成由医疗实体、属性和属性值组成的三元组。

3.根据权利要求2所述的方法，其中，所述基于所述内容树，生成由医疗实体、属性和属性值组成的三元组，包括：

依次遍历所述内容树的节点，对所遍历的当前节点执行以下判断步骤：

响应于确定当前节点包括子节点，确定当前节点的子节点中的数据是否与预先设定的属性集合中的属性相匹配；如果匹配，确定当前节点描述的对象为医疗实体，当前节点的子节点描述的对象为所述医疗实体的属性和属性值；获取当前节点和当前节点的子节点中的数据生成包括医疗实体、属性和属性值的三元组。

4.根据权利要求2所述的方法，其中，所述方法还包括：

对于所获取的三元组，执行以下操作中的至少一项，确定该三元组中医疗实体的类别：

基于该三元组中的属性确定该三元组中医疗实体的类别；

基于预先设定的医疗实体类别列表，确定该三元组中医疗实体的类别；

基于命名实体识别结果，确定该三元组中医疗实体的类别。

5.根据权利要求1所述的方法，其中，所述方法还包括：

从所述内容树中识别出疾病类医疗实体和与疾病类医疗实体相关的属性，以及将与疾病类医疗实体相关的属性作为第一属性；

基于预先存储的第一属性和第二属性的对应关系，从第一属性中确定第二属性词条。

6.根据权利要求1所述的方法，其中，所述基于得到的至少一个重构节点数据，构建针对所述医疗知识页面的内容树，包括：

创建根节点，其中，所述根节点的父节点为空；

以所述根节点为当前节点，执行以下构建步骤：针对所述至少一个重构节点数据中未插入的一个重构节点数据，从当前节点开始向上遍历，基于预先设定的第三标签属性，确定与该重构节点数据对应的节点存在父子关系的目标节点；将所述目标节点标记为父节点；将该重构节点数据对应的节点插入到所述目标节点的子节点位置；

以最新插入的节点为当前节点，继续执行所述构建步骤，直至所述至少一个重构节点数据中的重构节点数据全部被插入，得到所述医疗知识页面对应的内容树。

7.一种用于挖掘数据的装置，包括：

解析单元，被配置成对获取的医疗知识页面对应的HTML文件进行解析，得到文档对象模型树，其中，所述文档对象模型树包括至少一个树节点；

第一确定单元，被配置成基于预先设定的第一标签属性，从所述至少一个树节点中确定树节点组成树节点集合；

第二确定单元，被配置成基于预先设定的第二标签属性，将所述树节点集合划分为至少一个树节点子集合；

生成单元，被配置成对于所述至少一个树节点子集合中的树节点子集合，获取该树节点子集合中树节点的数据，以及使用所获取的数据生成重构节点数据；

构建单元，被配置成基于得到的至少一个重构节点数据，构建针对所述医疗知识页面的内容树。

8.根据权利要求7所述的装置，其中，所述装置还包括：

三元组生成单元，被配置成基于所述内容树，生成由医疗实体、属性和属性值组成的三元组。

9.根据权利要求8所述的装置，其中，所述三元组生成单元进一步被配置成：

10.根据权利要求8所述的装置，其中，所述装置还包括：

类别确定单元，被配置成对于所获取的三元组，执行以下操作中的至少一项，确定该三元组中医疗实体的类别：

基于该三元组中的属性确定该三元组中医疗实体的类别；

基于命名实体识别结果，确定该三元组中医疗实体的类别。

11.根据权利要求7所述的装置，其中，所述装置还包括：

识别单元，被配置成从所述内容树中识别出疾病类医疗实体和与疾病类医疗实体相关的属性，以及将与疾病类医疗实体相关的属性作为第一属性；

词条确定单元，被配置成基于预先存储的第一属性和第二属性的对应关系，从第一属性中确定第二属性词条。

12.根据权利要求7所述的装置，其中，所述构建单元进一步被配置成：

创建根节点，其中，所述根节点的父节点为空；

13.一种设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

14.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。