CN109448860A

CN109448860A - 疾病数据映射方法、装置、计算机设备和存储介质

Info

Publication number: CN109448860A
Application number: CN201811051911.1A
Authority: CN
Inventors: 胡帆; 胡雪莹
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-09-10
Filing date: 2018-09-10
Publication date: 2019-03-08
Anticipated expiration: 2038-09-10
Also published as: WO2020052162A1; CN109448860B

Abstract

本申请涉及人工智能技术，提供一种疾病数据映射方法、装置、计算机设备和存储介质。方法包括：获取待映射的疾病数据，对待映射的疾病数据进行分词，得到分词结果；将分词结果中的词语与匹配森林中每一个匹配树的根节点进行匹配，根据根节点匹配结果选取目标根节点作为当前节点；当当前节点存在对应的下一级子节点时，将分词结果中的词语与下一级子节点进行匹配；根据子节点匹配结果选取目标子节点作为当前节点，并进入当当前节点存在对应的下一级子节点时，将分词结果中的词语与下一级子节点进行匹配的步骤；当当前节点不存在对应的下一级子节点时，确定当前节点所在的匹配路径，根据匹配路径获取目标疾病数据。

Description

疾病数据映射方法、装置、计算机设备和存储介质

技术领域

本申请涉及疾病数据医疗技术领域，特别是涉及一种疾病数据映射方法、装置、计算机设备和存储介质。

背景技术

由于医生习惯或区域性特点导致医用术语不规范，疾病诊断名称差异性大，海量医疗数据信息无法互联互通，形成数据孤岛，无法进行有价值的医疗大数据分析研究。为了解决这一问题，需要将医生的疾病诊断数据映射为标准化的疾病名称。

传统技术中，医院中通常由专门的人负责对这些疾病名称数据进行人工映射，这种方式不仅效率低下，而且准确性并不高。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高疾病数据映射效率及准确率的疾病数据映射方法、装置、计算机设备和存储介质。

一种疾病数据映射方法，所述方法包括：

获取待映射的疾病数据，对所述待映射的疾病数据进行分词，得到分词结果；

将所述分词结果中的词语与匹配森林中每一个匹配树的根节点进行匹配，根据根节点匹配结果选取目标根节点作为当前节点；

当所述当前节点存在对应的下一级子节点时，将所述分词结果中的词语与所述下一级子节点进行匹配；

根据子节点匹配结果选取目标子节点作为当前节点，并进入当所述当前节点存在对应的下一级子节点时，将所述分词结果中的词语与所述下一级子节点进行匹配的步骤；

当所述当前节点不存在对应的下一级子节点时，确定所述当前节点所在的匹配路径，根据所述匹配路径获取目标疾病数据。

在其中一个实施例中，所述将所述分词结果中的词语与匹配森林中每一个匹配树的根节点进行匹配之前，包括：

对预先确定的基表库中每一个疾病数据进行分词，根据每一个所述疾病数据对应的分词结果得到词语集合，并获取所述词语集合中每一个词语所属的词语类型；

从所述词语集合中提取词语类型为第一预设类型的多个词语分别作为匹配树的根节点；

根据所述根节点生成多棵匹配树，得到匹配森林。

在其中一个实施例中，根据所述根节点生成多个匹配树，得到匹配森林，包括：

从所述词语集合中提取词语类型为第二预设类型的词语，得到第一子集合；

从所述第一子集合中提取所述根节点对应的共现词，得到所述匹配树对应的当前叶子节点集合；

从所述词语集合中提取词语类型为第三预设类型的词语，得到第二子集合；

从所述第二子集合中提取当前叶子节点集合的共现词，以更新所述匹配树对应的当前叶子节点集合；

从所述词语集合中提取词语类型为第四预设类型的词语，得到第三子集合；

从所述第三子集合中提取更新后的当前叶子节点集合的共现词，根据更新后的当前叶子节点集合的共现词得到所述匹配树对应的目标叶子节点集合，生成匹配树。

在其中一个实施例中，所述根据更新后的当前叶子节点集合的共现词得到所述匹配树对应的目标叶子节点集合，生成匹配树之后，包括：

确定所述匹配树上每一个所述目标叶子节点所在的匹配路径对应的疾病数据，将所述匹配路径与其对应的疾病数据建立映射关系。

在其中一个实施例中，所述从所述第一子集合中提取所述根节点对应的共现词，包括：

获取每一个所述根节点对应的所有疾病数据的编码，得到每一个所述根节点对应的第一编码集合；

获取所述第一子集合中每一个词语对应的所有疾病数据的编码，得到所述第一子集合中每一个词语对应的第二编码集合；

当所述根节点对应的第一编码集合与所述词语对应的第二编码集合存在交集时，确定所述词语为所述根节点对应的共现词。

在其中一个实施例中，将所述分词结果中的词语与匹配森林中每一个匹配树的根节点进行匹配，根据根节点匹配结果选取目标根节点作为当前节点，包括：

当所述分词结果中的词语与任意一个所述根节点都不匹配时，从预先建立的同义词库中查找每一个所述根节点对应的同义词；

将所述分词结果中的词语与所述同义词进行匹配，根据同义词匹配结果选取目标根节点作为当前节点。

当存在多个匹配成功的根节点时且所述多个匹配成功的根节点存在互斥关系时，从预先建立的互斥词库中获取每一个根节点对应的互斥权重，将权重较大的根节点作为目标根节点；

当存在多个匹配成功的根节点时且所述多个匹配成功的根节点不存在互斥关系时，则将所述多个匹配成功的根节点作为目标根节点。

一种疾病数据映射装置，所述装置包括：

分词结果获取模块，用于获取待映射的疾病数据，对所述待映射的疾病数据进行分词，得到分词结果；

第一匹配模块，用于将所述分词结果中的词语与匹配森林中每一个匹配树的根节点进行匹配，根据根节点匹配结果选取目标根节点作为当前节点；

第二匹配模块，用于当所述当前节点存在对应的下一级子节点时，将所述分词结果中的词语与所述下一级子节点进行匹配；

当前节点获取模块，用于根据子节点匹配结果选取目标子节点作为当前节点，并进入当所述当前节点存在对应的下一级子节点时，将所述分词结果中的词语与所述下一级子节点进行匹配的步骤；

目标疾病数据获取模块，用于当所述当前节点不存在对应的下一级子节点时，确定所述当前节点所在的匹配路径，根据所述匹配路径获取目标疾病数据。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述疾病数据映射方法所述的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述疾病数据映射方法所述的步骤。

上述疾病数据映射方法、装置、计算机设备和存储介质，在获取到待映射的疾病数据后，对待映射的疾病数据进行分词，得到分词结果，然后通过将分词结果中词语与匹配树集合中的匹配树进行匹配，并最终确定匹配路径，然后获取匹配路径对应的标准疾病数据，将该标准疾病数据作为待映射的疾病数据对应的目标疾病数据，本申请中，服务器在获取到待映射的疾病数据自动与匹配树进行匹配来得到标准化的目标疾病数据，相较于传统技术中的人工映射，效率和准确率都得到显著提升。

附图说明

图1为一个实施例中疾病数据映射方法的应用场景图；

图2为一个实施例中疾病数据映射方法的流程示意图；

图3为一个实施例中匹配树的示意图；

图4为另一个实施例中疾病数据映射方法的流程示意图；

图5为一个实施例中疾病数据映射装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的疾病数据映射方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104行通信。服务器104从终端获取待映射的疾病数据，对疾病数据进行分词，得到分词结果；将分词结果中的词语与匹配树集合中每一个匹配树的根节点进行匹配，根据根节点匹配结果选取目标根节点作为当前节点；将分词结果中的词语与当前节点对应的子节点进行匹配；根据子节点匹配结果选取目标子节点作为当前节点，并进入将分词结果中的词语与当前节点对应的子节点进行匹配的步骤；当当前节点不存在对应的子节点时，确定当前节点所在的匹配路径，根据匹配路径获取目标疾病数据，最后，服务器104可将目标疾病数据返回至终端102。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种疾病数据映射方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，获取待映射的疾病数据，对待映射的疾病数据进行分词，得到分词结果。

其中，待映射的疾病数据指的是需要被映射至预先确定的基表库(如ICD-10)中的标准疾病数据的疾病名称。分词结果指的是分词得到的词序列，如对“开放性小脑出血”进行分词，得到的分词结果可以为“开放性/小脑/出血”

在一个实施例中，终端向服务器发送映射请求，并在映射请求中携带待映射的疾病数据，服务器器接收到映射请求后，解析该映射请求，获取到待映射的疾病数据。在另一个实施例中，终端将待映射的疾病数据上传至服务器，服务器按照预设的周期从数据库中查询待映射的疾病数据。

进一步，服务器获取到待映射的疾病数据后，对疾病数据进行分词，得到分词结果。

步骤S204，将分词结果中的词语与匹配森林中每一个匹配树的根节点进行匹配，根据根节点匹配结果选取目标根节点作为当前节点。

其中，匹配树根据预先确定的基表库中的标准疾病数据生成，匹配树上的每一个节点由标准疾病数据分词后得到的词语组成。匹配树用于和待映射的疾病数据对应的分词结果中的词语进行匹配，以确定待映射的疾病数据对应的匹配路径。根节点匹配结果指的是将分词结果中的词语与根节点对应的词语进行匹配得到的匹配结果，根节点匹配结果包括与根节点匹配成功以及与根节点匹配不成功。

在一个实施例中，将分词结果中的词语与匹配树集合中每一个匹配树的根节点进行匹配可以是，将分词结果中的每一个词语分别与每一个根节点对应的词语进行比对，当两个词相同时，则为匹配成功，否则，则匹配不成功。

在另一个实施例中，将分词结果中的词语与匹配树集合中每一个匹配树的根节点进行匹配可以是，分别计算分词结果中的每一个词语与每一个根节点对应的词语的匹配度，当匹配度最大值大于预设阈值时，则匹配度最大的词语为匹配成功的词语，否则，则匹配不成功。

进一步，当匹配成功的根节点只有一个时，该根节点即为目标根节点，将该目标根节点作为当前节点。

步骤S206，判断当前节点是否存在对应的下一级子节点。

步骤S208，若存在，则将分词结果中的词语与下一级子节点进行匹配。

具体地，下一级节点指的是与当前节点存在父子关系的节点。在本实施例中，当获取到当前节点后，将分词结果中的词语继续与当前节点对应的下一级子节点进行匹配。

在一个实施例中，将分词结果中的词语与当前节点对应的下一级子节点进行匹配可以是，将分词结果中的词语分别与每一个子节点对应的词语进行比对，当两个词相同时，则为匹配成功，否则，则匹配不成功。

在另一个实施例中，将分词结果中的词语与当前节点对应的下一级子节点进行匹配可以是，分别计算分词结果中的词语与每一个子节点对应的词语的匹配度，当匹配度最大值大于预设阈值时，则匹配度最大的词语为匹配成功的词语，否则，则匹配不成功。

可以理解，在匹配时，可以只将分词结果中未曾进行匹配过的词与下一级子节点进行匹配，从而提高匹配效率。

步骤S210，根据子节点匹配结果选取目标子节点作为当前节点。

具体地，子节点匹配结果指的是将分词结果中的词语与当前节点对应的下一级子节点进行匹配得到的匹配结果，子节点匹配结果包括与子节点匹配成功以及与子节点匹配不成功。当匹配成功的子节点只有一个时，该子节点即为目标子节点，服务器将该目标子节点作为当前节点。

进一步，服务器重复执行步骤S206。

步骤S212，若不存在，则确定当前节点所在的匹配路径，根据匹配路径获取目标疾病数据。

具体地，当当前节点不存在下一级子节点时，当前节点即为匹配树的末级节点。匹配路径指的是从第一个匹配成功的节点(根节点)到最后一个匹配成功的节点，中间的所有与待映射的疾病数据对应的分词结果中的词语相匹配的节点所组成的路径。在一个实施例中，当当前节点不存在下一级子节点即当前节点为叶子节点时，根据当前节点可唯一确定一条匹配路径。如图3所示，若某个疾病数据匹配成功的根节点为A，最后一个当前节点(最后一个匹配成功的节点)为叶子节点H，则根据H确定的匹配路径为A-C-F-H。

在本实施例中，匹配树上的每一条匹配路径都与基表库中的一个标准疾病数据存在映射关系，当匹配路径确定好后，可根据匹配路径获取到对应的标准疾病数据，该标准疾病数据即为待映射的疾病数据对应的目标疾病数据。

上述疾病数据映射方法中，服务器在获取到待映射的疾病数据后，对待映射的疾病数据进行分词，得到分词结果，然后通过将分词结果中词语与匹配树集合中的匹配树进行匹配，并最终确定匹配路径，然后获取匹配路径对应的标准疾病数据，将该标准疾病数据作为待映射的疾病数据对应的目标疾病数据，本申请中，服务器在获取到待映射的疾病数据自动与匹配树进行匹配来得到标准化的目标疾病数据，相较于传统技术中的人工映射，效率和准确率都得到显著提升。

在一个实施例中，步骤S202获取待映射的疾病数据之前，还包括：生成匹配森林的步骤，该步骤具体包括：对预先确定的基表库中每一个疾病数据进行分词，根据每一个疾病数据对应的分词结果得到词语集合，并获取词语集合中每一个词语所属的词语类型；从词语集合中提取词语类型为第一预设类型的多个词语分别作为匹配树的根节点；根据根节点生成多个匹配树，得到匹配森林。

其中，基表库指的是标准疾病编码库，例如地方编码库、ICD-10等等。在本实施例中，预先确定一个基表库，将疾病库中的疾病数据作为期望映射得打的标准数据。对基表库中的每一个疾病数据进行分词，所有疾病数据进行分词后得到的词语组成一个词语集合。获取词语集合中，每一个词语所属的词语类型，词语类型包括：疾病、异常组织、异常机体、异常症状、解剖部位、疾病类型、疾病性质、程度、方位。

第一预设类型为疾病、异常组织、异常机体、异常症状中的至少一种，第一预设类型的词语例如：出血、骨折、畸形、游走肾。

在本实施例中，将词语集合中所有词语类型为预设类型的词语都提取出来，每一个词语作为一个根节点，然后根据每一个根节点分别建立一棵匹配树，得到匹配森林。

在一个实施例中，如图4所示，根据根节点生成多个匹配树，得到匹配森林，包括：

步骤S402，从词语集合中提取词语类型为第二预设类型的词语，得到第一子集合。

具体地，第二预设类型为词语集合中所有词语对应的类型中除第一预设类型之外的一种或多种类型。在一个实施例中，第二预设类型为解剖部位，第二预设类型的词语例如：小脑、耳。

步骤S404，从第一子集合中提取根节点对应的共现词，得到匹配树对应的当前叶子节点集合。

其中，共现词指的是共同出现在同一个疾病数据中的两个词。如“开放性小脑出血”对应的三个词开放性、小脑、出血互为共现词。提取到共现词后，将共现词作为其对应的根节点的下一级子节点，此时，这些子节点为匹配树的当前叶子节点。

在一个实施例中，从第一子集合中提取根节点对应的共现词，包括：获取每一个根节点对应的所有疾病数据的编码，得到每一个根节点对应的第一编码集合；获取第一子集合中每一个词语对应的所有疾病数据的编码，得到第一子集合中每一个词语对应的第二编码集合；当根节点对应的第一编码集合与词语对应的第二编码集合存在交集时，确定词语为根节点对应的共现词。

步骤S406，从词语集合中提取词语类型为第三预设类型的词语，得到第二子集合。

其中，第三预设类型为词语集合中所有词语对应的类型中除第一预设类型、第二预设类型之外的一种或多种类型。在一个实施例中，第二预设类型为疾病类型、疾病性质、程度中的至少一种，第三预设类型的词语例如，开放性、粉碎性、急性、慢性。

步骤S408，从第二子集合中提取当前叶子节点集合的共现词，以更新匹配树对应的当前叶子节点集合。

具体地，对于匹配树上的每一个当前叶子节点，判断其在第二子集合中是否存在共现词，若存在，则将该共现词作为该叶子节点的下一级节点，此时，相当于匹配树在该叶子节点处继续生长，该叶子节点的共现词作为新的当前叶子节点。

可以理解，对于不存在共现词的当前叶子节点，仍然作为当前叶子节点。

步骤S410，从词语集合中提取词语类型为第四预设类型的词语，得到第三子集合。

其中，第四预设类型为词语集合中所有词语对应的类型中除第一预设类型、第二预设类型、第三预设类型之外的一种或多种类型。在一个实施例中，第四预设类型为方位，第四预设类型的词语如：左侧、右侧。

步骤S412，从第三子集合中提取更新后的当前叶子节点集合的共现词，根据更新后的当前叶子节点集合的共现词得到匹配树对应的目标叶子节点集合，生成匹配树。其中，目标叶子节点指的是匹配树最终生成时候的叶子节点。

举例说明，如图3所示的匹配树中，当匹配树生长到包括节点A、B、C时，B和C为叶子节点；当匹配树生长到包括节点A、B、C、D、E，B、D、E为叶子节点；当匹配树最终生成时，包括节点A、B、C、D、E、F、G，此时，叶子节点为B、D、F、G，可见，随着匹配树的不断生长，叶子节点集合也跟着不断变化。

在一个实施例中，生成匹配树之后，还包括：确定匹配树上每一个目标叶子节点所在的匹配路径对应的疾病数据，将匹配路径与其对应的疾病数据建立映射关系。

具体地，每一个目标叶子节点所在的匹配路径可以唯一确定一个疾病数据，可将匹配路径上各个节点对应的词语与基表库中的各个疾病数据进行匹配，匹配成功时，即某个疾病数据完全包含匹配路径上各个节点对应的词语时，该疾病数据即为匹配路径对应的疾病数据。例如，某个疾病路径为：脱位-髋-半-右侧，其对应的疾病数据为：右侧髋关节半脱位。

进一步，将匹配路径与其对应的疾病数据建立映射关系，可将所有的映射关系保存为一个映射表。当匹配路径确定后，可根据该映射表来查询其对应的疾病数据。

在一个实施例中，将分词结果中的词语与匹配森林中每一个匹配树的根节点进行匹配，根据根节点匹配结果选取目标根节点作为当前节点，包括：当分词结果中的词语与任意一个根节点都不匹配时，从预先建立的同义词库中查找每一个根节点对应的同义词；将分词结果中的词语与同义词进行匹配，根据同义词匹配结果选取目标根节点作为当前节点。

其中，同义词匹配结果指的是将分词结果中的词语与同义词进行匹配得到的匹配结果。在本实施例中，预先建立起一个同义词库，同义词库中包括基表库对应的词语的同义词。

上述实施例中，通过同义词可以对匹配树进行进一步扩充，提高匹配准确度，进而最终提高疾病数据映射的准确性。

在一个实施例中，将分词结果中的词语与匹配森林中每一个匹配树的根节点进行匹配，根据根节点匹配结果选取目标根节点作为当前节点，包括：当存在多个匹配成功的根节点时且多个匹配成功的根节点存在互斥关系时，从预先建立的互斥词库中获取每一个根节点对应的互斥权重，将权重较大的根节点作为目标根节点；当存在多个匹配成功的根节点时且多个匹配成功的根节点不存在互斥关系时，判断分词结果中是否存在预设的连接词，若是，则将多个匹配成功的根节点作为目标根节点。

具体地，当两个词同时出现时，其中一个词的语义可以忽略时，这两个词存在互斥关系，互为互斥词。如，软组织损伤半骨折中，损伤与骨折为互斥词。可预先建立一个互斥词典，并对每一对互斥词分别设定互斥权重。服务器可通过从互斥词典中进行查找，判断多个匹配成功的根节点中是否存在互斥词，当存在互斥词，获取每一个互斥词对应的互斥权重，将互斥权重较大的词语对应的根节点作为目标根节点。如，软组织损伤半骨折中，若骨折的互斥权重大于损伤，则将骨折对应的根节点作为目标根节点。

进一步，对于某些疾病数据中，有可能包含两种疾病，如A疾病伴B疾病、A疾病导致B疾病等，此时，将多个匹配成功的根节点都作为目标根节点，分别根据每一个根节点继续确定匹配路径，并最终获得每一个目标根节点对应的目标疾病数据，然后将各个目标疾病数据组合得到待映射的疾病数据对应的标准疾病数据。举例说明，某个待映射的疾病数据分词后得到的分词结果为：A/B/C/D/E,其中，C对应一个匹配成功的根节点，E对应一个匹配成功的根节点，则将A、B与C对应的匹配树进行继续匹配以得到目标疾病数据A1，将D与E对应的匹配树进行继续匹配以得到目标疾病数据A2，最后得到的映射结果为A1A2。

上述实施例中，通过判断出互斥词，可以提高匹配效率，从而最终提高疾病数据的映射效率。

应该理解的是，虽然图2及图4中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2及图4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种疾病数据映射装置500，包括：分词结果获取模块502、第一匹配模块504、第二匹配模块506、当前节点获取模块508和目标疾病数据获取模块510，其中：

分词结果获取模块502，用于获取待映射的疾病数据，对待映射的疾病数据进行分词，得到分词结果；

第一匹配模块504，用于将分词结果中的词语与匹配森林中每一个匹配树的根节点进行匹配，根据根节点匹配结果选取目标根节点作为当前节点；

第二匹配模块506，用于当当前节点存在对应的下一级子节点时，将分词结果中的词语与下一级子节点进行匹配；

当前节点获取模块508，用于根据子节点匹配结果选取目标子节点作为当前节点，并进入当当前节点存在对应的下一级子节点时，将分词结果中的词语与下一级子节点进行匹配的步骤；

目标疾病数据获取模块510，用于当当前节点不存在对应的下一级子节点时，确定当前节点所在的匹配路径，根据匹配路径获取目标疾病数据。

在一个实施例中，上述装置还包括：匹配森林生成模块，用于对预先确定的基表库中每一个疾病数据进行分词，根据每一个疾病数据对应的分词结果得到词语集合，并获取词语集合中每一个词语所属的词语类型；从词语集合中提取词语类型为第一预设类型的多个词语分别作为匹配树的根节点；根据根节点生成多棵匹配树，得到匹配森林。

在一个实施例中，匹配森林生成模块还用于从词语集合中提取词语类型为第二预设类型的词语，得到第一子集合；从第一子集合中提取根节点对应的共现词，得到匹配树对应的当前叶子节点集合；从词语集合中提取词语类型为第三预设类型的词语，得到第二子集合；从第二子集合中提取当前叶子节点集合的共现词，以更新匹配树对应的当前叶子节点集合；从词语集合中提取词语类型为第四预设类型的词语，得到第三子集合；从第三子集合中提取更新后的当前叶子节点集合的共现词，根据更新后的当前叶子节点集合的共现词得到匹配树对应的目标叶子节点集合，生成匹配树。

在一个实施例中，上述装置还包括映射关系建立模块，用于确定匹配树上每一个目标叶子节点所在的匹配路径对应的疾病数据，将匹配路径与其对应的疾病数据建立映射关系。

在一个实施例中，匹配森林生成模块还用于获取每一个根节点对应的所有疾病数据的编码，得到每一个根节点对应的第一编码集合；获取第一子集合中每一个词语对应的所有疾病数据的编码，得到第一子集合中每一个词语对应的第二编码集合；当根节点对应的第一编码集合与词语对应的第二编码集合存在交集时，确定词语为根节点对应的共现词。

在一个实施例中，第一匹配模块504用于当分词结果中的词语与任意一个根节点都不匹配时，从预先建立的同义词库中查找每一个根节点对应的同义词；将分词结果中的词语与同义词进行匹配，根据同义词匹配结果选取目标根节点作为当前节点。

在一个实施例中，第一匹配模块504用于当存在多个匹配成功的根节点时且多个匹配成功的根节点存在互斥关系时，从预先建立的互斥词库中获取每一个根节点对应的互斥权重，将权重较大的根节点作为目标根节点；当存在多个匹配成功的根节点时且多个匹配成功的根节点不存在互斥关系时，则将多个匹配成功的根节点作为目标根节点。

关于疾病数据映射装置的具体限定可以参见上文中对于疾病数据映射方法的限定，在此不再赘述。上述疾病数据映射装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种疾病数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种疾病数据映射方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取待映射的疾病数据，对待映射的疾病数据进行分词，得到分词结果；将分词结果中的词语与匹配森林中每一个匹配树的根节点进行匹配，根据根节点匹配结果选取目标根节点作为当前节点；当当前节点存在对应的下一级子节点时，将分词结果中的词语与下一级子节点进行匹配；根据子节点匹配结果选取目标子节点作为当前节点，并进入当当前节点存在对应的下一级子节点时，将分词结果中的词语与下一级子节点进行匹配的步骤；当当前节点不存在对应的下一级子节点时，确定当前节点所在的匹配路径，根据匹配路径获取目标疾病数据。

在一个实施例中，将分词结果中的词语与匹配森林中每一个匹配树的根节点进行匹配之前，处理器执行计算机程序时还实现以下步骤：对预先确定的基表库中每一个疾病数据进行分词，根据每一个疾病数据对应的分词结果得到词语集合，并获取词语集合中每一个词语所属的词语类型；从词语集合中提取词语类型为第一预设类型的多个词语分别作为匹配树的根节点；根据根节点生成多棵匹配树，得到匹配森林。

在一个实施例中，根据根节点生成多个匹配树，得到匹配森林，包括：从词语集合中提取词语类型为第二预设类型的词语，得到第一子集合；从第一子集合中提取根节点对应的共现词，得到匹配树对应的当前叶子节点集合；从词语集合中提取词语类型为第三预设类型的词语，得到第二子集合；从第二子集合中提取当前叶子节点集合的共现词，以更新匹配树对应的当前叶子节点集合；从词语集合中提取词语类型为第四预设类型的词语，得到第三子集合；从第三子集合中提取更新后的当前叶子节点集合的共现词，根据更新后的当前叶子节点集合的共现词得到匹配树对应的目标叶子节点集合，生成匹配树。

在一个实施例中，根据更新后的当前叶子节点集合的共现词得到匹配树对应的目标叶子节点集合，生成匹配树之后，处理器执行计算机程序时还实现以下步骤：确定匹配树上每一个目标叶子节点所在的匹配路径对应的疾病数据，将匹配路径与其对应的疾病数据建立映射关系。

在一个实施例中，将分词结果中的词语与匹配森林中每一个匹配树的根节点进行匹配，根据根节点匹配结果选取目标根节点作为当前节点，包括：当存在多个匹配成功的根节点时且多个匹配成功的根节点存在互斥关系时，从预先建立的互斥词库中获取每一个根节点对应的互斥权重，将权重较大的根节点作为目标根节点；当存在多个匹配成功的根节点时且多个匹配成功的根节点不存在互斥关系时，则将多个匹配成功的根节点作为目标根节点。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待映射的疾病数据，对待映射的疾病数据进行分词，得到分词结果；将分词结果中的词语与匹配森林中每一个匹配树的根节点进行匹配，根据根节点匹配结果选取目标根节点作为当前节点；当当前节点存在对应的下一级子节点时，将分词结果中的词语与下一级子节点进行匹配；根据子节点匹配结果选取目标子节点作为当前节点，并进入当当前节点存在对应的下一级子节点时，将分词结果中的词语与下一级子节点进行匹配的步骤；当当前节点不存在对应的下一级子节点时，确定当前节点所在的匹配路径，根据匹配路径获取目标疾病数据。

在一个实施例中，将分词结果中的词语与匹配森林中每一个匹配树的根节点进行匹配之前，计算机程序被处理器执行时还实现以下步骤：对预先确定的基表库中每一个疾病数据进行分词，根据每一个疾病数据对应的分词结果得到词语集合，并获取词语集合中每一个词语所属的词语类型；从词语集合中提取词语类型为第一预设类型的多个词语分别作为匹配树的根节点；根据根节点生成多棵匹配树，得到匹配森林。

在一个实施例中，根据更新后的当前叶子节点集合的共现词得到匹配树对应的目标叶子节点集合，生成匹配树之后，计算机程序被处理器执行时还实现以下步骤：确定匹配树上每一个目标叶子节点所在的匹配路径对应的疾病数据，将匹配路径与其对应的疾病数据建立映射关系。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种疾病数据映射方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述分词结果中的词语与匹配森林中每一个匹配树的根节点进行匹配之前，包括：

根据所述根节点生成多棵匹配树，得到匹配森林。

3.根据权利要求1所述的方法，其特征在于，所述根据所述根节点生成多个匹配树，得到匹配森林，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据更新后的当前叶子节点集合的共现词得到所述匹配树对应的目标叶子节点集合，生成匹配树之后，包括：

5.根据权利要求3所述的方法，其特征在于，所述从所述第一子集合中提取所述根节点对应的共现词，包括：

6.根据权利要求1至5任意一项所述的方法，其特征在于，将所述分词结果中的词语与匹配森林中每一个匹配树的根节点进行匹配，根据根节点匹配结果选取目标根节点作为当前节点，包括：

7.根据权利要求1至5任意一项所述的方法，其特征在于，将所述分词结果中的词语与匹配森林中每一个匹配树的根节点进行匹配，根据根节点匹配结果选取目标根节点作为当前节点，包括：

8.一种疾病数据映射装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。