CN111899821A

CN111899821A - 处理医疗机构数据的方法、构建数据库的方法和装置

Info

Publication number: CN111899821A
Application number: CN202010597008.6A
Authority: CN
Inventors: 黄进然; 林璟; 司亚彪
Original assignee: Guangzhou Wondfo Biotech Co Ltd
Current assignee: Guangzhou Wondfo Biotech Co Ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2020-11-06

Abstract

本申请涉及一种处理医疗机构数据的方法、构建医疗机构数据库的方法、装置、计算机设备和存储介质。所述方法包括：获取待处理的多个医疗机构数据；确定各医疗机构数据的哈希签名；根据各医疗机构数据的哈希签名之间的相似度，得到各医疗机构数据的医疗机构识别码；将各医疗机构数据中对应于相同的医疗机构识别码的医疗机构数据进行合并处理。采用本方法能够得到多个医疗机构数据的哈希签名，计算哈希签名的相似度从而得到医疗机构识别码，再将相同的医疗机构识别码对应的医疗机构数据合并，从而可避免得到的医疗机构数据中带有相同的数据，进而提高医疗机构数据的准确性。

Description

处理医疗机构数据的方法、构建数据库的方法和装置

技术领域

本申请涉及医疗数据处理技术领域，特别是涉及一种处理医疗机构数据的方法、构建医疗机构数据库的方法、装置、计算机设备和存储介质。

背景技术

随着信息处理技术发展，越来越多的企业通过数字化转型改变企业销售，变革内部运营，全面重塑业务。相比传统意义下的企业管理方法，数字化转型下的企业具有内部管理能力优秀，沟通效率高以及高效的远程协作等优点。而对于医药医疗领域的企业而言，对医疗机构信数据进行处理，则是医疗企业数字化转型的重要组成部分。

目前，对医疗机构数据的处理大多是基于销售或技术工程师在医疗机构数据平台中手动录入医疗机构数据，例如医疗机构的地址以及医疗机构名称等，形成医疗机构数据库。然而，这种医疗机构数据的处理方式，不同的销售或技术工程师可能会对相同的医疗机构以不同的名称命名方式或者不同的地址记录方式录入医疗机构数据库，因此医疗机构数据库中对于相同医疗机构可能存在多个对应的医疗机构数据，目前的医疗机构数据库中存储的医疗机构数据的准确性低。

发明内容

基于此，有必要针对上述技术问题，提供一种处理医疗机构数据的方法、构建医疗机构数据库的方法、装置、计算机设备和存储介质。

一种处理医疗机构数据的方法，所述方法包括：

获取待处理的多个医疗机构数据；

确定各医疗机构数据的哈希签名；

根据各医疗机构数据的哈希签名之间的相似度，得到所述各医疗机构数据的医疗机构识别码；

将所述各医疗机构数据中对应于相同的医疗机构识别码的医疗机构数据进行合并处理。

在其中一个实施例中，所述医疗机构数据包括医疗机构名称和医疗机构地址；所述确定各医疗机构数据的哈希签名，包括：将所述医疗机构名称以及所述医疗机构地址进行拼接，形成医疗机构信息字符串；从所述医疗机构信息字符串提取出多个至少包含一个字符的关键词信息，并获取各关键词信息对应的哈希值，以及获取所述各关键词信息对应的关键词权重；根据所述哈希值以及所述关键词权重，确定所述哈希签名。

在其中一个实施例中，所述获取所述各关键词信息对应的关键词权重，包括：获取所述关键词信息对应的词频以及逆向文本频率；根据所述词频以及所述逆向文本频率确定所述关键词信息的重要指数，并确定所述重要指数所在的重要指数区间；基于预先构建的区间权重对应关系，确定所述重要指数区间对应的关键词权重；其中，所述区间权重对应关系包括有不同的重要指数区间与不同的关键词权重的对应关系。

在其中一个实施例中，所述根据所述哈希值以及所述关键词权重，确定所述哈希签名，包括：利用所述关键词权重对所述哈希值进行加权处理，确定所述关键词信息对应的加权数字串，得到多个加权数字串；将所述多个加权数字串进行累加，形成所述医疗机构数据对应的序列串；对所述序列串进行降维处理，得到所述哈希签名。

在其中一个实施例中，所述获取各关键词信息对应的哈希值，包括：若所述多个至少包含一个字符的关键词信息中包括至少两个相同的关键词信息，则对所述至少两个相同的关键词信息进行去重处理；获取去重处理后的关键词信息对应的哈希值。

在其中一个实施例中，所述根据各医疗机构数据的哈希签名之间的相似度，得到所述各医疗机构数据的医疗机构识别码，包括：确定所述各医疗机构数据对应的排列次序；获取位于当前排列次序之前的医疗机构数据的第一哈希签名，以及所述当前排列次序的医疗机构数据的第二哈希签名；确定所述第一哈希签名与所述第二哈希签名的汉明距离；若所述第一哈希签名与所述第二哈希签名的汉明距离小于预设的汉明距离阈值，则将所述第一哈希签名对应的医疗机构数据的医疗机构识别码作为所述当前排列次序的医疗机构数据的医疗机构识别码。

在其中一个实施例中，所述医疗机构数据包括医疗机构区域信息；所述获取位于当前排列次序之前的医疗机构数据的第一哈希签名，包括：获取位于当前排列次序之前的医疗机构数据的第一医疗机构区域信息，以及所述当前排列次序的医疗机构数据的第二医疗机构区域信息；若所述第一医疗机构区域信息与所述第二医疗机构区域信息相匹配，则将所述第一医疗机构区域信息对应的医疗机构数据的哈希签名作为所述第一哈希签名。

在其中一个实施例中，所述方法还包括：若所述汉明距离中不包含小于预设的汉明距离阈值的汉明距离，则为所述当前排列次序的医疗机构数据创建所述医疗机构识别码。

一种构建医疗机构数据库的方法，所述方法包括：

获取待处理的医疗机构数据；

对所述医疗机构数据进行数据规范化处理，得到第一医疗机构数据；

利用如上述的处理医疗机构数据的方法，对所述第一医疗机构数据进行去重合并处理，得到第二医疗机构数据；

基于所述第二医疗机构数据，构建医疗机构数据库。

一种处理医疗机构数据的装置，所述装置包括：

机构数据获取模块，用于获取待处理的多个医疗机构数据；

哈希签名确定模块，用于确定各医疗机构数据的哈希签名；

机构识别码确定模块，用于根据各医疗机构数据的哈希签名之间的相似度，得到所述各医疗机构数据的医疗机构识别码；

机构数据合并模块，用于将所述各医疗机构数据中对应于相同的医疗机构识别码的医疗机构数据进行合并处理。

一种构建医疗机构数据库的装置，所述装置包括：

待处理数据获取模块，用于获取待处理的医疗机构数据；

数据规范化处理模块，用于对所述医疗机构数据进行数据规范化处理，得到第一医疗机构数据；

数据去重合并模块，用于利用如上述的处理医疗机构数据的方法，对所述第一医疗机构数据进行去重合并处理，得到第二医疗机构数据；

机构数据库构建模块，用于基于所述第二医疗机构数据，构建医疗机构数据库。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

上述处理医疗机构数据的方法、装置、计算机设备和存储介质，获取待处理的多个医疗机构数据；确定各医疗机构数据的哈希签名；根据各医疗机构数据的哈希签名之间的相似度，得到各医疗机构数据的医疗机构识别码；将各医疗机构数据中对应于相同的医疗机构识别码的医疗机构数据进行合并处理。本申请通过得到多个医疗机构数据的哈希签名，计算哈希签名的相似度从而得到医疗机构识别码，再将相同的医疗机构识别码对应的医疗机构数据合并，从而可避免得到的医疗机构数据中带有相同的数据，进而提高医疗机构数据的准确性。

附图说明

图1为一个实施例中处理医疗机构数据的方法的应用环境图；

图2为一个实施例中处理医疗机构数据的方法的流程示意图；

图3为一个实施例中确定各医疗机构数据的哈希签名的流程示意图；

图4为一个实施例中获取各关键词信息对应的关键词权重的流程示意图；

图5为一个实施例中根据各医疗机构数据的哈希签名之间的相似度，得到各医疗机构数据的医疗机构识别码；

图6为另一个实施例中处理医疗机构数据的方法的流程示意图；

图7为一个实施例中构建医疗机构数据库的方法的流程示意图；

图8为一个应用实例中医疗机构信息的主数据管理系统的结构示意图；

图9为一个应用实例中医疗机构信息去重与合并的流程示意图；

图10为一个应用实例中Simhash算法处理流程示意图；

图11为一个应用实例中医疗机构信息智能检索的流程示意图；

图12为一个实施例中处理医疗机构数据的装置的结构框图；

图13为一个实施例中构建医疗机构数据库的装置的结构框图；

图14为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的处理医疗机构数据的方法，可以应用于如图1所示的应用环境中。其中，终端101通过网络与服务器102通过网络进行通信。具体地，终端101可以采集用户录入的多个医疗机构的医疗机构数据，并通过网络等方式，将多个医疗机构数据发送至服务器102进行处理。服务器102接收到终端发送的医疗机构数据后，可以通过确定医疗机构数据的哈希签名，并基于哈希签名确定多个医疗机构数据之间的相似度，并得到对应的识别码，从而完成医疗机构数据的去重处理。其中，终端101可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种处理医疗机构数据的方法，以该方法应用于图1中的服务器102为例进行说明，包括以下步骤：

步骤S201，服务器102获取待处理的多个医疗机构数据。

其中，待处理的医疗机构数据指的是准备用于进行去重合并处理的医疗机构数据，因此，服务器102得到的医疗机构数据的数量至少应该有2个。待处理医疗机构数据的获取可以是终端101通过采集用户输入的多个医疗机构数据，并通过网络等方式将医疗机构数据传输至服务器102，也可以是服务器102主动从互联网中提取，例如从多个医疗机构的官方网站中提取出相关信息，作为待处理的医疗机构数据。

步骤S202，服务器102确定各医疗机构数据的哈希签名。

其中，哈希签名是一种数字签名方法，也被称为数字摘要法或数字指纹法，数字摘要就是采用单项哈希函数将需要加密的明文“摘要”成一串固定长度的密文，而这一串密文也可以被称为数字指纹，具有固定的数据长度，且不同的明文摘要成的密文也并不相同，因此医疗机构数据的哈希签名必定与医疗机构数据一一对应。具体地，服务器102可通过哈希计算方法，求得每一个待处理的医疗机构数据的哈希签名。

步骤S203，服务器102根据各医疗机构数据的哈希签名之间的相似度，得到各医疗机构数据的医疗机构识别码。

步骤S202中服务器102得到了每个医疗机构数据的哈希签名后，可以基于任意两个哈希签名，求得任意两个哈希签名之间的相似程度，哈希签名的相似程度越高，则说明对应的医疗机构数据的相似程度也高，同时，服务器102还可根据哈希签名之间的相似程度，为每一个医疗机构数据确定对应的用于标识医疗机构数据的医疗机构识别码。例如：可以将哈希签名相似度过高的医疗机构数据赋予相同的医疗机构识别码，以表示这些医疗机构数据可能是相同的医疗机构数据，而对于哈希签名相似度低的医疗机构数据，则可赋予不同的医疗机构识别码，用于表示上述医疗机构数据为不同的医疗机构数据。

步骤S204，服务器102将各医疗机构数据中对应于相同的医疗机构识别码的医疗机构数据进行合并处理。

由于相同的医疗机构识别码可以用于表示对应的医疗机构数据是相同的医疗机构数据，服务器102可以对对应于相同的医疗机构识别码的医疗机构数据进行合并处理，从而实现对服务器102得到的相同医疗机构数据进行去重。

上述处理医疗机构数据的方法中，服务器102获取待处理的多个医疗机构数据；确定各医疗机构数据的哈希签名；根据各医疗机构数据的哈希签名之间的相似度，得到各医疗机构数据的医疗机构识别码；将各医疗机构数据中对应于相同的医疗机构识别码的医疗机构数据进行合并处理。本申请通过服务器102得到多个医疗机构数据的哈希签名，计算哈希签名的相似度从而得到医疗机构识别码，再将相同的医疗机构识别码对应的医疗机构数据合并，从而可避免服务器102得到的医疗机构数据中带有相同的数据，进而提高医疗机构数据的准确性。

在一个实施例中，医疗机构数据包括医疗机构名称和医疗机构地址，如图3所示，步骤S202进一步包括：

步骤S301，服务器102将医疗机构名称以及医疗机构地址进行拼接，形成医疗机构信息字符串。

其中，服务器102中得到的医疗机构数据至少应该包括用于描述该医疗机构地理位置的医疗机构地址以及用于描述该医疗机构的名字的医疗机构名称，服务器102可以从得到的多个医疗机构数据中，提取出每个医疗机构数据的医疗机构名称以及医疗机构地址，并将医疗机构名称与医疗机构地址按预设的拼接顺序进行拼接，形成一串字符串，作为该医疗机构数据对应的医疗机构信息字符串。

步骤S302，服务器102从医疗机构信息字符串提取出多个至少包含一个字符的关键词信息，并获取各关键词信息对应的哈希值，以及获取各关键词信息对应的关键词权重。

其中，医疗机构信息字符串可以是由多个关键词信息按顺序组成，每个关键词信息都由一个或多个字符组成，且每一个提取得到的关键词信息都可通过哈希算法，求得对应的哈希值。而关键词权重则是用于表示某个关键词在其对应的医疗机构信息字符串的重要程度，重要程度越高，该关键词信息对应的关键词权重则越大。具体地，服务器102可以首先通过文本分词算法，从得到的医疗机构信息字符串中提取出多个由至少一个字符组成的关键词信息，再通过哈希算法分别求得每个关键词信息的哈希值，另外还可以计算出用于表示关键词信息的重要程度的各关键词信息对应的关键词权重。

步骤S303，服务器102根据哈希值以及关键词权重，确定哈希签名。

步骤S302中服务器102得到医疗机构信息字符串中每个关键词信息的哈希值以及其对应的关键词权重后，可以利用个关键词信息的关键词权重对各关键词信息的哈希值进行汇总，从而得到该医疗机构数据的哈希签名。

进一步地，如图4所示，步骤S302中服务器102获取各关键词信息对应的关键词权重，可以进一步包括如下步骤：

步骤S401，服务器102获取关键词信息对应的词频以及逆向文本频率。

其中，关键词信息对应的词频指的是该关键词信息在医疗机构信息字符串中出现的频率，可以用该关键词信息在医疗机构信息字符串中出现的次数与该字符串中关键词信息个数的比值求得，而逆向文本频率则用于表示该关键词信息在多个字符串信息中的类别区分能力，一般来说，包含该关键词信息的字符串越少，那么该关键词信息对应的逆向文本频率则越大。

例如：服务器102得到的医疗机构信息字符串可以包括字符串1和字符串2，字符串1由关键词A关键词B组成，而字符串2由关键词A和关键词C组成，那么对于字符串1而言，由于关键词A在字符串2中也有出现，因此关键词B作为字符串1的类别区分能力要高于关键词A作为字符串1的类别区分能力，因此关键词B对应的逆向文本频率则高于关键词A的逆向文本频率。同理，关键词C的逆向文本频率也高于关键词A的逆向文本频率。

步骤S402，服务器102根据词频以及逆向文本频率确定关键词信息的重要指数，并确定重要指数所在的重要指数区间；

步骤S403，服务器102基于预先构建的区间权重对应关系，确定重要指数区间对应的关键词权重；其中，区间权重对应关系包括有不同的重要指数区间与不同的关键词权重的对应关系。

其中，区间权重对应关系中存储有多组重要指数区间与关键词权重的对应关系。具体地，服务器102得到某个关键词信息的词频以及逆向文本频率后，首先可以得到该关键词信息的重要指数，例如可以通过将词频与逆向文本频率相乘的方式确定该关键词信息的重要指数。之后服务器102可根据得到的重要指数，确定其对应的重要指数区间，并根据区间权重对应关系确定该关键词信息的关键词权重。

例如，预先构建的区间权重对应关系可以包括重要指数区间1为[0.01，0.12]，对应的关键词权重为1，重要指数区间2为[0.12，0.15]，对应的关键词权重为2，那么如果得到的该关键词信息的重要指数为0.05，那么此时属于重要指数区间1，因此该关键词信息对应的关键词权重即为1，而如果得到的该关键词信息的重要指数为0.14，属于重要指数区间2，因此该关键词信息对应的关键词权重即为2。

进一步地，步骤S303可以包括：服务器102利用关键词权重对哈希值进行加权处理，确定关键词信息对应的加权数字串，得到多个加权数字串；将多个加权数字串进行累加，形成医疗机构数据对应的序列串；对序列串进行降维处理，得到哈希签名。

具体地，服务器102得到医疗机构信息字符串中每个关键词信息的关键词权重以及对应的哈希值后，可以利用关键词权重对哈希值进行加权，分别得到每个关键词信息对应的加权数字串，再将得到的多个加权数字串进行累加处理，作为该医疗机构信息字符串对应的医疗机构数据的一个序列串，最后将得到的序列串进行降维处理，例如可以通过将序列串中大于0的某位数字，设置为1，小于0的数字设置为0的方式，将得到的序列串转换成0-1串，并将降维后得到的0-1串作为医疗机构数据的哈希签名。

另外，由于相同的关键词信息可对应相同的哈希值，为了降低对关键词信息进行哈希运算的运算量，在一个实施例中，步骤S302中获取各关键词信息对应的哈希值，进一步可以包括：若多个至少包含一个字符的关键词信息中包括至少两个相同的关键词信息，则服务器102对至少两个相同的关键词信息进行去重处理；获取去重处理后的关键词信息对应的哈希值。

具体地，服务器102得到医疗机构信息字符串中提取出的多个关键词信息后，首先可以从多个关键词信息中提取出相同的关键词信息，并将重复的关键词信息进行去重，形成去重处理后的关键词信息，再通过哈希算法，求得去重处理后的关键词信息对应的哈希值。

例如：字符串3中可以由关键词A、关键词B、关键词A以及关键词C按照顺序拼接组成，如果直接对关键词信息进行哈希运算，则需要进行4次的哈希运算得到每个关键词对应的哈希值，而经过去重处理后，由于关键词A出现了两次，既可以对其中一个相同的关键词A进行删除，仅留下关键词A、关键词B以及关键词C，那么此时只需要进行3次哈希运算即可得到每个关键词的哈希值，因此可以有效减少对关键词信息进行哈希运算带来的运算量。

本实施例中，服务器102通过对医疗机构数据中的医疗机构名称以及医疗机构地址拼接得到的字符串进行分词，可得到多个医疗机构数据的关键词信息，再通过哈希运算得到对应的哈希值，以及通过获取用于表示关键词信息重要程度的关键词权重进而确定该字符串的哈希签名，有利于得到准确的哈希签名，另外，关键词的权重是服务器102通过关键词信息的在字符串中的词频以及用于表示该关键词信息在多个字符串信息中的类别区分能力的逆向文本频率得到，有利于提高得到的关键词权重的准确性，进而提高得到的字符串的哈希签名的准确性。服务器102还通过对各关键词信息的哈希值进行加权累加处理后进行降维，得到该字符串的哈希签名以及通过对得到的相同关键词信息进行去重，对去重后的关键词信息进行哈希运算，有利于降低哈希运算的计算量，提高医疗机构数据处理的效率。

在一个实施例中，如图5所示，步骤S203进一步包括：

步骤S501，服务器102确定各医疗机构数据对应的排列次序；

步骤S502，服务器102获取位于当前排列次序之前的医疗机构数据的第一哈希签名，以及当前排列次序的医疗机构数据的第二哈希签名。

其中，医疗机构数据的排列次序可以指的是用户通过终端向服务器102录入医疗机构数据的次序，也可以是服务器102从存储有多个哈希签名的哈希指纹库中提取出各医疗机构数据对应的哈希签名的提取次序，都可以作为各医疗机构数据对应的排列次序。第二哈希签名指的是当前排列次序下的医疗机构数据的哈希签名，而第一哈希签名则指的是当前排序之前的医疗机构数据的哈希签名，第二哈希签名的数量为一个，而第一哈希签名的数量可以是一个也可以是多个。

具体地，服务器102可以确定每个医疗机构数据的排列次序，并记录次序号，同时在提取当前排列次序的医疗机构数据的第二哈希签名的时候，记录当前排列次序的次序号，同时分别提取当前排列次序之前的所有医疗机构数据的第一哈希签名，例如可以是小于当前次序号的所有医疗机构数据的第一哈希签名。

例如：假如医疗机构数据的当前排列次序为2的时候，在提取排列次序为2的医疗机构数据的哈希签名，作为第二哈希签名的同时，还需要提取小于当前排列次序的医疗机构数据的哈希签名，即提取排列次序为2的医疗机构数据的哈希签名，作为第一哈希签名。而如果医疗机构数据的当前排列次序为3的时候，在提取排列次序为3的医疗机构数据的哈希签名，作为第二哈希签名的同时，还需要提取小于当前排列次序的医疗机构数据的哈希签名，即排列次序为1和2的两个医疗机构数据的哈希签名，都作为第一哈希签名。

步骤S503，服务器102确定第一哈希签名与第二哈希签名的汉明距离。

汉明距离是指两个字符串之间相应位置的相异字符的数量，而对于哈希签名而言，汉明距离计算的是两个等长度的二进制码字之间位置相同但位码不同的码字数量。例如可以通过对两个哈希签名每个码字进行异或运算并对异或运算结果进行求和的方式，得到两个哈希签名之间的汉明距离。具体地，服务器102可以求取第二哈希签名与每一个第一哈希签名之间进行异或求和运算，从而得到第二哈希签名与每一个第一哈希签名之间的汉明距离。

步骤S504，若第一哈希签名与第二哈希签名的汉明距离小于预设的汉明距离阈值，则服务器102将第一哈希签名对应的医疗机构数据的医疗机构识别码作为当前排列次序的医疗机构数据的医疗机构识别码。

服务器102得到多个第一哈希签名与第二哈希签名的汉明距离后，可以从中选出小于预设的汉明距离阈值的汉明距离，其中汉明距离阈值可以根据用户的实际需要进行选取，并将汉明距离小于预设的汉明距离阈值的第一哈希签名对应的医疗机构数据的医疗机构识别码作为当前排列次序的医疗机构数据的医疗机构识别码。

例如：当前排列次序为3的医疗机构数据分别与排列次序为1医疗机构数据的汉明距离为1，而与排列次序为2医疗机构数据的汉明距离为5，假如设定的汉明距离阈值为3，那么此时排列次序为1医疗机构数据的医疗机构识别码则可以作为当前排列次序即排列次序为3的医疗机构数据的医疗机构识别码。

进一步地，由于医疗机构数据可以包括医疗机构区域信息，如果区域信息不同，其必然是不同的医疗机构数据，因此，可以通过排除区域信息不同的医疗机构数据，能有利于大幅减少第一哈希签名与第二哈希签名的汉明距离的计算量，因此，在一个实施例中，步骤S502可以进一步包括：服务器102获取位于当前排列次序之前的医疗机构数据的第一医疗机构区域信息，以及当前排列次序的医疗机构数据的第二医疗机构区域信息；若第一医疗机构区域信息与第二医疗机构区域信息相匹配，则将第一医疗机构区域信息对应的医疗机构数据的哈希签名作为第一哈希签名。

其中，第二医疗机构区域信息指的是当前排列次序的医疗机构数据中的医疗机构区域信息，而第一医疗机构区域信息则指的是当前排列次序之前的医疗机构数据中的医疗机构区域信息，第二医疗机构区域信息的数量为一个，而第一医疗机构区域信息的数量则可以是多个。具体地，服务器102可以从多个医疗机构数据中，分别得到当前排列次序的医疗机构数据中的第二医疗机构区域信息以及当前排列次序之前的医疗机构数据中的全部第一医疗机构区域信息，并利用第二医疗机构区域信息对所有的第一医疗机构区域信息进行比对匹配，只有当第一医疗机构区域信息与第二医疗机构区域信息相匹配时，才将其对应的医疗机构数据的哈希签名作为第一哈希签名。而如果不存在与第二医疗机构区域信息相匹配的第一医疗机构区域信息，则为当前排列次序的医疗机构数据创建独一无二的医疗机构识别码。

另外，如果所有的第一哈希签名与第二哈希签名的汉明距离都大于预设的汉明距离阈值，则为当前排列次序的医疗机构数据创建独一无二的医疗机构识别码。

本实施例中，服务器102通过计算第一哈希签名与第二哈希签名之间的汉明距离，当汉明距离小于预设汉明距离阈值时，设定相同的医疗机构识别码，可以使得高相似度的医疗机构数据之间具有相同的医疗机构识别码，另外，还通过设定排列次序的方式，使得当前排列次序的医疗机构数据的第二哈希签名只需计算与当前排列次序之前的医疗机构数据的第一哈希签名之间的汉明距离，而不需要计算与其他所有的哈希签名之间的汉明距离，也减少了汉明距离计算的计算量。另外，还通过判断医疗机构区域信息，当区域信息相同时才获取第一哈希签名计算汉明距离，能进一步减少汉明距离的计算量，从而提高医疗机构数据处理的效率。

在一个实施例中，如图6所示，提供了一种处理医疗机构数据的方法，以该方法应用于图1中的服务器102为例进行说明，包括以下步骤：

步骤S601，服务器102获取待处理的多个医疗机构数据；医疗机构数据包括医疗机构名称和医疗机构地址；

步骤S602，服务器102将医疗机构名称以及所述医疗机构地址进行拼接，形成医疗机构信息字符串；从医疗机构信息字符串提取出多个至少包含一个字符的关键词信息；

步骤S603，若多个至少包含一个字符的关键词信息中包括至少两个相同的关键词信息，则服务器102对至少两个相同的关键词信息进行去重处理；获取去重处理后的关键词信息对应的哈希值；

步骤S604，服务器102获取关键词信息对应的词频以及逆向文本频率；根据词频以及逆向文本频率确定关键词信息的重要指数，并确定重要指数所在的重要指数区间；基于预先构建的区间权重对应关系，确定重要指数区间对应的关键词权重；

步骤S605，服务器102利用关键词权重对哈希值进行加权处理，确定关键词信息对应的加权数字串，得到多个加权数字串；将多个加权数字串进行累加，形成医疗机构数据对应的序列串；对序列串进行降维处理，得到哈希签名；

步骤S606，服务器102确定各医疗机构数据对应的排列次序；

步骤S607，服务器102获取位于当前排列次序之前的医疗机构数据的第一医疗机构区域信息，以及当前排列次序的医疗机构数据的第二医疗机构区域信息；

步骤S608，若第一医疗机构区域信息与第二医疗机构区域信息相匹配，则服务器102将所第一医疗机构区域信息对应的医疗机构数据的哈希签名作为第一哈希签名，以及当前排列次序的医疗机构数据的第二哈希签名；

步骤S609，服务器102确定第一哈希签名与第二哈希签名的汉明距离；

步骤S610，若第一医疗机构区域信息与第二医疗机构区域信息相匹配，则服务器102将第一医疗机构区域信息对应的医疗机构数据的哈希签名作为第一哈希签名；

步骤S611，服务器102将各医疗机构数据中对应于相同的医疗机构识别码的医疗机构数据进行合并处理。

上述处理医疗机构数据的方法中，通过服务器102得到多个医疗机构数据的哈希签名，计算哈希签名的相似度从而得到医疗机构识别码，再将相同的医疗机构识别码对应的医疗机构数据合并，从而可避免服务器102得到的医疗机构数据中带有相同的数据，进而提高医疗机构数据的准确性。另外，服务器102通过获取关键词权重进而确定该字符串的哈希签名，有利于得到准确的哈希签名。并且，关键词的权重是服务器102通过关词频以及逆向文本频率得到，有利于提高得到的关键词权重的准确性。服务器102还对得到的相同关键词信息进行去重，对去重后的关键词信息进行哈希运算，有利于降低哈希运算的计算量，提高医疗机构数据处理的效率。同时，使服务器102对汉明距离小于预设汉明距离阈值设定相同的医疗机构识别码，可以使高相似度的医疗机构数据之间具有相同的医疗机构识别码，以及通过设定排列次序的方式以及判断医疗机构区域信息的方式进一步减少汉明距离的计算量，从而提高医疗机构数据处理的效率。

在一个实施例中，如图7所示，还提供了一种构建医疗机构数据库的方法，以该方法应用于图1中的服务器102为例进行说明，包括以下步骤：

步骤S701，服务器102获取待处理的医疗机构数据；

步骤S702，服务器102对医疗机构数据进行数据规范化处理，得到第一医疗机构数据；

步骤S703，服务器102利用如上任一项实施例所述的处理医疗机构数据的方法，对第一医疗机构数据进行去重合并处理，得到第二医疗机构数据；

步骤S704，服务器102基于第二医疗机构数据，构建医疗机构数据库。

具体地，当服务器102得到用户通过终端101输入的待处理的医疗机构数据之后，首先可以对其进行规范化处理，例如：去掉输入的连续重复词以及错别字，将缩写以及地名的别名进行还原，按照规范格式对医疗机构地址以及医疗机构名称进行转化等等，得到规范化处理后的第一医疗机构数据，之后再通过如上任一项实施例所述的处理医疗机构数据的方法，对第一医疗机构数据进行去重合并处理，得到去重合并处理后的第二医疗机构数据，并基于第二医疗机构数据，构建医疗机构数据库。

上述构建医疗机构数据库的方法，服务器102获取待处理的医疗机构数据；对医疗机构数据进行数据规范化处理，得到第一医疗机构数据；利用如上任一项实施例所述的处理医疗机构数据的方法，对第一医疗机构数据进行去重合并处理，得到第二医疗机构数据；基于第二医疗机构数据，构建医疗机构数据库。本申请通过对规范化处理以及去重合并处理的医疗机构数据构建医疗机构数据库，可以进一步提高医疗机构数据库存储的医疗机构数据的准确性。

在一个应用实例中，提供了一种基于文本挖掘算法的医疗机构知识库的构建、应用与维护方法，可应用于如图8所示的医疗机构信息的主数据管理系统中，主要涉及数据采集、处理/分析、维护与应用等环节。系统总体架构主要分为数据采集、数据处理与分析、数据应用等三大装置，其中，

1、数据采集装置，主要是同步、采集并整合多种异构数据源的数据。其中，构建医疗机构知识库涉及以下方面的数据：(1)医疗机构信息，如名称、地址、等级、类型、地址、门诊量等等，来源于权威机构、企业信息平台(如天眼查、企查查)以及互联网医疗平台(如39就医助手、99健康网、好大夫等)；(2)五级行政区划信息数据，来源于行政区划信息查询平台、行政区划网等；(3)位置信息，如地址、经纬度等，主要通过调用百度/高德地图公开的API数据接口来获取。

2、数据处理与分析装置，用于实现对各种原始数据(以医疗机构为主)进行清洗、加工、分析，进而构建出医疗机构知识库。在处理与分析的过程中，主要进行了以下几个部分的处理与分析步骤：

(1)首先识别出非医疗机构并剔除，例如，“某兽药饲料门诊部”；

(2)构建错别字库，通过调用错别字库，对机构名称或地址中出现的错别字进行修正，例如“某揽镇”修正为“某榄镇”，“颖某县”修正为“颍某县”，“勋某县”修正为“郧某县”，等等；

(3)构建缩写/简写词库，通过调用缩写/简写词库，对机构名称或地址中出现的缩写、简写词进行还原，例如，“融水县”还原为“融水某自治县”，“疾控中心”还原为“疾病预防控制中心”，“重医大”还原为“重庆医科大学”，等等；

(4)构建地域名称别名/曾用名词库，例如，“户县”为现在某市的“鄠邑区”，“郫县”为现在某市的“郫都区”，等等，通过调用地域名称别名/曾用名词库，对机构名称或地址中出现的地名进行还原；

(5)去掉机构名称或地址中连续出现的重复词，例如，“某街道街道办事处城中社区卫生服务中心”，“某儿童医院医院”，等，主要通过分词后是否连续出现多个相同的词并删除来实现；

(6)根据行政区划信息，从机构名称或地址中依次判断出省份、城市、区/县、街道/乡镇等区域信息；

(7)由于同一机构在不同来源网站上的名称写法不一致，例如，“某县人民医院”与“某县医院”，或者同一来源同类机构的名称写法也有所不同，例如权威机构中“某市承留卫生院”、“某县某中心卫生院”、“某县某镇卫生院”等卫生院命名格式不一致，因此，需要对机构名称进行规范化。为此，我们参考了权威机构的相关文件以及权威机构的机构名称写法，梳理出一套权威机构的各类各级医疗机构名称的规范格式，并对机构名称进行规范化处理；

(8)机构地址的写法也不一致，为此，我们参考了权威机构的相关的地址规范文件，梳理出地址的规范格式，对机构地址进行规范化处理；

(9)其他属性规范化处理，包括机构等级(三级、二级、一级、未定级等)、门诊量等；

(10)运用机器学习算法对医疗机构属于哪个类型进行判断，其中，机构类型包括医院、社区卫生服务中心、卫生院、门诊部、诊所、卫生室、医务室、疾病预防控制中心、妇幼保健院、专科疾病防治院、疗养院等等。

(11)构建医疗机构别名/曾用名词库，例如，“A1医院”的曾用名为“A2医院”，“某省立第三医院”又叫“某省交通医院”，等等，通过调用医疗机构别名/曾用名词库，对规范化处理之后的机构名称进行识别与替换；

(12)经过上述一系列的处理之后，仍然会出现同一机构的名称不完全相同的情况，合并处理时会被认为是不同的机构。为此，本专利方案采用了一种改进的Simhash算法，根据机构名称、省份、城市、区/县、地址、机构类型、法人等信息，判断两个机构是否是同一家机构，并进行去重及合并相关信息。

3、数据应用与维护装置，通过对外提供数据接口服务，用于实现智能检索、销售线索挖掘、营销资源布局与规划等方面。另外，通过相同机构识别与合并，将内部CRM系统既有的医疗机构与知识库的医疗机构进行有效匹配与对应，进而知道CRM中既有医疗机构的名称、省份/城市、地址、类型、等级等信息。

本专利方案各装置涉及到的主要算法及功能的实现步骤具体如下：

1、去掉重复词：

重复词的出现主要是由于各来源系统用户人工录入而引起的，对于如何去掉机构名称或地址中连续出现的重复词，采用的做法具体如下：

步骤1：文本分词，保持得到的关键词顺序不变；

步骤2：循环判断每个关键词是否与上一个关键词相同，若相同则删除，否则保留；

步骤3：将保留的关键词按原来顺序重新拼接成文本。

2、省市区县提取：

本专利方案提出了一种按顺序依次提取子字符串并与行政区划信息比对来找出最优结果的方法。具体做法如下：

(1)加载行政区划信息数据，将每个地名处理成映射结构；

(2)依次处理机构名称+地址；

(3)从左往右提取所有可能的子字符串，从第一个字符开始，向右依次累加多截取1个字符，直到字符串末尾，然后再从第二个字符开始，对于每一个字符串，都会得到(n+1)n/2个子字符串。其中，n为字符串长度。其中，次序表示子字符串在提取过程中出现的先后顺序；

(4)循环处理步骤(3)得到每一个子字符串，在步骤(1)的行政区划映射结构中查找(即精准匹配地名)。如果能够找到，则根据三级行政区划完整度、行政区划名称完整度以及地名所在的字符位置来计算字符串与三级行政区划(省份-城市-区县)的匹配得分，该分值大小反映了地名名称的三级行政区划完整度。

(5)如果从机构名称或地址中判断不出城市或区/县，通过调用百度地图API来获取省、市、区/县、经纬度等信息，然后执行步骤(1)-(4)来进一步判断；若调用百度地图API得不到准确的结果，则通过人工对机构名称或地址作以适当的修正，再执行步骤(1)-(4)来进一步判断。

本专利方法误判率低，且经评估，时间复杂度约为O(n^2)。如果采用常用做法，即遍历行政区划列表以模糊匹配机构名称或地址，时间复杂度可以达到O(k*n)，其中，行政区划个数为k，字符长度为n，k是>>n的，因此，本专利方法的时间复杂度要低于常用的做法。

3、机构名称规范化处理：

根据《新医疗机构管理条例实施细则》以及参考了权威机构的机构名称写法，我们梳理出了各个类型机构的规范化命名格式，明确了机构名称的规范化格式之后，本专利方案采取的是先减后加的做法，也就是说，先剔除字符串中的省份、城市、区/县等短文本，再按规范化格式将相关的信息拼接起来。

4、地址的规范化处理：

地址的写法多样，而且“噪音”很多，因此也需要规范化处理。根据《某市政监管信息化地理编码》、《某市地方标准-地址数据库建设技术规范》等文件，我们梳理出地址的规范化格式，在明确了地址的规范化格式之后，本专利方案采取的是先减后加的做法，也就是说，先剔除字符串中的省份、城市、区/县等短文本，再按规范化格式将相关的信息拼接起来。

5、机构类型的判断

机构类型主要依据权威机构的的《卫生健康统计年鉴》来进行划分，包括医院、社区卫生服务中心、卫生院、门诊部、诊所、卫生室、医务室、疾病预防控制中心、妇幼保健院、专科疾病防治院、疗养院、等等。

从机构名称中可以知道机构类型。但由于机构名称中会出现多个命名实体，而且实体出现的先后顺序没有明显固定的范式，顺序不同可能类型也不同，例如，“某市人民医院某社区卫生服务中心”、“某大学社区卫生服务中心某大学医院”，因此，通过规则来直接判断，很难做到穷举所有情况来梳理出完整的规则。本专利方案采用一种基于词共现的文本分类算法，用以判断机构名称属于哪个类型，具体做法如下：

(1)清洗、整理已知类型的医疗机构样本数据以及一些人工标注数据，作为算法模型的训练样本数据；

(2)对机构名称进行分词，去掉停用词；

(3)考虑一些命名实体词在机构名称中共同出现的情况，它们的先后顺序不同可能会影响机构的类型，为此，对于机构名称dn，我们创建共现词组(kni,knj)来表示关键词kni与knj共同出现在机构名称dn，且出现的先后顺序依次为kni、knj；

这里只考虑与医疗机构关联较大的命名实体，如医院、医院、中心、卫生院、门诊、诊所、卫生室、医务室、保健院、防治院、疗养院、等等。可根据实际情况来确定；

(4)根据分词得到关键词以及上述的共现词组，构建空间向量模型D；

(5)利用基于线性核函数的SVM算法，建立分类预测模型，对机构类型进行判断；

(6)对一些误判率较高的情况，则通过手工规则来修正。

6、医疗机构去重合并：

经过上述一系列的处理步骤，医疗机构的名称、省份、城市、区县、地址等维度的信息已经得到了有效的清洗和规范，但“噪音”仍然会存在，这会影响同一机构的识别与合并。本专利方案采用了一种改进的Simhash算法，在同一区域(省份-城市-区县)下从名称和地址来判断两个机构是否相同，然后对相同的机构进行合并，如图9所示，总体包括如下步骤：

第一步：Hash计算及指纹库建立；

假定，S＝{s1,s2,…,sn}为输入集合，其中si为医疗机构及其属性信息，处理流程如图10所示：

(1)分词

对于每一个医疗机构si，将名称、省份、城市、区县、地址拼接城一个字符串ti，然后进行分词，去除停用词，并对分词后得到的关键词进行去重；

(2)计算权重

对于每一个字符串ti，计算TF-IDF值来评估各关键词wj在字符串ti中的重要程度。

关键词wj的TF-IDF值计算公式如下：

TF-IDFij＝TFij*IDFj

其中，TFij表示各关键词wj在字符串ti中出现的频率，即

TFij＝各关键词wj在字符串ti中出现的次数/字符串ti的关键词个数

由于步骤(1)已经对关键词去重，所以每个关键词wj在字符串ti中出现的次数均为1。

而IDFj指逆向文本频率，即

IDFj＝log(字符串个数/(含关键词wj的字符串个数+1))

如果含关键词wj的字符串个数越小，IDFj值越大，则说明关键词wj的类别区分能力越好。

相应地，如果关键词wj在字符串ti中的TF-IDFij值越大，说明关键词wj在字符串ti中的重要性越高。

然后将每个关键词的TF-IDF值转换成1-5个分值，数字越大表示该关键词对所在字符串越重要。

(3)计算Hash值

使用hash算法将每个关键词转换成hash值，例如，“A市”的hash值为01110110，“B”的hash值为01011110。这样就把文本字符串转换成0-1二进制字符串，这是一种降维的过程。

(4)加权

对于每个关键词，对其Hash值的每一位，如果为0，则变为-1，然后乘以关键词的权重。例如，“A市”的hash值加权计算后得到“-4444-444-4”,“B”的hash值加权计算后得到“-55-55555-5”。

(5)合并

对于每一个字符串ti，将其所有关键词的加权数字串进行累加，得到一个序列串。

(6)降维

将上面得到的每个字符串ti的序列串转换成0-1串，即，如果序列串中的某位数字大于0，则变为1，否则变为0，这样就得到了最终的Simhash签名，即得到了字符串ti的指纹。这样就得到了Simhash指纹库H＝{h1,h2,…,hn}。

第二步：计算距离及相同机构识别

假设R＝{r1,r2,…,rn}为结果集合，并按省份、城市、区县、Hash值建立组合索引。

依次循环处理Simhash指纹库H中的每个元素，对于第i个元素hi，已经处理完前面i-1个元素，并放入了结果集合R中。

对于第i个元素hi，根据组合索引，找到集合R与hi相同省份、城市、区县的元素，依次计算hi与这些元素的Hamming距离(基于Simhash签名)，如果hi与某个元素距离小于设定的阈值(本方案设定为3)，则认为hi与该元素相同，并将该元素的ID赋给hi，并将元素hi存入集合R中。如果找不到与元素hi相同的元素，则为元素hi创建一个新的ID，同时将元素hi存入集合R中。

Hamming距离是指两个字符串之间相应位置的相异字符的数量。对于Simhash指纹来说，Hamming距离计算的是两个等长度的二进制码字之间位置相同但位码不同的码字数量。两个Simhash指纹x、y之间的Hamming距离计算公式如下：

其中，

表示x_i与y_i进行异或运算，即x_i与y_i的值不同，则为1，相同则为0。

第三步：相同机构信息合并

这样得到的结果集合R中，被认为相同机构的元素都被赋予相同的ID。根据ID，对机构名称、省份、城市、区县、地址、等级、类型、等等信息进行合并。这样就得到了全国医疗机构知识库，里面各个维度的信息都经过了上述的清洗、加工与整合。

7、医疗机构知识库应用与维护

(1)内部CRM系统既有医疗机构数据清洗

对于医疗企业来说，CRM系统已维护的医疗机构信息，存在着名称不一致、不规范、重名、别名、错别字、信息缺失等多种数据质量的问题。由于其他业务系统或业务报表会用到这些已维护的医疗机构信息，如果将既有的医疗机构主数据推倒重建，势必会影响其他业务系统或报表数据。

合理可行的做法应该是，通过上述提到的处理流程，将CRM既有的医疗机构与医疗机构知识库中的医疗机构进行有效匹配，即用医疗机构知识库中相同的医疗机构的信息(包括名称、省份、城市、区县、地址、类型、等级等)来替换CRM的医疗机构。

(2)智能检索

目前CRM系统的医疗机构主数据创建时，通常是在PC端或移动端(如APP)人工录入医疗机构名称、地址等相关信息。人工录入带来很多数据问题，即使是同一家机构，不同的人员录入也会产生并不完全相同的名称。为避免这个问题，可在人工录入时，提示正确的名称写法，让人选择而不是让人填写，这样就提高了录入的准确率，也保证了数据的规范。整体流程如下，如图11所示：

第一步，用户在PC端或移动端的页面输入关于医疗机构的信息，不需要精准、详细地输入机构名称，例如，“A市附属”，当然，输入的信息越详细，越能够检索到用户想要填写的信息；

第二步，通过后台部署的ElasticSearch搜索引擎，后台系统即时对输入的文本进行分词、解析、清洗；

第三步，将解析处理后的文本逐一与医疗机构知识库中每一个机构进行匹配，计算匹配得分；

第四步，根据匹配得分，找出与输入信息最匹配的N个医疗机构；

第五步，将这N个医疗机构名称反馈页面，让用户进一步选择。用户选择最符合的机构后，页面上返回与该机构的名称、省份、城市、区县、地址等信息，而用户不需要再手工填写这些信息。

(3)销售线索挖掘、营销资源布局与规划

医疗企业一般都知道哪些医疗机构使用了他们的产品或服务，但他们并不知道还有哪些机构没有使用他们的产品或服务，哪些机构是他们的潜在目标客户。通过医疗机构知识库与CRM既有的医疗机构的对比，还可以知道哪些机构没有使用自己的产品或服务，也可以知道在具体某个区域上，有多少机构是自己的潜在目标客户。这样就可知道自己产品在该区域上的覆盖情况。自己产品在哪些区域上覆盖率高，在哪些区域覆盖率低，这样有助于企业在营销资源的投放上进行更合理的规划与协调。

(4)医疗机构知识库的维护与更新

将医疗机构数据的处理/分析流程封装成灵活、稳定的程序模块装置，通过网络数据采集技术，从相关渠道定期获取医疗机构信息，即可定期启动这一装置来进行处理/分析。对于最新等级注册的医疗机构，可以通过上面一些系列的处理/分析，更新到医疗机构知识库中。医疗机构知识库中医疗机构的相关属性信息(如类型、等级)，也可以定期更新。

上述应用实例中，提出了一种有效构建医疗机构知识库的数据解决方案，贯穿从采集、处理/分析到构建知识库、再到如何应用的整个过程，解决了大多医疗企业面临的医疗机构主数据维护难、应用难的问题。另外，在核心关键环节上综合考虑算法与实际数据情况相结合，提出有效、可落地、改进的技术方法。在省市区县信息提取方面，按顺序依次提取子字符串并与行政区划信息比对来找出最优结果的方法，误判率低，且时间复杂度也较低；在机构类型属性判断方面，考虑了某些实体出现先后顺序不同导致类型不同的情况，在构造向量空间时，引入了体现关键词顺序的共现词组，运用基于线性核函数的SVM分类算法，对机构类型进行准确判断；在相同机构识别与合并方面，涉及到海量文本快速去重，采用了Simhash算法，准确率高，处理效率高。

应该理解的是，虽然本申请的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图12所示，提供了一种处理医疗机构数据的装置，包括：机构数据获取模块1201、哈希签名确定模块1202、机构识别码确定模块1203和机构数据合并模块1204，其中：

机构数据获取模块1201，用于获取待处理的多个医疗机构数据；

哈希签名确定模块1202，用于确定各医疗机构数据的哈希签名；

机构识别码确定模块1203，用于根据各医疗机构数据的哈希签名之间的相似度，得到各医疗机构数据的医疗机构识别码；

机构数据合并模块1204，用于将各医疗机构数据中对应于相同的医疗机构识别码的医疗机构数据进行合并处理。

在一个实施例中，医疗机构数据包括医疗机构名称和医疗机构地址；哈希签名确定模块1202，进一步用于将医疗机构名称以及医疗机构地址进行拼接，形成医疗机构信息字符串；从医疗机构信息字符串提取出多个至少包含一个字符的关键词信息，并获取各关键词信息对应的哈希值，以及获取各关键词信息对应的关键词权重；根据哈希值以及关键词权重，确定哈希签名。

在一个实施例中，哈希签名确定模块1202，进一步用于获取关键词信息对应的词频以及逆向文本频率；根据词频以及逆向文本频率确定关键词信息的重要指数，并确定重要指数所在的重要指数区间；基于预先构建的区间权重对应关系，确定重要指数区间对应的关键词权重；其中，区间权重对应关系包括有不同的重要指数区间与不同的关键词权重的对应关系。

在一个实施例中，哈希签名确定模块1202，进一步用于利用关键词权重对哈希值进行加权处理，确定关键词信息对应的加权数字串，得到多个加权数字串；将多个加权数字串进行累加，形成医疗机构数据对应的序列串；对所序列串进行降维处理，得到哈希签名。

在一个实施例中，哈希签名确定模块1202，进一步用于若多个至少包含一个字符的关键词信息中包括至少两个相同的关键词信息，则对至少两个相同的关键词信息进行去重处理；获取去重处理后的关键词信息对应的哈希值。

在一个实施例中，机构识别码确定模块1203，进一步用于确定各医疗机构数据对应的排列次序；获取位于当前排列次序之前的医疗机构数据的第一哈希签名，以及当前排列次序的医疗机构数据的第二哈希签名；确定所第一哈希签名与所第二哈希签名的汉明距离；若第一哈希签名与第二哈希签名的汉明距离小于预设的汉明距离阈值，则将第一哈希签名对应的医疗机构数据的医疗机构识别码作为当前排列次序的医疗机构数据的医疗机构识别码。

在一个实施例中，医疗机构数据包括医疗机构区域信息；机构识别码确定模块1203，进一步用于获取位于当前排列次序之前的医疗机构数据的第一医疗机构区域信息，以及当前排列次序的医疗机构数据的第二医疗机构区域信息；若第一医疗机构区域信息与第二医疗机构区域信息相匹配，则将所第一医疗机构区域信息对应的医疗机构数据的哈希签名作为第一哈希签名。

在一个实施例中，机构识别码确定模块1203，还用于若汉明距离中不包含小于预设的汉明距离阈值的汉明距离，则为当前排列次序的医疗机构数据创建医疗机构识别码。

关于处理医疗机构数据的装置的具体限定可以参见上文中对于处理医疗机构数据的方法的限定，在此不再赘述。上述处理医疗机构数据的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，如图13所示，提供了一种构建医疗机构数据库的装置，包括：待处理数据获取模块1301、数据规范化处理模块1302、数据去重合并模块1303和机构数据库构建模块1304，其中：

待处理数据获取模块1301，用于获取待处理的医疗机构数据；

数据规范化处理模块1302，用于对医疗机构数据进行数据规范化处理，得到第一医疗机构数据；

数据去重合并模块1303，用于利用如上任一项实施例所述的处理医疗机构数据的方法，对第一医疗机构数据进行去重合并处理，得到第二医疗机构数据；

机构数据库构建模块1304，用于基于第二医疗机构数据，构建医疗机构数据库。

关于构建医疗机构数据库的装置的具体限定可以参见上文中对于构建医疗机构数据库的方法的限定，在此不再赘述。上述构建医疗机构数据库的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储医疗机构数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种处理医疗机构数据的方法或构建医疗机构数据库的方法。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种处理医疗机构数据的方法，其特征在于，所述方法包括：

获取待处理的多个医疗机构数据；

确定各医疗机构数据的哈希签名；

2.根据权利要求1所述的方法，其特征在于，所述医疗机构数据包括医疗机构名称和医疗机构地址；所述确定各医疗机构数据的哈希签名，包括：

将所述医疗机构名称以及所述医疗机构地址进行拼接，形成医疗机构信息字符串；

从所述医疗机构信息字符串提取出多个至少包含一个字符的关键词信息，并获取各关键词信息对应的哈希值，以及获取所述各关键词信息对应的关键词权重；

根据所述哈希值以及所述关键词权重，确定所述哈希签名。

3.根据权利要求2所述的方法，其特征在于，所述获取所述各关键词信息对应的关键词权重，包括：

获取所述关键词信息对应的词频以及逆向文本频率；

根据所述词频以及所述逆向文本频率确定所述关键词信息的重要指数，并确定所述重要指数所在的重要指数区间；

基于预先构建的区间权重对应关系，确定所述重要指数区间对应的关键词权重；其中，所述区间权重对应关系包括有不同的重要指数区间与不同的关键词权重的对应关系。

4.根据权利要求2所述的方法，其特征在于，所述根据所述哈希值以及所述关键词权重，确定所述哈希签名，包括：

利用所述关键词权重对所述哈希值进行加权处理，确定所述关键词信息对应的加权数字串，得到多个加权数字串；

将所述多个加权数字串进行累加，形成所述医疗机构数据对应的序列串；

对所述序列串进行降维处理，得到所述哈希签名。

5.根据权利要求2至4任意一项所述的方法，其特征在于，所述获取各关键词信息对应的哈希值，包括：

若所述多个至少包含一个字符的关键词信息中包括至少两个相同的关键词信息，则对所述至少两个相同的关键词信息进行去重处理；

获取去重处理后的关键词信息对应的哈希值。

6.根据权利要求1所述的方法，其特征在于，所述根据各医疗机构数据的哈希签名之间的相似度，得到所述各医疗机构数据的医疗机构识别码，包括：

确定所述各医疗机构数据对应的排列次序；

获取位于当前排列次序之前的医疗机构数据的第一哈希签名，以及所述当前排列次序的医疗机构数据的第二哈希签名；

确定所述第一哈希签名与所述第二哈希签名的汉明距离；

若所述第一哈希签名与所述第二哈希签名的汉明距离小于预设的汉明距离阈值，则将所述第一哈希签名对应的医疗机构数据的医疗机构识别码作为所述当前排列次序的医疗机构数据的医疗机构识别码。

7.根据权利要求6所述的方法，其特征在于，所述医疗机构数据包括医疗机构区域信息；所述获取位于当前排列次序之前的医疗机构数据的第一哈希签名，包括：

获取位于当前排列次序之前的医疗机构数据的第一医疗机构区域信息，以及所述当前排列次序的医疗机构数据的第二医疗机构区域信息；

若所述第一医疗机构区域信息与所述第二医疗机构区域信息相匹配，则将所述第一医疗机构区域信息对应的医疗机构数据的哈希签名作为所述第一哈希签名。

8.根据权利要求6或7所述的方法，其特征在于，所述方法还包括：

若所述汉明距离中不包含小于预设的汉明距离阈值的汉明距离，则为所述当前排列次序的医疗机构数据创建所述医疗机构识别码。

9.一种构建医疗机构数据库的方法，其特征在于，所述方法包括：

获取待处理的医疗机构数据；

利用如权利要求1至8任一项所述的处理医疗机构数据的方法，对所述第一医疗机构数据进行去重合并处理，得到第二医疗机构数据；

基于所述第二医疗机构数据，构建医疗机构数据库。

10.一种处理医疗机构数据的装置，其特征在于，所述装置包括：

机构数据获取模块，用于获取待处理的多个医疗机构数据；

哈希签名确定模块，用于确定各医疗机构数据的哈希签名；

11.一种构建医疗机构数据库的装置，其特征在于，所述装置包括：

待处理数据获取模块，用于获取待处理的医疗机构数据；

数据去重合并模块，用于利用如权利要求1至8任一项所述的处理医疗机构数据的方法，对所述第一医疗机构数据进行去重合并处理，得到第二医疗机构数据；

12.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。