CN111899822B - 医疗机构数据库构建方法、查询方法、装置、设备和介质 - Google Patents

医疗机构数据库构建方法、查询方法、装置、设备和介质 Download PDF

Info

Publication number
CN111899822B
CN111899822B CN202010597104.0A CN202010597104A CN111899822B CN 111899822 B CN111899822 B CN 111899822B CN 202010597104 A CN202010597104 A CN 202010597104A CN 111899822 B CN111899822 B CN 111899822B
Authority
CN
China
Prior art keywords
information
medical
medical institution
institution
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010597104.0A
Other languages
English (en)
Other versions
CN111899822A (zh
Inventor
黄进然
林璟
司亚彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Wondfo Biotech Co Ltd
Original Assignee
Guangzhou Wondfo Biotech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Wondfo Biotech Co Ltd filed Critical Guangzhou Wondfo Biotech Co Ltd
Priority to CN202010597104.0A priority Critical patent/CN111899822B/zh
Publication of CN111899822A publication Critical patent/CN111899822A/zh
Application granted granted Critical
Publication of CN111899822B publication Critical patent/CN111899822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请涉及一种医疗机构数据库构建方法、医疗机构数据查询方法、装置、计算机设备和存储介质。所述方法包括:获取待处理的医疗机构数据;从医疗机构数据中获取各医疗机构的机构区域信息,以及获取各医疗机构的机构类型信息;按照预设的规范化格式,将机构区域信息和机构类型信息转化为针对于各医疗机构的机构描述信息,得到多个第一机构描述信息;对多个第一机构描述信息进行去重合并处理,得到多个第二机构描述信息;基于多个第二机构描述信息,得到针对于各医疗机构的医疗机构数据库。采用本方法能够避免医疗机构信息出现的称不一致、不规范、重名、别名、错别字、信息缺失等问题,避免了人工复查的同时提高医疗机构信息的准确性。

Description

医疗机构数据库构建方法、查询方法、装置、设备和介质
技术领域
本申请涉及医疗数据处理技术领域,特别是涉及一种医疗机构数据库构建方法、医疗机构数据查询方法、装置、计算机设备和存储介质。
背景技术
随着信息处理技术的发展,企业数字化转型已经越来越成为企业数字化发展的重要课题,越来越多的企业通过数字化改变企业销售,变革内部运营,全面重塑业务。而对于医药医疗领域的企业而言,对医疗机构信息的数字化处理,则是医疗企业数字化转型的重要组成部分。
目前,对医疗机构信息的处理大多是通过销售或技术工程师在客户关系管理平台手工录入例如机构名称,机构地址和机构所在区域等医疗机构信息形成医疗机构知识库。然而,这种医疗机构信息的处理方式,容易出现名称不一致、不规范、重名、别名、错别字、信息缺失等诸多问题,而如果需要人工复查,则需要花费大量的人力和时间来完成。因此,目前的医疗机构知识库中存储的医疗机构信息准确性低。
发明内容
基于此,有必要针对上述技术问题,提供一种医疗机构数据库构建方法、医疗机构数据查询方法、装置、计算机设备和存储介质。
一种医疗机构数据库构建方法,所述方法包括:
获取待处理的医疗机构数据;
从所述医疗机构数据中获取各医疗机构的机构区域信息,以及获取所述各医疗机构的机构类型信息;
按照预设的规范化格式,将所述机构区域信息和机构类型信息转化为针对于所述各医疗机构的机构描述信息,得到多个第一机构描述信息;
对所述多个第一机构描述信息进行去重合并处理,得到多个第二机构描述信息;
基于所述多个第二机构描述信息,得到针对于所述各医疗机构的医疗机构数据库。
在其中一个实施例中,所述从所述医疗机构数据中获取各医疗机构的机构区域信息,包括:从所述医疗机构数据中提取各医疗机构的医疗机构名称以及医疗机构地址;将所述医疗机构名称以及所述医疗机构地址进行拼接,形成医疗机构区域信息字符串;从所述医疗机构区域信息字符串中按预设顺序提取至少包含一个字符的子字符串,形成多个医疗机构区域信息子字符串;若所述多个医疗机构区域信息子字符串与预设的行政区划信息相匹配,则获取各目标子字符串与所述预设的行政区划信息的匹配度;所述目标子字符串为与所述预设的行政区划信息相匹配的医疗机构区域信息子字符串;选取所述匹配度最大的目标子字符串所对应的行政区划信息作为所述区域信息。
在其中一个实施例中,所述获取各目标子字符串与所述预设的行政区划信息的匹配度,包括:获取所述目标子字符串的信息完整度以及所述目标子字符串的次序;基于所述目标子字符串的信息完整度以及所述目标子字符串的次序确定所述匹配度。
在其中一个实施例中,所述获取所述各医疗机构的机构类型信息,包括:从所述医疗机构数据中提取各医疗机构的医疗机构名称;将所述医疗机构名称输入预先构建的分类预测模型,获取所述机构类型信息。
在其中一个实施例中,所述方法还包括:获取样本医疗机构的样本医疗机构数据以及所述样本医疗机构的样本机构类型;从所述样本医疗机构数据中提取各样本医疗机构的样本医疗机构名称,对所述样本医疗机构名称进行分词处理,得到用于描述所述样本机构类型的多个命名实体词;获取由所述多个命名实体词按预设顺序组成的共现词组;基于所述样本机构类型,利用所述多个命名实体词以及所述共现词组进行训练,得到所述分类预测模型。
在其中一个实施例中,所述从所述医疗机构数据中获取各医疗机构的机构区域信息,以及获取所述各医疗机构的机构类型信息之前,所述方法还包括:基于预设的错别字库,对所述医疗机构数据中的错别字进行修正;基于预设的缩写词库,对所述医疗机构数据中的缩写词进行还原;和/或基于预设的地域名称别名词库,对所述医疗机构数据中的地域名称进行还原。
在其中一个实施例中,所述获取待处理的医疗机构数据之后,所述方法还包括:按照词序从所述医疗机构数据中提取出多个关键词信息;若所述关键词信息与所述关键词信息的上一个关键词信息相同,则将所述关键词信息删除;将剩余的多个关键词信息按照所述词序拼接得到医疗机构数据;其中,拼接得到的所述医疗机构数据,用于获取所述机构区域信息和所述机构类型信息。
一种医疗机构数据查询方法,所述方法包括:
获取待查询医疗机构的文本信息;
向医疗机构数据库发送携带所述文本信息的数据查询请求;所述数据查询请求,用于所述医疗机构数据库反馈与所述文本信息的匹配度大于预设匹配度阈值的至少一个机构描述信息;所述医疗机构数据库,根据如上述的医疗机构数据库构建方法构建;
获取所述医疗机构数据库反馈的所述至少一个机构描述信息。
一种医疗机构数据库构建装置,所述装置包括:
机构数据获取模块,用于获取待处理的医疗机构数据;
机构信息提取模块,用于从所述医疗机构数据中获取各医疗机构的机构区域信息,以及获取所述各医疗机构的机构类型信息;
信息规范处理模块,用于按照预设的规范化格式,将所述机构区域信息和机构类型信息转化为针对于所述各医疗机构的机构描述信息,得到多个第一机构描述信息;
信息去重处理模块,用于对所述多个第一机构描述信息进行去重合并处理,得到多个第二机构描述信息;
数据库构建模块,用于基于所述多个第二机构描述信息,得到针对于所述各医疗机构的医疗机构数据库。
一种医疗机构数据查询装置,所述装置包括:
文本信息获取模块,用于获取待查询医疗机构的文本信息;
查询请求发送模块,用于向医疗机构数据库发送携带所述文本信息的数据查询请求;所述数据查询请求,用于所述医疗机构数据库反馈与所述文本信息的匹配度大于预设匹配度阈值的至少一个机构描述信息;所述医疗机构数据库,根据如上述的医疗机构数据库构建方法构建;
描述信息获取模块,用于获取所述医疗机构数据库反馈的所述至少一个机构描述信息。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
上述医疗机构数据库构建方法、医疗机构数据查询方法、装置、计算机设备和存储介质,获取待处理的医疗机构数据;从医疗机构数据中获取各医疗机构的机构区域信息,以及获取各医疗机构的机构类型信息;按照预设的规范化格式,将机构区域信息和机构类型信息转化为针对于各医疗机构的机构描述信息,得到多个第一机构描述信息;对多个第一机构描述信息进行去重合并处理,得到多个第二机构描述信息;基于多个第二机构描述信息,得到针对于各医疗机构的医疗机构数据库。本申请通过对医疗机构数据进行规范化处理,并进行去重合并从而构建医疗机构数据库,可以避免医疗机构信息出现的称不一致、不规范、重名、别名、错别字、信息缺失等问题,避免了人工复查的同时,还可以提高医疗机构信息的准确性。
附图说明
图1为一个实施例中医疗机构数据库构建方法的应用环境图;
图2为一个实施例中医疗机构数据库构建方法的流程示意图;
图3为一个实施例中从医疗机构数据中获取各医疗机构的机构区域信息的流程示意图;
图4为一个实施例中分类预测模型训练的流程示意图;
图5为一个实施例中医疗机构数据进行关键词去重的流程示意图;
图6为另一个实施例中医疗机构数据库构建方法的流程示意图;
图7为一个实施例中医疗机构数据查询方法的流程示意图;
图8为一个应用实例中医疗机构信息的主数据管理系统的结构示意图;
图9为一个应用实例中医疗机构信息去重与合并的流程示意图;
图10为一个应用实例中医疗机构信息智能检索的流程示意图;
图11为一个实施例中医疗机构数据库构建装置的结构框图;
图12为一个实施例中医疗机构数据查询装置的结构框图;
图13为一个实施例中计算机设备的内部结构图;
图14为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的医疗机构数据库构建方法,可以应用于如图1所示的应用环境中。其中,终端101通过网络与服务器102通过网络进行通信。具体地,终端101可以采集用户录入的多个医疗机构的医疗机构数据,并通过网络等方式,将医疗机构数据发送至服务器102进行处理。服务器102接收到终端发送的医疗机构数据后,可以对采集到的医疗机构数据进行信息规范化以及信息去重等处理,并利用信息处理后的构建医疗机构数据库。其中,终端101可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种医疗机构数据库构建方法,以该方法应用于图1中的服务器102为例进行说明,包括以下步骤:
步骤S201,服务器102获取待处理的医疗机构数据。
其中,待处理的医疗机构数据指的是准备用于构造医疗机构数据库的医疗机构数据,待处理医疗机构数据的获取可以是终端101通过采集用户输入的医疗机构数据,并通过网络等方式将医疗机构数据传输至服务器102,也可以是服务器102主动从互联网中提取,例如从各医疗机构的官方网站中提取出相关信息,作为待处理的医疗机构数据。
步骤S202,服务器102从医疗机构数据中获取各医疗机构的机构区域信息,以及获取各医疗机构的机构类型信息。
其中,医疗机构的机构区域信息指的是医疗机构的所属区域,一般来说是由医疗机构的地址所决定。例如:某医疗机构A的机构地址为A省A市A区,医疗机构B的机构地址为A省A市B区,那么此时医疗机构A的所属区域则可以是A省A市A区,而医疗机构B的所属区域则可以是A省B市B区。而医疗机构的机构类型信息则指的是医疗机构的类型,可以包括多种,例如:医院、诊所、卫生站等多种不同机构类型。具体地,服务器102得到待处理的医疗机构数据后,可以从医疗数据中提取出该医疗机构数据中包括的全部医疗机构所属的机构区域信息,以及每个医疗机构的机构类型信息。
步骤S203,服务器102按照预设的规范化格式,将机构区域信息和机构类型信息转化为针对于各医疗机构的机构描述信息,得到多个第一机构描述信息。
其中,第一机构描述信息是指的规范化处理后的用于描述医疗机构的信息,例如可以是用于规范化处理后用于描述医疗机构地理位置的地址信息,也可以是用于描述医疗机构名字的机构名称信息,规范化格式则可以是预先存储入服务器102中,可以是与医疗机构相关的规范性文件相适应,一般来说,医疗机构数据的规范化格式可以是与该医疗机构的机构区域信息以及机构类型信息相关。
例如,医疗机构A的机构类型可以是省级医院,且该医疗机构A的所属区域为A省A市A区,此时规范化格式下的医疗机构A的机构名字则可以是A省A医院。而如果医疗机构B的机构类型为市级医院,且医疗机构B的所属区域为A省B市B区,那么规范化格式下的医疗机构B的机构名字则可以是B市B医院,若医疗机构B的机构类型为省级医院,那么规范化格式下的医疗机构B的机构名字则可以是A省B医院。可以看出,用于描述医疗机构名字的第一机构描述信息,即机构名称信息是可以由该医疗机构的机构区域信息以及机构类型信息按照某种方式组合而成,因此服务器102可以首先从提取出的该医疗机构的机构区域信息,以及该医疗机构的机构类型信息,按照预设的规范化格式进行转化,从而生成对应的第一机构描述信息。
步骤S204,服务器102对多个第一机构描述信息进行去重合并处理,得到多个第二机构描述信息。
具体地,不同用户使用终端101录入时有可能会存在将相同的医疗机构数据发送至服务器102,因此服务器102有可能得到相同的多个第一机构描述信息,因此,在步骤S203中服务器102得到了多个第一机构描述信息后,可以从第一机构描述信息中获取重复的多个第一机构描述信息,并对其进行去重合并处理,可以通过Simhash算法实现去重合并,从而得到多个第二机构描述信息。
步骤S205,服务器102基于多个第二机构描述信息,得到针对于各医疗机构的医疗机构数据库。
步骤S204得到多个第二机构描述信息后,服务器102可以将得到的多个第二机构描述信息存入数据库中,从而形成针对于各医疗机构的医疗机构数据库。
上述医疗机构数据库构建方法中,服务器102获取待处理的医疗机构数据;从医疗机构数据中获取各医疗机构的机构区域信息,以及获取各医疗机构的机构类型信息;按照预设的规范化格式,将机构区域信息和机构类型信息转化为针对于各医疗机构的机构描述信息,得到多个第一机构描述信息;对多个第一机构描述信息进行去重合并处理,得到多个第二机构描述信息;基于多个第二机构描述信息,得到针对于各医疗机构的医疗机构数据库。本申请通过服务器102对医疗机构数据进行规范化处理,并进行去重合并从而构建医疗机构数据库,可以避免医疗机构信息出现的称不一致、不规范、重名、别名、错别字、信息缺失等问题,避免了人工复查的同时,还可以提高医疗机构信息的准确性。
在一个实施例中,如图3所示,步骤S202进一步包括:
步骤S301,服务器102从医疗机构数据中提取各医疗机构的医疗机构名称以及医疗机构地址。
其中,医疗机构数据中至少应该包括用于描述该医疗机构地理位置的医疗机构地址以及用于描述该医疗机构的名字的医疗机构名称,服务器102可以从得到的医疗机构数据中提取出各个医疗机构的医疗机构地址,以及各医疗机构的医疗机构名称。
步骤S302,服务器102将医疗机构名称以及医疗机构地址进行拼接,形成医疗机构区域信息字符串。
具体地,医疗机构名称以及医疗机构地址一般是通过文字字符串的形式存储入服务器102,因此,服务器102从医疗机构数据中将医疗机构名称以及医疗机构地址提取出来后,可按照字符串顺序,将医疗机构名称以及医疗机构地址进行拼接,得到对应的医疗机构区域信息字符串。
步骤S303,服务器102从医疗机构区域信息字符串中按预设顺序提取至少包含一个字符的子字符串,形成多个医疗机构区域信息子字符串。
其中,至少包含一个字符的子字符串可以是一个字符组成的字符串,也可以是两个或以上的字符组成的字符串,预设顺序指的是预先设定的字符串提取顺序,可以是与用户通过终端101录入医疗机构数据的顺序相同,例如:从左到右提取子字符串。具体地,终端102可以从第一个字符开始,连续向右依次累加多1个字符,直到该字符串的最后一个字符,之后从第二个字符开始,重复以上过程,最后形成(n+1)n/2个子字符串,其中,n为字符串中包含的字符数。
例如:某字符串A的医疗机构区域信息字符串包含三个字符组成,分别为字符a1、字符a2以及字符a3。终端102可以从拼接得到的第一个字符即a1开始,分别按顺序获取由字符a1组成的子字符串1、字符a1和a2组成的子字符串2、字符a1、a2、a3组成的子字符串3,之后由第二个字符a2开始,重复以上过程,分别得到由字符a2组成的子字符串4以及由字符a2、a3组成的子字符串5,最后再由第三个字符a3开始,得到由字符a3组成的子字符串6,从而得到以上6个子字符串。
步骤S304,若多个医疗机构区域信息子字符串与预设的行政区划信息相匹配,则服务器102获取各目标子字符串与预设的行政区划信息的匹配度;目标子字符串为与预设的行政区划信息相匹配的医疗机构区域信息子字符串。
行政区划信息可以是通过全国五级行政区划信息形成的行政区划列表得以映射结构的形式实现,例如A省B市C区的形式,服务器102可以从提取出的多个医疗机构区域信息的子字符串中,与行政区划列表的行政区划信息一一进行匹配,如果存在相匹配的医疗机构区域信息子字符串,则将其设置为目标子字符串,并基于预设的匹配度算法,求得该目标子字符串与预设的行政区划信息的匹配度。
例如:预设的行政区划信息中可以存储有以字符a1和a2组成的行政区划信息1以及以字符a1、a2、a3组成的行政区划信息2,那么此时服务器102可将对应的子字符串2和子字符串3定义为目标子字符串,并基于该匹配度算法分别获取子字符串2与行政区划信息1的匹配度A以及子字符串3与行政区划信息2的匹配度B。
步骤S305,服务器102选取匹配度最大的目标子字符串所对应的行政区划信息作为区域信息。
步骤S304中服务器102得到针对某个医疗机构的多个目标子字符串与预设的行政区划信息的多个匹配度后,可以从中选取出匹配度最大的目标子字符串作为该医疗机构的区域信息。
进一步地,步骤S304可以进一步包括:服务器102获取目标子字符串的信息完整度以及目标子字符串的次序;基于目标子字符串的信息完整度以及目标子字符串的次序确定匹配度。
其中,信息完整度指的是目标子字符串中地名信息的完整性,例如对于地址为A省B市C区的某个医疗机构,其目标子字符串可以包括A、A省、A省B市、A省B市C区、B、B市、B市C区、C以及C区,那么此时A省B市C区的信息完整度则是得到的所有目标子字符串中信息完整度最高的,因此对应的匹配度也是最高的。另外,还可以同时获取该目标子字符串的次序,如果信息完整度最高的目标子字符串包含多个时,还可以根据次序确定其对应的匹配度,例如:可以为次序小的目标子字符串适当增加匹配度,以使得步骤S305中选取匹配度最大的目标子字符串时可以优先选择次序排在前面的目标子字符串对应的行政区划信息作为区域信息。
本实施例中,服务器102可以通过按顺序依次提取子字符串并与行政区划信息比对来找出最优结果的方式获取医疗机构区域的所属区域信息,可以降低医疗机构数据对机构区域信息的误判率,还可降低时间复杂度,另外还通过设置匹配度的方式,选择匹配度最大的目标子字符串所对应的行政区划信息作为区域信息,也有利于进一步降低误判率,提高区域信息获取的准确性。
在一个实施例中,步骤S202可以进一步包括:服务器102从医疗机构数据中提取各医疗机构的医疗机构名称;将医疗机构名称输入预先构建的分类预测模型,获取机构类型信息。
其中,医疗机构名称是用于描述各医疗机构的名字,一般来说可用于描述医疗机构的类型,例如A省A医院,则一般可以默认该机构的类型为医院,但可能存在某种情形,导致医疗机构名称可能存在多个用于描述机构类型的例如医院、诊所、卫生院等等的命名实体词,用于描述机构类型的特定实体词,例如:医院、诊所、卫生院等等。导致医疗机构的机构类型可能为多个,例如,B市人民医院C社区卫生服务中心,那么此时就难以判断其机构类型究竟是市级医院还是某个社区服务中心。因此,本申请为了实现准确识别各医疗机构的机构类型信息,通过将预先训练好的用于识别医疗机构的机构类型的分类预测模型存储于服务器102中,服务器102在得到医疗机构名称后,可将该医疗机构名称输入该分类预测模型,从而使得该模型输出各医疗机构对应的机构类型信息。
进一步地,如图4所示,该分类预测模型的训练过程可以包括如下步骤:
步骤S401,服务器102获取样本医疗机构的样本医疗机构数据以及样本医疗机构的样本机构类型;
步骤S402,服务器102从样本医疗机构数据中提取各样本医疗机构的样本医疗机构名称,对样本医疗机构名称进行分词处理,得到用于描述样本机构类型的多个命名实体词。
其中,样本医疗机构指的是用于训练分类识别模型的医疗机构,该医疗机构可以携带有样本医疗机构数据,以及已知的该样本医疗机构的机构类型。具体地,用户可以将样本医疗机构数据的样本医疗机构数据以及各样本医疗机构的机构类型数据作为训练数据输入至服务器102中,服务器102则可以从样本医疗机构数据中提取出各样本医疗机构的医疗机构名称,并将得到的机构名称进行分词处理,从而形成多个分词,并从分词中提取出可以用于描述样本机构类型的多个命名实体词。
步骤S403,服务器102获取由多个命名实体词按照预设顺序组成的共现词组。
其中,共现词组指的是在机构名称中多个命名实体词按照特定顺序组成的命名实体词词组,可以是用户根据实际需要进行设定。例如:命名实体词可以包括:医院、卫生服务中心以及门诊等等,那么即可构建由医院与卫生服务中心按顺序组成的共现词组1以及卫生服务中心与医院按顺序组成的共现词组2,又或者可以构建医院与门诊按顺序组成的共现词组3等等。具体地,用户可将同一个样本医疗机构名称中提取出的多个命名实体词,按照这些命名实体词在同一个样本医疗机构名称的出现顺序组成的多个共现词组,存储入服务器102,服务器102即可获取上述共现词组。
步骤S404,基于样本机构类型,服务器102利用多个命名实体词以及共现词组进行训练,得到分类预测模型。
具体地,服务器102得到命名实体词以及共现词组后,可将命名实体词以及共现词组构建空间向量模型,并基于样本机构类型,运用基于线性核函数的支持向量机分类算法从而构建分类预测模型。
上述实施例中,在构造向量空间时,引入了体现关键词顺序的共现词组进而构建分类预测模型,充分考虑了某些命名实体词出现先后顺序不同导致机构类型不同的情况,因此,可提高通过医疗机构名称对医疗机构的机构类型判断的准确性。
为了进一步提高服务器102构建的医疗机构数据库中存储的医疗机构数据的准确性,在一个实施例中,步骤S202之前,还可以包括:基于预设的错别字库,服务器102对医疗机构数据中的错别字进行修正;基于预设的缩写词库,服务器102对医疗机构数据中的缩写词进行还原;和/或基于预设的地域名称别名词库,服务器102对医疗机构数据中的地域名称进行还原。
由于用户通过终端101向服务器102录入医疗机构数据时,有可能录入错别字,对此,服务器102可以调用预设的错别字库,对录入的医疗机构数据的错别字进行修正。而对于用户录入的疾控中心等简写词,服务器102则可以通过调用缩写词库的方式将其还原,例如,疾控中心即可还原为疾病预防控制中心。另外,由于地域名称有可能会发生改变,服务器102在得到医疗机构数据后,调用预先构建的地域名称别名词库,对医疗机构数据中的地域名称进行相应的还原。
本实施例中,服务器102通过预先构建的错别字库、缩写词库以及地域名称别名词库,对得到的待处理的医疗机构数据进行修正,可以进一步提高服务器102构建的医疗机构数据库中存储的医疗机构数据的准确性。
另外,为了避免用户通过终端101输入医疗机构数据时,将重复的关键词输入至服务器102,在一个实施例中,如图5所示,步骤S201之后,还可以包括以下步骤:
步骤S501,服务器102按照词序从医疗机构数据中提取出多个关键词信息。
具体地,服务器102可以通过文本分词算法,从得到的医疗机构数据中按照词语的出现顺序提取得到多个关键词信息。
步骤S502,若关键词信息与关键词信息的上一个关键词信息相同,则服务器102将关键词信息删除。
服务器102得到了多个关键词信息后,可以从第二个关键词开始循环判断该关键词是否与上一个关键词相同,如果该关键词与上一个关键词相同,则将该关键词删除,若不相同,则将该关键词进行保留。如果关键词信息只有一个,则直接保留该关键词信息。
步骤S503,服务器102将剩余的多个关键词信息按照所序拼接得到医疗机构数据;其中,拼接得到的所述医疗机构数据,用于获取机构区域信息和机构类型信息。
步骤S502中服务器102将与上一个关键词相同的关键词删除后,可以将保留下的关键词按照词语的出现顺序重新拼接成为医疗机构数据,重新拼接后得到的医疗机构数据可用于服务器102根据重新拼接后得到的医疗机构数据获取该医疗机构的机构区域信息和机构类型信息。
本实施例中,服务器102通过将与上一个关键词信息相同的关键词信息删除,可实现对医疗机构数据中出现的重复关键词进行去重处理,并基于去重处理后的医疗机构数据获取各医疗机构的机构区域信息以及机构类型信息。可以进一步提高得到的机构区域信息以及机构类型信息的准确性。
在一个实施例中,如图6所示,还提供了一种医疗机构数据库构建方法,以该方法应用于图1中的服务器102为例进行说明,包括以下步骤:
步骤S601,服务器102获取待处理的医疗机构数据;
步骤S602,服务器102按照词序从医疗机构数据中提取出多个关键词信息;若关键词信息与关键词信息的上一个关键词信息相同,则将关键词信息删除;将剩余的多个关键词信息按照词序拼接得到用于获取机构区域信息和机构类型信息的医疗机构数据;
步骤S603,服务器102基于预设的错别字库,对医疗机构数据中的错别字进行修正;基于预设的缩写词库,对医疗机构数据中的缩写词进行还原;基于预设的地域名称别名词库,对医疗机构数据中的地域名称进行还原;
步骤S604,服务器102从医疗机构数据中提取各医疗机构的医疗机构名称以及医疗机构地址;将医疗机构名称以及医疗机构地址进行拼接,形成医疗机构区域信息字符串;从医疗机构区域信息字符串中按预设顺序提取至少包含一个字符的子字符串,形成多个医疗机构区域信息子字符串;
步骤S605,若多个医疗机构区域信息子字符串与预设的行政区划信息相匹配,则服务器102获取目标子字符串的信息完整度以及目标子字符串的次序;基于目标子字符串的信息完整度以及目标子字符串的次序确定匹配度;
步骤S606,服务器102选取匹配度最大的目标子字符串所对应的行政区划信息作为区域信息;
步骤S607,服务器102获取样本医疗机构的样本医疗机构数据以及样本医疗机构的样本机构类型;从样本医疗机构数据中提取各样本医疗机构的样本医疗机构名称,对样本医疗机构名称进行分词处理,得到用于描述样本机构类型的多个命名实体词;
步骤S608,服务器102获取由多个命名实体词按预设顺序组成的共现词组;基于样本机构类型,利用多个命名实体词以及所述共现词组进行训练,得到分类预测模型;
步骤S609,服务器102从医疗机构数据中提取各医疗机构的医疗机构名称;将医疗机构名称输入预先构建的分类预测模型,获取机构类型信息;
步骤S610,服务器102按照预设的规范化格式,将机构区域信息和机构类型信息转化为针对于各医疗机构的机构描述信息,得到多个第一机构描述信息;
步骤S611,服务器102对多个第一机构描述信息进行去重合并处理,得到多个第二机构描述信息;
步骤S612,服务器102基于多个第二机构描述信息,得到针对于各医疗机构的医疗机构数据库。
上述医疗机构数据库构建方法,服务器102对医疗机构数据进行规范化处理,并进行去重合并从而构建医疗机构数据库,可以避免医疗机构信息出现的称不一致、不规范、重名、别名、错别字、信息缺失等问题,避免了人工复查的同时,还可以提高医疗机构信息的准确性。另外,服务器102通过按顺序依次提取子字符串并与行政区划信息比对来找出最优结果的方式获取医疗机构区域的所属区域信息,可以降低医疗机构数据对机构区域信息的误判率,还可降低时间复杂度,以及通过设置匹配度的以及构建分类预测模型,进一步提高获取各医疗机构的机构区域信息与机构类型信息准确性。同时,服务器102还通过通过预先构建的错别字库、缩写词库以及地域名称别名词库,对得到的待处理的医疗机构数据进行修正以及对医疗机构数据中出现的重复关键词进行去重处理,可以提高医疗机构数据库中存储的医疗机构数据的准确性。
在一个实施例中,如图7所示,还提供了一种医疗机构数据查询方法,以该方法应用于图1中的终端101为例进行说明,包括以下步骤:
步骤S701,终端101获取待查询医疗机构的文本信息;
步骤S702,终端101向医疗机构数据库发送携带文本信息的数据查询请求;数据查询请求,用于医疗机构数据库反馈与文本信息的匹配度大于预设匹配度阈值的至少一个机构描述信息;医疗机构数据库,根据如上任一项实施例所述的医疗机构数据库构建方法构建;
步骤S703,终端101获取医疗机构数据库反馈的至少一个机构描述信息。
具体地,当用户需要通过医疗机构数据库查询医疗机构信息时,可以通过终端101输入待查询医疗机构的文本信息,可以是需要查询的医疗机构的医疗机构名称信息,终端101得到待查询医疗机构的文本信息后,可以向医疗机构数据库发送携带有该文本信息的数据查询请求,医疗机构数据库得到终端101发送的数据查询请求后,可以从数据查询请求中提取出待查询医疗机构的文本信息,并将文本信息与医疗机构数据库中存储的医疗机构数据中的机构名称信息进行比对,并筛选出匹配度大于预设匹配度阈值的机构描述信息,匹配度阈值可以根据需要进行选取,并将机构描述信息返回至终端101,终端101则可以接收医疗机构数据库返回的机构描述信息并进行显示。
上述医疗机构数据查询方法,终端101通过获取待查询医疗机构的文本信息;向医疗机构数据库发送携带文本信息的数据查询请求;数据查询请求,用于医疗机构数据库反馈与文本信息的匹配度大于预设匹配度阈值的至少一个机构描述信息;医疗机构数据库,根据如上任一项实施例所述的医疗机构数据库构建方法构建;获取医疗机构数据库反馈的至少一个机构描述信息。本申请实现了通过终端101输入文本信息查询如上任一项实施所述方法构建的医疗机构数据库,使得医疗机构数据库反馈与文本信息匹配的机构描述信息,从而提高了查询得到的医疗机构数据的准确性。
在一个应用实例中,提供了一种基于文本挖掘算法的医疗机构知识库的构建、应用与维护方法,可应用于如图8所示的医疗机构信息的主数据管理系统中,主要涉及数据采集、处理/分析、维护与应用等环节。系统总体架构主要分为数据采集、数据处理与分析、数据应用等三大装置,其中,
1、数据采集装置,主要是同步、采集并整合多种异构数据源的数据。其中,构建医疗机构知识库涉及以下方面的数据:(1)医疗机构信息,如名称、地址、等级、类型、地址、门诊量等等,来源于权威机构、企业信息平台(如天眼查、企查查)以及互联网医疗平台(如39就医助手、99健康网、好大夫等);(2)五级行政区划信息数据,来源于行政区划信息查询平台、行政区划网等;(3)位置信息,如地址、经纬度等,主要通过调用百度/高德地图公开的API数据接口来获取。
2、数据处理与分析装置,用于实现对各种原始数据(以医疗机构为主)进行清洗、加工、分析,进而构建出医疗机构知识库。在处理与分析的过程中,主要进行了以下几个部分的处理与分析步骤:
(1)首先识别出非医疗机构并剔除,例如,“某兽药饲料门诊部”;
(2)构建错别字库,通过调用错别字库,对机构名称或地址中出现的错别字进行修正,例如“某揽镇”修正为“某榄镇”,“颖某县”修正为“颍某县”,“勋某县”修正为“郧某县”,等等;
(3)构建缩写/简写词库,通过调用缩写/简写词库,对机构名称或地址中出现的缩写、简写词进行还原,例如,“融水县”还原为“融水某自治县”,“疾控中心”还原为“疾病预防控制中心”,“重医大”还原为“重庆医科大学”,等等;
(4)构建地域名称别名/曾用名词库,例如,“户县”为现在某市的“鄠邑区”,“郫县”为现在某市的“郫都区”,等等,通过调用地域名称别名/曾用名词库,对机构名称或地址中出现的地名进行还原;
(5)去掉机构名称或地址中连续出现的重复词,例如,“某街道街道办事处城中社区卫生服务中心”,“某儿童医院医院”,等,主要通过分词后是否连续出现多个相同的词并删除来实现;
(6)根据行政区划信息,从机构名称或地址中依次判断出省份、城市、区/县、街道/乡镇等区域信息;
(7)由于同一机构在不同来源网站上的名称写法不一致,例如,“某县人民医院”与“某县医院”,或者同一来源同类机构的名称写法也有所不同,例如权威机构中“某市承留卫生院”、“某县某中心卫生院”、“某县某镇卫生院”等卫生院命名格式不一致,因此,需要对机构名称进行规范化。为此,我们参考了权威机构的相关文件以及权威机构的机构名称写法,梳理出一套权威机构的各类各级医疗机构名称的规范格式,并对机构名称进行规范化处理;
(8)机构地址的写法也不一致,为此,我们参考了权威机构的相关的地址规范文件,梳理出地址的规范格式,对机构地址进行规范化处理;
(9)其他属性规范化处理,包括机构等级(三级、二级、一级、未定级等)、门诊量等;
(10)运用机器学习算法对医疗机构属于哪个类型进行判断,其中,机构类型包括医院、社区卫生服务中心、卫生院、门诊部、诊所、卫生室、医务室、疾病预防控制中心、妇幼保健院、专科疾病防治院、疗养院等等。
(11)构建医疗机构别名/曾用名词库,例如,“A1医院”的曾用名为“A2医院”,“某省立第三医院”又叫“某省交通医院”,等等,通过调用医疗机构别名/曾用名词库,对规范化处理之后的机构名称进行识别与替换;
(12)经过上述一系列的处理之后,仍然会出现同一机构的名称不完全相同的情况,合并处理时会被认为是不同的机构。为此,本专利方案采用了一种改进的Simhash算法,根据机构名称、省份、城市、区/县、地址、机构类型、法人等信息,判断两个机构是否是同一家机构,并进行去重及合并相关信息。
3、数据应用与维护装置,通过对外提供数据接口服务,用于实现智能检索、销售线索挖掘、营销资源布局与规划等方面。另外,通过相同机构识别与合并,将内部CRM系统既有的医疗机构与知识库的医疗机构进行有效匹配与对应,进而知道CRM中既有医疗机构的名称、省份/城市、地址、类型、等级等信息。
本专利方案各装置涉及到的主要算法及功能的实现步骤具体如下:
1、去掉重复词:
重复词的出现主要是由于各来源系统用户人工录入而引起的,对于如何去掉机构名称或地址中连续出现的重复词,采用的做法具体如下:
步骤1:文本分词,保持得到的关键词顺序不变;
步骤2:循环判断每个关键词是否与上一个关键词相同,若相同则删除,否则保留;
步骤3:将保留的关键词按原来顺序重新拼接成文本。
2、省市区县提取:
从机构名称或地址中判断出省份、城市、区/县等区域信息,通常采用的做法是遍历行政区划列表(含相应的关键词)以模糊匹配机构名称或地址,即根据全国五级行政区划信息,维护与省份有关的关键词,依次将其中的每一个关键词去模糊匹配机构名称或地址,如果匹配上,则返回该关键词对应的省份;城市的判断是在同一省份下进行类似的匹配,区县的判断则是在同一省份同一城市下进行类似的匹配。
这样的做法虽然简单,但误判率高,时间复杂度也较高。例如,“BbDd肿瘤医院-Aa省Bb市Cc路10号”,则被误判为“Aa省-Cc市-Cc县”。
为了能够降低误判率,本专利方案提出了一种按顺序依次提取子字符串并与行政区划信息比对来找出最优结果的方法。具体做法如下:
(1)加载全国行政区划信息数据,将每个地名处理成映射结构:
索引(地名):[(省份,城市,区县),地名全称]
其中,这里的地名指省份、城市或区县。索引可以是地名简写或全称,如果是省份,则括号中三级行政区划的城市和区县为空,如果是城市,则括号中三级行政区划的区县为空。
示例如下:
'Aa':[('Aa省',”,”),'Aa省']
'Aa省':[('Aa省',”,”),'Aa省']
'Bb':[('Aa省','Bb市',”),'Bb市']
'Bb市':[('Aa省','Bb市',”),'Bb市']
'Cc':[('Aa省','Cc市','Cc县'),'Cc县']
'Cc县':[('Aa省','Cc市','Cc县'),'Cc县']
(2)依次处理机构名称+地址(将机构名称、地址拼接成一个字符串),如“BbDd肿瘤医院Aa省Bb市Cc路10号”。
(3)从左往右提取所有可能的子字符串,例如下面所示,从第一个字符开始,向右依次累加多截取1个字符,直到字符串末尾,然后再从第二个字符开始,如此下去。也就是说,从字符串中第i(i=1,2,…,n)个字符开始,向右提取j(j=1,2,…,n-i+1)个字符。对于每一个字符串,都会得到(n+1)n/2个子字符串。其中,n为字符串长度。其中,次序表示子字符串在提取过程中出现的先后顺序。
/>
(4)循环处理步骤(3)得到每一个子字符串,在步骤(1)的行政区划映射结构中查找(即精准匹配地名)。如果能够找到,则根据三级行政区划完整度、行政区划名称完整度以及地名所在的字符位置来计算字符串与三级行政区划(省份-城市-区县)的匹配得分。其中,
三级行政区划完整度指可从地名中知道省份-城市-区县的哪一级信息,例如,('Aa省','Bb市',”)的完整度高于('Aa省',”,”),('广东省',”,”)的完整度与('Aa省',”,”)一致;
地名名称完备度,全称地名完备度高于简写地名,如'广州市'的完备度高于'广州',完备度越高,匹配得分越高,如果地名是全称,则认为地名是完备的;
地名在字符串中的位置,地名在字符串中越靠前出现,匹配得分越高;
根据以上三个方面,设计的匹配得分计算逻辑如下:
规则A:
如果找到的地名为省份,且在字符串中以该省份为开头,则分值+400;
如果找到的地名为城市,且在字符串中以该城市为开头,则分值+200;
如果找到的地名为区/县,且在字符串中以该区/县为开头,则分值+100;
规则A的三种情况互斥,即只会取一个最大值作为规则1的分值;
规则B:
如果找到的地名含某个省份,且在字符串中可找到该省份,则分值+40;
如果找到的地名含某个城市,且在字符串中可找到该城市,则分值+40;
如果找到的地名含某个区/县,且在字符串中可找到该区/县,则分值+40;
规则C:
如果找到的地名名称长度为L,则分值+L。例如,“Aa省”+3分,“Aa”+2分;
该分值大小反映了地名名称的完备度;
规则D:
如果找到的地名为省份,则分值+1分;如果找到的地名为城市,则分值+2分;如果找到的地名为区/县,则分值+3分;
该分值大小反映了地名名称的三级行政区划完整度。
最后将以上规则A-D得到的分值进行汇总,得到从字符串中提取出来的几个地名结果以及匹配得分。然后选取得分最大的结果所对应的行政区划(省份、城市、区县)作为该字符串最终的匹配结果。
例如,上面的例子得到的匹配结果及得分如下,其中,第一个数值为匹配得分,第二个数值为步骤(3)中提到的次序,即子字符串(即匹配得到的地名)在提取过程中出现的先后顺序。根据得到的结果,可以从“BbDd肿瘤医院Aa省Bb市Cc路10号”判断出“Aa省-Bb市”等区域信息,如表1所示。
表1区域信息匹配得分表
如果得分最大的结果出现多个,则选取次序最小的匹配结果,即选取在字符串中最先出现的地名所对应的匹配结果。
(5)如果从机构名称或地址中判断不出城市或区/县,通过调用百度地图API来获取省、市、区/县、经纬度等信息,然后执行步骤(1)-(4)来进一步判断;若调用百度地图API得不到准确的结果,则通过人工对机构名称或地址作以适当的修正,再执行步骤(1)-(4)来进一步判断。
本专利方法误判率低,且经评估,时间复杂度约为O(n^2)。如果采用常用做法,即遍历行政区划列表以模糊匹配机构名称或地址,时间复杂度可以达到O(k*n),其中,行政区划个数为k,字符长度为n,k是>>n的,因此,本专利方法的时间复杂度要低于常用的做法。
3、机构名称规范化处理:
根据《新医疗机构管理条例实施细则》以及参考了权威机构的机构名称写法,我们梳理出了各个类型机构的规范化命名格式,具体如表2所示:
/>
表2机构类型规范化命名格式表
明确了机构名称的规范化格式之后,本专利方案采取的是先减后加的做法,也就是说,先剔除字符串中的省份、城市、区/县等短文本,再按规范化格式将相关的信息拼接起来。例如,“Ff市Gg镇卫生院”→“Gg镇卫生院”→“Ff市Hh县Gg镇卫生院”。
4、地址的规范化处理:
地址的写法多样,而且“噪音”很多,因此也需要规范化处理。根据《某城市市政监管信息化地理编码》、《某市地方标准-地址数据库建设技术规范》等文件,我们梳理出地址的规范化格式,具体如下:
规范化地址=<行政区域>+(<基本区域限定物>/<局部点位置描述>)
其中,基本区域限定物与局部点位置描述可2选1,<行政区域>为国家行政区划单位,例如省市区县乡,<行政区域>=<省>+<市>+<区县>+[乡级][村级];<基本区域限定物>层次低于政区,例如街、巷、住宅区等,<局部点位置描述>则是地址最后元素,如楼名、房号等。
同样地,在明确了地址的规范化格式之后,本专利方案采取的是先减后加的做法,也就是说,先剔除字符串中的省份、城市、区/县等短文本,再按规范化格式将相关的信息拼接起来。例如,“Bb市Cc路10号”→“Cc路10号”→“Aa省Bb市庐阳区Cc路10号”。
5、机构类型的判断
机构类型主要依据权威机构的《卫生健康统计年鉴》来进行划分,包括医院、社区卫生服务中心、卫生院、门诊部、诊所、卫生室、医务室、疾病预防控制中心、妇幼保健院、专科疾病防治院、疗养院、等等。
从机构名称中可以知道机构类型。但由于机构名称中会出现多个命名实体,而且实体出现的先后顺序没有明显固定的范式,顺序不同可能类型也不同,例如,“某市人民医院某社区卫生服务中心”、“某大学社区卫生服务中心某大学医院”,因此,通过规则来直接判断,很难做到穷举所有情况来梳理出完整的规则。本专利方案采用一种基于词共现的文本分类算法,用以判断机构名称属于哪个类型,具体做法如下:
(1)清洗、整理已知类型的医疗机构样本数据以及一些人工标注数据,作为算法模型的训练样本数据;
(2)对机构名称进行分词,去掉停用词;
(3)考虑一些命名实体词在机构名称中共同出现的情况,它们的先后顺序不同可能会影响机构的类型,为此,对于机构名称dn,我们创建共现词组(kni,knj)来表示关键词kni与knj共同出现在机构名称dn,且出现的先后顺序依次为kni、knj
这里只考虑与医疗机构关联较大的命名实体,如医院、医院、中心、卫生院、门诊、诊所、卫生室、医务室、保健院、防治院、疗养院、等等。可根据实际情况来确定。
(4)根据分词得到关键词以及上述的共现词组,构建空间向量模型D,如表3所示;
医疗机构 k1 k2 ki kj km (ki,kj)
d1 1 0 0 0 0 0
d2 0 1 1 0 0 0
dn 0 0 1 1 0 1
表3空间向量模型示意表
(5)利用基于线性核函数的SVM算法,建立分类预测模型,对机构类型进行判断;
(6)对一些误判率较高的情况,则通过手工规则来修正。
6、医疗机构去重合并:
经过上述一系列的处理步骤,医疗机构的名称、省份、城市、区县、地址等维度的信息已经得到了有效的清洗和规范,但“噪音”仍然会存在,这会影响同一机构的识别与合并。本专利方案采用了一种改进的Simhash算法,在同一区域(省份-城市-区县)下从名称和地址来判断两个机构是否相同,然后对相同的机构进行合并,如图9所示,总体包括如下步骤:
(1)Hash计算及指纹库建立;
(2)计算距离及相同机构识别;
(3)相同机构信息合并。
7、医疗机构知识库应用与维护
(1)内部CRM系统既有医疗机构数据清洗
对于医疗企业来说,CRM系统已维护的医疗机构信息,存在着名称不一致、不规范、重名、别名、错别字、信息缺失等多种数据质量的问题。由于其他业务系统或业务报表会用到这些已维护的医疗机构信息,如果将既有的医疗机构主数据推倒重建,势必会影响其他业务系统或报表数据。
合理可行的做法应该是,通过上述提到的处理流程,将CRM既有的医疗机构与医疗机构知识库中的医疗机构进行有效匹配,即用医疗机构知识库中相同的医疗机构的信息(包括名称、省份、城市、区县、地址、类型、等级等)来替换CRM的医疗机构。
(2)智能检索
目前CRM系统的医疗机构主数据创建时,通常是在PC端或移动端(如APP)人工录入医疗机构名称、地址等相关信息。人工录入带来很多数据问题,即使是同一家机构,不同的人员录入也会产生并不完全相同的名称。为避免这个问题,可在人工录入时,提示正确的名称写法,让人选择而不是让人填写,这样就提高了录入的准确率,也保证了数据的规范。整体流程如下,如图10所示:
第一步,用户在PC端或移动端的页面输入关于医疗机构的信息,不需要精准、详细地输入机构名称,例如,“A市附属”,当然,输入的信息越详细,越能够检索到用户想要填写的信息;
第二步,通过后台部署的ElasticSearch搜索引擎,后台系统即时对输入的文本进行分词、解析、清洗;
第三步,将解析处理后的文本逐一与医疗机构知识库中每一个机构进行匹配,计算匹配得分;
第四步,根据匹配得分,找出与输入信息最匹配的N个医疗机构;
第五步,将这N个医疗机构名称反馈页面,让用户进一步选择。用户选择最符合的机构后,页面上返回与该机构的名称、省份、城市、区县、地址等信息,而用户不需要再手工填写这些信息。
(3)销售线索挖掘、营销资源布局与规划
医疗企业一般都知道哪些医疗机构使用了他们的产品或服务,但他们并不知道还有哪些机构没有使用他们的产品或服务,哪些机构是他们的潜在目标客户。通过医疗机构知识库与CRM既有的医疗机构的对比,还可以知道哪些机构没有使用自己的产品或服务,也可以知道在具体某个区域上,有多少机构是自己的潜在目标客户。这样就可知道自己产品在该区域上的覆盖情况。自己产品在哪些区域上覆盖率高,在哪些区域覆盖率低,这样有助于企业在营销资源的投放上进行更合理的规划与协调。
(4)医疗机构知识库的维护与更新
将医疗机构数据的处理/分析流程封装成灵活、稳定的程序模块装置,通过网络数据采集技术,从相关渠道定期获取医疗机构信息,即可定期启动这一装置来进行处理/分析。对于最新等级注册的医疗机构,可以通过上面一些系列的处理/分析,更新到医疗机构知识库中。医疗机构知识库中医疗机构的相关属性信息(如类型、等级),也可以定期更新。
上述应用实例中,提出了一种有效构建医疗机构知识库的数据解决方案,贯穿从采集、处理/分析到构建知识库、再到如何应用的整个过程,解决了大多医疗企业面临的医疗机构主数据维护难、应用难的问题。另外,在核心关键环节上综合考虑算法与实际数据情况相结合,提出有效、可落地、改进的技术方法。在省市区县信息提取方面,按顺序依次提取子字符串并与行政区划信息比对来找出最优结果的方法,误判率低,且时间复杂度也较低;在机构类型属性判断方面,考虑了某些实体出现先后顺序不同导致类型不同的情况,在构造向量空间时,引入了体现关键词顺序的共现词组,运用基于线性核函数的SVM分类算法,对机构类型进行准确判断;在相同机构识别与合并方面,涉及到海量文本快速去重,采用了Simhash算法,准确率高,处理效率高。
应该理解的是,虽然本申请的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图11所示,提供了一种医疗机构数据库构建装置,包括:机构数据获取模块1101、机构信息提取模块1102、信息规范处理模块1103、信息去重处理模块1104和数据库构建模块1105,其中:
机构数据获取模块1101,用于获取待处理的医疗机构数据;
机构信息提取模块1102,用于从医疗机构数据中获取各医疗机构的机构区域信息,以及获取各医疗机构的机构类型信息;
信息规范处理模块1103,用于按照预设的规范化格式,将机构区域信息和机构类型信息转化为针对于各医疗机构的机构描述信息,得到多个第一机构描述信息;
信息去重处理模块1104,用于对多个第一机构描述信息进行去重合并处理,得到多个第二机构描述信息;
数据库构建模块1105,用于基于多个第二机构描述信息,得到针对于各医疗机构的医疗机构数据库。
在一个实施例中,机构信息提取模块1102,进一步用于从医疗机构数据中提取各医疗机构的医疗机构名称以及医疗机构地址;将医疗机构名称以及医疗机构地址进行拼接,形成医疗机构区域信息字符串;从医疗机构区域信息字符串中按预设顺序提取至少包含一个字符的子字符串,形成多个医疗机构区域信息子字符串;若多个医疗机构区域信息子字符串与预设的行政区划信息相匹配,则获取各目标子字符串与预设的行政区划信息的匹配度;目标子字符串为与预设的行政区划信息相匹配的医疗机构区域信息子字符串;选取匹配度最大的目标子字符串所对应的行政区划信息作为区域信息。
在一个实施例中,机构信息提取模块1102,进一步用于获取目标子字符串的信息完整度以及目标子字符串的次序;基于目标子字符串的信息完整度以及目标子字符串的次序确定匹配度。
在一个实施例中,机构信息提取模块1102,进一步用于从医疗机构数据中提取各医疗机构的医疗机构名称;将医疗机构名称输入预先构建的分类预测模型,获取机构类型信息。
在一个实施例中,医疗机构数据库构建装置,还包括:分类模型构建模块,用于获取样本医疗机构的样本医疗机构数据以及样本医疗机构的样本机构类型;从样本医疗机构数据中提取各样本医疗机构的样本医疗机构名称,对样本医疗机构名称进行分词处理,得到用于描述样本机构类型的多个命名实体词;获取由多个命名实体词按预设顺序组成的共现词组;基于样本机构类型,利用多个命名实体词以及所述共现词组进行训练,得到分类预测模型。
在一个实施例中,医疗机构数据库构建装置,还包括:机构数据修正模块,用于基于预设的错别字库,对医疗机构数据中的错别字进行修正;用于基于预设的缩写词库,对医疗机构数据中的缩写词进行还原;以及用于基于预设的地域名称别名词库,对医疗机构数据中的地域名称进行还原。
在一个实施例中,机构数据获取模块1101,还用于按照词序从医疗机构数据中提取出多个关键词信息;若关键词信息与关键词信息的上一个关键词信息相同,则将关键词信息删除;将剩余的多个关键词信息按照词序拼接得到医疗机构数据;其中,拼接得到的医疗机构数据,用于获取机构区域信息和机构类型信息。
关于医疗机构数据库构建装置的具体限定可以参见上文中对于医疗机构数据库构建方法的限定,在此不再赘述。上述医疗机构数据库构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,如图12所示,提供了一种医疗机构数据查询装置,包括:文本信息获取模块1201、查询请求发送模块1202和描述信息获取模块1203,其中:
文本信息获取模块1201,用于获取待查询医疗机构的文本信息;
查询请求发送模块1202,用于向医疗机构数据库发送携带文本信息的数据查询请求;数据查询请求,用于医疗机构数据库反馈与文本信息的匹配度大于预设匹配度阈值的至少一个机构描述信息;医疗机构数据库,根据如上任一项实施例所述的医疗机构数据库构建方法构建;
描述信息获取模块1203,用于获取医疗机构数据库反馈的至少一个机构描述信息。
关于医疗机构数据查询装置的具体限定可以参见上文中对于医疗机构数据查询方法的限定,在此不再赘述。上述医疗机构数据查询装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器102,其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储医疗机构数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种医疗机构数据库构建方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端101,其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种医疗机构数据查询方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图13与图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种医疗机构数据库构建方法,其特征在于,所述方法包括:
获取待处理的医疗机构数据;
从所述医疗机构数据中获取各医疗机构的机构区域信息,以及获取所述各医疗机构的机构类型信息;包括:从所述医疗机构数据中提取各医疗机构的医疗机构名称以及医疗机构地址;将所述医疗机构名称以及所述医疗机构地址进行拼接,形成医疗机构区域信息字符串;从所述医疗机构区域信息字符串中按预设顺序提取至少包含一个字符的子字符串,形成多个医疗机构区域信息子字符串;若所述多个医疗机构区域信息子字符串与预设的行政区划信息相匹配,则获取各目标子字符串的信息完整度以及所述目标子字符串的次序;基于所述目标子字符串的信息完整度以及所述目标子字符串的次序确定各所述目标子字符串与所述预设的行政区划信息的匹配度;所述目标子字符串为与所述预设的行政区划信息相匹配的医疗机构区域信息子字符串;选取所述匹配度最大的目标子字符串所对应的行政区划信息作为所述区域信息;
按照预设的规范化格式,将所述机构区域信息和机构类型信息转化为针对于所述各医疗机构的机构描述信息,得到多个第一机构描述信息;
对所述多个第一机构描述信息进行去重合并处理,得到多个第二机构描述信息;
基于所述多个第二机构描述信息,得到针对于所述各医疗机构的医疗机构数据库。
2.根据权利要求1所述的方法,其特征在于,所述获取所述各医疗机构的机构类型信息,包括:
从所述医疗机构数据中提取各医疗机构的医疗机构名称;
将所述医疗机构名称输入预先构建的分类预测模型,获取所述机构类型信息。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取样本医疗机构的样本医疗机构数据以及所述样本医疗机构的样本机构类型;
从所述样本医疗机构数据中提取各样本医疗机构的样本医疗机构名称,对所述样本医疗机构名称进行分词处理,得到用于描述所述样本机构类型的多个命名实体词;
获取由所述多个命名实体词按预设顺序组成的共现词组;
基于所述样本机构类型,利用所述多个命名实体词以及所述共现词组进行训练,得到所述分类预测模型。
4.根据权利要求1所述的方法,其特征在于,所述从所述医疗机构数据中获取各医疗机构的机构区域信息,以及获取所述各医疗机构的机构类型信息之前,所述方法还包括:
基于预设的错别字库,对所述医疗机构数据中的错别字进行修正;
基于预设的缩写词库,对所述医疗机构数据中的缩写词进行还原;
和/或
基于预设的地域名称别名词库,对所述医疗机构数据中的地域名称进行还原。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述获取待处理的医疗机构数据之后,所述方法还包括:
按照词序从所述医疗机构数据中提取出多个关键词信息;
若所述关键词信息与所述关键词信息的上一个关键词信息相同,则将所述关键词信息删除;
将剩余的多个关键词信息按照所述词序拼接得到医疗机构数据;其中,拼接得到的所述医疗机构数据,用于获取所述机构区域信息和所述机构类型信息。
6.一种医疗机构数据查询方法,其特征在于,所述方法包括:
获取待查询医疗机构的文本信息;
向医疗机构数据库发送携带所述文本信息的数据查询请求;所述数据查询请求,用于所述医疗机构数据库反馈与所述文本信息的匹配度大于预设匹配度阈值的至少一个机构描述信息;所述医疗机构数据库,根据如权利要求1至5任一项所述的医疗机构数据库构建方法构建;
获取所述医疗机构数据库反馈的所述至少一个机构描述信息。
7.一种医疗机构数据库构建装置,其特征在于,所述装置包括:
机构数据获取模块,用于获取待处理的医疗机构数据;
机构信息提取模块,用于从所述医疗机构数据中获取各医疗机构的机构区域信息,以及获取所述各医疗机构的机构类型信息;进一步用于从所述医疗机构数据中提取各医疗机构的医疗机构名称以及医疗机构地址;将所述医疗机构名称以及所述医疗机构地址进行拼接,形成医疗机构区域信息字符串;从所述医疗机构区域信息字符串中按预设顺序提取至少包含一个字符的子字符串,形成多个医疗机构区域信息子字符串;若所述多个医疗机构区域信息子字符串与预设的行政区划信息相匹配,则获取各目标子字符串的信息完整度以及所述目标子字符串的次序;基于所述目标子字符串的信息完整度以及所述目标子字符串的次序确定各所述目标子字符串与所述预设的行政区划信息的匹配度;所述目标子字符串为与所述预设的行政区划信息相匹配的医疗机构区域信息子字符串;选取所述匹配度最大的目标子字符串所对应的行政区划信息作为所述区域信息;
信息规范处理模块,用于按照预设的规范化格式,将所述机构区域信息和机构类型信息转化为针对于所述各医疗机构的机构描述信息,得到多个第一机构描述信息;
信息去重处理模块,用于对所述多个第一机构描述信息进行去重合并处理,得到多个第二机构描述信息;
数据库构建模块,用于基于所述多个第二机构描述信息,得到针对于所述各医疗机构的医疗机构数据库。
8.一种医疗机构数据查询装置,其特征在于,所述装置包括:
文本信息获取模块,用于获取待查询医疗机构的文本信息;
查询请求发送模块,用于向医疗机构数据库发送携带所述文本信息的数据查询请求;所述数据查询请求,用于所述医疗机构数据库反馈与所述文本信息的匹配度大于预设匹配度阈值的至少一个机构描述信息;所述医疗机构数据库,根据如权利要求1至5任一项所述的医疗机构数据库构建方法构建;
描述信息获取模块,用于获取所述医疗机构数据库反馈的所述至少一个机构描述信息。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202010597104.0A 2020-06-28 2020-06-28 医疗机构数据库构建方法、查询方法、装置、设备和介质 Active CN111899822B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010597104.0A CN111899822B (zh) 2020-06-28 2020-06-28 医疗机构数据库构建方法、查询方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010597104.0A CN111899822B (zh) 2020-06-28 2020-06-28 医疗机构数据库构建方法、查询方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN111899822A CN111899822A (zh) 2020-11-06
CN111899822B true CN111899822B (zh) 2024-01-30

Family

ID=73206446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010597104.0A Active CN111899822B (zh) 2020-06-28 2020-06-28 医疗机构数据库构建方法、查询方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN111899822B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114328937A (zh) * 2022-03-10 2022-04-12 中国医学科学院医学信息研究所 一种科研机构信息处理方法及装置
CN115292286A (zh) * 2022-08-04 2022-11-04 王炳策 一种中医护理条文数据库的构建方法和管理方法
CN116485587B (zh) * 2023-04-21 2024-04-09 深圳润高智慧产业有限公司 社区服务获取方法与提供方法、电子设备、存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007080289A (ja) * 2006-11-15 2007-03-29 Miyata Tadanori 医療データ管理システム
CN106844351A (zh) * 2017-02-24 2017-06-13 黑龙江特士信息技术有限公司 一种面向多数据源的医疗机构组织类实体识别方法及装置
CN107992511A (zh) * 2017-10-18 2018-05-04 东软集团股份有限公司 医疗数据表的索引建立方法、装置、存储介质及电子设备
CN108428187A (zh) * 2017-12-21 2018-08-21 中国平安人寿保险股份有限公司 地址匹配方法、装置及存储介质
CN109359174A (zh) * 2018-09-03 2019-02-19 杭州数梦工场科技有限公司 行政区划归属识别方法、装置、存储介质及计算机设备
CN109446207A (zh) * 2018-08-28 2019-03-08 广州城市信息研究所有限公司 一种标准地址数据库更新方法和地址匹配方法
CN110148440A (zh) * 2019-03-29 2019-08-20 北京汉博信息技术有限公司 一种医疗信息查询方法
WO2020034810A1 (zh) * 2018-08-14 2020-02-20 平安医疗健康管理股份有限公司 搜索方法、装置、计算机设备和存储介质
CN111180024A (zh) * 2019-12-13 2020-05-19 平安医疗健康管理股份有限公司 基于词频逆文档频率的数据处理方法、装置和计算机设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007080289A (ja) * 2006-11-15 2007-03-29 Miyata Tadanori 医療データ管理システム
CN106844351A (zh) * 2017-02-24 2017-06-13 黑龙江特士信息技术有限公司 一种面向多数据源的医疗机构组织类实体识别方法及装置
CN107992511A (zh) * 2017-10-18 2018-05-04 东软集团股份有限公司 医疗数据表的索引建立方法、装置、存储介质及电子设备
CN108428187A (zh) * 2017-12-21 2018-08-21 中国平安人寿保险股份有限公司 地址匹配方法、装置及存储介质
WO2020034810A1 (zh) * 2018-08-14 2020-02-20 平安医疗健康管理股份有限公司 搜索方法、装置、计算机设备和存储介质
CN109446207A (zh) * 2018-08-28 2019-03-08 广州城市信息研究所有限公司 一种标准地址数据库更新方法和地址匹配方法
CN109359174A (zh) * 2018-09-03 2019-02-19 杭州数梦工场科技有限公司 行政区划归属识别方法、装置、存储介质及计算机设备
CN110148440A (zh) * 2019-03-29 2019-08-20 北京汉博信息技术有限公司 一种医疗信息查询方法
CN111180024A (zh) * 2019-12-13 2020-05-19 平安医疗健康管理股份有限公司 基于词频逆文档频率的数据处理方法、装置和计算机设备

Also Published As

Publication number Publication date
CN111899822A (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
EP3819792A2 (en) Method, apparatus, device, and storage medium for intention recommendation
US10025904B2 (en) Systems and methods for managing a master patient index including duplicate record detection
CN111899822B (zh) 医疗机构数据库构建方法、查询方法、装置、设备和介质
CN111339421B (zh) 基于云技术的信息搜索的方法、装置、设备及存储介质
CN108304444B (zh) 信息查询方法及装置
US10572461B2 (en) Systems and methods for managing a master patient index including duplicate record detection
CN111899821A (zh) 处理医疗机构数据的方法、构建数据库的方法和装置
Ghahremanlou et al. Geotagging twitter messages in crisis management
US20120330959A1 (en) Method and Apparatus for Assessing a Person&#39;s Security Risk
US20180181646A1 (en) System and method for determining identity relationships among enterprise data entities
US20130297661A1 (en) System and method for mapping source columns to target columns
US20080147642A1 (en) System for discovering data artifacts in an on-line data object
Nesi et al. Geographical localization of web domains and organization addresses recognition by employing natural language processing, Pattern Matching and clustering
US20080147578A1 (en) System for prioritizing search results retrieved in response to a computerized search query
CN105045799A (zh) 可搜索索引
EP2823410A1 (en) Entity augmentation service from latent relational data
US20080147588A1 (en) Method for discovering data artifacts in an on-line data object
US20080147641A1 (en) Method for prioritizing search results retrieved in response to a computerized search query
Christen et al. A probabilistic geocoding system based on a national address file
US8396877B2 (en) Method and apparatus for generating a fused view of one or more people
US9552415B2 (en) Category classification processing device and method
CN111190965A (zh) 基于文本数据的即席关系分析系统及方法
CN112765169A (zh) 数据处理方法、装置、设备及存储介质
CN114648010A (zh) 数据表标准化方法、装置、设备及计算机存储介质
KR102454261B1 (ko) 사용자 정보 기반 협업 파트너 추천 시스템 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant