CN113688119A - 基于人工智能的医疗数据库构建方法及相关设备 - Google Patents

基于人工智能的医疗数据库构建方法及相关设备 Download PDF

Info

Publication number
CN113688119A
CN113688119A CN202110977280.1A CN202110977280A CN113688119A CN 113688119 A CN113688119 A CN 113688119A CN 202110977280 A CN202110977280 A CN 202110977280A CN 113688119 A CN113688119 A CN 113688119A
Authority
CN
China
Prior art keywords
information
field
fields
matching
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110977280.1A
Other languages
English (en)
Other versions
CN113688119B (zh
Inventor
曾俊达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ping An Smart Healthcare Technology Co ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202110977280.1A priority Critical patent/CN113688119B/zh
Publication of CN113688119A publication Critical patent/CN113688119A/zh
Application granted granted Critical
Publication of CN113688119B publication Critical patent/CN113688119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及人工智能,提供一种基于人工智能的医疗数据库构建方法及相关设备。该方法能够从多个预设医疗系统中获取多个信息字段所对应的用户信息,用户信息包括特征信息及待匹配信息,解析多个信息字段,得到字段类型,统计每个信息字段的文本量,对用户信息进行结构化处理,得到结构化信息,拼接多个信息字段,得到匹配字段,获取每个匹配字段的字段权重,获取特征信息及待匹配信息的共有字段并调整初始权重,得到匹配权重,根据匹配权重生成特征信息与待匹配信息的信息匹配度,对用户信息进行归并处理,得到全局医疗数据库,从而准确的构建出全局患者信息数据库。此外,本发明还涉及区块链技术及数字医疗领域。

Description

基于人工智能的医疗数据库构建方法及相关设备
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于人工智能的医疗数据库构建方法及相关设备。
背景技术
目前,不同的医疗机构将患者信息存储在不同的医疗系统,且不同的医疗系统之间相互独立,由于各个医疗系统的数据结构、数据标识等信息不同,导致医疗系统之间存在信息紊乱的问题。
为实现各个医疗系统的信息共享,需要建立一个全局患者信息数据库以供检索。然而,在全局患者信息数据库的构建过程中,发明人意识到,不同用户在相同字段上所对应的信息存在相同的情况,例如:不同用户具有相同的姓名,从而造成无法准确的构建出全局患者信息数据库。
因此,如何准确的构建出全局患者信息数据库,成了亟需解决的技术问题。
发明内容
鉴于以上内容,有必要提供一种基于人工智能的医疗数据库构建方法及相关设备,能够准确的构建出全局患者信息数据库。
一方面,本发明提出一种基于人工智能的医疗数据库构建方法,所述基于人工智能的医疗数据库构建方法包括:
当接收到医疗数据库构建请求时,根据所述医疗数据库构建请求从多个预设医疗系统中获取多个信息字段所对应的用户信息,所述多个预设医疗系统包括特征医疗系统及待匹配医疗系统,所述用户信息包括从所述特征医疗系统中获取到的特征信息及从所述待匹配医疗系统中获取到的待匹配信息;
解析所述多个信息字段,得到每个信息字段的字段类型,并根据所述用户信息统计每个信息字段的文本量;
根据所述字段类型及所述文本量对所述用户信息进行结构化处理,得到结构化信息;
根据所述字段类型拼接所述多个信息字段,得到匹配字段,并根据所述字段类型从预设映射表中获取每个匹配字段的字段权重;
从所述匹配字段中获取所述特征信息及所述待匹配信息的共有字段,并根据所述字段权重调整所述共有字段的初始权重,得到匹配权重;
根据所述匹配权重生成所述特征信息与所述待匹配信息的信息匹配度;
根据所述信息匹配度对所述用户信息进行归并处理,得到全局医疗数据库。
根据本发明优选实施例,所述根据所述医疗数据库构建请求从多个预设医疗系统中获取多个信息字段所对应的用户信息包括:
解析所述医疗数据库构建请求的报文,得到所述报文携带的数据信息;
从所述数据信息中提取用户识别码;
基于所述用户识别码遍历所述多个预设医疗系统,得到每个预设医疗系统的信息列表;
获取所述信息列表中的所有字段作为所述多个信息字段;
基于所述多个信息字段从所述信息列表中获取所述用户信息。
根据本发明优选实施例,所述字段类型包括关键标识类型、候选标识类型、扩展标识类型及候选扩展标识类型,所述解析所述多个信息字段,得到每个信息字段的字段类型包括:
获取所述多个信息字段的属性信息;
从所述多个信息字段中筛选所述属性信息为不可重复的信息字段作为第一字段,并将所述第一字段的字段类型确定为所述关键标识类型;或者
筛选所述属性信息为重复度小于第一配置值的信息字段作为第二字段,并将所述第二字段的字段类型确定为所述候选标识类型;或者
筛选所述属性信息为重复度大于第二配置值的信息字段作为第三字段,并将所述第三字段的字段类型确定为所述扩展标识类型,所述第二配置值大于所述第一配置值;或者
筛选所述属性信息为可变更的信息字段作为第四字段,并将所述第四字段的字段类型确定为所述候选扩展标识类型。
根据本发明优选实施例,所述根据所述字段类型及所述文本量对所述用户信息进行结构化处理,得到结构化信息包括:
从所述多个信息字段中获取所述字段类型为所述候选扩展标识类型,及所述文本量大于预设阈值的信息字段作为目标字段;
从所述用户信息中提取与所述目标字段对应的信息作为目标信息;
从所述目标信息中提取关键词,并根据所述关键词识别所述目标信息的信息语义;
获取与所述信息语义对应的配置信息,并将所述配置信息及除所述目标信息外的用户信息确定为所述结构化信息。
根据本发明优选实施例,所述根据所述字段类型拼接所述多个信息字段,得到匹配字段包括:
从所述多个信息字段中获取所述字段类型为所述扩展标识类型的信息字段作为特征字段;
从所述特征字段中获取所述特征信息与所述待匹配信息的相同字段作为待组装字段;
拼接所述待组装字段,得到组合字段;
将所述组合字段及除所述特征字段外的信息字段确定为所述匹配字段。
根据本发明优选实施例,所述根据所述字段权重调整所述共有字段的初始权重,得到匹配权重包括:
从所述字段权重中获取所述共有字段的权重,得到所述初始权重;
计算所述初始权重的总和;
根据所述总和在预设值中的比例与每个初始权重的乘积生成所述匹配权重。
根据本发明优选实施例,所述根据所述匹配权重生成所述特征信息与所述待匹配信息的信息匹配度包括:
对所述特征信息进行向量化处理,得到特征向量,并对所述待匹配信息进行向量化处理,得到待匹配向量;
根据下列公式计算所述信息匹配度:
Figure BDA0003227985100000041
其中,Sim(Vi,Vj)是指所述信息匹配度,n是指所述共有字段的字段总量,αk是指第k个字段的匹配权重,Vik是指第k个字段所对应的特征向量,Vjk是指第k个字段所对应的待匹配向量。
另一方面,本发明还提出一种基于人工智能的医疗数据库构建装置,所述基于人工智能的医疗数据库构建装置包括:
获取单元,用于当接收到医疗数据库构建请求时,根据所述医疗数据库构建请求从多个预设医疗系统中获取多个信息字段所对应的用户信息,所述多个预设医疗系统包括特征医疗系统及待匹配医疗系统,所述用户信息包括从所述特征医疗系统中获取到的特征信息及从所述待匹配医疗系统中获取到的待匹配信息;
解析单元,用于解析所述多个信息字段,得到每个信息字段的字段类型,并根据所述用户信息统计每个信息字段的文本量;
处理单元,用于根据所述字段类型及所述文本量对所述用户信息进行结构化处理,得到结构化信息;
拼接单元,用于根据所述字段类型拼接所述多个信息字段,得到匹配字段,并根据所述字段类型从预设映射表中获取每个匹配字段的字段权重;
调整单元,用于从所述匹配字段中获取所述特征信息及所述待匹配信息的共有字段,并根据所述字段权重调整所述共有字段的初始权重,得到匹配权重;
生成单元,用于根据所述匹配权重生成所述特征信息与所述待匹配信息的信息匹配度;
归并单元,用于根据所述信息匹配度对所述用户信息进行归并处理,得到全局医疗数据库。
另一方面,本发明还提出一种电子设备,所述电子设备包括:
存储器,存储计算机可读指令;及
处理器,执行所述存储器中存储的计算机可读指令以实现所述基于人工智能的医疗数据库构建方法。
另一方面,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现所述基于人工智能的医疗数据库构建方法。
由以上技术方案可以看出,本发明根据所述字段类型及所述文本量对所述用户信息进行结构化处理,能够减少所述结构化信息中的文本量,从而提高所述信息匹配度的生成效率,进一步本发明根据所述字段类型将无法直接提供匹配价值的单个字段进行拼接,提高了能够直接提供匹配价值的匹配字段的数量,能够提高所述信息匹配度的生成准确性,同时,通过字段权重调整所述共有字段的权重,能够避免因信息项缺失而造成信息匹配度不准确,因此,通过提高能够直接提供匹配价值的匹配字段的数量,以及,通过调整所述共有字段的权重,能够双重提高所述全局医疗数据库的构建准确性。通过构建所述全局医疗数据库,能够为医护人员提供更全面的患者健康档案,降低误诊风险。
附图说明
图1是本发明基于人工智能的医疗数据库构建方法的较佳实施例的流程图。
图2是本发明基于人工智能的医疗数据库构建装置的较佳实施例的功能模块图。
图3是本发明实现基于人工智能的医疗数据库构建方法的较佳实施例的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1所示,是本发明基于人工智能的医疗数据库构建方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
所述基于人工智能的医疗数据库构建方法可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
所述基于人工智能的医疗数据库构建方法应用于智慧医疗,从而推动智慧城市的发展。所述基于人工智能的医疗数据库构建方法应用于一个或者多个电子设备中,所述电子设备是一种能够按照事先设定或存储的计算机可读指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字信号处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述电子设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能穿戴式设备等。
所述电子设备可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络电子设备、多个网络电子设备组成的电子设备组或基于云计算(CloudComputing)的由大量主机或网络电子设备构成的云。
所述电子设备所处的网络包括,但不限于:互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
S10,当接收到医疗数据库构建请求时,根据所述医疗数据库构建请求从多个预设医疗系统中获取多个信息字段所对应的用户信息,所述多个预设医疗系统包括特征医疗系统及待匹配医疗系统,所述用户信息包括从所述特征医疗系统中获取到的特征信息及从所述待匹配医疗系统中获取到的待匹配信息。
在本发明的至少一个实施例中,所述医疗数据库构建请求可以是在有构建共享医疗数据库需求时生成。
所述多个预设医疗系统是指不同医疗机构所对应的医疗系统。
所述多个信息字段是指所述多个预设医疗系统中所包含的字段。
所述特征医疗系统是指所述多个预设医疗系统中的任一医疗系统。所述待匹配医疗系统是指所述多个预设医疗系统中除所述特征医疗系统外的其他医疗系统。所述待匹配医疗系统中包含至少两个医疗系统。
相应的,所述特征信息及所述待匹配信息是指从不同的医疗系统中获取到的用户信息。
在本发明的至少一个实施例中,所述电子设备根据所述医疗数据库构建请求从多个预设医疗系统中获取多个信息字段所对应的用户信息包括:
解析所述医疗数据库构建请求的报文,得到所述报文携带的数据信息;
从所述数据信息中提取用户识别码;
基于所述用户识别码遍历所述多个预设医疗系统,得到每个预设医疗系统的信息列表;
获取所述信息列表中的所有字段作为所述多个信息字段;
基于所述多个信息字段从所述信息列表中获取所述用户信息。
其中,所述用户识别码是指能够识别出用户的信息,可以理解的是,不同用户所对应的用户识别码可以相同。例如,所述用户识别码可以是用户的姓名等。
所述信息列表是指所述多个预设医疗系统中与所述用户识别码对应的列表,例如,小明在所述特征医疗系统所对应的信息列表为列表1,小明在所述待匹配医疗系统所对应的信息列表为列表2。进一步的,在所述特征医疗系统中备案的小明与在所述待匹配医疗系统中备案的小明可以是同一用户,也可以是不同用户。
通过所述用户识别码遍历所述多个预设医疗系统,不仅能够快速获取到所述用户信息,还能够减少所述用户信息的信息量,从而减少信息匹配的工作量。
具体地,所述电子设备从所述数据信息中提取用户识别码包括:
从所述数据信息中获取与用户标签对应的信息作为所述用户识别码。
其中,所述用户标签用于指示所述用户识别码。
S11,解析所述多个信息字段,得到每个信息字段的字段类型,并根据所述用户信息统计每个信息字段的文本量。
在本发明的至少一个实施例中,所述字段类型是指根据所述多个信息字段的属性信息确定生成的类型,所述属性信息用于表征所述多个信息字段的属性。例如,所述属性信息可以是不可重复、可变更等。
所述文本量是指每个信息字段在所述多个预设医疗系统中所对应的用户信息的总字数。
在本发明的至少一个实施例中,所述字段类型包括关键标识类型、候选标识类型、扩展标识类型及候选扩展标识类型,所述电子设备解析所述多个信息字段,得到每个信息字段的字段类型包括:
获取所述多个信息字段的属性信息;
从所述多个信息字段中筛选所述属性信息为不可重复的信息字段作为第一字段,并将所述第一字段的字段类型确定为所述关键标识类型;或者
筛选所述属性信息为重复度小于第一配置值的信息字段作为第二字段,并将所述第二字段的字段类型确定为所述候选标识类型;或者
筛选所述属性信息为重复度大于第二配置值的信息字段作为第三字段,并将所述第三字段的字段类型确定为所述扩展标识类型,所述第二配置值大于所述第一配置值;或者
筛选所述属性信息为可变更的信息字段作为第四字段,并将所述第四字段的字段类型确定为所述候选扩展标识类型。
例如,所述关键标识类型可以是身份证号码等不可重复的信息字段。所述候选标识类型可以是姓名等重复度小于第一配置值的信息字段。所述扩展标识类型可以是性别、民族等重复度大于第二配置值的信息字段。所述候选扩展标识类型可以是地址、经历等可变更的信息字段。
通过所述属性信息能够准确解析所述多个信息字段,提高所述字段类型的确定准确性,通过所述字段类型有利于所述结构化信息、所述匹配字段及所述字段权重的生成。
具体地,所述电子设备获取所述多个信息字段的属性信息包括:
获取多个用户在每个信息字段中所对应的信息值;
分析每个信息字段中的所述信息值,得到所述属性信息。
例如,所述信息值中不包括重复信息,则所述属性信息为不可重复。
通过对每个信息字段中的信息值进行分析,能够准确的获取到该信息字段所对应的属性信息。
在本发明的至少一个实施例中,所述电子设备根据所述用户信息统计每个信息字段的文本量包括:
对于任一信息字段,从所述用户信息中提取与所述任一信息字段对应的信息作为分析信息;
统计所述分析信息的字数,得到所述文本量。
S12,根据所述字段类型及所述文本量对所述用户信息进行结构化处理,得到结构化信息。
在本发明的至少一个实施例中,所述结构化信息包括对所述目标信息进行转换后的配置信息,及,除所述目标信息外的用户信息。
在本发明的至少一个实施例中,所述电子设备根据所述字段类型及所述文本量对所述用户信息进行结构化处理,得到结构化信息包括:
从所述多个信息字段中获取所述字段类型为所述候选扩展标识类型,及所述文本量大于预设阈值的信息字段作为目标字段;
从所述用户信息中提取与所述目标字段对应的信息作为目标信息;
从所述目标信息中提取关键词,并根据所述关键词识别所述目标信息的信息语义;
获取与所述信息语义对应的配置信息,并将所述配置信息及除所述目标信息外的用户信息确定为所述结构化信息。
其中,所述预设阈值可以根据所述全局医疗数据库的构建效率需求确定。所述构建效率需求越高,所述预设阈值越小。
所述关键词是指所述目标信息中能够表征所述目标字段的词汇。
所述信息语义能够表征所述目标信息中的语义。
所述配置信息是根据所述信息语义的语义类型预先构建的语句信息。例如,所述配置信息可以是:患病多年。
通过上述实施方式,由于所述目标信息的文本量较大且所述目标信息属于非结构化信息,不利于所述信息匹配度的分析,因此,通过对所述目标信息进行结构化处理,能够减少所述目标信息的文本量,同时,通过所述信息语义获取所述目标信息的结构化信息,能够提高所述结构化信息的准确性。
S13,根据所述字段类型拼接所述多个信息字段,得到匹配字段,并根据所述字段类型从预设映射表中获取每个匹配字段的字段权重。
在本发明的至少一个实施例中,所述匹配字段包括所述组合字段及除所述特征字段外的信息字段。
所述预设映射表中存储有多个字段与权重的映射关系。
所述字段权重是指预先训练好的与所述匹配字段所对应的权重。
在本发明的至少一个实施例中,所述电子设备根据所述字段类型拼接所述多个信息字段,得到匹配字段包括:
从所述多个信息字段中获取所述字段类型为所述扩展标识类型的信息字段作为特征字段;
从所述特征字段中获取所述特征信息与所述待匹配信息的相同字段作为待组装字段;
拼接所述待组装字段,得到组合字段;
将所述组合字段及除所述特征字段外的信息字段确定为所述匹配字段。
其中,所述待组装字段是指无法直接提供匹配价值的相同字段,所述相同字段是指所述特征信息所对应的字段与所述待匹配信息所对应的字段相同时的字段。
通过上述实施方式,由于所述字段类型为所述扩展标识类型的信息字段的重复度大于第二配置值,导致所述扩展标识类型的信息字段无法直接提供匹配价值,因此,通过所述扩展标识类型对所述多个信息字段进行筛选,能够使生成的组合字段的匹配价值高于单个特征字段,从而提高所述匹配字段的整体匹配价值,进而通过所述特征信息与所述待匹配信息的相同字段对所述特征字段进一步进行筛选,能够避免拼接得到的组合字段无法进行信息匹配。
在本发明的至少一个实施例中,在根据所述字段类型从预设映射表中获取每个匹配字段的字段权重之前,所述电子设备根据所述字段类型初始化配置所述字段类型所对应的字段的权重,进而根据多个患者的真实信息调整权重,并将所述字段类型、字段与权重的映射关系存储在所述预设映射表中。
本实施例中,通过所述字段类型从所述预设映射表中获取所述字段权重,能够提高所述字段权重的获取效率。
S14,从所述匹配字段中获取所述特征信息及所述待匹配信息的共有字段,并根据所述字段权重调整所述共有字段的初始权重,得到匹配权重。
在本发明的至少一个实施例中,所述共有字段是指在所述匹配字段中所述特征信息与所述待匹配信息相同的字段。
所述初始权值是指从所述预设映射表中获取到的字段权值。
所述匹配权值是指在所述医疗数据库构建请求中,所述共有字段所对应的权重。
在本发明的至少一个实施例中,所述电子设备根据所述字段权重调整所述共有字段的初始权重,得到匹配权重包括:
从所述字段权重中获取所述共有字段的权重,得到所述初始权重;
计算所述初始权重的总和;
根据预设值在所述总和中的比例与每个初始权重的乘积生成所述匹配权重。
其中,为了便于计算所述信息匹配度,所述预设值通常设定为1。
例如,共有字段A的初始权重为0.25,共有字段B的初始权重为0.5,共有字段C的初始权重为0.05,经计算,所述总和为0.8,因此,经调整,所述共有字段A的匹配权重为0.3125,所述共有字段B的匹配权重为0.625,所述共有字段C的匹配权重为0.0625。
通过字段权重调整所述初始权重,能够使生成的匹配权重更加合理化,从而提高所述信息匹配度的准确性。
S15,根据所述匹配权重生成所述特征信息与所述待匹配信息的信息匹配度。
在本发明的至少一个实施例中,所述信息匹配度用于指示所述特征信息与所述待匹配信息的匹配程度。
在本发明的至少一个实施例中,所述电子设备根据所述匹配权重生成所述特征信息与所述待匹配信息的信息匹配度包括:
对所述特征信息进行向量化处理,得到特征向量,并对所述待匹配信息进行向量化处理,得到待匹配向量;
根据下列公式计算所述信息匹配度:
Figure BDA0003227985100000131
其中,Sim(Vi,Vj)是指所述信息匹配度,n是指所述共有字段的字段总量,αk是指第k个字段的匹配权重,Vik是指第k个字段所对应的特征向量,Vjk是指第k个字段所对应的待匹配向量。
通过多个字段能够准确的确定出所述信息匹配度。
具体地,所述电子设备对所述特征信息进行向量化处理,得到特征向量包括:
对所述特征信息中的每个特征字进行编码,得到特征编码;
根据所述特征字在所述特征信息中的位置顺序拼接所述特征编码,得到所述特征向量。
S16,根据所述信息匹配度对所述用户信息进行归并处理,得到全局医疗数据库。
在本发明的至少一个实施例中,所述全局医疗数据库是指对所述多个预设医疗系统中的所有医疗数据进行信息匹配归并后所生成的数据库。
需要强调的是,为进一步保证上述全局医疗数据库的私密和安全性,上述全局医疗数据库还可以存储于一区块链的节点中。
在本发明的至少一个实施例中,所述电子设备根据所述信息匹配度对所述用户信息进行归并处理,得到全局医疗数据库包括:
将所述信息匹配度大于或者等于预设匹配度的待匹配信息确定为所述特征信息的关联信息;
将所述特征信息及所述关联信息归并为同一用户信息,得到所述全局医疗数据库。
其中,所述预设匹配度是根据所述全局医疗数据库的构建准确性确定的,所述全局医疗数据库的准确性需求越高,所述预设匹配度的设定越高。
通过对所述特征信息与所述待匹配信息的信息匹配度的分析,能够根据所述信息匹配度与所述预设匹配度的大小关系快速处理所述用户信息,以提高所述全局医疗数据库的构建效率。
由以上技术方案可以看出,本发明根据所述字段类型及所述文本量对所述用户信息进行结构化处理,能够减少所述结构化信息中的文本量,从而提高所述信息匹配度的生成效率,进一步本发明根据所述字段类型将无法直接提供匹配价值的单个字段进行拼接,提高了能够直接提供匹配价值的匹配字段的数量,能够提高所述信息匹配度的生成准确性,同时,通过字段权重调整所述共有字段的权重,能够避免因信息项缺失而造成信息匹配度不准确,因此,通过提高能够直接提供匹配价值的匹配字段的数量,以及,通过调整所述共有字段的权重,能够双重提高所述全局医疗数据库的构建准确性。通过构建所述全局医疗数据库,能够为医护人员提供更全面的患者健康档案,降低误诊风险。
如图2所示,是本发明基于人工智能的医疗数据库构建装置的较佳实施例的功能模块图。所述基于人工智能的医疗数据库构建装置11包括获取单元110、解析单元111、处理单元112、拼接单元113、调整单元114、生成单元115、归并单元116及存储单元117。本发明所称的模块/单元是指一种能够被处理器13所获取,并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。
当接收到医疗数据库构建请求时,获取单元110根据所述医疗数据库构建请求从多个预设医疗系统中获取多个信息字段所对应的用户信息,所述多个预设医疗系统包括特征医疗系统及待匹配医疗系统,所述用户信息包括从所述特征医疗系统中获取到的特征信息及从所述待匹配医疗系统中获取到的待匹配信息。
在本发明的至少一个实施例中,所述医疗数据库构建请求可以是在有构建共享医疗数据库需求时生成。
所述多个预设医疗系统是指不同医疗机构所对应的医疗系统。
所述多个信息字段是指所述多个预设医疗系统中所包含的字段。
所述特征医疗系统是指所述多个预设医疗系统中的任一医疗系统。所述待匹配医疗系统是指所述多个预设医疗系统中除所述特征医疗系统外的其他医疗系统。所述待匹配医疗系统中包含至少两个医疗系统。
相应的,所述特征信息及所述待匹配信息是指从不同的医疗系统中获取到的用户信息。
在本发明的至少一个实施例中,所述获取单元110根据所述医疗数据库构建请求从多个预设医疗系统中获取多个信息字段所对应的用户信息包括:
解析所述医疗数据库构建请求的报文,得到所述报文携带的数据信息;
从所述数据信息中提取用户识别码;
基于所述用户识别码遍历所述多个预设医疗系统,得到每个预设医疗系统的信息列表;
获取所述信息列表中的所有字段作为所述多个信息字段;
基于所述多个信息字段从所述信息列表中获取所述用户信息。
其中,所述用户识别码是指能够识别出用户的信息,可以理解的是,不同用户所对应的用户识别码可以相同。例如,所述用户识别码可以是用户的姓名等。
所述信息列表是指所述多个预设医疗系统中与所述用户识别码对应的列表,例如,小明在所述特征医疗系统所对应的信息列表为列表1,小明在所述待匹配医疗系统所对应的信息列表为列表2。进一步的,在所述特征医疗系统中备案的小明与在所述待匹配医疗系统中备案的小明可以是同一用户,也可以是不同用户。
通过所述用户识别码遍历所述多个预设医疗系统,不仅能够快速获取到所述用户信息,还能够减少所述用户信息的信息量,从而减少信息匹配的工作量。
具体地,所述获取单元110从所述数据信息中提取用户识别码包括:
从所述数据信息中获取与用户标签对应的信息作为所述用户识别码。
其中,所述用户标签用于指示所述用户识别码。
解析单元111解析所述多个信息字段,得到每个信息字段的字段类型,并根据所述用户信息统计每个信息字段的文本量。
在本发明的至少一个实施例中,所述字段类型是指根据所述多个信息字段的属性信息确定生成的类型,所述属性信息用于表征所述多个信息字段的属性。例如,所述属性信息可以是不可重复、可变更等。
所述文本量是指每个信息字段在所述多个预设医疗系统中所对应的用户信息的总字数。
在本发明的至少一个实施例中,所述字段类型包括关键标识类型、候选标识类型、扩展标识类型及候选扩展标识类型,所述解析单元111解析所述多个信息字段,得到每个信息字段的字段类型包括:
获取所述多个信息字段的属性信息;
从所述多个信息字段中筛选所述属性信息为不可重复的信息字段作为第一字段,并将所述第一字段的字段类型确定为所述关键标识类型;或者
筛选所述属性信息为重复度小于第一配置值的信息字段作为第二字段,并将所述第二字段的字段类型确定为所述候选标识类型;或者
筛选所述属性信息为重复度大于第二配置值的信息字段作为第三字段,并将所述第三字段的字段类型确定为所述扩展标识类型,所述第二配置值大于所述第一配置值;或者
筛选所述属性信息为可变更的信息字段作为第四字段,并将所述第四字段的字段类型确定为所述候选扩展标识类型。
例如,所述关键标识类型可以是身份证号码等不可重复的信息字段。所述候选标识类型可以是姓名等重复度小于第一配置值的信息字段。所述扩展标识类型可以是性别、民族等重复度大于第二配置值的信息字段。所述候选扩展标识类型可以是地址、经历等可变更的信息字段。
通过所述属性信息能够准确解析所述多个信息字段,提高所述字段类型的确定准确性,通过所述字段类型有利于所述结构化信息、所述匹配字段及所述字段权重的生成。
具体地,所述解析单元111获取所述多个信息字段的属性信息包括:
获取多个用户在每个信息字段中所对应的信息值;
分析每个信息字段中的所述信息值,得到所述属性信息。
例如,所述信息值中不包括重复信息,则所述属性信息为不可重复。
通过对每个信息字段中的信息值进行分析,能够准确的获取到该信息字段所对应的属性信息。
在本发明的至少一个实施例中,所述解析单元111根据所述用户信息统计每个信息字段的文本量包括:
对于任一信息字段,从所述用户信息中提取与所述任一信息字段对应的信息作为分析信息;
统计所述分析信息的字数,得到所述文本量。
处理单元112根据所述字段类型及所述文本量对所述用户信息进行结构化处理,得到结构化信息。
在本发明的至少一个实施例中,所述结构化信息包括对所述目标信息进行转换后的配置信息,及,除所述目标信息外的用户信息。
在本发明的至少一个实施例中,所述处理单元112根据所述字段类型及所述文本量对所述用户信息进行结构化处理,得到结构化信息包括:
从所述多个信息字段中获取所述字段类型为所述候选扩展标识类型,及所述文本量大于预设阈值的信息字段作为目标字段;
从所述用户信息中提取与所述目标字段对应的信息作为目标信息;
从所述目标信息中提取关键词,并根据所述关键词识别所述目标信息的信息语义;
获取与所述信息语义对应的配置信息,并将所述配置信息及除所述目标信息外的用户信息确定为所述结构化信息。
其中,所述预设阈值可以根据所述全局医疗数据库的构建效率需求确定。所述构建效率需求越高,所述预设阈值越小。
所述关键词是指所述目标信息中能够表征所述目标字段的词汇。
所述信息语义能够表征所述目标信息中的语义。
所述配置信息是根据所述信息语义的语义类型预先构建的语句信息。例如,所述配置信息可以是:患病多年。
通过上述实施方式,由于所述目标信息的文本量较大且所述目标信息属于非结构化信息,不利于所述信息匹配度的分析,因此,通过对所述目标信息进行结构化处理,能够减少所述目标信息的文本量,同时,通过所述信息语义获取所述目标信息的结构化信息,能够提高所述结构化信息的准确性。
拼接单元113根据所述字段类型拼接所述多个信息字段,得到匹配字段,并根据所述字段类型从预设映射表中获取每个匹配字段的字段权重。
在本发明的至少一个实施例中,所述匹配字段包括所述组合字段及除所述特征字段外的信息字段。
所述预设映射表中存储有多个字段与权重的映射关系。
所述字段权重是指预先训练好的与所述匹配字段所对应的权重。
在本发明的至少一个实施例中,所述拼接单元113根据所述字段类型拼接所述多个信息字段,得到匹配字段包括:
从所述多个信息字段中获取所述字段类型为所述扩展标识类型的信息字段作为特征字段;
从所述特征字段中获取所述特征信息与所述待匹配信息的相同字段作为待组装字段;
拼接所述待组装字段,得到组合字段;
将所述组合字段及除所述特征字段外的信息字段确定为所述匹配字段。
其中,所述待组装字段是指无法直接提供匹配价值的相同字段,所述相同字段是指所述特征信息所对应的字段与所述待匹配信息所对应的字段相同时的字段。
通过上述实施方式,由于所述字段类型为所述扩展标识类型的信息字段的重复度大于第二配置值,导致所述扩展标识类型的信息字段无法直接提供匹配价值,因此,通过所述扩展标识类型对所述多个信息字段进行筛选,能够使生成的组合字段的匹配价值高于单个特征字段,从而提高所述匹配字段的整体匹配价值,进而通过所述特征信息与所述待匹配信息的相同字段对所述特征字段进一步进行筛选,能够避免拼接得到的组合字段无法进行信息匹配。
在本发明的至少一个实施例中,在根据所述字段类型从预设映射表中获取每个匹配字段的字段权重之前,存储单元117根据所述字段类型初始化配置所述字段类型所对应的字段的权重,进而根据多个患者的真实信息调整权重,并将所述字段类型、字段与权重的映射关系存储在所述预设映射表中。
本实施例中,通过所述字段类型从所述预设映射表中获取所述字段权重,能够提高所述字段权重的获取效率。
调整单元114从所述匹配字段中获取所述特征信息及所述待匹配信息的共有字段,并根据所述字段权重调整所述共有字段的初始权重,得到匹配权重。
在本发明的至少一个实施例中,所述共有字段是指在所述匹配字段中所述特征信息与所述待匹配信息相同的字段。
所述初始权值是指从所述预设映射表中获取到的字段权值。
所述匹配权值是指在所述医疗数据库构建请求中,所述共有字段所对应的权重。
在本发明的至少一个实施例中,所述调整单元114根据所述字段权重调整所述共有字段的初始权重,得到匹配权重包括:
从所述字段权重中获取所述共有字段的权重,得到所述初始权重;
计算所述初始权重的总和;
根据预设值在所述总和中的比例与每个初始权重的乘积生成所述匹配权重。
其中,为了便于计算所述信息匹配度,所述预设值通常设定为1。
例如,共有字段A的初始权重为0.25,共有字段B的初始权重为0.5,共有字段C的初始权重为0.05,经计算,所述总和为0.8,因此,经调整,所述共有字段A的匹配权重为0.3125,所述共有字段B的匹配权重为0.625,所述共有字段C的匹配权重为0.0625。
通过字段权重调整所述初始权重,能够使生成的匹配权重更加合理化,从而提高所述信息匹配度的准确性。
生成单元115根据所述匹配权重生成所述特征信息与所述待匹配信息的信息匹配度。
在本发明的至少一个实施例中,所述信息匹配度用于指示所述特征信息与所述待匹配信息的匹配程度。
在本发明的至少一个实施例中,所述生成单元115根据所述匹配权重生成所述特征信息与所述待匹配信息的信息匹配度包括:
对所述特征信息进行向量化处理,得到特征向量,并对所述待匹配信息进行向量化处理,得到待匹配向量;
根据下列公式计算所述信息匹配度:
Figure BDA0003227985100000201
其中,Sim(Vi,Vj)是指所述信息匹配度,n是指所述共有字段的字段总量,αk是指第k个字段的匹配权重,Vik是指第k个字段所对应的特征向量,Vjk是指第k个字段所对应的待匹配向量。
通过多个字段能够准确的确定出所述信息匹配度。
具体地,所述生成单元115对所述特征信息进行向量化处理,得到特征向量包括:
对所述特征信息中的每个特征字进行编码,得到特征编码;
根据所述特征字在所述特征信息中的位置顺序拼接所述特征编码,得到所述特征向量。
归并单元116根据所述信息匹配度对所述用户信息进行归并处理,得到全局医疗数据库。
在本发明的至少一个实施例中,所述全局医疗数据库是指对所述多个预设医疗系统中的所有医疗数据进行信息匹配归并后所生成的数据库。
需要强调的是,为进一步保证上述全局医疗数据库的私密和安全性,上述全局医疗数据库还可以存储于一区块链的节点中。
在本发明的至少一个实施例中,所述归并单元116根据所述信息匹配度对所述用户信息进行归并处理,得到全局医疗数据库包括:
将所述信息匹配度大于或者等于预设匹配度的待匹配信息确定为所述特征信息的关联信息;
将所述特征信息及所述关联信息归并为同一用户信息,得到所述全局医疗数据库。
其中,所述预设匹配度是根据所述全局医疗数据库的构建准确性确定的,所述全局医疗数据库的准确性需求越高,所述预设匹配度的设定越高。
通过对所述特征信息与所述待匹配信息的信息匹配度的分析,能够根据所述信息匹配度与所述预设匹配度的大小关系快速处理所述用户信息,以提高所述全局医疗数据库的构建效率。
由以上技术方案可以看出,本发明根据所述字段类型及所述文本量对所述用户信息进行结构化处理,能够减少所述结构化信息中的文本量,从而提高所述信息匹配度的生成效率,进一步本发明根据所述字段类型将无法直接提供匹配价值的单个字段进行拼接,提高了能够直接提供匹配价值的匹配字段的数量,能够提高所述信息匹配度的生成准确性,同时,通过字段权重调整所述共有字段的权重,能够避免因信息项缺失而造成信息匹配度不准确,因此,通过提高能够直接提供匹配价值的匹配字段的数量,以及,通过调整所述共有字段的权重,能够双重提高所述全局医疗数据库的构建准确性。通过构建所述全局医疗数据库,能够为医护人员提供更全面的患者健康档案,降低误诊风险。
如图3所示,是本发明实现基于人工智能的医疗数据库构建方法的较佳实施例的电子设备的结构示意图。
在本发明的一个实施例中,所述电子设备1包括,但不限于,存储器12、处理器13,以及存储在所述存储器12中并可在所述处理器13上运行的计算机可读指令,例如基于人工智能的医疗数据库构建程序。
本领域技术人员可以理解,所述示意图仅仅是电子设备1的示例,并不构成对电子设备1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备1还可以包括输入输出设备、网络接入设备、总线等。
所述处理器13可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器13是所述电子设备1的运算核心和控制中心,利用各种接口和线路连接整个电子设备1的各个部分,及执行所述电子设备1的操作系统以及安装的各类应用程序、程序代码等。
示例性的,所述计算机可读指令可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器12中,并由所述处理器13执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该计算机可读指令段用于描述所述计算机可读指令在所述电子设备1中的执行过程。例如,所述计算机可读指令可以被分割成获取单元110、解析单元111、处理单元112、拼接单元113、调整单元114、生成单元115、归并单元116及存储单元117。
所述存储器12可用于存储所述计算机可读指令和/或模块,所述处理器13通过运行或执行存储在所述存储器12内的计算机可读指令和/或模块,以及调用存储在存储器12内的数据,实现所述电子设备1的各种功能。所述存储器12可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。存储器12可以包括非易失性和易失性存储器,例如:硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。
所述存储器12可以是电子设备1的外部存储器和/或内部存储器。进一步地,所述存储器12可以是具有实物形式的存储器,如内存条、TF卡(Trans-flash Card)等等。
所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。
其中,所述计算机可读指令包括计算机可读指令代码,所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
结合图1,所述电子设备1中的所述存储器12存储计算机可读指令实现一种基于人工智能的医疗数据库构建方法,所述处理器13可执行所述计算机可读指令从而实现:
当接收到医疗数据库构建请求时,根据所述医疗数据库构建请求从多个预设医疗系统中获取多个信息字段所对应的用户信息,所述多个预设医疗系统包括特征医疗系统及待匹配医疗系统,所述用户信息包括从所述特征医疗系统中获取到的特征信息及从所述待匹配医疗系统中获取到的待匹配信息;
解析所述多个信息字段,得到每个信息字段的字段类型,并根据所述用户信息统计每个信息字段的文本量;
根据所述字段类型及所述文本量对所述用户信息进行结构化处理,得到结构化信息;
根据所述字段类型拼接所述多个信息字段,得到匹配字段,并根据所述字段类型从预设映射表中获取每个匹配字段的字段权重;
从所述匹配字段中获取所述特征信息及所述待匹配信息的共有字段,并根据所述字段权重调整所述共有字段的初始权重,得到匹配权重;
根据所述匹配权重生成所述特征信息与所述待匹配信息的信息匹配度;
根据所述信息匹配度对所述用户信息进行归并处理,得到全局医疗数据库。
具体地,所述处理器13对上述计算机可读指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述计算机可读存储介质上存储有计算机可读指令,其中,所述计算机可读指令被处理器13执行时用以实现以下步骤:
当接收到医疗数据库构建请求时,根据所述医疗数据库构建请求从多个预设医疗系统中获取多个信息字段所对应的用户信息,所述多个预设医疗系统包括特征医疗系统及待匹配医疗系统,所述用户信息包括从所述特征医疗系统中获取到的特征信息及从所述待匹配医疗系统中获取到的待匹配信息;
解析所述多个信息字段,得到每个信息字段的字段类型,并根据所述用户信息统计每个信息字段的文本量;
根据所述字段类型及所述文本量对所述用户信息进行结构化处理,得到结构化信息;
根据所述字段类型拼接所述多个信息字段,得到匹配字段,并根据所述字段类型从预设映射表中获取每个匹配字段的字段权重;
从所述匹配字段中获取所述特征信息及所述待匹配信息的共有字段,并根据所述字段权重调整所述共有字段的初始权重,得到匹配权重;
根据所述匹配权重生成所述特征信息与所述待匹配信息的信息匹配度;
根据所述信息匹配度对所述用户信息进行归并处理,得到全局医疗数据库。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。所述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于人工智能的医疗数据库构建方法,其特征在于,所述基于人工智能的医疗数据库构建方法包括:
当接收到医疗数据库构建请求时,根据所述医疗数据库构建请求从多个预设医疗系统中获取多个信息字段所对应的用户信息,所述多个预设医疗系统包括特征医疗系统及待匹配医疗系统,所述用户信息包括从所述特征医疗系统中获取到的特征信息及从所述待匹配医疗系统中获取到的待匹配信息;
解析所述多个信息字段,得到每个信息字段的字段类型,并根据所述用户信息统计每个信息字段的文本量;
根据所述字段类型及所述文本量对所述用户信息进行结构化处理,得到结构化信息;
根据所述字段类型拼接所述多个信息字段,得到匹配字段,并根据所述字段类型从预设映射表中获取每个匹配字段的字段权重;
从所述匹配字段中获取所述特征信息及所述待匹配信息的共有字段,并根据所述字段权重调整所述共有字段的初始权重,得到匹配权重;
根据所述匹配权重生成所述特征信息与所述待匹配信息的信息匹配度;
根据所述信息匹配度对所述用户信息进行归并处理,得到全局医疗数据库。
2.如权利要求1所述的基于人工智能的医疗数据库构建方法,其特征在于,所述根据所述医疗数据库构建请求从多个预设医疗系统中获取多个信息字段所对应的用户信息包括:
解析所述医疗数据库构建请求的报文,得到所述报文携带的数据信息;
从所述数据信息中提取用户识别码;
基于所述用户识别码遍历所述多个预设医疗系统,得到每个预设医疗系统的信息列表;
获取所述信息列表中的所有字段作为所述多个信息字段;
基于所述多个信息字段从所述信息列表中获取所述用户信息。
3.如权利要求1所述的基于人工智能的医疗数据库构建方法,其特征在于,所述字段类型包括关键标识类型、候选标识类型、扩展标识类型及候选扩展标识类型,所述解析所述多个信息字段,得到每个信息字段的字段类型包括:
获取所述多个信息字段的属性信息;
从所述多个信息字段中筛选所述属性信息为不可重复的信息字段作为第一字段,并将所述第一字段的字段类型确定为所述关键标识类型;或者
筛选所述属性信息为重复度小于第一配置值的信息字段作为第二字段,并将所述第二字段的字段类型确定为所述候选标识类型;或者
筛选所述属性信息为重复度大于第二配置值的信息字段作为第三字段,并将所述第三字段的字段类型确定为所述扩展标识类型,所述第二配置值大于所述第一配置值;或者
筛选所述属性信息为可变更的信息字段作为第四字段,并将所述第四字段的字段类型确定为所述候选扩展标识类型。
4.如权利要求3所述的基于人工智能的医疗数据库构建方法,其特征在于,所述根据所述字段类型及所述文本量对所述用户信息进行结构化处理,得到结构化信息包括:
从所述多个信息字段中获取所述字段类型为所述候选扩展标识类型,及所述文本量大于预设阈值的信息字段作为目标字段;
从所述用户信息中提取与所述目标字段对应的信息作为目标信息;
从所述目标信息中提取关键词,并根据所述关键词识别所述目标信息的信息语义;
获取与所述信息语义对应的配置信息,并将所述配置信息及除所述目标信息外的用户信息确定为所述结构化信息。
5.如权利要求3所述的基于人工智能的医疗数据库构建方法,其特征在于,所述根据所述字段类型拼接所述多个信息字段,得到匹配字段包括:
从所述多个信息字段中获取所述字段类型为所述扩展标识类型的信息字段作为特征字段;
从所述特征字段中获取所述特征信息与所述待匹配信息的相同字段作为待组装字段;
拼接所述待组装字段,得到组合字段;
将所述组合字段及除所述特征字段外的信息字段确定为所述匹配字段。
6.如权利要求1所述的基于人工智能的医疗数据库构建方法,其特征在于,所述根据所述字段权重调整所述共有字段的初始权重,得到匹配权重包括:
从所述字段权重中获取所述共有字段的权重,得到所述初始权重;
计算所述初始权重的总和;
根据预设值在所述总和中的比例与每个初始权重的乘积生成所述匹配权重。
7.如权利要求1所述的基于人工智能的医疗数据库构建方法,其特征在于,所述根据所述匹配权重生成所述特征信息与所述待匹配信息的信息匹配度包括:
对所述特征信息进行向量化处理,得到特征向量,并对所述待匹配信息进行向量化处理,得到待匹配向量;
根据下列公式计算所述信息匹配度:
Figure FDA0003227985090000031
其中,Sim(Vi,Vj)是指所述信息匹配度,n是指所述共有字段的字段总量,αk是指第k个字段的匹配权重,Vik是指第k个字段所对应的特征向量,Vjk是指第k个字段所对应的待匹配向量。
8.一种基于人工智能的医疗数据库构建装置,其特征在于,所述基于人工智能的医疗数据库构建装置包括:
获取单元,用于当接收到医疗数据库构建请求时,根据所述医疗数据库构建请求从多个预设医疗系统中获取多个信息字段所对应的用户信息,所述多个预设医疗系统包括特征医疗系统及待匹配医疗系统,所述用户信息包括从所述特征医疗系统中获取到的特征信息及从所述待匹配医疗系统中获取到的待匹配信息;
解析单元,用于解析所述多个信息字段,得到每个信息字段的字段类型,并根据所述用户信息统计每个信息字段的文本量;
处理单元,用于根据所述字段类型及所述文本量对所述用户信息进行结构化处理,得到结构化信息;
拼接单元,用于根据所述字段类型拼接所述多个信息字段,得到匹配字段,并根据所述字段类型从预设映射表中获取每个匹配字段的字段权重;
调整单元,用于从所述匹配字段中获取所述特征信息及所述待匹配信息的共有字段,并根据所述字段权重调整所述共有字段的初始权重,得到匹配权重;
生成单元,用于根据所述匹配权重生成所述特征信息与所述待匹配信息的信息匹配度;
归并单元,用于根据所述信息匹配度对所述用户信息进行归并处理,得到全局医疗数据库。
9.一种电子设备,其特征在于,所述电子设备包括:
存储器,存储有计算机可读指令;及
处理器,执行所述存储器中存储的计算机可读指令以实现如权利要求1至7中任意一项所述的基于人工智能的医疗数据库构建方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现如权利要求1至7中任意一项所述的基于人工智能的医疗数据库构建方法。
CN202110977280.1A 2021-08-24 2021-08-24 基于人工智能的医疗数据库构建方法及相关设备 Active CN113688119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110977280.1A CN113688119B (zh) 2021-08-24 2021-08-24 基于人工智能的医疗数据库构建方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110977280.1A CN113688119B (zh) 2021-08-24 2021-08-24 基于人工智能的医疗数据库构建方法及相关设备

Publications (2)

Publication Number Publication Date
CN113688119A true CN113688119A (zh) 2021-11-23
CN113688119B CN113688119B (zh) 2023-09-12

Family

ID=78582211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110977280.1A Active CN113688119B (zh) 2021-08-24 2021-08-24 基于人工智能的医疗数据库构建方法及相关设备

Country Status (1)

Country Link
CN (1) CN113688119B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110459324A (zh) * 2019-06-27 2019-11-15 平安科技(深圳)有限公司 基于长短期记忆模型的疾病预测方法、装置和计算机设备
CN110739076A (zh) * 2019-10-29 2020-01-31 上海华东电信研究院 一种医疗人工智能公共训练平台
CN111104779A (zh) * 2019-11-13 2020-05-05 泰康保险集团股份有限公司 理赔业务处理方法、装置、介质及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110459324A (zh) * 2019-06-27 2019-11-15 平安科技(深圳)有限公司 基于长短期记忆模型的疾病预测方法、装置和计算机设备
CN110739076A (zh) * 2019-10-29 2020-01-31 上海华东电信研究院 一种医疗人工智能公共训练平台
CN111104779A (zh) * 2019-11-13 2020-05-05 泰康保险集团股份有限公司 理赔业务处理方法、装置、介质及电子设备

Also Published As

Publication number Publication date
CN113688119B (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
CN112417096B (zh) 问答对匹配方法、装置、电子设备及存储介质
CN111883251A (zh) 医疗误诊检测方法、装置、电子设备及存储介质
CN111985241B (zh) 医学信息查询方法、装置、电子设备及介质
CN114090794A (zh) 基于人工智能的事理图谱构建方法及相关设备
CN113268597B (zh) 文本分类方法、装置、设备及存储介质
CN113032528A (zh) 案件分析方法、装置、设备及存储介质
CN114037545A (zh) 客户推荐方法、装置、设备及存储介质
CN115222443A (zh) 客户群体划分方法、装置、设备及存储介质
CN113516205B (zh) 基于人工智能的员工稳定性分类方法及相关设备
CN113536770B (zh) 基于人工智能的文本解析方法、装置、设备及存储介质
CN114510487A (zh) 数据表合并方法、装置、设备及存储介质
CN113470775B (zh) 信息采集方法、装置、设备及存储介质
CN114372060A (zh) 数据存储方法、装置、设备及存储介质
CN113900955A (zh) 自动化测试方法、装置、设备及存储介质
CN114116108A (zh) 动态渲染方法、装置、设备及存储介质
CN113705468A (zh) 基于人工智能的数字图像识别方法及相关设备
CN112199494A (zh) 医疗信息搜索方法、装置、电子设备及存储介质
CN111933241A (zh) 医疗数据解析方法、装置、电子设备及存储介质
CN114360732B (zh) 医疗数据分析方法、装置、电子设备及存储介质
CN116468043A (zh) 嵌套实体识别方法、装置、设备及存储介质
CN114943474A (zh) 研发工作量检测方法、装置、设备及存储介质
CN113627186B (zh) 基于人工智能的实体关系检测方法及相关设备
CN113688119B (zh) 基于人工智能的医疗数据库构建方法及相关设备
CN113240325A (zh) 数据处理方法、装置、设备及存储介质
CN114581177A (zh) 产品推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220921

Address after: Room 2601 (Unit 07), Qianhai Free Trade Building, No. 3048, Xinghai Avenue, Nanshan Street, Qianhai Shenzhen-Hong Kong Cooperation Zone, Shenzhen, Guangdong 518000

Applicant after: Shenzhen Ping An Smart Healthcare Technology Co.,Ltd.

Address before: 1-34 / F, Qianhai free trade building, 3048 Xinghai Avenue, Mawan, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong 518000

Applicant before: Ping An International Smart City Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant