CN115344531A - 用于经压缩的快速医疗互操作资源(fhir)文件相似性搜索的方法和系统 - Google Patents
用于经压缩的快速医疗互操作资源(fhir)文件相似性搜索的方法和系统 Download PDFInfo
- Publication number
- CN115344531A CN115344531A CN202110528668.3A CN202110528668A CN115344531A CN 115344531 A CN115344531 A CN 115344531A CN 202110528668 A CN202110528668 A CN 202110528668A CN 115344531 A CN115344531 A CN 115344531A
- Authority
- CN
- China
- Prior art keywords
- fhir
- file
- files
- fingerprint
- length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 239000013598 vector Substances 0.000 claims abstract description 88
- 230000006835 compression Effects 0.000 claims abstract description 85
- 238000007906 compression Methods 0.000 claims abstract description 85
- 238000012549 training Methods 0.000 claims description 33
- 238000013139 quantization Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 description 31
- 230000015654 memory Effects 0.000 description 19
- 238000004891 communication Methods 0.000 description 17
- 238000000605 extraction Methods 0.000 description 9
- 230000036541 health Effects 0.000 description 6
- 239000000463 material Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000002649 immunization Methods 0.000 description 3
- 230000003053 immunization Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 239000000825 pharmaceutical preparation Substances 0.000 description 1
- 229940127557 pharmaceutical product Drugs 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1744—Redundancy elimination performed by the file system using compression, e.g. sparse files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3082—Vector coding
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/70—Type of the data to be coded, other than image and sound
- H03M7/707—Structured documents, e.g. XML
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Library & Information Science (AREA)
- Bioethics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种用于使用文件压缩系统(200)生成经压缩的快速医疗互操作资源(FHIR)文件的方法(100),包括:(i)接收(104)未经压缩的FHIR文件;(ii)从未经压缩的文件中提取(106)预定的多个不同的资源类型;(iii)根据所提取的预定的多个不同的资源类型生成(108)固定长度的FHIR患者简档指纹,其中,所述固定长度的FHIR患者简档指纹包括固定长度的浮点值特征向量,所述固定长度的浮点值特征向量包括预定的多个子特征向量,每个子特征向量表示不同的提取资源类型,并且其中,每个子特征向量包括相应的提取资源类型的多个元素;(iv),使用训练的压缩算法压缩(110)所生成的固定长度的FHIR患者简档指纹,以生成经压缩的FHIR指纹;以及(v)将所述经压缩的FHIR指纹存储(112)在数据库中。
Description
技术领域
本公开内容通常针对于用于生成和利用经压缩的快速医疗互操作资源(FHIR)文件的方法和系统。
背景技术
医学数据的许多医学和研究应用需要相似性搜索。找到具有相似的特征的患者和/或处置可以提供对患者轨迹、预报和/或预测、患者处置等的深入了解。因此,识别相似的患者可以对患者的健康护理结果具有巨大的好处。
与对医学数据库中的医学数据的相似性搜索相关联的一个问题是,搜索相似的患者可能需要对隐私敏感的医学信息的传输和传送。所述对敏感信息的传输可能是监管问题以及隐私和/或安全风险。
用于对医学数据的安全相似性搜索的一种解决方案是在数据仍然加密时进行搜索。因此,当前的方法探索对诸如同态加密的方法的使用,其使得在数据加密时对其进行分析。然而,同态解决方案在其可以处理的数据量上受到严重的限制。照此,即使是最好的解决方案对于现实世界的使用也是十分有限的。
许多电子健康记录系统利用由健康水平7(HL7)国际健康标准组织创建的快速医疗互操作资源(FHIR)格式来存储和传送医学数据。FHIR是描述数据格式和元素(即,资源)的标准,以及是用于交换电子健康记录的API。然而,FHIR文件可能是非常大的文件,并且因此使用FHIR文件进行相似性搜索可能是一个繁重的过程。。
发明内容
因此,本领域存在实现快速并且有效地对FHIR文件的相似性搜索的方法和系统的持续的需要。本领域进一步存在实现对同态加密FHIR文件的搜索以确保这些文件的隐私性和安全性的方法和系统的需要。
本公开内容针对于用于对FHIR数据(诸如患者简档)的相似性搜索的发明方法和系统。本文中的各种实施例和实施方式针对于配置用于生成和利用高度压缩的FHIR文件的方法和系统。根据一实施例,在许多其他搜索技术中,高度压缩的FHIR文件可以用于同态搜索。文件压缩系统接收一个或多个未经压缩的FHIR文件。系统从接收到的文件中的一个或多个文件中提取在该文件中找到的多个不同的资源类型。从文件中提取资源的数量和类型可以由系统或用户预定。文件压缩系统之后根据提取的多个资源类型生成固定长度的FHIR患者简档指纹。根据一实施例,固定长度的FHIR患者简档指纹包括固定长度的浮点值特征向量。固定长度的浮点值特征向量依次包括预定的多个子特征向量,每个子特征向量表示不同的提取资源类型,并且每个子特征向量包括相应的提取资源类型的多个元素。文件压缩系统使用系统的训练的压缩算法来压缩生成的固定长度的FHIR患者简档指纹,从而生成经压缩的FHIR指纹。经压缩的FHIR指纹可以之后存储在数据库中,并且用于快速且有效的相似性搜索。
通常地,在一个方面中,提供用于使用文件压缩系统来生成经压缩的快速医疗互操作资源(FHIR)文件的方法。所述方法包括:(i)接收未经压缩的文件,所述未经压缩文件被配置为FHIR文件;(ii)从未压缩文件中提取预定的多个不同的资源类型;(iii)根据所提取的预定的多个不同的资源类型生成固定长度的FHIR患者简档指纹,其中,所述固定长度的FHIR患者简档指纹包括固定长度的浮点值特征向量,所述固定长度的浮点值特征向量包括预定的多个子特征向量,每个子特征向量表示不同的提取资源类型,并且其中,每个子特征向量包括相应的提取资源类型的多个元素;(iv)使过训练的压缩算法来压缩生成的固定长度的FHIR患者简档指纹以生成经压缩的FHIR指纹;并且(v)将经压缩的FHIR指纹存储在数据库中。
根据一实施例,固定长度的浮点值特征向量包括六个子特征向量。
根据一实施例,经压缩的FHIR指纹包括固定长度的比特向量。
根据实施例,训练的压缩算法包括迭代量化方法。根据实施例,迭代量化方法生成位置敏感的哈希函数,该位置敏感的哈希函数配置成根据生成的固定长度的FHIR患者简档指纹生成固定长度的比特向量。
根据一实施例,该方法还包括对训练的压缩算法进行训练的步骤,包括:(i)接收多个FHIR文件;(ii)处理接收到的多个FHIR文件;(iii)训练压缩算法以生成位置敏感的哈希函数;并且(iv)存储生成的位置敏感的哈希函数。根据一实施例,处理接收到的多个FHIR文件包括:(i)标记接收到的多个FHIR文件之间的一个或多个相似点;和/或(ii)改变接收到的多个FHIR文件中的一个或多个FHIR文件以生成修改的FHIR文件。
根据一实施例,所述方法还包括搜索与存储在数据库中的经压缩的FHIR指纹中的一个或多个的相似性。
根据一实施例,所述方法还包括报告搜索与存储在数据库中的经压缩的FHIR指纹中的一个或多个的相似性的步骤的结果。
根据另一方面是被配置为生成经压缩的快速医疗互操作资源(FHIR)文件的系统。所述系统包括:包括多个未经压缩的文件的电子医学记录数据库,所述未经压缩的文件中的每个文件被配置为FHIR文件;位置敏感的哈希函数,其被配置为根据生成的固定长度的FHIR患者简档指纹生成固定长度的比特向量;以及处理器,其被配置为:(i)从多个未经压缩的文件中的每个文件中提取预定的多个不同的资源类型;(ii)根据提取的预定的多个不同的资源类型生成固定长度的FHIR患者简档指纹,其中,固定长度的FHIR患者简档指纹包括固定长度的浮点值特征向量,所述固定长度的浮点值特征向量包括预定的多个子特征向量,每个子特征向量表示不同的提取资源类型,并且其中,每个子特征向量包括相应的提取资源类型的多个元素;(iii)使用位置敏感的哈希函数压缩生成的固定长度的FHIR患者简档指纹,以生成经压缩的FHIR指纹;并且(iv)将经压缩的FHIR指纹存储在数据库中。
根据一实施例,处理器还被配置为搜索与存储在数据库中的经压缩的FHIR指纹中的一个或多个的相似性。根据一实施例,系统还包括用户接口,并且处理器还被配置为经由用户接口来报告搜索与存储在数据库中的经压缩的FHIR指纹中的一个或多个的相似性的结果。
应当领会的是,上述概念和下文更详细地讨论的另外的概念的所有组合(前提是这样的概念不是相互矛盾的)被视为本文所公开的主题的一部分。特别是,在本公开内容的末尾处出现的要求保护的主题的所有组合被视为本文所公开的主题的一部分。还应当领会的是,本文中明确地采用的术语还可能出现在通过引用合并的任何公开内容中,其应当赋予与本文所公开的特定的概念最一致的意义。
各种实施例的这些和其他方面将从下文描述的(一个或多个)实施例中变得显而易见并且参照下文描述的(一个或多个)实施例得以说明。
附图说明
在附图中,类似的附图标记通常指的是遍及不同的视图的相同的部分。附图示出实现各种实施例的特征和方法,并且不应解释为限制落入所附的权利要求的范围内的其他可能的实施例。另外,附图不一定是按比例绘制的,而是通常将重点放在说明各种实施例的原理上。
图1是根据实施例的用于生成高度压缩的FHIR文件的方法的流程图。
图2是根据实施例的对FHIR文件压缩系统的示意图表示。
图3是根据实施例的对用于训练FHIR文件压缩系统的部件的方法的示意图表示。
图4是根据实施例的用于处理FHIR文件的方法的流程图。
具体实施方式
本公开内容描述系统和方法的各种实施例,所述系统和方法被配置为实现对同态加密的FHIR文件的搜索,以确保这些文件的隐私性和安全性。更通常地,申请人已经认识以及领会的是,提供使用文件压缩系统来生成和利用高度压缩的FHIR文件的方法和系统将是有益的。文件压缩系统接收一个或多个未经压缩的FHIR文件。系统从一个或多个接收到的文件中提取在该文件内找到的多个不同的资源类型。从文件中提取的资源的数量和类型可以由系统或用户预定。文件压缩系统之后根据提取的多个资源类型生成固定长度的FHIR患者简档指纹。根据一实施例,固定长度的FHIR患者简档指纹包括固定长度的浮点值特征向量。固定长度的浮点值特征向量依次包括预定的多个子特征向量,每个子特征向量表示不同的提取资源类型,并且每个子特征向量包括相应的提取资源类型的多个元素。文件压缩系统使用系统的训练的压缩算法来压缩生成的固定长度的FHIR患者简档指纹,从而生成经压缩的FHIR指纹。经压缩的FHIR指纹可以之后存储在数据库中,并且用于快速和有效的相似性搜索。
在某些实施例中,研究人员和/或健康护理专业人员可利用健康护理或研究系统,借助于新颖的对位置敏感的哈希解决方案快速地找出高度相似的FHIR患者资源。用于处理真实世界的数据和找到类似的FHIR简档的一个持续的挑战是数据的大小。本文中描述或以其他方式设想的方法和系统创建FHIR文件的指纹。多面指纹是以智能地区分FHIR文件中不贡献于独特性的那些元素的方式来构建的。此外,本文中描述或以其他方式设想的方法和系统通过利用新颖的迭代量化方法来产生专用的位置敏感的哈希(LSH)函数来获得小的最终指纹。
除了解决对现实世界数据的同态加密所遇到的数据大小问题之外,本文所描述或以其他方式设想的方法和系统提供另外的积极的影响。例如,导出的保留相似性的压缩为检测复制的(FHIR)记录、以及消费者面临的持久问题提供高性能的解决方案。一般而言,由于FHIR文件的大尺寸和复杂性,复制检测不精确或者非常缓慢。然而,本文描述或以其他方式设想的新颖的压缩方法和系统可以在毫秒内识别最高可能的复制候选。
因此,根据一实施例,本文所描述的或以其他方式设想的方法和系统包括指纹方案,其被配置为将FHIR文件缩减为多向量特征向量方案,该多向量特征向量方案保留FHIR文件的相似性属性。此外,该方法和系统包括迭代量化方法,以进一步地将特征向量减少为小的易于搜索的比特向量。这对于通常的基于FHIR的相似性搜索以及数据大小对性能有指数影响的同态加密解决方案均很有用
本文所公开或以其他方式设想的实施例和实施方式可以与利用或以其他方式包括FHIR标准的任何系统一起利用,包括但不受限于医学设备或系统。例如,本文中的实施例和实施方式的一个应用是改善诸如飞利浦患者监测系统,诸如飞利浦精密医药产品(由Koninklijke Philips,N.V.制造),的医学监测系统,以及许多其他产品。然而,本公开内容不受限于这些设备或系统,并且因此本文所公开的公开内容和实施例可以包括利用或以其他方式包括FHIR的任何设备或系统。
参照图1,在一个实施例中,是用于使用文件压缩系统来生成和利用高度压缩的FHIR文件的方法100的流程图。结合附图描述的方法仅作为示例来提供,并且应理解为不限制本公开内容的范围。文件压缩系统可以是本文描述或以其他方式设想的系统中的任何系统。文件压缩系统可以是单个系统,或可以是多个不同的系统。
在该方法的步骤102处,提供文件压缩系统200。参照如图2所描绘的文件压缩系统200的实施例,例如,该系统包括处理器220、存储器230、用户接口240、通信接口250和存储器260中的一者或多者,经由一个或多个系统总线212互连。将理解的是,在一些方面中,图2构成抽象概念,并且系统200的部件的实际组织可以不同于所示出的组织并且比所示出的更复杂。另外地,文件压缩系统200可以是本文所描述或以其他方式设想的系统中的任何系统。系统200的其他元件和部件是在本文中别处公开的和/或设想的。
在方法的步骤104处,文件压缩系统接收未经压缩的文件。根据一实施例,未经压缩的文件被配置为、组织为或以其他方式包括FHIR格式。未经压缩的文件可以是包括根据FHIR标准组织的、结构化的或以其他方式格式化的数据的任何文件、文档或其他结构。根据一实施例,未经压缩的文件包括关于患者的医学数据。医学数据或信息可以是能够根据FHIR标准存储、格式化或以其他方式配置的任何医学数据或信息。
根据一个实施例,文件是从文件数据库(例如电子医学记录数据库或系统270)接收和/或请求的。电子医学记录数据库或系统可以是任何本地的或远程的数据库或系统。例如,文件压缩系统可以是电子医学记录数据库或系统的部件。因此,文件压缩系统可以被配置为访问电子医学记录数据库或系统中的未经压缩的文件,如本文所描述的或以其他方式设想的方式来压缩文件,并且将经压缩的文件存储或以其他方式提供回电子医学记录数据库或系统中。作为另一示例,文件压缩系统可以是两个系统之间的中介,并且被配置为在将文件从一个系统传送到第二系统之前压缩文件。例如,文件压缩系统可以被配置为从电子医学记录数据库或系统接收一个或多个未经压缩的文件到另一系统,包括但不受限于第二医学数据库或系统。
在该方法的步骤106处,根据一实施例,文件压缩系统从未经压缩的文件中提取或以其他方式访问、检索或利用预定的多个不同的资源类型。资源可以是由FHIR标准利用或定义的任何资源类型。资源可以包括由资源类型的定义所描述的一个或多个结构化的数据项。
根据一实施例,用户或系统可以预定或选择多个不同的资源类型。例如,选择可以是全部地或部分地基于期望的结果或对文件压缩系统的使用或文件压缩系统的输出。例如,如果经压缩的文件将用于针对特定目的的相似性搜索,则该特定目的可以定义所选定的不同的资源类型。或者,可以选择资源类型以实现对经压缩的、存储的FHIR文件进行相似性搜索、存储和/或其他利用的广泛的可能性。
例如,参照图4,根据文件压缩系统的一个可能的实施例,从FHIR文件利用或提取多个不同的资源类型和相关联的数据项。根据该非限制性的示例,六种不同的资源类型从接收的或获得的FHIR文件中提取或利用:(i)免疫;(ii)遭遇(Encounters);(iii)诊断;(iv)状况;(v)观察;以及(vi)患者。文件压缩系统可以包括这些资源类型中的一些项或不包括这些项,并且可以包括比为该特定的非限制性的示例选定的资源类型更少或更多的资源类型。
根据一实施例,每个相应的资源类型与针对该相应的资源类型的预定的或可变数量的相关的结构化数据项相关联:(i)免疫(7个数据项);(ii)遭遇(7个数据项);(iii)诊断(11个数据项);(iv)状况(7个数据项);(v)观察(11个数据项);(vi)患者(11个数据项)。结果总共有54个数据项。文件压缩系统可以包括这些资源类型和相关联的数据项数据中的一些项或不包括这些项,并且可以包括比为该特定的非限制性示例选定的资源类型和/或数据项更少或更多的资源类型和/或数据项。
根据一实施例,对多个不同的资源以及与每个资源相关联的一个或多个结构化的数据项的提取可以通过用于资源和数据项识别、提取和/或处理的各种实施例来完成,包括用于从数据集中提取特征的任何方法。文件压缩系统的特征处理步骤或模块的结果是与患者的医学信息相关的患者特征集合。该提取的或处理的数据可以在该方法的随后的步骤中利用。提取的或处理的数据可以是立即利用的,或可以存储在本地的或远程的存储设备中以供后续使用。
在该方法的步骤108处,根据一实施例,文件压缩系统使用提取的预定的多个不同的资源类型和相关联的数据项来生成固定长度的FHIR患者简档指纹。根据一实施例,固定长度的FHIR患者简档指纹包括固定长度的浮点值特征向量。根据一实施例,固定长度的浮点值特征向量包括预定的多个子特征向量,每个子特征向量表示预定的和选定的不同的提取资源类型中的一个资源类型。根据一实施例,每个子特征向量包括多个元素,诸如与相应的提取资源类型相关联的提取的关联数据项。
固定长度的FHIR患者简档指纹的长度可以由用户或系统预定。长度可以取决于例如由文件压缩系统选定的或以其他方式利用的不同的资源类型。例如,在利用更多的资源类型时,指纹的长度可能会变长。
再次参照图4,根据文件压缩系统的一个可能的实施例,六种不同的资源类型从接收到的或获得的FHIR文件中提取或利用,其具有针对该相应的资源类型的相关联的结构化数据项:(i)免疫(7个数据项);(ii)遭遇(7个数据项);(iii)诊断(11个数据项);(iv)状况(7个数据项);(v)观察(11个数据项);(vi)患者(11个数据项)。结果总共有54个数据项。因此,FHIR患者简档指纹是针对FHIR文件的54个浮点值特征向量。该特征向量是六个子特征向量的组合,每个子特征向量捕获FHIR患者简档的单独的资源类型。如图中所述,每个特征向量具有不同的长度,在本示例中,一些特征向量是七个元素长,并且其他特征向量是十一个元素长。为了获得这些长度,利用以下算法,虽然许多其他方法是可能的:
根据一实施例,该算法中的逻辑如下。给定来自六个选定的FHIR资源类型中的resourcetype和一个代表性的FHIR文件的大SampleSet,尝试找到特征向量的最佳素数大小i,针对每个候选素数,首先通过算法3(下文详细地描述)为SampleSet中的所有文件导出i大小的指纹集合。之后,使用Spearman相关度量θ来计算指纹集Q中的样本之间的平均相关.如果Q低于某个最小阈值D(在我们的实施例中,D=0.55),则选择素数i作为长度。
根据一实施例,使用新颖的算法3(下文详细地描述)来导出固定长度的FHIR患者简档指纹。然而,为了帮助支撑对新算法3的开发和使用,描述以下文本相似性算法(即,算法2):
根据一实施例,该基本的指纹公式通过将组成FHIR json文件的键值对分解为特征向量编码来工作,所述特征向量编码被求和并且之后增加标准化的结束。字符串的特征向量编码是通过对字符串的整数值进行加权马尔可夫链WMC来完成的。该编码是衰减编码,降低每个随后的字符的权重。数字的特征向量编码将每个数字解构为尾数和指数ME,将其分别编码为特征向量。
然而,根据文件压缩系统的一实施例,算法3(下文详细地描述)用于将指纹编码为导出的最佳大小的特征向量,而不是上文描述的算法2。尽管算法2是用于确定记录之间暴力相关性的有效的工具,但是在导出实际指纹时,文件压缩系统利用更精细的方法,所述方法可以最大化FHIR之间最显著值的相关性,忽略结构中的相关性,这是因为结构是FHIR的固定属性。说明此的另一方法是,系统未利用FHIR记录的底层文本表示的实际相关性,系统基于记录的最重要的方面来关联记录。例如,如果两个患者均包括频繁的检查,利用算法2将增加其整体相关性或相似性。然而,在大多数情况下,这种类型的相似性(即频繁检查)不是很有用,这是因为患者可能出于非常不同的原因利用或参加频繁的健康检查。相反,如果一个患者体重78.3公斤,并且另一患者体重79.1公斤,算法2将会将其识别此为实质性的不相似性。算法3在不存在这些问题的情况下生成最终的指纹,从而产生更精确的相似性。相应地,新颖的算法三大大优于算法二。算法三如下:
该算法增加三个另外的函数,即Freq、Sev和Bucket。Freq函数为每个类的类型产生频率值,所述频率值是根据FHIR文件的样本集预先计算的。Sev函数计算人工预定义的类的严重性。存在许多方法来定义或计算类的严重性,并且可以至少部分取决于用户的需要、对文件压缩系统的利用率和其他参数。例如,简单的检查可能会将严重性设置为0,而长期住院可能会将严重性设置为非常高的0.9。Bucket函数将度量值分布到各个类别中,类似于这样的数据是如何被取消标识的。
根据一个实施例,在实验中,算法2使用Spearman相关将大约20%的随机生成的文件识别为可能高度相似。相比之下,算法3将大约1%的随机生成的文件识别为可能高度相似。对这些随机生成的文件的审查表明,大约1%的文件确实非常相似。另外,根据被执行以审查算法2和算法3的实验,结果表明算法3能够识别大约98%的轻微修改的复制文件。
在该方法的步骤110处,利用文件压缩系统的训练压缩算法来压缩从该方法的步骤108生成的固定长度的FHIR患者简档指纹,以生成经压缩的FHIR指纹。根据一实施例,系统利用具有自动生成的训练数据的迭代量化来产生位置敏感的哈希函数。迭代量化的许多不同的方法是可能的。
文件压缩系统利用适合于下游相似性搜索的用于压缩的任何算法。根据仅仅一实施例,文件压缩利用诸如LSHBOX C++库的库。虽然系统可以利用FHIR-HAPI库,但是这仅仅是一个非限制性的示例,并且存在其他库和/或工具可供使用。根据一实施例,系统将FHIR指纹压缩为20比特长的比特向量,以支持多达一百万患者。然而,比特向量可以是任何长度,并且因此对于小型数据库可以更短,或对于大型数据库可以更长。
根据一实施例,文件压缩系统为每个FHIR指纹生成比特向量。这些比特向量对于查找高度相似的和/或重复的FHIR文件而言是理想的。根据一个示例,本文所描述或以其他方式设想的方法和系统可以用于实现对具有类似临床路径的患者快速并且有效的发现。根据一示例,系统可以调整或以其他方式改变多个向量以排除患者和/或遭遇向量,并且利用该较小的特征向量重新进行迭代量化步骤。
根据一实施例,本文所描述或以其他方式设想的方法和系统生成54个浮点数的固定长度的FHIR患者简档指纹,虽然另一些大小也是可能的。54点指纹包含约3kb的数据存储大小,其与平均约700kb的FHIR患者简档大小相比,导致了超过200的压缩因子。
然而,针对同态加密,特别是3kb的文件可能仍然太大。因此,本文所描述的或以其他方式设想的方法和系统应用迭代量化以将3kb文件压缩到更小的大小。根据仅仅一个实施例,迭代量化将每个3kb FHIR指纹文件压缩为20比特的比特向量,虽然另一些向量长度是可能的。
迭代量化通过使用大型标记数据集来训练算法,而导出位置敏感的哈希函数,以用于以保留相似性的方式执行压缩。根据一实施例,数据集和伴随的标签是从唯一的FHIR文件集合产生的。FHIR文件是通过标记通过测量与算法3的结果的Spearman相关而发现的文件之间的相似性、并且通过自动地生成轻微地改变的复制来处理的。该自动的生成包括例如,创建通用名称变体、创建另外的临床事件和/或观察、移除临床事件和/或观察、和/或其他可能的轻微的改变。根据对测试的训练,作为结果的20比特向量在随机生成的文件中具有大约2%的较弱的相关。然而,考虑到应用于生成这些比特向量的广泛的压缩,轻微地较弱的相关是可接受的结果。
参照图3,在一个实施例中,是用于训练文件压缩系统的迭代量化压缩算法以例如生成适当的专用位置敏感的哈希函数的方法300的流程图。在该方法的步骤310处,系统接收或获得多个FHIR文件,所述FHIR文件将被用作训练数据集以训练迭代量化压缩算法。FHIR文件是唯一的,使得文件之间不存在实质性的相似性。FHIR文件可以是真实的或人工生成的FHIR文件,部分可以均包括关于患者的任何信息。根据一实施例,FHIR文件仅包括将用于训练算法和/或用于相似性搜索的关于患者的信息。根据另一实施例,FHIR文件可以包括除了关于患者的信息之外的信息,所述信息将用于训练算法和/或用于相似性搜索。该训练数据可以存储在一个或多个数据库中和/或从一个或多个数据库接收。数据库可以是本地的和/或远程的数据库。例如,文件压缩系统可以包括训练数据的数据库。
根据一实施例,文件压缩系统可以包括数据预处理器或类似的部件或算法,其被配置为处理接收到的训练数据。例如,数据预处理器分析训练数据以去除噪声、偏差、错误和其他潜在的问题。
在该方法的步骤320处,处理训练数据集中的FHIR文件。根据一实施例,通过标记通过测量与算法3的结果的Spearman相关而发现的文件之间的相似性,并且通过自动地生成轻微地改变的复制来处理文件。该自动生成包括例如,创建通用名称变体、创建另外的临床事件和/或观察、去除临床事件和/或观察、和/或其他可能的轻微的改变。文件压缩系统的处理步骤的结果是FHIR文件集合,其包括可以用于训练迭代量化算法的训练数据集。
在该方法的步骤330处,系统训练迭代量化算法以生成合适的专用位置敏感的哈希函数。算法是根据用于训练机器学习算法的已知的方法、使用训练数据集来训练的。根据一实施例,使用经处理的训练数据集来训练该算法,以创建将FHIR文件压缩为期望的长度的比特向量的位置敏感的哈希函数。
在该方法的步骤330之后,文件压缩系统包括可以用于将生成的FHIR指纹文件压缩到期望长度的比特向量的位置敏感的哈希函数。哈希函数可以是静态的,使得其生成一次并且用于压缩。根据另一实施例,系统可以是更动态的,使得使用随后可用的训练数据来重新更新或生成哈希函数。更新或新一代可以是恒定的,或可以是周期性的。
在该方法的步骤340处,生成的哈希函数可以被本地或远程地存储,以用于对生成的FHIR指纹文件的随后的压缩。
回到图1中描绘的方法,文件压缩系统已经生成表示多个FHIR文件中的每个FHIR文件的FHIR指纹的固定长度的比特向量。因此,在该方法的步骤112处,文件压缩系统将经压缩的FHIR指纹(即,生成的固定长度的比特向量)存储在数据库中。数据库可以是本地的或远程的数据库,并且是文件压缩系统200的部件或以其他方式与文件压缩系统200通信。根据一实施例,文件压缩系统包括可选地与系统200直接地和/或间接地通信的比特向量数据库。
在该方法的可选的步骤114处,文件压缩系统或另一合适的系统可以用于通过搜索所生成和存储的表示那些FHIR文件的固定长度的比特向量之间的相似性来搜索FHIR文件之间的相似性。由于存储的比特向量的大小非常小,搜索文件之间的相似性或与输入或查询文件的相似性是快速并且有效的。可以使用能够并且适合于识别所存储的比特向量之间的相似性的任何方法、系统或算法来完成对相似文件的搜索。根据一实施例,相似性搜索可以包括用于识别适当的相似性的阈值或其他参数。
在该方法的可选的步骤116处,文件压缩系统可以经由文件压缩系统200的用户接口240向用户提供报告,包括对通过相似性搜索识别为与另一FHIR文件、和/或与输入或查询文件适当类似的一个或多个FHIR文件的识别。根据一实施例,系统可以在系统的显示器上显示报告。显示可以包括关于FHIR文件、患者和/或用于相似性搜索的一个或多个参数的信息。其他信息是可能的。或者,可以通过有线通信和/或无线通信将报告传送给另一设备。例如,系统可以将报告传送给移动电话、计算机、膝上型计算机、可穿戴设备和/或配置为允许报告的显示和/或其他通信的任何其他设备。
参照图2是对文件压缩系统200的示意图表示。系统200可以是本文所描述的或以其他方式设想的系统中的任何系统,并且可以包括本文所描述的或以其他方式设想的部件中的任何部件。将理解的是,图2在一些方面构成抽象概念,并且系统200的部件的实际组织可以不同于所示出的并且比所示出的更复杂。
根据一实施例,系统200包括处理器220,其能够执行存储在存储器230或存储设备260中的指令,或以其他方式处理数据以例如执行该方法的一个或多个步骤。处理器220可以由一个或多个模块组成。处理器220可以采取任何合适的形式,包括但不受限于微处理器、微控制器、多个微控制器、电路、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、单个处理器或多个处理器。
存储器230可以采用任何合适的形式,包括非易失性存储器和/或RAM。存储器230可以包括各种存储器,例如L1、L2或L3高速缓存或系统存储器。照此,存储器230可以包括静态随机存取存储器(SRAM)、动态RAM(DRAM)、闪速存储器、只读存储器(ROM)或其他类似的存储器设备。存储器可以存储操作系统以及其他事物。RAM是由处理器用于对数据的临时存储。根据一实施例,操作系统可以包含在由处理器执行时控制对系统200的一个或多个部件的操作的代码。将显而易见的是,在处理器在硬件中实现本文中描述的功能中的一个或多个功能的实施例中,可以省略在其他实施例中描述为与这样的功能相对应的软件。
用户接口240可以包括一个或多个用于实现与用户进行通信的设备。用户接口可以是允许传送和/或接收信息的任何设备或系统,并且可以包括用于接收用户命令的显示器、鼠标和/或键盘。在一些实施例中,用户接口240可以包括可经以由通信接口250展示给远程终端的命令行接口或图形用户接口。用户接口可以与系统的一个或多个其他部件一起定位,或者可以远离系统定位并且经由有线通信网络和/或无线通信网络进行通信。
通信接口250可以包括一个或多个设备,用于实现与其他硬件设备进行的通信。例如,通信接口250可以包括被配置为根据以太网协议进行通信的网络接口卡(NIC)。另外地,通信接口250可以实施用于根据TCP/IP协议进行通信的TCP/IP栈。针对通信接口250的各种替代的或另外的硬件或配置将是显而易见的。
存储设备260可以包括一个或多个机器可读存储介质,诸如只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪速存储器设备或类似的存储介质。在各种实施例中,存储设备260可以存储用于由处理器220执行的指令或处理器220可以操作的数据。例如,存储设备260可以存储用于控制系统200的各种操作的操作系统261。
将显而易见的是,存储在存储设备260中描述的各种信息可以另外地或替代地存储在存储器230中。在该方面中,存储器230还可以被认为是构成存储设备,并且存储设备260可以被认为是存储器。各种其他布置将是显而易见的。进一步地,存储器230和存储设备260均可以被认为是非瞬态机器可读介质。如本文所使用的,术语非瞬态将被理解为排除暂时性的信号,但是包括所有形式的存储设备,包括易失性存储器和非易失性存储器两者。
虽然系统200示出为包括所描述的每个部件中的一个部件,但是各种设备可以在各种实施例中复制。例如,处理器220可以包括多个微处理器,其被配置为独立地执行本文所描述的方法,或者被配置为执行本文所描述方法的步骤或子例程,使得多个处理器协作以实现本文所述的功能。进一步地,在系统200的一个或多个部件是在云计算系统中实施的情况下,各种硬件部件可以属于单独的物理系统。例如,处理器220可以包括第一服务器中的第一处理器和第二服务器中的第二处理器。许多其他变化和配置是可能的。
根据一实施例,系统200的存储设备260可以存储一个或多个算法、模块和/或指令,以执行本文所描述的或以其他方式设想的方法的一个或多个功能或步骤。例如,除其他指令或数据外,系统还可包括电子医学记录系统270、训练数据集280、FHIR指纹指令262、训练指令263、位置敏感的哈希函数264、相似性搜索指令265和/或报告指令266,以及另一些可能的指令和/或数据。
根据一实施例,电子医学记录系统270是电子医学记录数据库,可以从其中获得或接收多个FHIR文件。电子医学记录数据库可以是本地的或远程的数据库,并且与文件压缩系统200通信。根据一实施例,文件压缩系统包括可选地与系统200直接地和/或间接地进行通信的电子医学记录数据库或系统270。
根据一实施例,训练数据集280是可以存储在本地的或远程的数据库中的数据集,并且与文件压缩系统200通信。根据一实施例,文件压缩系统包括训练数据集280。训练数据可以包括例如用于训练迭代量化压缩算法的多个FHIR文件。多个FHIR文件可以是唯一的,使得这些文件之间不存在实质性的相似性。FHIR文件可以是真实的或人工生成的FHIR文件,并且可以均包括关于患者的任何信息。
根据一实施例,FHIR指纹指令262指导系统使用提取的预定的多个不同的资源类型和相关联的数据项来生成固定长度的FHIR患者简档指纹。根据一实施例,固定长度的FHIR患者简档指纹包括固定长度的浮点值特征向量。根据一实施例,固定长度的浮点值特征向量包括预定的多个子特征向量,每个子特征向量表示预定的和选定的不同的提取资源类型中的一个资源类型。根据一实施例,每个子特征向量包括多个元素,例如与相应的提取资源类型相关联的提取的关联的数据项。固定长度的FHIR患者简档指纹的长度可以由用户或系统预定。
根据一实施例,训练指令263指导系统利用训练数据集280来生成如本文所描述或以其他方式设想的位置感测哈希函数264。因此,该系统包括可以用于生成可以存储在数据库中的FHIR文件比特向量的位置感测哈希函数264。
根据一实施例,相似性搜索指令265通过搜索表示这些FHIR文件的生成的和存储的固定长度的比特向量之间的相似性,指导系统搜索FHIR文件之间的相似性。可以使用能够并且适合于识别所存储的比特向量之间的相似性的任何方法、系统或算法来完成对相似文件的搜索。根据一实施例,相似性搜索可以包括用于识别适当的相似性的阈值或其他参数。
根据一实施例,报告指令266指导系统生成、并经由用户接口向用户提供报告,包括对由相似搜索识别为与另一FHIR文件、和/或与输入或查询文件适当地相似的一个或多个FHIR文件的识别。根据一实施例,系统可以在系统的显示器上显示报告。显示可以包括关于FHIR文件、患者和/或用于相似性搜索的一个或多个参数的信息。其他信息是可能的。或者,可以通过有线通信和/或无线通信将报告传送给另一设备。例如,系统可以将报告传送给移动电话、计算机、膝上型计算机、可穿戴设备和/或被配置为允许对报告的显示和/或其他通信的任何其他设备。
根据一实施例,文件压缩系统被配置为处理用于生成位置感测哈希函数264的输入数据或训练数据集280中的数千或数百万个数据点。例如,生成合适的哈希函数需要对来自培训数据集的数百万个数据点的处理。这可能需要数百万或数十亿的计算以生成合适的哈希函数。结果是,哈希函数基于迭代量化的输入数据和参数是新颖的和有区别的,并且因此改善文件压缩系统的功能。因此,生成功能性和适当的哈希函数包括具有人脑在一生或多次生命周期中不能完成的计算和分析量的过程。
此外,文件压缩系统可以被配置为连续地接收从其中可以创建FHIR指纹的FHIR文件,所述FHIR指纹被转换为存储在存储器中的经压缩的比特向量。这要求在持续的基础上对数千或数百万个数据点的分析,要求人脑在一生中不能完成的大量的计算和分析。进一步地,通过提供明显较小的FHIR文件,这种新颖的文件压缩系统对相似性搜索具有巨大的积极作用。
如本文中定义的和使用的所有定义应当理解为覆盖字典定义、引用并入的文档中的定义和/或所定义的术语的普通含义。
如本文中所使用的,除非明确地指示为相反的,本说明书中和权利要求中使用的词语“一”和“一个”应当理解为意指“至少一个”。
如本文所使用的,本说明书中和权利要求中使用的短语“和/或”应当理解为意指所述相连的元素中的“任一者或两者”,即在一些情况下存在相连性并且在其他情况下存在分离性的元素。利用“和/或”列出的多个元素应当以相同的方式来解释,即,所述相连的元素中的“一个或多个”元素。除通过“和/或”条款特别地标识的元素之外,其他元素可以可选地存在,无论这些元素与特别标识的元素相关或无关。
如本说明书和权利要求书在本文中使用的,“或”应当理解为具有与如上文定义的“和/或”相同的含义。例如,在列表中分离项目时,“或”或“和/或”应当解释为包含性的,即,包括元素的数量或列表中的至少一个(但是也包括超过一个的)元素以及可选地另外的未列出的项。除非术语明确地指示相反的,诸如“中的仅一个”或“中的恰好一个”,或在权利要求中使用时,“包括”将指的是对在多个元素或元素的列表中的恰好一个元素的包括。一般而言,如本文使用的,在加上诸如“任一”、“中的一个”、“中的仅一个”或“中的恰好一个”等排他性术语时,术语“或”仅应当解释为指示排他性的替代方案(即“一个或另一个但不是两个”)。
如本说明书和权利要求中在本文中使用的,对于一个或多个元素的列表,短语“至少一个”应当理解为意指从元件列表中的任何一个或多个元素中选择的至少一个元素,但不一定包括元素列表内特别列出的每一个或每个元素中的至少一个元素,并且不排除元素列表中元素的任意组合。该定义还允许除了在元素列表内的短语“至少一个”所指的特别标识的元素以外,元素可以可选地存在,无论与这些特别标识的元素相关或无关。
还应当理解的是,除非明确地指示为相反的,在本文中包括一个以上步骤或动作的要求保护的任何方法中,方法的步骤或动作的顺序不一定受限于引用该方法的步骤或动作的顺序。
在权利要求中以及上文的说明书中,所有过渡的短语,诸如“包括”、“涵盖”、“携带”、“具有”、“包含”、“涉及”、“持有”、“组成”等要被理解为开放式的,即意指包括但不受限于。仅过渡的短语“构成”和“大体上构成”应当分别为封闭的或半封闭的过渡短语。
尽管本文中描述和示出若干发明实施例,但是本领域技术人员将很容易设想用于执行功能和/或获得本文所描述的结果和/或一个或多个优势的各种其他手段和/或结构,并且这样的变化和/或修改中的各者被视为在本文描述的发明实施例的范围内。更一般地,本领域技术人员将容易理解本文所描述的所有参数、尺寸、材料和配置意味着是示例性的,并且实际参数、尺寸、材料和/或配置将取决于使用发明教导的特定一个或多个应用。本领域技术人员将认识到或能够使用不超过常规试验来确定与本文所描述的特定的发明实施例的许多等效方面。因此,要理解的是,上述实施例仅是以示例的方式给出的,并且在所附权利要求及其等效方面的范围内,可以实施发明实施例,而不是如具体描述和要求保护的。本公开内容的发明实施例针对于本文描述的每个单独的特征、系统、物品、材料、装备和/或方法。此外,如果这样的特征、系统、物品、材料、装备和/或方法不相互矛盾,则两个或更多个这样的特性、系统、物品、材料、装备和/或方法的组合被包括在本公开内容的发明范围内。
Claims (15)
1.一种用于使用文件压缩系统(200)来生成经压缩的快速医疗互操作资源(FHIR)文件的计算机实现的方法(100),包括:
接收(104)未经压缩的文件,所述未经压缩的文件被配置为FHIR文件;
从所述未经压缩的文件中提取(106)预定的多个不同的资源类型;
根据所提取的预定的多个不同的资源类型生成(108)固定长度的FHIR患者简档指纹,其中,所述固定长度的FHIR患者简档指纹包括固定长度的浮点值特征向量,所述固定长度的浮点值特征向量包括预定的多个子特征向量,每个子特征向量表示不同的提取资源类型,并且其中,每个子特征向量包括相应的提取资源类型的多个元素;
使用训练的压缩算法来压缩(110)所生成的固定长度的FHIR患者简档指纹以生成经压缩的FHIR指纹;并且
将所述经压缩的FHIR指纹存储(112)在数据库中。
2.根据权利要求1所述的方法,其中,所述固定长度的浮点值特征向量包括六个子特征向量。
3.根据权利要求1所述的方法,其中,所述经压缩的FHIR指纹包括固定长度的比特向量。
4.根据权利要求3所述的方法,其中,所述训练的压缩算法包括迭代量化方法。
5.根据权利要求4所述的方法,其中,所述迭代量化方法生成位置敏感的哈希函数(264),所述位置敏感的哈希函数(264)被配置为根据所生成的固定长度的FHIR患者简档指纹生成所述固定长度的比特向量。
6.根据权利要求1所述的方法,还包括训练所述训练的压缩算法的步骤,所述步骤包括:(i)接收(310)多个FHIR文件;(ii)处理(320)所接收的多个FHIR文件;(iii)训练(330)所述压缩算法以生成位置敏感的哈希函数(264);并且(iv)存储(340)所生成的位置敏感的哈希函数。
7.根据权利要求6所述的方法,其中,处理所接收的多个FHIR文件包括:(i)标记所接收的多个FHIR文件之间的一个或多个相似性;和/或(ii)改变所接收的多个FHIR文件中的一个或多个FHIR文件以生成改变的FHIR文件。
8.根据权利要求1所述的方法,还包括搜索(114)存储在所述数据库中的所述经压缩的FHIR指纹中的一个或多个经压缩的FHIR指纹的相似性的步骤。
9.根据权利要求8所述的方法,还包括报告(116)搜索存储在所述数据库中的所述经压缩的FHIR指纹中的一个或多个经压缩的FHIR指纹的相似性的步骤的结果的步骤。
10.一种用于生成经压缩的快速医疗互操作资源(FHIR)文件的系统(200),包括:
电子医学记录数据库(270),其包括多个未经压缩的文件,所述未经压缩的文件中的每个文件被配置为FHIR文件;
位置敏感的哈希函数(264),其被配置为根据生成的固定长度的FHIR患者简档指纹生成固定长度的比特向量;以及
处理器(220),其被配置为:(i)从所述多个未经压缩的文件中的每个未经压缩的文件中提取预定的多个不同的资源类型;(ii)根据所提取的预定的多个不同的资源类型生成固定长度的FHIR患者简档指纹,其中,所述固定长度的FHIR患者简档指纹包括固定长度的浮点值特征向量,所述固定长度的浮点值特征向量包括预定的多个子特征向量,每个子特征向量表示不同的提取资源类型,并且其中,每个子特征向量包括相应的提取资源类型的多个元素;(iii)使用所述位置敏感的哈希函数来压缩所生成的固定长度的FHIR患者简档指纹以生成经压缩的FHIR指纹;并且(iv)将所述经压缩的FHIR指纹存储在数据库中。
11.根据权利要求10所述的系统,其中,所述经压缩的FHIR指纹包括固定长度的比特向量。
12.根据权利要求10所述的系统,其中,所述处理器还被配置为通过以下操作来生成所述位置敏感的哈希函数:(i)接收多个FHIR文件;(ii)处理所接收的多个FHIR文件;(iii)训练压缩算法以生成所述位置敏感的哈希函数;并且(iv)存储所生成的位置敏感的哈希函数。
13.根据权利要求12所述的系统,其中,处理所接收的多个FHIR文件包括:(i)标记所接收的多个FHIR文件之间的一个或多个相似性;和/或(ii)改变所接收的多个FHIR文件中的一个或多个FHIR文件以生成改变的FHIR文件。
14.根据权利要求10所述的系统,其中,所述处理器还被配置为搜索存储在所述数据库中的所述经压缩的FHIR指纹中的一个或多个经压缩的FHIR指纹的相似性。
15.根据权利要求14所述的系统,其中,所述系统还包括用户接口(240),并且所述处理器还被配置为经由所述用户接口来报告搜索存储在所述数据库中的所述经压缩的FHIR指纹中的一个或多个经压缩的FHIR指纹的相似性的结果。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110528668.3A CN115344531A (zh) | 2021-05-14 | 2021-05-14 | 用于经压缩的快速医疗互操作资源(fhir)文件相似性搜索的方法和系统 |
PCT/EP2022/062385 WO2022238277A1 (en) | 2021-05-14 | 2022-05-07 | Methods and systems for compressed fast healthcare interoperability resource (fhir) file similarity searching |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110528668.3A CN115344531A (zh) | 2021-05-14 | 2021-05-14 | 用于经压缩的快速医疗互操作资源(fhir)文件相似性搜索的方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115344531A true CN115344531A (zh) | 2022-11-15 |
Family
ID=81877958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110528668.3A Pending CN115344531A (zh) | 2021-05-14 | 2021-05-14 | 用于经压缩的快速医疗互操作资源(fhir)文件相似性搜索的方法和系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115344531A (zh) |
WO (1) | WO2022238277A1 (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR3011936B1 (fr) * | 2013-10-11 | 2021-09-17 | Snecma | Procede, systeme et programme d'ordinateur d'analyse acoustique d'une machine |
EP3547314A1 (en) * | 2018-03-28 | 2019-10-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for providing a fingerprint of an input signal |
US20220369390A1 (en) * | 2019-03-04 | 2022-11-17 | Lampros Kourtis | Method and System to Pair an Article to a User |
EP3799051A1 (en) * | 2019-09-30 | 2021-03-31 | Siemens Healthcare GmbH | Intra-hospital genetic profile similar search |
-
2021
- 2021-05-14 CN CN202110528668.3A patent/CN115344531A/zh active Pending
-
2022
- 2022-05-07 WO PCT/EP2022/062385 patent/WO2022238277A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2022238277A1 (en) | 2022-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108334574B (zh) | 一种基于协同矩阵分解的跨模态检索方法 | |
Yildirim | Filter based feature selection methods for prediction of risks in hepatitis disease | |
WO2017020741A1 (zh) | 图像检索、获取图像信息及图像识别方法、装置及系统 | |
JP7257585B2 (ja) | 深層cca及び能動ペアワイズクエリを用いるマルチモーダル検索及びクラスタリングのための方法 | |
US20190133480A1 (en) | Discretized embeddings of physiological waveforms | |
CN110910991B (zh) | 一种医用自动图像处理系统 | |
US11874866B2 (en) | Multiscale quantization for fast similarity search | |
CN110858217A (zh) | 微博敏感话题的检测方法、装置及可读存储介质 | |
CN109299640B (zh) | 用于信号分析的系统和方法 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
Vieira et al. | Main concepts in machine learning | |
Divyavani et al. | An analysis on SVM & ANN using breast cancer dataset | |
CN116842330B (zh) | 一种可对比历史记录的保健信息处理方法及装置 | |
Salman et al. | Gene expression analysis via spatial clustering and evaluation indexing | |
CN115036034B (zh) | 一种基于患者表征图的相似患者识别方法及系统 | |
KR20140077409A (ko) | 다수의 특징을 이용한 순차적 바이너리 코드 학습 방법 및 학습 장치 | |
CN115344531A (zh) | 用于经压缩的快速医疗互操作资源(fhir)文件相似性搜索的方法和系统 | |
Gennadievna | Arrhythmia detection using resampling and deep learning methods on unbalanced data | |
Wu et al. | Top-k contrast order-preserving pattern mining for time series classification | |
CN113569994B (zh) | 雷同病历识别方法、装置、设备及存储介质 | |
CN117235137B (zh) | 一种基于向量数据库的职业信息查询方法及装置 | |
US11915792B2 (en) | Method and a system for profiling of metagenome | |
US20240119295A1 (en) | Generalized Bags for Learning from Label Proportions | |
Sutha et al. | Machine Learning Based Supervised Feature Selection Algorithm for Data Mining | |
Katiyar et al. | Wavelet Tree ensembles with Machine Learning and its classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |