CN117038002A - 一种药物评价研究中生成观察变量的方法及装置 - Google Patents
一种药物评价研究中生成观察变量的方法及装置 Download PDFInfo
- Publication number
- CN117038002A CN117038002A CN202311292074.2A CN202311292074A CN117038002A CN 117038002 A CN117038002 A CN 117038002A CN 202311292074 A CN202311292074 A CN 202311292074A CN 117038002 A CN117038002 A CN 117038002A
- Authority
- CN
- China
- Prior art keywords
- variable
- node
- observation
- variables
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000003814 drug Substances 0.000 title claims abstract description 66
- 229940079593 drug Drugs 0.000 title claims abstract description 59
- 238000011156 evaluation Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000011160 research Methods 0.000 title abstract description 15
- 238000012545 processing Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000002776 aggregation Effects 0.000 claims description 11
- 238000004220 aggregation Methods 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000013515 script Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013329 compounding Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/10—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Medicinal Chemistry (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Chemical & Material Sciences (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种药物评价研究中生成观察变量的方法及装置,本发明通过解析药物评价研究中所定义观察变量的生成规则,提取生成当前变量需要依赖的其他变量,构建观察变量对应的变量关联树节点,节点属性包括变量名称、父节点列表、子节点列表和生成规则等。将连通图分解为以根节点为单元的变量关联树,通过迭代的方式后序遍历根节点的所有子节点获取变量关联树中节点的生成顺序;依据每棵变量关联树对应的有序节点列表,以变量关联树为单元,采用多线程方式并行生成每颗变量关联树中所有节点对应的观察变量。本发明基于变量之间的关联关系构建了变量关联树,得到了观察变量的生成顺序,避免了现有技术中控制流的复杂性,提高了观察变量生成效率。
Description
技术领域
本发明属于医疗信息化技术领域,涉及一种药物评价研究中生成观察变量的方法及装置。
背景技术
药物的临床价值是药物的核心价值,决定了药物市场价值和社会价值的基础,也是药物定价、医疗保险和基本药物目录选择以及临床用药指南等卫生决策的重要依据。因此,药物研发的过程中,通过在目标治疗人群开展科学和良好的队列研究来评价药物的有效性和安全性成为一个必要的过程。近年来,医疗大数据的构建为真实世界研究在药物价值评价中得到广泛应用提供了前所未有的便利。
作为临床研究的一种形式,真实世界研究在药物评价研究的应用可以大致分为临床问题的确定、现有数据情况的评估切入、研究设计的选择以及统计分析方法的确定、数据的管理、统计分析、结果解读和评价等。其中,研究设计的选择可以分为以下几个步骤:研究人群和入排标准的制定、观察变量的确定、生成观察变量数据、统计方案的制定和分析。
药物评价研究中观察变量也被称作观察指标,是反应临床试验中药物有效性和安全性的观察项目。在药物评价研究的设计阶段,需要严格的定义和区分各种观察变量,包括定性变量和定量变量,或者根据需求通过特定的计算方法或生成规则定义一个或多个复杂变量。
随着医疗信息化技术的发展,各级医疗部门、医保机构等通过数据库的电子化,为真实世界药物研究提供了多中心的大数据环境。同时,激增的样本量和复杂的关系数据库为观察变量的生成带来了挑战。现阶段生成观察变量的计算方法,主要是依据研究设计中所定义观察变量的计算方式或生成规则通过控制流程进行计算和存储。通过SQL语句和程序脚本的方式进行观察变量的生成过程中,需要通过复杂的判断来处理复杂变量和其他变量之间的关系以及变量生成的顺序,因此当生成具有多层关联关系的复杂变量时,大数据的情况将导致程序性能的下降并极易引起逻辑上的错误;同时,当前方法的结果中也无法体现变量与变量间的关联关系。现有的方法在变量生成方面的不足,可能对药物的临床价值研究形成阻碍。因此,如何快速的从海量的数据中提取药物评价研究所需的观察变量成为一个亟待解决的问题。
发明内容
鉴于现有技术的不足,本发明提供一种药物评价研究中生成观察变量的方法及装置,能够有效提高观察变量的生成效率,同时更直观的呈现观察变量之间的关联关系。
本发明的目的是通过以下技术方案实现的:一种药物评价研究中生成观察变量的方法,包括以下步骤:
S1,获取当前基于真实世界数据的药物评价研究中所定义的观察变量列表以及观察变量对应的生成规则;
S2,以观察变量为单元,解析对应的生成规则,判断当前观察变量的生成规则中是否包含与之相关联的其他观察变量,根据判断结果构建变量关联树的节点,节点属性包括观察变量名称、父节点列表、子节点列表和生成规则,并标记根节点;
S3,遍历所有根节点,将连通图分解为以根节点为单元的变量关联树,通过迭代的方式后序遍历根节点的所有子节点获取变量关联树中节点的生成顺序;
S4,依据每棵变量关联树对应的有序节点列表,以变量关联树为单元,采用多线程方式并行生成每颗变量关联树中所有节点对应的观察变量,将观察变量结果存储在数据表中,并将存储结果的数据表名称添加到变量关联树的节点属性中;
S5,当前变量关联树中的观察变量全部生成完毕后,将变量关联树节点持久化。
进一步地,观察变量包括单一变量和复杂变量,所述复杂变量包括复合复杂变量和聚合复杂变量;
所述复合复杂变量通过变量与变量之间的四则运算或关系运算生成;
所述聚合复杂变量通过对若干条数据记录的特定变量进行聚合运算生成;
所述复杂变量的生成需要在其所依赖的变量已经生成的前提下完成。
进一步地,S2中,通过构建多叉树的方式将观察变量转换为变量关联树的节点,通过节点中的父节点列表和子节点列表属性追溯观察变量之间的关联关系及生成顺序。
进一步地,S2中,解析当前节点对应观察变量的生成规则,判断生成规则中是否包含与当前观察变量生成相关联的其他观察变量的名称,如果是,则将其包含的其他观察变量名称的引用存储到子节点列表中,同时将当前节点存入被包含节点的父节点列表中。
进一步地,所述变量关联树的节点的类型判断具体为:
遍历节点列表,判断当前节点的父节点列表和子节点列表是否为空;
若父节点列表为空,子节点列表中包含其他观察变量,则将当前节点标记为一颗变量关联树的根节点;若子节点列表为空,父节点列表中包含其他观察变量,则将当前节点标记为一颗变量关联树的叶子节点;若父节点列表和子节点列表中同时包含其他观察变量,则当前节点为变量关联树的中间节点;
否则,当前节点所表示的观察变量为单一变量,不与任何其他观察变量产生关联关系,同样标记为根节点。
进一步地,S3中,通过递归遍历根节点的子节点列表,能够遍历到根节点对应的观察变量生成所依赖的所有变量,并同时记录每个子节点被遍历的次数以及每次遍历对应的根节点;
如果某节点被遍历多次,且均为同一个根节点的子节点,则该节点在相同的变量关联树中被依赖了多次,复制该节点并作为其中一个父节点的子节点;
如果某节点被遍历多次,且根节点不同,则复制该节点并作为其中一个父节点的子节点,从而将以该节点连接成的连通图分解为不同的变量关联树。
进一步地,S4具体为:
S41,通过文本处理算法解析生成规则中包含的观察变量名称字段以及表示变量关系的字段,所述表示变量关系的字段包括四则运算、关系运算或聚合运算字段;
S42,将解析生成的字段映射为数据库SQL关键字或者变量的计算公式;
S43,构建SQL查询脚本和实现计算公式的程序,从相关数据库中查询或计算对应的观察变量结果;
S44,将观察变量结果存放在一张临时的数据表中,每行表示一条数据记录,每列表示一个观察变量结果;
S45,将存储结果的数据表名称添加到当前变量关联树的节点属性中。
进一步地,S4中,采取分布式网络存储的方式,将观察变量结果数据分散存储在多台独立的存储设备上。
进一步地,S5中,通过序列化方式将变量关联树节点转化为二进制数据存储,实现当前药物评价研究所定义观察变量生成结果的存储和读取;通过反序列化方式获取节点对象后,通过节点属性中的父节点列表和子节点列表以及存储结果的数据表名称,实现观察变量的可追溯性读取。
本发明还提供一种药物评价研究中生成观察变量的装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述的药物评价研究中生成观察变量的方法。
本发明具有的有益效果是:本发明通过解析药物评价研究中所定义的观察变量的生成规则,构建了用于表示观察变量之间关联关系的变量关联树。通过分析变量关联树中各个连通分支的节点生成顺序,省去了现有方法中的控制流分析,功能上确保了具有关联关系的观察变量之间的生成顺序,简化了现有技术的程序实现;并进一步地通过对变量关联树的连通分支的划分,得以使用基于多线程的并发技术和批处理技术,进而提高了药物评价研究中观察变量的生成效率。同时,变量关联树的应用也更直观的表现了观察变量之间的关联关系。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一示例性实施例示出的药物评价研究中生成观察变量的方法流程图;
图2为一示例性实施例示出的构建变量关联树节点的流程图;
图3为一示例性实施例示出的填充子节点列表和父节点列表流程图;
图4为一示例性实施例示出的标记根节点流程图;
图5为一示例性实施例示出的一个变量被同一个复杂变量多次依赖的示意图;
图6为一示例性实施例示出的一个变量被不同顶层复杂变量依赖的示意图;
图7为一示例性实施例示出的生成观察变量结果的执行过程的流程图;
图8为一示例性实施例示出的药物评价研究中生成观察变量的装置结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请所提技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是与本申请相关的一部分实施例,而不是全部的实施例。基于本申请所述的具体实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都应当落在本发明申请的构思的范围之内。
现有基于真实世界数据的药物评价研究中的观察变量生成方法,一般是通过嵌套循环及判断实现从单一变量到复杂变量的生成顺序。由于药物评价研究中的复杂变量的生成可能依赖于其他的单一变量或复杂变量,因此嵌套循环的方式极易导致逻辑的错误;此外,医疗大数据普及的情况下,批处理的方式对于变量生成具有更高的效率。
为了解决上述问题,本申请实施例以真实世界药物评价研究中提高观察变量生成效率为出发点,提出了一种药物评价研究中生成观察变量的方法及装置,下面首先对本申请实施例声明的方法进行具体的介绍。
图1描绘了本申请提供的药物评价研究中生成观察变量的方法流程,该方法具体包括以下步骤:
步骤1、获取当前基于真实世界数据的药物评价研究中所定义的观察变量列表以及观察变量对应的生成规则。
本申请实施例中,数据来源为多中心数据库,不同数据库中分别存储了与患者相关的信息,包含了患者的用药记录、病理数据、患者随访、手术记录以及医保信息等多种数据类型,其中每一列代表一个变量,每一行代表一条患者记录。
表1 提供了本申请实施例中获取的XXX药物评价研究中所定义的观察变量以及生成规则示例。值得注意的是,本申请实施例中获取的待生成的观察变量仅为该药物评价研究中所定义的观察变量的一部分。在其他的实施例中,并不仅仅局限于以上观察变量,所定义的观察变量可以为任何与研究目标药物安全性或有效性评价相关的单一或复杂变量。本领域技术人员在其他实施例中容易想到的其他观察变量的定义和生成同样在本申请的保护范围内。
表1 本申请实施例提供的某药物评价研究中定义的观察变量
本申请实施例中,表1所列的观察变量中,年龄、体重、性别和入组时间等为目标人群基本的定性或者定量信息,安全性指标和有效性指标是基于以上基本信息作为约束规则生成的复杂变量,可以简单的评价XXX药物对XXX病症的有效性以及在临床应用中的安全性。
其中,单一变量指的是数据来源的数据表中一条数据记录的某个字段所对应的属性。更具体的,复杂变量的定义可以分为以下两种:
1.复合复杂变量,其中复合指的是该变量通过变量与变量之间的四则运算或关系运算生成,此处所指变量可以为单一变量或者其他的复杂变量。例如,在本申请实施例中,年龄和性别以及入组时间可以分别是患者数据表中的某个字段,为单一变量。BMI则可以通过患者的身高和体重两个变量之间的四则运算生成。
2.聚合复杂变量,其中聚合指的是通过对若干条数据记录的某个变量进行聚合运算生成的复杂变量。例如,在本申请实施例中,可以通过计算所有患者的年龄的平均数生成平均年龄。
值得一提的是,在变量生成过程中,复杂变量的生成总是需要在其所依赖的变量已经生成的前提下完成。本发明的核心便在于通过对生成规则的解析,确定药物评价研究中所定义观察变量生成的逻辑顺序,从而可以采用并行的方式提高观察变量的生成效率。
步骤2、以观察变量为单元,解析对应的生成规则,判断当前观察变量的生成规则中是否包含与之相关联的其他观察变量,根据判断结果构建变量关联树的节点。
图2示出了构建变量关联树节点的过程,即通过构建多叉树的方式将观察变量转换为变量关联树的节点,进一步通过节点中的父节点列表和子节点列表属性追溯观察变量之间的关联关系及生成顺序,具体步骤如下:
201、遍历所有的观察变量,依次构建每个观察变量对应的变量关联树节点,节点属性包括观察变量名称、父节点列表、子节点列表和生成规则。
202、图3为填充子节点列表和父节点列表流程,如图3所示,遍历步骤201中构建的节点列表,解析当前节点对应观察变量的生成规则,判断生成规则中是否包含与当前观察变量生成相关联的其他观察变量的名称,如果是,则将其包含的其他观察变量名称的引用存储到子节点列表中,同时将当前节点存入被包含节点的父节点列表中。
203、图4为标记根节点流程图,如图4所示,遍历节点列表,判断当前节点的父节点列表是否为空,如果是,则将该节点标记为根节点,否则将该节点标记为非根节点。
更具体的,本申请实施例给出了判断节点是否为根节点的分析策略。判断该节点的父节点列表和子节点列表是否为空:若父节点列表为空,子节点列表中包含其他变量,则将该节点标记为一颗变量关联树的根节点;若子节点列表为空,父节点列表中包含其他变量,则将该节点标记为一颗变量关联树的叶子节点;若父节点列表和子节点列表中同时包含其他变量,则该节点为中间节点;否则,该节点所表示的观察变量为一个单一变量,不与任何其他观察变量产生关联关系,同样标记为根节点。
本申请实施例中,解析变量的生成规则理论上可以使用机器学习算法提取生成规则描述中的字段,提取的字段准确性很高且更加便利。
在其他实施例中,也可以通过相应的工具或者编写对应的脚本完成生成规则的解析。
表2给出了本申请实施例中通过步骤2构建的树节点。
表2本申请实施例中所定义观察变量构建的树节点
步骤3、遍历步骤2中构建的节点列表,获取变量关联树中节点的生成顺序,具体步骤如下:
301、遍历所有节点,判断节点是否为根节点。
其中,判断节点是否为根节点的分析策略如下:判断该节点的父节点列表和子节点列表是否为空:若父节点列表为空,子节点列表中不为空,则将该节点标记为一颗变量关联树的根节点;若子节点列表为空,父节点列表中不为空,则将该节点标记为一颗变量关联树的叶子节点;若父节点列表和子节点列表均不为空,则该节点所表示的观察变量为中间变量;否则,该节点所表示的观察变量为单一变量,不与任何其他观察变量产生关联关系,同样标记为根节点。
302、遍历所有根节点,将连通图分解为以根节点为单元的变量关联树。
由于药物评价研究中,所定义观察变量之间的依赖关系为单向的,因此通过递归遍历根节点的子节点列表,可以遍历到该节点变量生成所依赖的所有变量,并同时记录每个子节点被遍历的次数以及该次遍历所对应的根节点。
如果某个节点被遍历多次,且均为同一个根节点的子节点,则该节点在相同的变量关联树中被依赖了多次,表明该变量关联树中,部分中间变量可能依赖于相同的底层变量,则复制该节点并作为其中一个父节点的子节点。如图5所示,可以看出,以V_a为根节点构成的是有向图结构,后序获取的节点顺序为V_e,V_d,V_c,V_d,V_b,V_d节点变量在生成的过程中被重复计算,造成计算资源的浪费。将V_d节点复制为V_d’节点并作为V_c节点的叶子时,可以减少V_d节点变量的重复计算。
此外,在药物评价研究中,为研究药物在不同方面表现所定义的观察变量作为变量关联树的多个根节点,可能同时依赖于一个或多个相同的底层节点。如果某个节点被遍历多次,且其根节点不同,则该节点同时属于两个不同的变量关联树。如图6所示,V_a和V_f为根节点的变量关联树通过V_c节点组成一个连通图。复制V_c节点的副本V_c’作为V_f的子节点,则该连通图分解为两个分别以V_a和V_f作为根节点的变量关联树。
303、以根节点为单元,通过迭代的方式后序遍历该节点的所有子节点获取该变量关联树中节点的生成顺序。
本申请实施例中,安全性指标和有效性指标的父节点列表均为空,因此在上述分析步骤中被标记为根节点,构成了两颗不同的变量关联树。年龄和入组时间变量的子节点列表为空,父节点列表中分别包含了有效性指标和安全性指标,因此年龄和入组时间分别为以有效性指标和安全性指标为根节点的变量关联树中的叶子节点。因此,以安全性指标为根节点的变量关联树内部节点的生成顺序应该为入组时间、安全性指标;而以有效性指标为根节点的变量关联树内部节点的生成顺序为年龄、有效性指标。
本申请实施例中,性别对应的节点的子节点列表和父节点列表均不包含其他任何变量,被标记为根节点,被视作只有一个节点的变量关联树。
值得注意的是,部分应用实施例中定义的复杂变量的生成可能依赖于多个其他变量,或者该变量可能同时被多个其他观察变量依赖,因此父节点和子节点属性均为列表形式。
步骤4、依据每棵变量关联树对应的有序节点列表,生成对应的观察变量。
本申请实施例中,被标记为根节点的变量为性别、BMI、安全性指标和有效性指标。在观察变量生成过程中,可以以每颗变量关联树为单元,采用多线程的方式并行生成每颗变量关联树中的所有节点对应的观察变量,从而达到高并发的需求,加快计算效率。
其中,图7示出了生成观察变量结果的执行过程,包括以下步骤:
401、通过文本处理算法解析生成规则中包含的观察变量名称字段、表示变量关系的字段;表示变量关系的字段可以包含四则运算、关系运算或聚合运算等相关字段。
402、将解析生成的字段映射为数据库SQL关键字或者变量的计算公式。
403、构建相关的SQL查询脚本和实现计算公式的程序,从相关的数据库中查询或计算对应的观察变量结果。
404、观察变量生成后,将结果存放在一张临时的数据表中,每一行表示一条数据记录,每一列表示一个观察变量结果。
在一些实施例中,可能包含一些通过聚合运算生成的观察变量,则该研究人群中每条数据记录的观察变量结果均为聚合运算的结果。
405、将存储结果的数据表名称添加为当前变量关联树的节点属性中。
其中,将存储结果的数据表名称添加为节点的新属性后,在后续的复杂变量的生成过程中,可以通过其子节点变量存储结果的数据表名称属性读取变量的结果。
大数据情况下,在一些实施例中,单一的数据库或者数据表可能无法满足当前变量结果的存储需求,因此可以采取分布式存储的方式,将变量结果数据分散存储在多台独立的设备上。分布式网络存储可以有效的利用多台存储设备来分担存储负荷,不但可以提高系统的可靠性和存储效率,还具有高度可扩展的存储结构。
步骤5、当前变量关联树中的观察变量全部生成完毕后,将变量关联树节点持久化。
在本申请实施例中,可以通过序列化将变量关联树节点转化为二进制数据存储,实现当前药物评价研究所定义观察变量生成结果的存储和读取。
通过反序列化手段获取节点对象后,通过节点属性中的父节点列表和子节点列表以及存储结果的数据表名称,可以实现观察变量的可追溯性读取。
与前述药物评价研究中生成观察变量的方法的实施例相对应,本发明还提供了药物评价研究中生成观察变量的装置的实施例。
参见图8,本发明实施例提供的药物评价研究中生成观察变量的装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述实施例中的药物评价研究中生成观察变量的方法。
本发明药物评价研究中生成观察变量的装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图8所示,为本发明药物评价研究中生成观察变量的装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图8所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的药物评价研究中生成观察变量的方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。
Claims (10)
1.一种药物评价研究中生成观察变量的方法,其特征在于,包括以下步骤:
S1,获取当前基于真实世界数据的药物评价研究中所定义的观察变量列表以及观察变量对应的生成规则;
S2,以观察变量为单元,解析对应的生成规则,判断当前观察变量的生成规则中是否包含与之相关联的其他观察变量,根据判断结果构建变量关联树的节点,节点属性包括观察变量名称、父节点列表、子节点列表和生成规则,并标记根节点;
S3,遍历所有根节点,将连通图分解为以根节点为单元的变量关联树,通过迭代的方式后序遍历根节点的所有子节点获取变量关联树中节点的生成顺序;
S4,依据每棵变量关联树对应的有序节点列表,以变量关联树为单元,采用多线程方式并行生成每颗变量关联树中所有节点对应的观察变量,将观察变量结果存储在数据表中,并将存储结果的数据表名称添加到变量关联树的节点属性中;
S5,当前变量关联树中的观察变量全部生成完毕后,将变量关联树节点持久化。
2.根据权利要求1所述的一种药物评价研究中生成观察变量的方法,其特征在于,观察变量包括单一变量和复杂变量,所述复杂变量包括复合复杂变量和聚合复杂变量;
所述复合复杂变量通过变量与变量之间的四则运算或关系运算生成;
所述聚合复杂变量通过对若干条数据记录的特定变量进行聚合运算生成;
所述复杂变量的生成需要在其所依赖的变量已经生成的前提下完成。
3.根据权利要求1所述的一种药物评价研究中生成观察变量的方法,其特征在于,S2中,通过构建多叉树的方式将观察变量转换为变量关联树的节点,通过节点中的父节点列表和子节点列表属性追溯观察变量之间的关联关系及生成顺序。
4.根据权利要求1所述的一种药物评价研究中生成观察变量的方法,其特征在于,S2中,解析当前节点对应观察变量的生成规则,判断生成规则中是否包含与当前观察变量生成相关联的其他观察变量的名称,如果是,则将其包含的其他观察变量名称的引用存储到子节点列表中,同时将当前节点存入被包含节点的父节点列表中。
5.根据权利要求1所述的一种药物评价研究中生成观察变量的方法,其特征在于,所述变量关联树的节点的类型判断具体为:
遍历节点列表,判断当前节点的父节点列表和子节点列表是否为空;
若父节点列表为空,子节点列表中包含其他观察变量,则将当前节点标记为一颗变量关联树的根节点;若子节点列表为空,父节点列表中包含其他观察变量,则将当前节点标记为一颗变量关联树的叶子节点;若父节点列表和子节点列表中同时包含其他观察变量,则当前节点为变量关联树的中间节点;
否则,当前节点所表示的观察变量为单一变量,不与任何其他观察变量产生关联关系,同样标记为根节点。
6.根据权利要求1所述的一种药物评价研究中生成观察变量的方法,其特征在于,S3中,通过递归遍历根节点的子节点列表,能够遍历到根节点对应的观察变量生成所依赖的所有变量,并同时记录每个子节点被遍历的次数以及每次遍历对应的根节点;
如果某节点被遍历多次,且均为同一个根节点的子节点,则该节点在相同的变量关联树中被依赖了多次,复制该节点并作为其中一个父节点的子节点;
如果某节点被遍历多次,且根节点不同,则复制该节点并作为其中一个父节点的子节点,从而将以该节点连接成的连通图分解为不同的变量关联树。
7.根据权利要求1所述的一种药物评价研究中生成观察变量的方法,其特征在于,S4具体为:
S41,通过文本处理算法解析生成规则中包含的观察变量名称字段以及表示变量关系的字段,所述表示变量关系的字段包括四则运算、关系运算或聚合运算字段;
S42,将解析生成的字段映射为数据库SQL关键字或者变量的计算公式;
S43,构建SQL查询脚本和实现计算公式的程序,从相关数据库中查询或计算对应的观察变量结果;
S44,将观察变量结果存放在一张临时的数据表中,每行表示一条数据记录,每列表示一个观察变量结果;
S45,将存储结果的数据表名称添加到当前变量关联树的节点属性中。
8.根据权利要求1所述的一种药物评价研究中生成观察变量的方法,其特征在于,S4中,采取分布式网络存储的方式,将观察变量结果数据分散存储在多台独立的存储设备上。
9.根据权利要求1所述的一种药物评价研究中生成观察变量的方法,其特征在于,S5中,通过序列化方式将变量关联树节点转化为二进制数据存储,实现当前药物评价研究所定义观察变量生成结果的存储和读取;通过反序列化方式获取节点对象后,通过节点属性中的父节点列表和子节点列表以及存储结果的数据表名称,实现观察变量的可追溯性读取。
10.一种药物评价研究中生成观察变量的装置,其特征在于,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,用于实现如权利要求1-9中任一项所述的药物评价研究中生成观察变量的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311292074.2A CN117038002B (zh) | 2023-10-08 | 2023-10-08 | 一种药物评价研究中生成观察变量的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311292074.2A CN117038002B (zh) | 2023-10-08 | 2023-10-08 | 一种药物评价研究中生成观察变量的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117038002A true CN117038002A (zh) | 2023-11-10 |
CN117038002B CN117038002B (zh) | 2024-02-13 |
Family
ID=88641519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311292074.2A Active CN117038002B (zh) | 2023-10-08 | 2023-10-08 | 一种药物评价研究中生成观察变量的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117038002B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050138052A1 (en) * | 2003-12-22 | 2005-06-23 | International Business Machines Corporation | Method, computer program product, and system converting relational data into hierarchical data structure based upon tagging trees |
KR20120051322A (ko) * | 2010-11-12 | 2012-05-22 | 한양대학교 산학협력단 | 구문론적으로 분석된 텍스트 코퍼스로부터 정보를 추출하는 트리 패턴 표현식을 이용한 시스템 및 방법 |
CN111176656A (zh) * | 2019-12-09 | 2020-05-19 | 苏宁云计算有限公司 | 一种复杂数据匹配方法及介质 |
CN112989763A (zh) * | 2021-03-16 | 2021-06-18 | 平安付科技服务有限公司 | 数据获取方法、装置、计算机设备及存储介质 |
CN114925092A (zh) * | 2022-05-09 | 2022-08-19 | 北京达佳互联信息技术有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN115827730A (zh) * | 2022-11-22 | 2023-03-21 | 中电药明数据科技(成都)有限公司 | 一种药品研究模型形成方法、装置、介质和设备 |
CN116010414A (zh) * | 2022-12-29 | 2023-04-25 | 苏州万店掌网络科技有限公司 | 一种数据存储方法、装置、设备及存储介质 |
CN116450655A (zh) * | 2023-06-14 | 2023-07-18 | 深圳须弥云图空间科技有限公司 | 树形结构数据处理方法、装置、电子设备及存储介质 |
-
2023
- 2023-10-08 CN CN202311292074.2A patent/CN117038002B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050138052A1 (en) * | 2003-12-22 | 2005-06-23 | International Business Machines Corporation | Method, computer program product, and system converting relational data into hierarchical data structure based upon tagging trees |
KR20120051322A (ko) * | 2010-11-12 | 2012-05-22 | 한양대학교 산학협력단 | 구문론적으로 분석된 텍스트 코퍼스로부터 정보를 추출하는 트리 패턴 표현식을 이용한 시스템 및 방법 |
CN111176656A (zh) * | 2019-12-09 | 2020-05-19 | 苏宁云计算有限公司 | 一种复杂数据匹配方法及介质 |
CN112989763A (zh) * | 2021-03-16 | 2021-06-18 | 平安付科技服务有限公司 | 数据获取方法、装置、计算机设备及存储介质 |
CN114925092A (zh) * | 2022-05-09 | 2022-08-19 | 北京达佳互联信息技术有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN115827730A (zh) * | 2022-11-22 | 2023-03-21 | 中电药明数据科技(成都)有限公司 | 一种药品研究模型形成方法、装置、介质和设备 |
CN116010414A (zh) * | 2022-12-29 | 2023-04-25 | 苏州万店掌网络科技有限公司 | 一种数据存储方法、装置、设备及存储介质 |
CN116450655A (zh) * | 2023-06-14 | 2023-07-18 | 深圳须弥云图空间科技有限公司 | 树形结构数据处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117038002B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Data x-ray: A diagnostic tool for data errors | |
Tasneem et al. | The database for aggregate analysis of ClinicalTrials. gov (AACT) and subsequent regrouping by clinical specialty | |
Angles et al. | The LDBC social network benchmark | |
US7693857B2 (en) | Clinical genomics merged repository and partial episode support with support abstract and semantic meaning preserving data sniffers | |
Gutman et al. | A Bayesian procedure for file linking to analyze end-of-life medical costs | |
Zhang et al. | Extracting databases from dark data with deepdive | |
US20100299339A1 (en) | Indexing provenance data and evaluating provenance data queries in data processing systems | |
Junghanns et al. | Cypher-based graph pattern matching in Gradoop | |
JP7106743B2 (ja) | グラフ計算技術に基づく請求不正防止方法、装置、機器及び記憶媒体 | |
Nebot et al. | Building data warehouses with semantic data | |
Rusu et al. | In-depth benchmarking of graph database systems with the Linked Data Benchmark Council (LDBC) Social Network Benchmark (SNB) | |
Grandi et al. | Efficient management of multi-version clinical guidelines | |
EP3847655A1 (en) | Method of classifying medical records | |
Bergami et al. | Quickening data-aware conformance checking through temporal algebras | |
Brahim et al. | Model Driven Extraction of NoSQL Databases Schema: Case of MongoDB. | |
Safari et al. | Restricted natural language based querying of clinical databases | |
US9122985B2 (en) | Programmatic access to terminologies expressed in hierarchical form | |
CN117038002B (zh) | 一种药物评价研究中生成观察变量的方法及装置 | |
Moro et al. | Schema advisor for hybrid relational-XML DBMS | |
Glavic | Perm: efficient provenance support for relational databases | |
CN110414813B (zh) | 指标曲线的构建方法、装置及设备 | |
Grandi | Dynamic multi-version ontology-based personalization | |
Tang et al. | Modeling the data provenance of relational databases supporting full-featured SQL and procedural languages | |
Bergami et al. | Towards a generalised semistructured data model and query language | |
Maryum et al. | Hospital management society: A framework based on fuzzy logic and association rule mining towards well-being society |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |