CN102567394B - 获取平面数据的层级信息的方法和装置 - Google Patents
获取平面数据的层级信息的方法和装置 Download PDFInfo
- Publication number
- CN102567394B CN102567394B CN201010615062.5A CN201010615062A CN102567394B CN 102567394 B CN102567394 B CN 102567394B CN 201010615062 A CN201010615062 A CN 201010615062A CN 102567394 B CN102567394 B CN 102567394B
- Authority
- CN
- China
- Prior art keywords
- tree structure
- node
- sub
- data
- leaf node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/20—ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
Abstract
提供了获得平面数据的层级信息的方法和装置,所述方法包括:将平面数据中来自同一数据组的至少一个数据项对应到结构化术语体系所形成的树形结构中的至少一个节点;在所述树形结构中获取至少一个子树形结构,所述至少一个子树形结构的每一个都以所述至少一个节点为全部叶节点;从所述至少一个子树形结构中选择目标树形结构。还提供了与上述方法对应的装置。利用上述方法和装置,能够从平面组织的数据中获取数据项的层级信息,便于后续的进一步分析和管理。
Description
技术领域
本发明涉及商业智能领域,更具体而言,涉及获取平面数据的层级信息的方法和装置。
背景技术
近年来,商业智能BI(Business Intelligence)技术为企业提供了全面的商业数据相关服务,例如进行数据分析、实施数据挖掘、制造数据报表、揭示数据规律等。通过分析数据并导出报表,可以帮助企业制定更有效的业务决策。在商业智能技术中,数据的维度化和层级化是后续利用立方模型进行数据分析的基础。
图1示出多维度多层级数据的立方模型的一个例子。在这个例子中,与商品销售相关的数据沿着三个轴被组织为三个维度,即,时间(x轴)、位置(y轴)和产品(z轴),从而示出销售额与时间、位置和产品之间的函数关系。进一步地,沿着每个维度,将销售额数据划分为多个层级,根据层级来进行数据分析和管理。例如,在位置的维度上,将销售额数据划分为在各个洲的销售额,对于每个洲,进一步划分为在各个国家的销售额,对于每个国家,又可以根据需要进一步划分为省份、城市等。类似地,对于时间维度,可以根据需要划分为年、季度、月、天等;对于产品维度,可以按照产品类别、系列、型号等进行进一步划分。基于这些维度化、层级化的数据,可以利用立方模型对其进行OLAP(联机分析处理)分析和操作,从而根据用户需要,从各个维度和层级呈现整合的信息。
从以上例子可以看出,数据的维度化和层级化为商业智能中的数据建模分析提供了极大的便利。除了典型的层级化企业数据之外,还希望将商业智能中的分析和操作方法应用到其他数据上。然而,在许多领域,例如医疗领域中,数据仍然是以“平面”的形式进行组织和存储的。图2示出现有的医疗数据的一个例子。在图2的例子中,电子病历作为医疗数据的典型例子,包含了患者的主要症状、诊断结论、治疗方式等各种数据。可以看到,这些数据都是使用医疗术语以细粒度的平面形式进行罗列,而没有给出数据之间的关联以及数据的层级信息,而这正是智能分析中进行立方建模和OLAP操作的基础。在其他商业数据中,也存在很多类似的平面数据。由于缺乏层级信息,这样的数据很难利用已有的智能建模和操作方法进行进一步分析和管理,这为数据的系统化和智能化带来了局限。因此,需要对现有的平面数据进行加工,获得其层级信息,从而便于平面数据的后续分析和管理。
发明内容
鉴于以上提出的问题,提出本发明,以获得医疗数据的层级信息。
根据本发明第一方面,提供了一种获得平面数据的层级信息的方法,包括:将所述平面数据中来自同一数据组的至少一个数据项对应到结构化术语体系所形成的树形结构中的至少一个节点;在所述树形结构中获取至少一个子树形结构,所述至少一个子树形结构的每一个都以所述至少一个节点为全部叶节点;从所述至少一个子树形结构中选择目标树形结构,以及获取所述目标树形结构中的层级信息。
根据本发明第二方面,提供了一种获得平面数据的层级信息的装置,包括:节点对应单元,配置为将所述平面数据中来自同一数据组的至少一个数据项对应到结构化术语体系所形成的树形结构中的至少一个节点;子结构获取单元,配置为在所述树形结构中获取至少一个子树形结构,所述至少一个子树形结构的每一个都以所述至少一个节点为全部叶节点;目标结构选择单元,从所述至少一个子树形结构中选择目标树形结构,以及层级信息获取单元,获取所述目标树形结构中的层级信息。
利用本发明实施例的方法和装置,能够从平面组织的数据中获取数据项之间的层级信息,从而便于后续对平面数据进行分析和管理。
附图说明
图1示出多维度多层级数据的立方模型的一个例子;
图2示出现有的医疗数据的一个例子;
图3示出根据本发明实施例的方法的流程图;
图4A示出根据本发明一个实施例的树形结构的示意图;
图4B-4D示出根据本发明实施例的子树形结构;
图4E示出与图4D的树形结构对应的层级表;以及
图5示出根据本发明一个实施例的装置的框图。
具体实施方式
下面结合具体例子描述本发明的实施方式。应该理解,出于说明目的而描述的例子不应作为对本发明实质范围的限制。
如上所述,本发明提出这样一种方法和装置,用以获得平面数据的层级信息。然而,这样的数据本身仅含有平面形式组织的多个数据项,而不能给出各个数据项之间的关系,其中上述多个数据项通常以数据所在领域中的术语形式进行记录。因此,获得平面数据的层级信息需要借助于外部的结构化术语体系,这样的结构化术语体系应该记录数据所在领域的规范术语,并将这些术语以层级形式进行组织,从而能够显示出各个术语之间的分类和隶属关系。
以下以医疗数据和医疗领域的结构化术语体系为例描述本发明的实施例。
对于医疗术语体系的选择,SNOMED(Systematized Nomenclature ofMedicine,医学术语系统命名法)是目前使用较为广泛的一种术语体系。SNOMED所提供的医学术语集经过了系统的组织编排以便于计算机进行处理,并且涵盖大多数方面的医疗信息,如疾病、症状、操作、微生物、药物等。采用该术语集,可以协调一致地在不同的学科、专业和照护地点之间实现对于医疗数据的标引、存储、检索和聚合。并且,在同时,它还有助于组织病历内容,减少临床照护和科学研究工作中数据采集、编码及使用方式的差异。
具体地,SNOMED囊括了超过365,000个医疗术语,每个术语由唯一性数字代码、唯一名称(全称,即Fully Specified Name)和“描述”来指定。上述的多个术语被组织为19个高级层级结构,包括与医疗过程相关的术语的层级结构、与药品相关的术语的层级结构、与临床病症相关的术语的层级结构等等;每个高级层级结构又分别具有各自的子级分类层级结构,例如与药品相关的术语可以按照药品名称、剂量形式等方面进行分类,得到进一步的分类层级结构,与临床病症相关的术语又可以按照身体部位、产生原因等方面进行分类,得到进一步的分类层级结构。在同一层级结构之内或不同层级结构之间利用约146万个“关系”将不同的术语联系起来。由此,SNOMED形成一个以描述逻辑为基础的结构化的术语体系。在这个术语体系中,如果仅考虑术语之间的“从属”关系,就会得到一个树形结构的术语关系图,其中每个术语是树形结构的一个节点,节点之间的连线表示节点之间的从属关系。为了不失一般性,总是可以假定,存在一个最为通用的概念作为所有术语的根节点。通常,这个根节点被设定为“Thing”。由此,所有节点都连接到根节点“Thing”作为其子节点。如上所述,由于术语之间可以按照不同角度进行分类,因此每个节点有可能具有多个子节点和多个父节点。
基于SNOMED的上述特点,将其作为结构化术语体系来示出医疗术语之间的层级关系是一种较为优选的选择。然而,可以理解,医疗术语体系的选择并不仅仅局限于SNOMED,而是可以利用各种现有的、或未来推广采用的规范并且结构化的术语体系,例如MedDRA术语体系。这样的结构化的术语体系均可以从不同角度、不同方面构成树形结构,来表述术语形成的节点之间的关联。
对于其他领域的数据,例如生物物种数据、化学领域数据等,也相应地存在结构化术语体系。如上所述,这些结构化术语体系都能够将本领域中的标准术语组织为树形结构的形式。
出于具体描述的目的,以下结合代表性的医疗数据和SNOMED术语体系来描述本发明的实施方式。
图3示出根据本发明实施例的方法的流程图。如图3所示,根据一个实施例的获得平面数据的层级信息的方法包括,步骤31,其中将所述平面数据中来自同一数据组的至少一个数据项对应到结构化术语体系所形成的树形结构中的至少一个节点;步骤32,在所述树形结构中获取至少一个子树形结构,所述至少一个子树形结构的每一个都以所述至少一个节点为全部叶节点;步骤33,从所述至少一个子树形结构中选择目标树形结构;以及步骤34,获取所述目标树形结构中的层级信息。
具体地,在步骤31中,将平面数据中的数据项定位到结构化术语体系构成的树形结构中。为此,首先从平面数据中提取出一个数据组,获取该数据组中的多个数据项,由此使得有待分析的数据项来自同一数据组,反映同一维度的信息。例如,在图2所示的以电子病历为例的医疗数据中,每一纵列可以认为是一个数据组,从一个维度反映病例信息。具体地,第二纵列的数据组中的每个数据项都用来描述病例的主要症状,第七纵列的数据组中的每个数据项都用来描述病例的诊断结论,第八纵列的数据组中的每个数据项都用来描述病例的治疗方式。因此,需要将来自同一纵列,即同一数据组的数据项作为后续步骤有待分析的对象。
接着,对于获得的多个数据项,将每一个数据项对应到结构化术语体系中的一个术语。在一个实施例中,平面数据为医疗数据,结构化术语体系是上述的SNOMED术语体系。目前,多种医疗数据已经采用了SNOMED体系中的标准术语来记录医疗信息,有的甚至直接采用了SNOMED体系中术语的编码进行数据的记录和存储。在这种情况下,将医疗数据中的数据项对应到SNOMED体系中的术语只需要进行术语或编码的搜索和匹配就可以实现。在医疗数据未采用规范化术语进行记录的情况下,可以附加地进行数据项与术语的字符串匹配和模糊匹配,在一些实施例中,还可以辅助地参考术语体系中对术语的解释和描述。对于其他内容的平面数据,类似地,在平面数据已经采用结构化术语体系中的术语或编码进行记录的情况下,可以直接通过术语或编码的搜索和匹配来实现数据项到术语的对应;在平面数据未采用规范化术语进行记录的情况下,可以附加进行模糊匹配。此外,现有技术中也已经存在多种可以用于术语匹配的方法,本领域技术人员可以在此基础上选择适当的方法来进行数据项和术语的匹配和对应。由此,对于获得的每个数据项,都可以对应到结构化术语体系中的一个术语。
进一步地,如上所述,由于结构化术语体系将术语按照层级进行组织从而形成术语的树形结构,因此,每个数据项所对应到的术语就作为树形结构中的一个节点。由此,数据项被定位到树形结构中。
图4A示出根据本发明一个实施例的树形结构的示意图。该树形结构示意性示出SNOMED术语体系形成的树形结构的一部分,其中每个节点对应一个术语,节点之间的父子关系由带箭头的连接线示出,Thing是整个树形结构的根节点。通过上述步骤31中与术语的对应,数据项被定位到树形结构中的特定节点。在图4A中,以节点A,B,C,D,E,F示出与数据项对应的节点。
接着,实施例的方法进行到步骤32,在上述树形结构中找到至少一个以数据项所对应的节点为全部叶节点的子树形结构。仍然结合图4A,步骤32的过程也就是在整个树形结构中找到至少一个子树形结构,其每一个都以节点A-F为全部叶节点。
为了确定备选的子树形结构,就要利用树形结构中节点之间的连接关系。
在一个实施例中,形成树形结构的结构化术语体系,例如SNOMED,是以开放链接数据LOD(linked open data)的形式对外发布的,在该形式下,树形结构中节点之间的关系均以RDF三元组的格式进行描述和存储。如本领域技术人员所知,RDF三元组以<主体,谓词,客体>的形式表述各种语义和关系。对于节点A和节点B的从属关系,或称父子关系,用RDF三元组可以表示为<nodeA,subClassOf,nodeB>。作为基于语义的语言,在LOD数据中,存在概念owl:Thing,数据中的所有个体都是其成员,或者称为其子节点。相应地,如果想要在LOD中查询一个子节点childNode的父节点,可以利用如下的SPARQL查询:Select?parentNode where{?parentNode rdfs:subClassOf<childNode>},从而获取父节点的值。当然,也可以类似地查询给定父节点的子节点。在此情况下,通过核心谓词subClassOf,可以简单地获得节点之间的父子关系。在其他实施例中,结构化术语体系以其他特定格式进行存储。相应地,可以通过捕获该其他特定格式中对从属关系的描述来获得树形结构中节点之间的父子关系。
在能够获得节点之间的父子关系的基础上,就可以在树形结构中进行向上或向下的回溯,通过这样的回溯确定子树形结构。
在一个实施例中,从树形结构的根节点Thing向下回溯,确定能够到达叶节点A-F的路径和相应的节点,将这样的路径和节点组合作为子树形结构。
在一个实施例中,从叶节点A-F开始向上回溯,直到根节点Thing。在这个过程中,对于每个叶节点,例如通过上述的SPARQL查询获得“subClassOf”关系的节点,从而确定叶节点的至少一个父节点;然后从每个父节点出发,依次获得更上层级的祖先节点,直到根节点Thing,由此形成从叶节点到根节点的单条路径。之后,对于获得的多个单条路径,找到不同路径之间的共同节点,从而对获得的路径进行合并,得到从叶节点到根节点Thing的子树形结构。
图4B示出根据一个实施例从图4A的树形结构中获得的子树形结构。如图4B所示,获得的子树形结构是图4A的树形结构的一部分,并且该子树形结构的全部叶节点就是数据项所对应到的节点A-F,根节点仍然是Thing。然而,观察这个从根节点Thing到叶节点A-F的子树形结构可以发现,该子树形结构并不是唯一的以A-F为叶节点的子结构,而是包含了进一步的子树形结构,例如以节点11为根节点的进一步的子树形结构。也就是说,通过在叶节点A-F和最终根节点Thing之间进行回溯和查找,可以确定多个子树形结构,这些子树形结构都可以从一定角度或侧面反映叶节点A-F之间的潜在的层级关系。因此,可以根据需要从获得的多个子树形结构中确定一个作为目标树形结构,用目标树形结构来反映节点的层级信息,如步骤33所示。
在一个实施例中,为了使得最终获得的层级信息更加具有相关性,需要对获得的多个子树形结构进行进一步筛选,从中选择较为“紧凑”的树形结构,以此来反映层级信息,因为在结构较为“紧凑”的层级树中,节点之间的关联性会较强,更有利于反映具体的分类和主题。
下面结合图4B示出的子树形结构的例子描述上述选择过程。
在一个实施例中,采用两个步骤对多个子树形结构进行分析和选择。首先,对于图4B所示的从叶节点到最终根节点Thing的子树形结构(在此将其称为第一子树形结构),进行备选根节点的初步选择。具体地,在第一子树形结构中,从最终根节点Thing开始,通过向下回溯来确定从当前节点可以到达的叶节点的数目。如果当前节点的可达叶节点数目等于全部叶节点数目(在图4A-4B的例子中,全部叶节点数目为6),那么进一步判断当前节点的子节点的可达叶节点数目,直到可达叶节点数目小于全部叶节点数目。然后,将第一类节点作为备选根节点,同时去除第二类节点,其中第一类节点的特征是,可达叶节点数目等于全部叶节点数目,而其子节点的可达叶节点数目均小于全部叶节点数目,第二类节点的特征是,该节点与其至少一个子节点的可达叶节点数目均等于全部叶节点数目。这是因为,假定节点m是节点n的父节点,从这两个节点均可以到达全部叶节点,即,节点m是第二类节点,那么以节点n为根节点的子树形结构N必然是以节点m为根节点的子树形结构M的子集。因此,相比于树形结构M,树形结构N必然包含更少的层级和节点,从而更加紧凑。由此,第二类节点m不会被认为是理想的根节点,应该将其去除。
在图4B中,以实线方框标出了部分节点的可达叶节点数目,其中根节点Thing,其两个子节点11,12的可达叶节点数目为6,另外,节点12的一个子节点23的可达叶节点也为6。因此,根节点Thing,节点12为第二类节点,应该去除,节点11和节点23应该作为备选根节点。由此,从图4B示出的第一子树形结构中初步选择出两个备选子树形结构,如图4C所示,这两个子树形结构分别以节点11和23为根节点。
接下来,对初步选择出的子树形结构进行进一步判断。具体地,可以确定每个子树形结构中所包含的节点的数目,选出其中节点数目最少的子树形结构作为目标结构。在图4C示出的两个子树形结构中,结构(1)中涉及18个节点,结构(2)涉及12个节点,因此,结构(2)比结构(1)更加紧凑,节点之间的关联更加紧密,因此,结构(2)应选择作为目标结构,用于反映叶节点之间的层级信息。
尽管以上通过两个步骤选择出较为紧凑的子树形结构作为目标树形结构,但是可以理解,也可以采用其他方式对子树形结构进行分析和选择。例如,在一个实施例中,对于每一个潜在的子树形结构,直接确定其包含的节点的数目,从中选择节点数目最少的子树形结构作为目标树形结构。在另一个实施例中,首先选定一个特定叶节点,对于每一个潜在的子树形结构,确定从根节点到该特定叶节点的路径长度,也就是层级数目,选择层级数目较少的子树形结构作为目标树形结构。该方法可以用于初步筛选子树形结构、直接确定目标树形结构,或者与节点数目的判断结合起来共同确定最终的目标树形结构。
通过上述的多种方法,可以从多个子树形结构中找出较为紧凑的树形结构作为目标结构。进一步地,在一个实施例中,还对目标结构中叶节点所处的层级进行分析和调整,使得最终的层级树在结构上更加对称和均衡。
具体地,参考图4C中的结构(2),该结构由于其紧凑性已经被选择为目标树形结构。然而,在这个树形结构中,虽然同为叶节点,节点F与其他叶节点A-E并不处于相同的层级。或者说,从根节点到各个叶节点的路径长度并不相同。因此,该树形结构并不是均衡的树形结构。由于均衡的树形结构更加有利于后续的层级信息分析,因此,可以对目标树形结构进行调整,将其“均衡化”。在一个例子中,对于处于较高层级的节点F,也就是距离根节点的路径短于其他叶节点的节点,为其设置一个伪装子节点F’,该伪装子节点的内容与节点F相同,但是位于与其他叶节点A-E相同的层级,如图4D所示。由此,调整后的树形结构中所有叶节点位于同一层级,实现了结构的均衡。可以理解,如果叶节点之间相差多于一个层级,那么就需要对高层级的叶节点设置两个或更多层级的伪装子节点,最终使得目标树形结构中全部叶节点位于同一层级。
综合以上,通过上述方法,可以得到以数据项所对应的节点为叶节点的紧凑而均衡的目标树形结构。基于此,在步骤34,从所述目标树形结构获取节点之间的层级信息,进而可以获知叶节点所对应的数据项之间的关联。例如,通过图4D所示的目标树形结构,可以得到叶节点A-F之间的层级信息,进而获知叶节点A-F所对应的医疗数据项之间的内在关系,例如叶节点A-C所对应的数据项属于同一类别(节点4所对应的术语),叶节点D,E所对应的数据项属于同一类别(节点5所对应的术语),等等。
在一个实施例中,在步骤34中,对于获得的目标树形结构,也可以通过制表的方式从中提取出层级信息。例如,对于图4D示出的目标树形结构,沿着从根节点到叶节点的路径,将各个节点分别置于相应层级中,可以得到与树形结构对应的层级表。图4E示出与图4D的树形结构对应的层级表。在其他实施例中,也可以将层级信息组织为其他形式。
基于如上所述获取的层级信息,就有可能对平面组织的数据项进行商业智能中广泛采用的OLAP分析和操作,由此,从离散而平面的数据项中揭示出数据的内在关联和规律,更好地对信息进行分析和管理。
基于同一发明构思,本发明还提供获得平面数据的层级信息的装置。图5示出根据本发明一个实施例的装置的框图。如图5所示,本发明实施例的装置50包括:节点对应单元51,配置为将平面数据中来自同一数据组的至少一个数据项对应到结构化术语体系所形成的树形结构中的至少一个节点;子结构获取单元52,配置为在所述树形结构中获取至少一个子树形结构,所述至少一个子树形结构的每一个都以所述至少一个节点为全部叶节点;目标结构选择单元53,配置为从所述至少一个子树形结构中选择目标树形结构;以及层级信息获取单元54,配置为获取所述目标树形结构中的层级信息。
具体地,节点对应单元51用于将平面数据中的数据项定位到结构化术语体系构成的树形结构中。为此,节点对应单元51首先从平面数据中提取出一个数据组,获取该数据组中的多个数据项,由此使得有待分析的数据项来自同一数据组,反映同一维度的信息。接着,对于获得的多个数据项,节点对应单元51将每一个数据项对应到结构化术语体系中的一个术语。在平面数据已经采用结构化术语体系中的规范化术语描述的情况下,节点对应单元51只需要进行术语或编码的搜索和匹配就可以实现数据项到术语的对应。在平面数据未采用规范化术语进行记录的情况下,节点对应单元51可以附加地进行数据项与术语的字符串匹配和模糊匹配,由此将数据项对应到术语。进一步地,由于结构化术语体系将术语按照层级进行组织从而形成术语的树形结构,其中一个术语就是该树形结构的一个节点,因此,节点对应单元51将数据项对应到术语的同时就将数据项对应到树形结构中的节点。
接着,子结构获取单元52在上述树形结构中找到至少一个以数据项所对应的节点为全部叶节点的子树形结构。
为了获取备选的子树形结构,子结构获取单元52可以利用用于记录和存储结构化术语体系的各种格式中对节点之间连接关系,尤其是父子关系的描述。在能够获得节点之间的父子关系的基础上,子结构获取单元52可以在树形结构中进行向上或向下的回溯,通过这样的回溯确定子树形结构。
在一个实施例中,子结构获取单元52从树形结构的根节点Thing向下回溯,确定能够到达各个叶节点的路径,其中叶节点是通过节点对应单元51将数据项对应到的节点。子结构获取单元51将这样的路径和其中涉及的节点进行组合,作为子树形结构。在另一个实施例中,子结构获取单元52从叶节点开始向上回溯,直到根节点Thing,由此形成从叶节点到根节点的单条路径。之后,对于获得的多个单条路径,找到不同路径之间的共同节点,从而对获得的路径进行合并,得到从叶节点到根节点Thing的第一子树形结构。一般来说,第一子树形结构实际上包含了多个可能的子树形结构,因此可以根据需要对获得的多个子树形结构进行进一步筛选,从中选择适当的子树形结构作为目标树形结构,以此来反映层级信息。
于是,目标结构选择单元53对子结构获取单元52获得的多个子树形结构进行分析,从中选择出能够反映节点层级信息的目标树形结构。
在一个实施例中,目标结构确定单元53采用两个步骤对多个子树形结构进行分析,从中选择出较为紧凑的子树形结构作为目标树形结构。首先,在第一子树形结构中,从最终根节点Thing开始,通过向下回溯确定每个节点的可达叶节点数目。然后,将第一类节点作为备选根节点,去除第二类节点,其中第一类节点的特征是,可达叶节点数目等于全部叶节点数目,而其子节点的可达叶节点数目均小于全部叶节点数目,第二类节点的特征是,该节点与其至少一个子节点的可达叶节点数目均等于全部叶节点数目。
接下来,对去除了第二类节点的初步选择出的子树形结构进行进一步判断。具体地,目标结构确定单元53确定每个子树形结构中所包含的节点的数目,选出其中节点数目最少的子树形结构作为目标结构。
通过上述的各个单元,装置50可以获得以数据项对应的节点为叶节点的多个子树形结构,并从中找出较为紧凑的树形结构作为目标结构。进一步地,在一个实施例中,装置50还包括均衡单元(未示出),配置为对目标结构中叶节点所处的层级进行分析和调整,使得最终的目标结构更加对称和均衡。具体地,如果目标结构中各个叶节点所处层级不同,均衡单元可以通过设置伪装子节点的方式将目标结构均衡化,最终使得目标树形结构中全部叶节点位于同一层级。
在确定了目标树形结构的基础上,层级信息获取单元54从目标树形结构中提取出层级信息,以此示出各个节点之间的关联,进一步地,示出各个节点所对应的数据项之间的层级信息。
根据本发明实施例的装置50获取平面数据的层级信息的具体例子与参照上述方法的例子相似,在此不再赘述。
通过各个实施例的方法和装置,能够借助于结构化术语体系,获得平面数据的层级信息,便于后续对平面数据的进一步分析和管理。
本领域技术人员可以理解,上述获取平面数据的层级信息方法和装置可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本实施例的装置及其单元可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合实现。用于执行本发明的操作的软件和程序代码,可以用一种或多种程序设计语言的组合来编写,包括但不限于,面向对象的程序设计语言,诸如Java,Smalltalk,C++之类,以及常规的过程式程序设计语言,诸如C程序设计语言或类似的程序设计语言。程序代码可以本地地或远程地在计算机上执行,以完成设定的操作。
虽然以上结合具体实施例,对本发明的获取层级信息的方法和装置进行了详细描述,但本发明并不限于此。本领域普通技术人员能够在说明书教导之下对本发明进行多种变换、替换和修改而不偏离本发明的精神和范围。应该理解,所有这样的变化、替换、修改仍然落入本发明的保护范围之内。本发明的保护范围由所附权利要求来限定。
Claims (12)
1.一种获得平面数据的层级信息的方法,包括:
将所述平面数据中来自同一数据组的至少一个数据项对应到结构化术语体系所形成的树形结构中的至少一个节点;
在所述树形结构中获取至少一个子树形结构,所述至少一个子树形结构的每一个都以所述至少一个节点为全部叶节点;
从所述至少一个子树形结构中选择目标树形结构,以及
获取所述目标树形结构中的层级信息,
其中将至少一个数据项对应到至少一个节点的步骤包括:将所述至少一个数据项对应到所述结构化术语体系中的至少一个术语;以及将所述至少一个术语对应到所述树形结构中的至少一个节点;
其中获取所述目标树形结构中的层级信息的步骤包括:提取所述目标树形结构中节点之间的层级关系,并将其组织为层级表的形式,
其中所述平面数据是包含电子病历的医疗数据,所述结构化术语体系包含SNOMED术语体系。
2.根据权利要求1的方法,其中在所述树形结构中获取至少一个子树形结构的步骤包括:
将所述至少一个节点的每一个作为叶节点向上回溯,直到所述树形结构的根节点,从而形成从叶节点到根节点的至少一个路径;
将所述至少一个路径进行合并,得到从叶节点到根节点的第一子树形结构,
获取所述第一子树形结构的至少一个子树形结构。
3.根据权利要求1所述的方法,其中在所述树形结构中获取至少一个子树形结构的步骤包括:
在所述树形结构中,将第一类节点作为备选根节点,其中第一类节点的特征是,可达叶节点数目等于全部叶节点数目,而其子节点的可达叶节点数目均小于全部叶节点数目;
获取以所述第一类节点为根节点的子树形结构。
4.根据权利要求1-3中任一项的方法,其中选择目标树形结构的步骤包括:确定所述至少一个子树形结构中的每一个所包含的节点数目,选择其中节点数目最少的子树形结构作为目标树形结构。
5.根据权利要求1-3中任一项的方法,其中选择目标树形结构的步骤包括:对于所述至少一个子树形结构中的每一个,确定根节点到特定叶节点的路径长度,选择其中路径长度较短的子树形结构作为目标树形结构。
6.根据权利要求1-3中任一项的方法,还包括,通过为处于较高层级的叶节点设置伪装子节点,对所述目标树形结构进行均衡化,使得其中所有叶节点处于同一层级。
7.一种获得平面数据的层级信息的装置,包括:
节点对应单元,配置为将所述平面数据中来自同一数据组的至少一个数据项对应到结构化术语体系所形成的树形结构中的至少一个节点;
子结构获取单元,配置为在所述树形结构中获取至少一个子树形结构,所述至少一个子树形结构的每一个都以所述至少一个节点为全部叶节点;
目标结构选择单元,配置为从所述至少一个子树形结构中选择目标树形结构,以及
层级信息获取单元,获取所述目标树形结构中的层级信息,
其中所述节点对应单元配置为:将所述至少一个数据项对应到所述结构化术语体系中的至少一个术语;以及将所述至少一个术语对应到所述树形结构中的至少一个节点;
其中所述层级信息获取单元配置为:提取所述目标树形结构中节点之间的层级关系,并将其组织为层级表的形式,
其中所述平面数据是包含电子病历的医疗数据,所述结构化术语体系包含SNOMED术语体系。
8.根据权利要求7的装置,其中所述子结构获取单元配置为:
将所述至少一个节点的每一个作为叶节点向上回溯,直到所述树形结构的根节点,从而形成从叶节点到根节点的至少一个路径;
将所述至少一个路径进行合并,得到从叶节点到根节点的第一子树形结构,
获取所述第一子树形结构的至少一个子树形结构。
9.根据权利要求7所述的装置,其中所述子结构获取单元配置为:
在所述树形结构中,将第一类节点作为备选根节点,其中第一类节点的特征是,可达叶节点数目等于全部叶节点数目,而其子节点的可达叶节点数目均小于全部叶节点数目;
获取以所述第一类节点为根节点的子树形结构。
10.根据权利要求7-9中任一项的装置,其中所述目标结构选择单元配置为:确定所述至少一个子树形结构中的每一个所包含的节点数目,选择其中节点数目最少的子树形结构作为目标树形结构。
11.根据权利要求7-9中任一项的装置,其中所述目标结构选择单元配置为:对于所述至少一个子树形结构中的每一个,确定根节点到特定叶节点的路径长度,选择其中路径长度较短的子树形结构作为备选树形结构。
12.根据权利要求7-9中任一项的装置,还包括均衡单元,配置为,通过为处于较高层级的叶节点设置伪装子节点,对所述目标树形结构进行均衡化,使得其中所有叶节点处于同一层级。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010615062.5A CN102567394B (zh) | 2010-12-30 | 2010-12-30 | 获取平面数据的层级信息的方法和装置 |
CA2755610A CA2755610C (en) | 2010-12-30 | 2011-10-21 | Obtaining hierarchical information of planar data |
JP2011256709A JP5822680B2 (ja) | 2010-12-30 | 2011-11-24 | 平坦データの階層情報を取得する方法及び装置 |
US13/332,361 US8996581B2 (en) | 2010-12-30 | 2011-12-20 | Obtaining hierarchical information of planar data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010615062.5A CN102567394B (zh) | 2010-12-30 | 2010-12-30 | 获取平面数据的层级信息的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102567394A CN102567394A (zh) | 2012-07-11 |
CN102567394B true CN102567394B (zh) | 2015-02-25 |
Family
ID=46381731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010615062.5A Expired - Fee Related CN102567394B (zh) | 2010-12-30 | 2010-12-30 | 获取平面数据的层级信息的方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8996581B2 (zh) |
JP (1) | JP5822680B2 (zh) |
CN (1) | CN102567394B (zh) |
CA (1) | CA2755610C (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI563403B (en) * | 2015-03-06 | 2016-12-21 | Univ Nat Yang Ming | System and method of electronic case report from design and data standard adoption |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2885760A4 (en) * | 2012-08-15 | 2016-05-18 | Hewlett Packard Development Co | VALIDATION OF A METADATA CONSTRUCTION ON THE BASIS OF A METADATA INTEGRITY CHECKER |
US10586612B2 (en) | 2013-03-01 | 2020-03-10 | Actx, Inc. | Cloud-like medical-information service |
US9275425B2 (en) * | 2013-12-19 | 2016-03-01 | International Business Machines Corporation | Balancing provenance and accuracy tradeoffs in data modeling |
US20160034513A1 (en) * | 2014-07-31 | 2016-02-04 | Potix Corporation | Method to filter and group tree structures while retaining their relationships |
CN105488088B (zh) * | 2014-12-31 | 2019-05-07 | 哈尔滨安天科技股份有限公司 | 基于树形结构的二维网络角度分配布局方法 |
CN105117587A (zh) * | 2015-08-04 | 2015-12-02 | 杭州健港信息科技有限公司 | 医保领域中基于医疗大数据的智能分析方法 |
US10990255B1 (en) * | 2016-07-27 | 2021-04-27 | United Services Automobile Association (Usaa) | Hierarchical data display |
CN109117424A (zh) * | 2017-06-23 | 2019-01-01 | 北京国双科技有限公司 | 一种关联数据的展示方法及装置 |
JP7170487B2 (ja) * | 2018-10-04 | 2022-11-14 | Tis株式会社 | 情報処理装置およびプログラム |
JP7087904B2 (ja) | 2018-10-10 | 2022-06-21 | 富士通株式会社 | ノード探索方法及びノード探索プログラム |
CN109637602B (zh) * | 2018-11-23 | 2021-06-18 | 金色熊猫有限公司 | 医疗数据存储和查询方法、装置、存储介质及电子设备 |
CN111209387B (zh) * | 2019-12-31 | 2022-02-18 | 上海亿锎智能科技有限公司 | 基于MedDRA的检索分析方法和系统 |
CN113642320A (zh) * | 2020-04-27 | 2021-11-12 | 北京庖丁科技有限公司 | 文档目录结构的提取方法、装置、设备和介质 |
CN113380356B (zh) * | 2021-05-10 | 2024-04-16 | 广州零端科技有限公司 | 分支链式溯源的医疗检查数据记录方法、查询方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101470711A (zh) * | 2007-12-25 | 2009-07-01 | 国际商业机器公司 | 层次化图结构数据可视化的方法、装置 |
CN101807194A (zh) * | 2009-01-16 | 2010-08-18 | 国际商业机器公司 | 用于在数据结构层级中定位资源的方法和系统 |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3014328B2 (ja) * | 1995-06-05 | 2000-02-28 | 茂 松本 | データ検索方法及びリンク情報追加方法 |
US7016910B2 (en) * | 1999-12-30 | 2006-03-21 | Decode Genetics Ehf. | Indexing, rewriting and efficient querying of relations referencing semistructured data |
US7120646B2 (en) * | 2001-04-09 | 2006-10-10 | Health Language, Inc. | Method and system for interfacing with a multi-level data structure |
US6856992B2 (en) | 2001-05-15 | 2005-02-15 | Metatomix, Inc. | Methods and apparatus for real-time business visibility using persistent schema-less data storage |
US7539591B2 (en) | 2001-08-24 | 2009-05-26 | Vi Technology, Inc. | Enterprise test data management system utilizing hierarchical test data models and related methods |
US7047253B1 (en) * | 2001-09-28 | 2006-05-16 | Oracle Interntional Corporation | Mechanisms for storing content and properties of hierarchically organized resources |
US7493253B1 (en) * | 2002-07-12 | 2009-02-17 | Language And Computing, Inc. | Conceptual world representation natural language understanding system and method |
US20090012928A1 (en) * | 2002-11-06 | 2009-01-08 | Lussier Yves A | System And Method For Generating An Amalgamated Database |
EP1562570A4 (en) * | 2002-11-06 | 2007-09-05 | Sinai School Medicine | TREATMENT OF AMYOTROPHER LATERAL SCLEROSIS WITH NIMESULID |
US7313568B2 (en) | 2004-03-31 | 2007-12-25 | International Business Machines Corporation | Generating and analyzing business process-aware modules |
JP4728063B2 (ja) * | 2005-08-08 | 2011-07-20 | 日本電信電話株式会社 | 興味情報生成装置、興味情報生成方法および興味情報生成プログラム |
US20080046292A1 (en) * | 2006-01-17 | 2008-02-21 | Accenture Global Services Gmbh | Platform for interoperable healthcare data exchange |
US7610192B1 (en) * | 2006-03-22 | 2009-10-27 | Patrick William Jamieson | Process and system for high precision coding of free text documents against a standard lexicon |
US9197597B2 (en) | 2006-07-03 | 2015-11-24 | Oracle International Corporation | RDF object type and reification in the database |
US8229881B2 (en) * | 2007-07-16 | 2012-07-24 | Siemens Medical Solutions Usa, Inc. | System and method for creating and searching medical ontologies |
US20100179951A1 (en) | 2008-03-03 | 2010-07-15 | Mcphail Lon Daniel | Systems and methods for mapping enterprise data |
CN101571863B (zh) * | 2008-04-29 | 2012-03-28 | 国际商业机器公司 | 用于可变模式的xml文档的xml查询方法和系统 |
US8447786B2 (en) * | 2008-10-01 | 2013-05-21 | International Business Machines Corporation | Language extensions for creating, accessing, querying and updating RDF data |
JP5623023B2 (ja) * | 2009-03-30 | 2014-11-12 | 株式会社野村総合研究所 | アイデア整理支援装置、アイデア支援方法およびコンピュータプログラム |
US8645904B2 (en) * | 2009-10-26 | 2014-02-04 | International Business Machines Corporation | Cross repository impact analysis using topic maps |
US9542647B1 (en) * | 2009-12-16 | 2017-01-10 | Board Of Regents, The University Of Texas System | Method and system for an ontology, including a representation of unified medical language system (UMLS) using simple knowledge organization system (SKOS) |
US8458191B2 (en) * | 2010-03-15 | 2013-06-04 | International Business Machines Corporation | Method and system to store RDF data in a relational store |
US20120215560A1 (en) * | 2010-07-21 | 2012-08-23 | dbMotion Ltd. | System and methods for facilitating computerized interactions with emrs |
US20120029939A1 (en) * | 2010-07-30 | 2012-02-02 | General Electric Company | Methods and apparatus to group and present clinical records |
US20120072235A1 (en) * | 2010-09-16 | 2012-03-22 | SRM Institute of Science and Technology | System and Method for Personal Healthcare Analysis and Distributable Archive |
US9798732B2 (en) * | 2011-01-06 | 2017-10-24 | Micro Focus Software Inc. | Semantic associations in data |
US8489639B2 (en) * | 2011-03-04 | 2013-07-16 | Accenture Global Services Limited | Information source alignment |
US8566321B2 (en) * | 2011-03-11 | 2013-10-22 | Amco Llc | Relativistic concept measuring system for data clustering |
US9098566B2 (en) * | 2011-05-24 | 2015-08-04 | Oracle International Corporation | Method and system for presenting RDF data as a set of relational views |
US8756246B2 (en) * | 2011-05-26 | 2014-06-17 | Oracle International Corporation | Method and system for caching lexical mappings for RDF data |
-
2010
- 2010-12-30 CN CN201010615062.5A patent/CN102567394B/zh not_active Expired - Fee Related
-
2011
- 2011-10-21 CA CA2755610A patent/CA2755610C/en active Active
- 2011-11-24 JP JP2011256709A patent/JP5822680B2/ja not_active Expired - Fee Related
- 2011-12-20 US US13/332,361 patent/US8996581B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101470711A (zh) * | 2007-12-25 | 2009-07-01 | 国际商业机器公司 | 层次化图结构数据可视化的方法、装置 |
CN101807194A (zh) * | 2009-01-16 | 2010-08-18 | 国际商业机器公司 | 用于在数据结构层级中定位资源的方法和系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI563403B (en) * | 2015-03-06 | 2016-12-21 | Univ Nat Yang Ming | System and method of electronic case report from design and data standard adoption |
Also Published As
Publication number | Publication date |
---|---|
JP2012141955A (ja) | 2012-07-26 |
CA2755610C (en) | 2018-09-04 |
CN102567394A (zh) | 2012-07-11 |
CA2755610A1 (en) | 2012-06-30 |
JP5822680B2 (ja) | 2015-11-24 |
US8996581B2 (en) | 2015-03-31 |
US20120173585A1 (en) | 2012-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102567394B (zh) | 获取平面数据的层级信息的方法和装置 | |
CN104737154B (zh) | 关联信息传播系统 | |
Gamal et al. | Standardized electronic health record data modeling and persistence: A comparative review | |
US20160055191A1 (en) | Executing constant time relational queries against structured and semi-structured data | |
CN103493043B (zh) | 用于有效的xml处理的混合二进制xml存储模型 | |
US20090300326A1 (en) | System, method and computer program for transforming an existing complex data structure to another complex data structure | |
Park et al. | Graph databases for large-scale healthcare systems: A framework for efficient data management and data services | |
Lin et al. | Temporal event tracing on big healthcare data analytics | |
US20090043733A1 (en) | Systems and methods for efficiently storing, retrieving and querying data structures in a relational database system | |
CN104769588B (zh) | 队列识别系统 | |
CA3053308A1 (en) | Neurological data processing | |
CN112445845A (zh) | 基于大数据挖掘的模型部署方法、装置、设备及存储介质 | |
Chu et al. | Knowledge representation and retrieval using conceptual graphs and free text document self-organisation techniques | |
US7640266B2 (en) | Computer program product and associated methods for searching a database of objects, connecting objects in such a database, and exporting data from at least one arbitrary database | |
Wade et al. | A Dimensional Bus model for integrating clinical and research data | |
Keenan et al. | The HANDS project: studying and refining the automated collection of a cross-setting clinical data set | |
Das et al. | Machine learning landscapes and predictions for patient outcomes | |
O’Connor et al. | Using semantic web technologies for knowledge-driven querying of biomedical data | |
Barrasa et al. | Building Knowledge Graphs | |
Kvet et al. | Study on effective temporal data retrieval leveraging complex indexed architecture | |
CA2985146C (en) | A data processing system for curating search result facets | |
Zamora et al. | Characterizing chronic disease and polymedication prescription patterns from electronic health records | |
Li et al. | Data mining in hospital information system | |
Gamal et al. | Integrated Document-Based Electronic Health Records Persistence Framework | |
Pincus et al. | Contextualizing heterogeneous data for integration and inference |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150225 Termination date: 20201230 |