CN103309856A

CN103309856A - 一种智能化区域医疗数据中心设计方法

Info

Publication number: CN103309856A
Application number: CN2012100552027A
Authority: CN
Inventors: 葛航; 王雪峰; 曹兴兵
Original assignee: Bsoft Co Ltd
Current assignee: Bsoft Co Ltd
Priority date: 2012-03-06
Filing date: 2012-03-06
Publication date: 2013-09-18

Abstract

一种智能化区域医疗数据中心设计方法公开了一种通过多媒体信息处理、智能识别、数据挖掘等技术实现非结构化数据的智能处理、描述和索引，克服底层认知鸿沟，通过多媒体数据转码技术，实现数据的融合，克服中层转换鸿沟，通过智能感知、细粒度服务划分，实现柔性可重组业务模式支撑，克服高层服务鸿沟，通过基于数据类型的分层覆盖网络技术，克服海量数据分发的质量控制瓶颈。

Description

一种智能化区域医疗数据中心设计方法

技术领域

本发明涉及计算机领域，更具体地涉及一种智能化区域医疗数据中心设计方法。

背景技术

随着国际国内医疗信息整合和共享系统的建设和不断发展，区域医疗影像数据中心作为区域医疗临床信息共享系统的核心部分，对区域医疗信息系统的建设有着举足轻重的作用越来越受到业界的关注和重视。

区域医学数据中心，是指一种相对逻辑集中和物理集中的环境中，构建一个以存储和处理患者/健康人群临床诊疗信息为核心，覆盖较多学科，面向区域内主要临床医疗机构、卫生行政主管部门和社会公众的医学数据资源共享平台，区域性医学数据中心建设紧紧围绕医疗卫生工作中心任务，以医疗、预防、保健、康复服务为核心，以人群健康和患者的医疗活动需求为基础，采用先进的计算机及网络技术构建一个结构合理、网络互通、功能完善、技术先进、方便使用的信息资源共享平台，成为既能满足区域各级医疗机构医疗、教学与科研管理需要，又能适应社会各阶层需要的信息交流中心、信息管理中心和信息增值服务中心。

发明内容

本发明通过多媒体信息处理、智能识别、数据挖掘等技术实现非结构化数据的智能处理、描述和索引，克服底层认知鸿沟，通过多媒体数据转码技术，实现数据的融合，克服中层转换鸿沟，通过智能感知、细粒度服务划分，实现柔性可重组业务模式支撑，克服高层服务鸿沟，通过基于数据类型的分层覆盖网络技术，克服海量数据分发的质量控制瓶颈。

根据一种智能化区域医疗数据中心设计方法，其特征在于，包括：通过多媒体信息处理、智能识别、数据挖掘等技术实现非结构化数据的智能处理、描述和索引，克服底层认知鸿沟。

根据本发明实施例的一种智能化区域医疗数据中心设计方法，其特征在于，还包括：通过多媒体数据转码技术，实现数据的融合，克服中层转换鸿沟。

根据本发明实施例的一种智能化区域医疗数据中心设计方法还包括：通过智能感知、细粒度服务划分，实现柔性可重组业务模式支撑，克服高层服务鸿沟。

根据本发明实施例的一种智能化区域医疗数据中心设计方法还包括：通过基于数据类型的分层覆盖网络技术，克服海量数据分发的质量控制瓶颈。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的基于像素域闭环的多功能视频转码框架图。

图2根据本发明实施例的知识协同构建过程图。

图3根据本发明实施例的多维索引构建过程示意图。

具体实施方式

（1）数字内容转码技术

由于网络环境的异构性（如信源的异构性、信道的异构性、终端的异构性等），媒体存取成为无线通信领域一个亟待解决的问题。然而，视频压缩的标准有很多种，如MPEG-1、MPEG-2、H.263、MPEG-4、H.264和AVS等。为了在异构环境下提供通用的内容数据访问能力，视频服务器端需要利用转码器将高码率视频转换为低码率视频；然后，在低分辨率显示和处理器性能较弱的移动设备(如3G手机、移动MP4) 中应用。本发明拟采用影像转码技术，将已压缩的内容数据从一种格式转换为另一种格式的技术。并基于像素域闭环转码框架，分别研究降码率转码的码率控制算法、容错性转码的率失真优化算法、实时性转码的模式选择算法。

为了支持多种转码功能，在基于像素域闭环的基本转码模块（图中的白色模块）之外加入了选项开关和相应模块（图中的灰色模块）实现多功能转码。具体技术路线如图1所示：

a、降码率转码的码率控制算法

在降码率转码中，多编码模式使得转码前后宏块复杂度的相关性降低，从而使得利用转码前复杂度预测转码后复杂度的精度降低，宏块层码率控制的精度降低。针对这一问题，本发明提出基于复杂度和的转码码率控制算法：通过将输出视频流中单个宏块的复杂度替换为多个宏块的复杂度和来减小复杂度的条件熵，从而提高降码率转码中宏块层转码码率控制的效率。

b、降分辨率转码的运动矢量合成算法

在降分辨率转码中，多帧间编码模式使得转码前后运动矢量的相关性降低，从而使得输入矢量相对于输出矢量的精确度降低，运动矢量合成的误差增大。针对这一问题，本发明提出基于精确度的运动矢量合成算法：通过在输入视频流的运动矢量基础上增加精确度来减小运动矢量的条件熵，从而提高降分辨率转码中运动矢量合成的效率。

c、容错性转码的率失真优化算法

在容错性转码中，多编码模式使得转码前后宏块失真的相关性降低，从而使得利用转码前率失真信息预测转码后率失真信息的精度降低，率失真优化的鲁棒性降低、复杂度增加。针对这一问题，本文提出基于时域相关性的率失真优化算法：通过以输出视频流中前一帧对应宏块的失真来替换输入视频流当前宏块的失真，并在基础上增加时域相关性系数来减小宏块失真的条件熵，来提高容错性转码中率失真优化的效率。

d、实时性转码的模式快速选择算法

在实时性转码中，多帧内编码模式使得转码前后帧内模式的相关性降低，从而使得候选帧内模式的数目增多，帧内模式选择的复杂度增高。针对这一问题，本发明提出基于频域系数的帧内模式选择算法提出基于频域系数的帧内模式选择策略：通过在输入视频流的帧内模式基础上增加频域系数来减小帧内模式的条件熵，从而提高实时性转码中帧内模式选择的效率。

（2）知识元提取技术

随着信息技术的发展，人工智能、网络技术、数据挖掘等新技术都将交叉引入知识库建设。知识库的建立依赖于各个知识链的有机组成，而知识链又是由一个个最小的知识元所关联起来。知识元链接，是指把最小的知识单元（不可再分割的具有完备知识表达的知识单位）提炼出来。基于知识元链接功能，搜索引擎能针对搜索结果给用户更多的文献信息。通过知识元的链接和发掘各知识元的相关联系，以此来揭示知识元之间的各种关联，得以创造新的知识。

知识元及其关联抽取对于知识的挖掘和获取具有巨大的研究和应用价值，但还缺少针对性的研究，目前只是进行了理论与方法的初步研究。本发明拟采用知识协同构建用于从知识资源的文本中建立面向特定领域的主题图，其工作机理如图2所示。

知识协同构建涉及概念与概念关系、知识元及其关联、元数据的获取。从技术角度，概念、知识元的抽取是信息抽取的范畴，而概念关系、知识元关联关系等需要在语义理解的基础上获取。然而，由于获取对象本身的特点（如下表），对每种获取对象必须采用针对性的方法。

知识协同构建中不同对象的特性

Figure 2012100552027100002DEST_PATH_IMAGE001

本发明拟将知识元及其关联联抽划分为“语义段划分——知识元分类——匿名关联获取——关联识别”四个阶段，并重点解决知识元的分类体系与特征表示、知识元匿名关联获取与关联类型识别、知识元关联关系抽取与类型识别等问题。具体技术路线如下：

1）知识元的分类体系与语义描述

在知识元描述和表示方面，现代认知科学认为，人脑中的知识存储结构是一种网络结构，人们在分析和解决问题的时候，并不是顺序地搜索人脑中所有的知识，而是根据知识内在关联，以联想的方式在知识网络上进行搜索。因而，采用网络结构来组织知识符合人类的认知特点。

2）知识元抽取与分类

知识元抽取的基本过程可以分为语义段划分（Semantic DIVISION）和语义类型获取两个阶段。首先抽取出知识资源中所有的语义段构成初始候选知识元集，然后在人工确定知识元语义分类体系的基础上，根据知识元的特征向量，获取知识元的语义类型。

在语义段划分方面，拟通过对现有基于词频统计、基于主题检测与跟踪、基于决策树等语义段划分方法分析的基础上，选择适合知识元抽取的划分方法。在文本特征表示方面，我们提出一种结合文档的书写格式、文本内容、文档结构、页面布局以及逻辑关系等关键信息，具有丰富、全面的领域适应性和语言适应性的特征表示方法。在知识元分类方面，拟将中文问题语义分类体系引入到知识元分类中，并采用基于损失函数的分类方法获得知识元的语义类型。

3）知识元关联关系类型识别

以概念抽取得到的领域概念为背景知识，建立知识元的Term-Rich类特征向量，并计算知识元两两之间的相似度，根据特定阈值，得到存在匿名关系的知识元。

在获取在匿名关系基础上，进一步识别知识元关联关系类型。由于在领域文本集中，知识元具有较高的稀疏性，识别模型训练时，少量的知识元可能会被大量的噪声淹没而无法训练出有效的模型。鉴于此，采用分层训练的策略以获得不同精度的模型。其中，顶层模型用于剔除掉大量无关数据，而底层模型采用多类分类方法则用于精确识别出知识元关联关系，其基本思想是采用码字矩阵将多类分类问题退化成多个二类分类问题的组合。

（3）知识元多维关联索引技术

随着医疗领域的知识资源规模的日益增加，内容的日趋复杂，如何有效地组织和管理海量的知识资源已经成为一个新的挑战。多媒体数据库、DNA数据库、地理信息数据库等多维数据库的发展，为这一问题的解决提供了有益的参考。这些数据库具有两个显著特点：一是所管理的数据往往都是结构复杂、数量巨大、不易排序的高维数据；二是对数据的查询往往通过计算查询条件与数据之间的相似性来实现。在此背景下，高维数据索引结构和适用于高维索引结构的相似查询算法得到了人们的极大关注。

本发明拟采用知识元多维关联索引技术，构建一个能够适应多角度的用户查询需求和多粒度、多层次的知识资源定位特点的索引结构。本发明拟按以下的路线展开研究：

1）基于向量模型的索引结构的研究

首先进行相关的理论调研，考察向量空间和尺度空间中多维索引结构的异同，对各种索引结构的特点和适应范围做深入的研究；然后分析知识资源多维索引的需求，结合知识资源的多角度、多粒度的数据特点，考虑索引结构动态更新需求，以及对精确查询和相似查询两种检索模式的支持，提出基于向量模型的知识资源多维索引的数据结构。

2）知识资源多维索引构建方法的研究

多维索引的构建可以从两个角度考虑，一方面是从检索条件及索引项的角度出发，另一方面是从知识资源本身的角度出发。结合两种不同的索引项构建方法，具体分为以下三个步骤：

a.基索引项的生成。在对用户历史查询分析的基础上，通过信息增益发现索引项基向量，从知识资源的各个语义角度出发，针对不同领域，选择不同概率计算模型，用本领域的术语作为训练样本，发现潜在的索引词，并将其应用于其它类似领域，从而构建索引项。

b.组合索引项的生成。通过对知识资源频繁项挖掘发现组合索引向量，由于每个知识资源都可以对应一个索引项的集合，因此提取多个知识资源对应的索引项的子集，将可以完成知识资源的聚类，从而得到每个类别的索引。

c.多维关联索引的生成。对现有数据集中在由不同角度构成的多维查询向量空间进行挖掘，确定一组基向量。然后，通过频繁项挖掘获得索引向量，将其与上述索引基向量进行合并，构成索引向量空间，即全部索引项。最后，对每一个索引项，将相应索引项的资源指针指向排序后的资源链表，完成对单条索引记录的构建。

3）多维索引的快速定位

本部分旨在对由多维索引项构成的高（多）维数据集建立索引以便通过查询向量可以快速查找到与之匹配的索引向量。其要点为：

a.采用核函数的方法改变高维数据的空间分布。由于索引项在索引空间中是以离散点存在的，而且分布不均衡，我们采用核映射的方法（如AQK）将当前索引空间映射到新的特征空间，进而改善数据的分布状况。

b.采用区域敏感的方法对近似向量进行索引。在上一步将向量映射到特征空间的均匀分布的索引向量的基础上，采用KVA-File采用的方法，基于核距离对向量进行区分，将相似的向量划分至不同的子空间中，进一步使用LSH（区域敏感哈希）对近似向量进行索引。

c.采用距离度量的方法对索引向量进行启发式搜索。首先，将查询向量映射至特征空间，根据查询分裂逼近策略，对近似向量进行过滤，对得到的与查询向量最为邻近的K个近似向量，通过哈希查询至相应子区域；其次，根据在训练集中通过机器学习方法得到的启发函数，对子区域内的索引项采用启发式算法找到匹配的索引项。最后，对于没有完全或部分匹配的查询使用相似度计算部分提供的方法进行近似匹配。由找到的最近似（或匹配）的索引项哈希至资源序列。

4）相关度排序策略

a.适于知识资源语义相似度计算的特征表示。因此，发明将结合文本、位置、结构、语义等多种信息，用统计分析方法确定适于知识资源语义相似度计算的特征表示。

b.语义相似度计算模型。首先，标注一定数量的数据。在这些数据中，每个知识资源与索引项的相关程度被由大到小有序排列，并且给出对应的相关等级；然后，采用分类的方法，学习知识资源各等级之间的二类分类模型；最后，对各个分类模型进行组合，形成最终的排序模型。

c.检索结果整合方法。首先，标注好各个子查询条件对应的语义相似度，以及复合查询条件对应的语义相似度。然后，在子查询条件排序的基础上学习查询条件中各个维度对查询结果的影响程度。最后，根据数据标注的结果和语义相似度计算模型预测的结果进行迭代，从而确定最终的检索结果整合方法。

以上所述仅为本发明的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.根据一种智能化区域医疗数据中心设计方法，其特征在于，包括：通过多媒体信息处理、智能识别、数据挖掘等技术实现非结构化数据的智能处理、描述和索引，克服底层认知鸿沟。

2.根据一种智能化区域医疗数据中心设计方法，其特征在于，还包括：通过多媒体数据转码技术，实现数据的融合，克服中层转换鸿沟。

3.根据一种智能化区域医疗数据中心设计方法，还包括：通过智能感知、细粒度服务划分，实现柔性可重组业务模式支撑。