CN108121739B

CN108121739B - 数据收集方法和数据收集系统

Info

Publication number: CN108121739B
Application number: CN201611080324.6A
Authority: CN
Inventors: 尚磊; 宫崎邦彦
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2016-11-30
Filing date: 2016-11-30
Publication date: 2022-07-19
Anticipated expiration: 2036-11-30
Also published as: CN108121739A

Abstract

本发明的数据收集方法，自动从应用数据库中提取数据库表结构和字段及其注释，基于事先存储的根据多个业务数据库中提取的字段和注释生成的业务数据字典，将从应用数据库中提取的字段及注释与从业务数据库中提取出的业务数据字典中的字段及注释进行匹配，并确定映射规则，基于映射规则从业务数据库中提取应用数据库所需的数据，并以XML文件形式导出并将XML文件上传到服务器，由服务器生成索引文件，建立索引文件服务器和应用数据库的通信，使得应用数据库能够访问所需的数据。

Description

数据收集方法和数据收集系统

技术领域

本发明涉及数据收集方法和数据收集系统，特别是涉及基于业务系统数据的数据收集方法和数据收集系统，尤其是应用于医疗等大数据领域的数据收集方法和数据收集系统。

背景技术

近年来随着互联网、云计算、移动和物联网等的迅猛发展，无所不在的移动设备、RFID、无线传感器每分每秒都在产生数据，数以亿计用户的互联网服务时时刻刻在产生巨量的交互，要处理的数据量巨大，数据一直都在以每年50％的速度增长，而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求，传统的常规技术手段根本无法应付，因此，大数据技术(Big Data)成为近年来的一个技术热点，引起了广泛的重视。

大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”大数据领域中，往往数据体量巨大；数据类型繁多，相对于以往便于存储的以文本为主的结构化数据，非结构化数据越来越多，包括网络日志、音频、视频、图片、地理位置信息等，这些多类型的数据对数据的处理能力提出了更高要求。

为了能够访问大数据，例如专利文献1中公开了一种数据访问层 XML格式数据与关系数据间的映射转换方法。该映射转换方法中包括数据模型之间的关联关系：数据模型之间的关联关系是由数据模型的一个字段关联另一个数据模型中的一个字段而构成的，在字段属性中有一个字段对象类型定义，当选择为关联关系时，可以定义与另一个模型的关联，在关联中指定关联模型中与之关联的字段，关联的附加条件，并指定在模型中查询关联的相关关联模型的字段，比如一个客户数据模型，其中有一个地区字段，关联地区数据模型，在关联的时候指定关联带出地区数据模型的地区编码、名称的信息；设计时定义的数据对象和数据模型，用自定义的一套XML标记来描述，其保存格式本身为XML文档格式，作为元数据或描述数据的数据资源来管理；在运行时阶段，由数据访问引擎，根据设计时定义的元数据信息，结合输入的数据信息，动态的构造数据库存取访问的SQL语句，访问数据库，自动完成增删改查的数据访问层的功能，为了提高效率，对动态构造过程的结果进行适量缓存；为兼容数据库差异，在数据访问引擎构造SQL以及访问数据库时，根据元数据的相关信息，根据当前访问的数据库类型和版本，针对数据库类型和版本之间方言的差异，使用策略模式，动态的调整SQL语句以适应不同的数据库类型和版本。

专利文献1：CN 200710015726

发明内容

本发明要解决的技术课题

但是，专利文献1这样的映射转换方法，一般只能处理关系数据库的数据，而很难处理非关系型数据库。实际应用中，各种类型不同的数据库都可能存在。为了有效利用大数据，需要对多个业务系统中的数据进行集成整合。

但是，传统大数据集成方法存在如下问题：

(1)收集多个业务系统中数据结构不同的数据，统一数据标准非常困难；

(2)各个系统的数据库版本和逻辑关系不同，即使统一起来也会遇到兼容性问题；

(3)随着业务的发展，业务数据发生改变，此时只要数据库结构不一样，就需要重新设计；

(4)在数据达到一定数量级后，基于数据库检索的速度会非常慢。

鉴于现有技术中存在的问题，本发明的目的在于提供一种基于业务系统数据的数据收集方法和数据收集系统，其不需要对已经建成的数据统合系统的数据格式和已经保存的数据进行改变，各业务系统数据分别存储，最后将相关数据统合成一个逻辑上的完整数据，然后交给各个应用系统。

用于解决技术课题的手段

为了解决上述技术课题，本发明的数据收集方法，对多个业务数据库中的数据进行收集整合，并将整合后的数据与多个应用数据库建立关联，所述数据收集方法的特征在于，包括：

应用数据库分析步骤，从上述应用数据库中导出数据库表结构并提取各个字段和注释；

应用数据库-业务数据字典映射规则生成步骤，基于事先存储的根据多个业务数据库中提取的字段和注释生成的业务数据字典，对上述应用数据库分析步骤中提取的上述应用数据库的字段和注释进行处理，生成应用数据库-业务数据字典映射规则；

业务数据库分析步骤，从上述业务数据库中导出数据库表结构并提取各个字段和注释；

业务数据库-业务数据字典映射规则生成步骤，基于上述业务数据字典，对上述业务数据库分析步骤中提取的上述业务数据库的字段和注释进行处理，生成业务数据库-业务数据字典映射规则；

关联步骤，根据上述业务数据字典将上述应用数据库-业务数据字典映射规则和上述业务数据库-业务数据字典映射规则对应起来，从而将上述应用数据库与上述业务数据库建立关联；

数据提取步骤，基于上述应用数据库与上述业务数据库的关联关系从上述业务数据库中提取上述应用数据库所需的数据，并以半结构化文本文件形式导出到内容管理服务器；和

数据索引步骤，根据被导出到上述内容管理服务器中的半结构化文本文件生成索引文件，并建立上述内容管理服务器与上述应用数据库的通信，使得上述应用数据库能够访问所需的数据。

在本发明的数据收集方法中，上述应用数据库-业务数据字典映射规则生成步骤包括：

对被提取出的上述应用数据库中各个字段的注释和上述业务数据字典中各个字段的注释进行分词的步骤；

基于已有的中英文近义词字典对分词后的注释进行语义相似匹配计算，得到上述应用数据库中的字段的注释与上述业务数据字典中的字段的注释的匹配结果的步骤；

读取上述应用数据库的表结构，建立上述应用数据库的字段与注释的第一对应关系的步骤；

读取上述业务数据字典，建立上述业务数据字典的字段与注释的第二对应关系的步骤；和

根据上述匹配结果将上述第一对应关系和上述第二对应关系关联起来，得到上述应用数据库-业务数据字典映射规则的步骤。

在本发明的数据收集方法中，上述业务数据库-业务数据字典映射规则生成步骤包括：

对被提取出的上述业务数据库中各个字段的注释和上述业务数据字典中各个字段的注释进行分词的步骤；

基于已有的中英文近义词字典对分词后的注释进行语义相似匹配计算，得到上述业务数据库中的字段的注释与上述业务数据字典中的字段的注释的匹配结果的步骤；

读取上述业务数据库的表结构，建立上述业务数据库的字段与注释的第三对应关系的步骤；

读取上述业务数据字典，建立上述业务数据字典的字段与注释的第四对应关系的步骤；和

根据上述匹配结果将上述第三对应关系和上述第四对应关系关联起来，得到上述业务数据库-业务数据字典映射规则的步骤。

在本发明的数据收集方法中，事先存储的上述业务数据字典以如下方式生成，包括：

从多个上述业务数据库中导出数据库表结构并提取各个字段和注释的步骤；

对被提取出来的注释进行分词的步骤；和

基于已有的中英文近义词字典对分词后的注释进行语义相似匹配计算，如果不存在一致的匹配结果，则保留所有的匹配结果，如果存在一致的匹配结果，则只保留一致的匹配结果中的一个，从而得到上述业务数据字典的步骤。

从多个上述业务数据库的设计文档中得到数据库表结构并提取各个字段和注释的步骤；

对被提取出来的注释进行分词的步骤；和

在本发明的数据收集方法中，上述半结构化文本文件为XML格式。

此外，本发明的数据收集系统，其对多个业务数据库中的数据进行收集整合，并将整合后的数据与多个应用数据库建立关联，所述数据收集系统的特征在于，包括：

数据库分析单元，其从上述应用数据库或上述业务数据库中导出数据库表结构并提取各个字段和注释；

映射规则生成单元，其基于事先存储于存储单元中的根据多个业务数据库中提取的字段和注释生成的业务数据字典，对由上述数据库分析单元提取的上述应用数据库或上述业务数据库的字段和注释进行处理，生成应用数据库-业务数据字典映射规则或业务数据库-业务数据字典映射规则；

关联单元，其根据上述业务数据字典将上述应用数据库-业务数据字典映射规则和上述业务数据库-业务数据字典映射规则对应起来，从而将上述应用数据库与上述业务数据库建立关联；

数据提取单元，其基于上述应用数据库与上述业务数据库的关联关系从上述业务数据库中提取上述应用数据库所需的数据，并以半结构化文本文件形式导出到内容管理服务器；和

数据索引单元，其根据被导出到上述内容管理服务器的半结构化文本文件生成索引文件，并建立上述内容管理服务器与上述应用数据库的通信，使得上述应用数据库能够访问所需的数据。

在本发明的数据收集系统中，上述映射规则生成单元包括：

分词单元，其对被提取出的上述应用数据库或上述业务数据库中各个字段的注释和上述业务数据字典中各个字段的注释进行分词；

相似匹配计算单元，其基于已有的中英文近义词字典对分词后的注释进行语义相似匹配计算，得到上述应用数据库或上述业务数据库中的字段的注释与上述业务数据字典中的字段的注释的匹配结果；

应用数据库对应关系构建单元，其读取上述应用数据库的表结构，建立上述应用数据库的字段与注释的第一对应关系，读取上述业务数据字典，建立上述业务数据字典的字段与注释的第二对应关系；

业务数据库对应关系构建单元，其读取上述业务数据库的表结构，建立上述业务数据库的字段与注释的第三对应关系，读取上述业务数据字典，建立上述业务数据字典的字段与注释的第四对应关系；和

映射规则构建单元，其根据上述匹配结果将上述第一对应关系和上述第二对应关系关联起来，得到上述应用数据库-业务数据字典映射规则，或根据上述匹配结果将上述第三对应关系和上述第四对应关系关联起来，得到上述业务数据库-业务数据字典映射规则。

在本发明的数据收集系统中，还包括业务数据字典生成单元，其根据多个业务数据库中提取的字段和注释生成的业务数据字典，并存储于上述存储单元中，

上述业务数据字典生成单元包括：

业务数据库分析单元，其从多个上述业务数据库中导出数据库表结构并提取各个字段和注释，或者从多个上述业务数据库的设计文档中得到数据库表结构并提取各个字段和注释；

分词单元，其对被提取出来的注释进行分词的单元；和

相似匹配计算单元，其基于已有的中英文近义词字典对分词后的注释进行语义相似匹配计算，如果不存在一致的匹配结果，则保留所有的匹配结果，如果存在一致的匹配结果，则只保留一致的匹配结果中的一个，从而得到上述业务数据字典。

在本发明的数据收集系统中，上述半结构化文本文件为XML格式。

发明效果

根据本发明，能够提供一种基于业务系统数据的数据收集方法和数据收集系统，其不需要对已经建成的数据统合系统的数据格式和已经保存的数据进行改变，各业务系统数据分别存储，最后将相关数据统合成一个逻辑上的完整数据，然后交给各个应用系统。

本发明相对于现有技术具有如下优点：

(1)只需要定义一次元数据字段的标准，所以实现起来更加容易；

(2)各种版本的数据库都可以通过SQL语句导出XML，无需考虑业务逻辑，具有更好的兼容性；

(3)当业务发展、业务数据发生改变时，只要完成元数据字段的标准即可统合到系统中，所以具有更强的扩展性；

(4)以元数据为主建立索引，搜索性能大大提高，所以数据利用速度变快。

附图说明

图1A是本发明的实施方式1的数据收集系统的框图，图1B是映射规则生成单元120所包含的模块的框图。

图2是本发明的实施方式1的数据收集方法的流程图。

图3是用于说明图2中的步骤S12(应用数据库-业务数据字典映射规则生成步骤)的详细情况的流程图。

图4是用于说明图2中的步骤S22(业务数据库-业务数据字典映射规则生成步骤)的详细情况的流程图。

图5是本发明的实施方式2的用于生成业务数据字典的模块的框图。

图6是用于说明业务数据字典的生成方法的流程图。

图7是本发明的实施例1的医疗系统的数据收集方法的流程图。

图8是本发明的实施例2的业务数据字典的数据定义的示例图。

图9是本发明的实施例2的业务数据字典的生成流程中的演化的示例图。

具体实施方式

下面参照附图对本发明的实施方式和实施例进行具体说明，图中相同的标号表示相同的元件或功能模块。本实施方式中以医疗系统为例进行说明，但本发明不受下述具体的实施方式和实施例限制。

<实施方式1>

如图1A所示，本发明的数据收集系统包括：多个业务数据库200 (图中只表示了1个)、一个或多个应用数据库100(图中只表示了1 个)、存储单元400、数据库分析单元110、映射规则生成单元120、关联单元130、数据提取单元140、和数据索引单元150。

业务数据库200是指各种业务系统中使用的数据库，例如在医疗系统中，各个医院、医疗机构、政府相关部分等中使用的业务系统往往千差万别，其中使用的数据库也可能为Oracle、MySQL、SQL Server 等等而不同，数据库结构也很不同。

应用数据库100是用户搜索、查询等实际使用中访问的应用层的数据库，本发明的目的就是对多个业务数据库200中的数据进行收集整合，以便让应用数据库能够容易地访问并获取数据。

存储单元400中存储各种必要的数据，例如根据多个业务数据库中提取的字段和注释生成的业务数据字典。关于业务数据字典的生成方法在后面叙述。

数据库分析单元110能够从应用数据库100或业务数据库200中导出数据库表结构并提取各个字段和注释。

映射规则生成单元120基于事先存储于存储单元400中的业务数据字典，对由数据库分析单元110提取的应用数据库100或业务数据库200的字段和注释进行处理，生成应用数据库-业务数据字典映射规则或业务数据库-业务数据字典映射规则。

关联单元130根据业务数据字典将应用数据库-业务数据字典映射规则和业务数据库-业务数据字典映射规则对应起来，从而将应用数据库100与业务数据库200建立关联。

数据提取单元140基于应用数据库100与业务数据库200的关联关系从业务数据库200中提取应用数据库100所需的数据，并以XML 形式导出到内容管理服务器300。

数据索引单元150根据被导出到内容管理服务器300中的XML文件生成索引文件，并建立内容管理服务器300与应用数据库100的通信，使得应用数据库100能够访问所需的数据。

如图1B所示，映射规则生成单元120包括：分词单元121、相似匹配计算单元122、应用数据库对应关系构建单元123、业务数据库对应关系构建单元124和映射规则构建单元125。

分词单元121对被提取出的应用数据库100或业务数据库200中各个字段的注释和业务数据字典中各个字段的注释进行分词。

相似匹配计算单元122基于已有的中英文近义词字典对分词后的注释进行语义相似匹配计算，得到应用数据库100或业务数据库200 中的字段的注释与业务数据字典中的字段的注释的匹配结果。

应用数据库对应关系构建单元123读取应用数据库100的表结构，建立应用数据库100的字段与注释的第一对应关系，读取业务数据字典，建立业务数据字典的字段与注释的第二对应关系。

业务数据库对应关系构建单元124读取业务数据库200的表结构，建立业务数据库200的字段与注释的第三对应关系，读取业务数据字典，建立业务数据字典的字段与注释的第四对应关系。

映射规则构建单元125根据匹配结果将第一对应关系和第二对应关系关联起来，得到应用数据库-业务数据字典映射规则，或根据匹配结果将第三对应关系和第四对应关系关联起来，得到业务数据库-业务数据字典映射规则。

下面参照图2～图4对本发明的实施方式1的数据收集方法进行详细说明。图2是本发明的实施方式1的数据收集方法的流程图。图3 是用于说明图2中的步骤S12(应用数据库-业务数据字典映射规则生成步骤)的详细情况的流程图。图4是用于说明图2中的步骤S22(业务数据库-业务数据字典映射规则生成步骤)的详细情况的流程图。

[本实施方式1的主流程]

如图2所示，在步骤S10中，由数据库分析单元110自动从应用数据库100中导出数据库表结构。

在步骤S11中，由数据库分析单元110自动提取各个字段和注释。对数据库的字段和注释的提取可以用各种现有的方法，例如ETL工具。

然后，在步骤S12中，由映射规则生成单元120基于事先存储于存储单元400中的业务数据字典，对步骤S10中提取的应用数据库的字段和注释进行处理，生成应用数据库-业务数据字典映射规则(映射规则1)。

另外，在步骤S20中，由数据库分析单元110自动从业务数据库 200中导出数据库表结构。

在步骤S21中，由数据库分析单元110自动提取各个字段和注释。

然后，在步骤S22中，由映射规则生成单元120基于业务数据字典，对步骤S20中提取的业务数据库200的字段和注释进行处理，生成业务数据库-业务数据字典映射规则(映射规则2)。

接着，在步骤S30中，由关联单元130根据业务数据字典将应用数据库-业务数据字典映射规则和业务数据库-业务数据字典映射规则对应起来，从而将应用数据库100与业务数据库200建立关联。

然后，在步骤S31中，由数据提取单元140基于应用数据库100 与业务数据库200的关联关系，自动生成SQL语句。

在步骤S32中，由数据提取单元140用自动生成的SQL语句从业务数据库200中提取应用数据库100所需的数据，导出XML元数据文件。

在步骤S33中，将XML元数据文件上传到内容管理服务器300。

接着，在步骤S34中，由数据索引单元150根据被导出到内容管理服务器300中的XML元数据文件生成索引文件。

在步骤S35中，建立内容管理服务器300与应用数据库100的通信，使得应用数据库能够访问所需的数据。

[应用数据库-业务数据字典映射规则生成流程]

下面根据图3对步骤S12(应用数据库-业务数据字典映射规则生成步骤)进行详细说明。

如图3所示，在步骤S121中，由分词单元121对被提取出的应用数据库100中各个字段的注释和业务数据字典中各个字段的注释进行分词。

在步骤S122中，由相似匹配计算单元122基于已有的中英文近义词字典对分词后的注释进行语义相似匹配计算，得到应用数据库100 中的字段的注释与业务数据字典中的字段的注释的匹配结果。其中，中英文近义词字典能够使用公知的用于语义相似匹配计算的字典，语义相似匹配计算能够使用公知的算法来进行。

其中，关于导出的数据库表结构和提取的字段和注释等格式的定义例如参照后述的实施例2，相似匹配计算的结果示例也可以参照后述的实施例2。

在步骤S123中，由应用数据库对应关系构建单元123读取应用数据库100的表结构，建立应用数据库100的字段与注释的对应关系1。

在步骤S124中，由应用数据库对应关系构建单元123读取业务数据字典，建立业务数据字典的字段与注释的对应关系2。

在步骤S125中，由映射规则构建单元125根据匹配结果将对应关系1和对应关系2关联起来，得到应用数据库-业务数据字典映射规则 (映射规则1)。

[业务数据库-业务数据字典映射规则生成流程]

下面根据图4对步骤S22(业务数据库-业务数据字典映射规则生成步骤)进行详细说明。

如图4所示，在步骤S221中，由分词单元121对被提取出的业务数据库200中各个字段的注释和业务数据字典中各个字段的注释进行分词。

在步骤S222中，由相似匹配计算单元122基于已有的中英文近义词字典对分词后的注释进行语义相似匹配计算，得到业务数据库100 中的字段的注释与业务数据字典中的字段的注释的匹配结果。

在步骤S223中，由业务数据库对应关系构建单元124读取业务数据库200的表结构，建立业务数据库200的字段与注释的对应关系3。

在步骤S224中，由业务数据库对应关系构建单元124读取业务数据字典，建立业务数据字典的字段与注释的对应关系4。

在步骤S225中，由映射规则构建单元125根据匹配结果将对应关系3和对应关系4关联起来，得到业务数据库-业务数据字典映射规则 (映射规则2)。

<实施例1>

下面参照图7对本发明的实施例1进行说明。图7是本发明的实施例1的医疗系统的数据收集方法的流程图。

如图7所示，首先，在步骤S701中，从App DB中自动导出DB 表结构。在步骤S702中，提取字段及其注释内容。

然后，在步骤S703中，与业务数据字典进行匹配，生成映射规则 1(应用数据库-业务数据字典映射规则)。

另外，在步骤S704中连接业务DB(临床数据库或其他业务数据库)，在步骤S705中，从业务DB自动导出DB表结构。在步骤S706 中，提取字段及其注释内容。

接着，在步骤S707中，与业务数据字典进行匹配，生成映射规则 2(业务数据库-业务数据字典映射规则)。

然后，在步骤S708中，构建映射规则1和映射规则2的关联表。

在步骤S709中，根据该关联表自动生成SQL语句。接着在步骤 S710中，连接业务DB(临床数据库或其他业务数据库)，在步骤S711 中，提取所需的数据，导出XML文件，并在步骤S712中上传到内容管理服务器，并生成索引(步骤S713)。

最后，提供给相应的App(步骤S714)。

<实施方式2>

在实施方式2中，对业务数据字典的生成方法进行详细说明。

如图5所示，本发明的数据收集系统还包括业务数据字典生成单元500，其根据多个业务数据库200中提取的字段和注释生成的业务数据字典，并存储于存储单元400中。

业务数据字典生成单元500包括：业务数据库分析单元510、分词单元520、和相似匹配计算单元530。

业务数据库分析单元510从多个业务数据库200中导出数据库表结构并提取各个字段和注释，或者从多个业务数据库200的设计文档中得到数据库表结构并提取各个字段和注释。

分词单元520对被提取出来的注释进行分词的单元。

相似匹配计算单元530基于已有的中英文近义词字典对分词后的注释进行语义相似匹配计算，如果不存在一致的匹配结果，则保留所有的匹配结果，如果存在一致的匹配结果，则只保留一致的匹配结果中的一个，从而得到业务数据字典。

[业务数据字典的生成方法的流程]

图6是用于说明业务数据字典的生成方法的流程图。

如图6所示，在步骤S620中，由业务数据库分析单元510从多个业务数据库200中自动导出数据库表结构。

在步骤S621中，由业务数据库分析单元510自动提取各个字段和注释。

或者，也可以替代步骤S620和步骤S621，改为在步骤S622中，从多个业务数据库200的设计文档中得到数据库表结构并提取各个字段和注释。当然，也可以并用这两种方式。

然后，在步骤S623中，对被提取出来的注释进行分词。

在步骤S624中，基于已有的中英文近义词字典对分词后的注释进行语义相似匹配计算。如果不存在一致的匹配结果，则在步骤S627中保留所有的匹配结果，如果存在一致的匹配结果，则在步骤S626中只保留一致的匹配结果中的一个，从而在步骤S628中，得到业务数据字典的步骤。

<实施例2>

下面参照图8、图9对业务数据字典的格式定义和生成流程中的演化进行说明。图8是本发明的实施例2的业务数据字典的数据定义的示例图。图9是本发明的实施例2的业务数据字典的生成流程中的演化的示例图。

如图8所示，从PACS、HIS(EMR)、LIS等业务数据库或其数据库设计文档通过XML、XLS、SQL等格式导出数据库表结构(例如用图8下方的表格的形式表示)，并提取字段和注释。

其中，例如在EMR系统中表名为EMR_PATIENT中存在name、 sex等多个字段及其注释；而在LIS系统中相应的表名为 Lis_inspection_sample。例如同样是指病人的姓名，在EMR系统中字段名为name，注释为患者名；在LIS系统中字段名为patient_name，注释为病人姓名。

关于数据定义，在映射规则生成流程中也是类似的。

然后，如图9所示，通过业务数据字典的生成流程，例如注释“患者名”被分词为“患者”和“名”，注释“病人姓名”被分词为“病人”和“姓名”。通过近义词匹配，能够获知“患者”与“病人”近似，“名”与“姓名”近似，从而将“患者名”与“病人姓名”匹配起来，最终保留其中任一个(例如“患者名”)。

这在映射规则生成流程中经过一系列的分词和匹配运算的结果也是类似，故而不赘述。

以上所述仅是本发明的优选的实施方式，应当指出，对于本领域的技术人员来说，在不脱离本发明原理和基础的前提下，还可以做出若干改进、润饰、更换步骤组合等，这些改进、润饰、更换步骤组合等也应该是本发明的保护范围。

本领域技术人员应明白，本发明能够提供为方法、系统、或计算机程序产品。本发明能够完全由硬件实现、完全由软件实现、或结合软件和硬件来实现。而且，本发明能够采用在一个或多个包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是根据本发明具体实施方式的方法、系统、或计算机程序产品的流程图和/或方框图来描述的。应理解能够由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。能够将这些计算机程序指令提供给通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以实现一个通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也能够存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也能够装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

工业上的可利用性

本发明能够提供一种基于业务系统数据的数据收集方法和数据收集系统，其不需要对已经建成的数据统合系统的数据格式和已经保存的数据进行改变，具有自动化强、实现容易、兼容性好、扩展性强、搜索速度快等诸多优点，能够广泛用于医疗等大数据集成领域。

Claims

1.一种数据收集方法，其对多个业务数据库中的数据进行收集整合，并将整合后的数据与多个应用数据库建立关联，所述数据收集方法的特征在于，包括：

应用数据库分析步骤，从所述应用数据库中导出数据库表结构并提取各个字段和注释；

应用数据库-业务数据字典映射规则生成步骤，基于事先存储的根据多个业务数据库中提取的字段和注释生成的业务数据字典，对所述应用数据库分析步骤中提取的所述应用数据库的字段和注释进行处理，生成应用数据库-业务数据字典映射规则；

业务数据库分析步骤，从所述业务数据库中导出数据库表结构并提取各个字段和注释；

业务数据库-业务数据字典映射规则生成步骤，基于所述业务数据字典，对所述业务数据库分析步骤中提取的所述业务数据库的字段和注释进行处理，生成业务数据库-业务数据字典映射规则；

关联步骤，根据所述业务数据字典将所述应用数据库-业务数据字典映射规则和所述业务数据库-业务数据字典映射规则对应起来，从而将所述应用数据库与所述业务数据库建立关联；

数据提取步骤，基于所述应用数据库与所述业务数据库的关联关系从所述业务数据库中提取所述应用数据库所需的数据，并以半结构化文本文件形式导出到内容管理服务器；和

数据索引步骤，根据被导出到所述内容管理服务器中的半结构化文本文件生成索引文件，并建立所述内容管理服务器与所述应用数据库的通信，使得所述应用数据库能够访问所需的数据。

2.如权利要求1所述的数据收集方法，其特征在于：

所述应用数据库-业务数据字典映射规则生成步骤包括：

对被提取出的所述应用数据库中各个字段的注释和所述业务数据字典中各个字段的注释进行分词的步骤；

基于已有的中英文近义词字典对分词后的注释进行语义相似匹配计算，得到所述应用数据库中的字段的注释与所述业务数据字典中的字段的注释的匹配结果的步骤；

读取所述应用数据库的表结构，建立所述应用数据库的字段与所述应用数据库的注释的第一对应关系的步骤；

读取所述业务数据字典，建立所述业务数据字典的字段与所述业务数据字典的注释的第二对应关系的步骤；和

根据所述匹配结果将所述第一对应关系和所述第二对应关系关联起来，得到所述应用数据库-业务数据字典映射规则的步骤。

3.如权利要求1所述的数据收集方法，其特征在于：

所述业务数据库-业务数据字典映射规则生成步骤包括：

对被提取出的所述业务数据库中各个字段的注释和所述业务数据字典中各个字段的注释进行分词的步骤；

基于已有的中英文近义词字典对分词后的注释进行语义相似匹配计算，得到所述业务数据库中的字段的注释与所述业务数据字典中的字段的注释的匹配结果的步骤；

读取所述业务数据库的表结构，建立所述业务数据库的字段与所述业务数据库的注释的第三对应关系的步骤；

读取所述业务数据字典，建立所述业务数据字典的字段与所述业务数据字典的注释的第四对应关系的步骤；和

根据所述匹配结果将所述第三对应关系和所述第四对应关系关联起来，得到所述业务数据库-业务数据字典映射规则的步骤。

4.如权利要求1～3中任一项所述的数据收集方法，其特征在于：

事先存储的所述业务数据字典以如下方式生成，包括：

从多个所述业务数据库中导出数据库表结构并提取各个字段和注释的步骤；

对被提取出来的注释进行分词的步骤；和

基于已有的中英文近义词字典对分词后的注释进行语义相似匹配计算，如果不存在一致的匹配结果，则保留所有的匹配结果，如果存在一致的匹配结果，则只保留一致的匹配结果中的一个，从而得到所述业务数据字典的步骤。

5.如权利要求1～3中任一项所述的数据收集方法，其特征在于：

事先存储的所述业务数据字典以如下方式生成，包括：

从多个所述业务数据库的设计文档中得到数据库表结构并提取各个字段和注释的步骤；

对被提取出来的注释进行分词的步骤；和

6.如权利要求1～3中任一项所述的数据收集方法，其特征在于：

所述半结构化文本文件为XML格式。

7.一种数据收集系统，其对多个业务数据库中的数据进行收集整合，并将整合后的数据与多个应用数据库建立关联，所述数据收集系统的特征在于，包括：

数据库分析单元，其从所述应用数据库或所述业务数据库中导出数据库表结构并提取各个字段和注释；

映射规则生成单元，其基于事先存储于存储单元中的根据多个业务数据库中提取的字段和注释生成的业务数据字典，对由所述数据库分析单元提取的所述应用数据库或所述业务数据库的字段和注释进行处理，生成应用数据库-业务数据字典映射规则或业务数据库-业务数据字典映射规则；

关联单元，其根据所述业务数据字典将所述应用数据库-业务数据字典映射规则和所述业务数据库-业务数据字典映射规则对应起来，从而将所述应用数据库与所述业务数据库建立关联；

数据提取单元，其基于所述应用数据库与所述业务数据库的关联关系从所述业务数据库中提取所述应用数据库所需的数据，并以半结构化文本文件形式导出到内容管理服务器；和

数据索引单元，其根据被导出到所述内容管理服务器的半结构化文本文件生成索引文件，并建立所述内容管理服务器与所述应用数据库的通信，使得所述应用数据库能够访问所需的数据。

8.如权利要求7所述的数据收集系统，其特征在于：

所述映射规则生成单元包括：

分词单元，其对被提取出的所述应用数据库或所述业务数据库中各个字段的注释和所述业务数据字典中各个字段的注释进行分词；

相似匹配计算单元，其基于已有的中英文近义词字典对分词后的注释进行语义相似匹配计算，得到所述应用数据库或所述业务数据库中的字段的注释与所述业务数据字典中的字段的注释的匹配结果；

应用数据库对应关系构建单元，其读取所述应用数据库的表结构，建立所述应用数据库的字段与注释的第一对应关系，读取所述业务数据字典，建立所述业务数据字典的字段与注释的第二对应关系；

业务数据库对应关系构建单元，其读取所述业务数据库的表结构，建立所述业务数据库的字段与注释的第三对应关系，读取所述业务数据字典，建立所述业务数据字典的字段与注释的第四对应关系；和

映射规则构建单元，其根据所述匹配结果将所述第一对应关系和所述第二对应关系关联起来，得到所述应用数据库-业务数据字典映射规则，或根据所述匹配结果将所述第三对应关系和所述第四对应关系关联起来，得到所述业务数据库-业务数据字典映射规则。

9.如权利要求7或8所述的数据收集系统，其特征在于：

还包括业务数据字典生成单元，其根据多个业务数据库中提取的字段和注释生成的业务数据字典，并存储于所述存储单元中，

所述业务数据字典生成单元包括：

业务数据库分析单元，其从多个所述业务数据库中导出数据库表结构并提取各个字段和注释，或者从多个所述业务数据库的设计文档中得到数据库表结构并提取各个字段和注释；

分词单元，其对被提取出来的注释进行分词的单元；和

相似匹配计算单元，其基于已有的中英文近义词字典对分词后的注释进行语义相似匹配计算，如果不存在一致的匹配结果，则保留所有的匹配结果，如果存在一致的匹配结果，则只保留一致的匹配结果中的一个，从而得到所述业务数据字典。

10.如权利要求7或8所述的数据收集系统，其特征在于：

所述半结构化文本文件为XML格式。