CN104123346B

CN104123346B - 一种结构化数据搜索方法

Info

Publication number: CN104123346B
Application number: CN201410314941.2A
Authority: CN
Inventors: 苏凯; 吴广财; 桂媛; 陈非
Original assignee: Information Center of Guangdong Power Grid Co Ltd
Current assignee: Information Center of Guangdong Power Grid Co Ltd
Priority date: 2014-07-02
Filing date: 2014-07-02
Publication date: 2017-10-20
Anticipated expiration: 2034-07-02
Also published as: CN104123346A

Abstract

本发明的目的在于提供一种结构化数据搜索方法，包括以下步骤：对数据仓库的数据进行技术标准化，得到进行技术标准化后扩展的所有事实表和维度表、建立搜索模型的配置参数表、根据配置参数表生成搜索模型表，以及，根据搜索模型表，实现结构化数据搜索。本方法能够实现通过自然语言查询，来搜索海量的结构化数据信息。

Description

一种结构化数据搜索方法

技术领域

本发明涉及数据搜索技术领域，具体的说，是涉及一种结构化数据搜索模型的构造方法。

背景技术

在大数据时代企业日常生产运营过程中积累了海量的业务数据信息，但是这些有价值的信息常常分散在企业的各个角落，如何更好的体现数据价值，让用户从海量数据中快速搜索出自己想要的业务数据内容，而不是仅仅提供固定的定制化分析报表，是企业在商务智能分析中面临的一个重要挑战。

传统的商务智能产品，都是基于数据仓库的基础之上，通过语义的过程，将技术语言转化为易于理解的业务语言，再通过业务需求定制开发不同的报表和仪表盘，实现按需定制开发的功能。由于业务需求的变化越来越快，无法实现快速定制，快速响应用户需求，需要对数据结构模型进行优化，以提供一种类似于搜索引擎的结构化数据搜索服务方法，为用户提供快速的数据分析服务响应。所谓结构化数据是指即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。这种方式需要能够超越传统BI的数据交付模式，提供了更好的用户体验。

发明内容

本发明的目的在于提供一种结构化数据搜索方法，本方法能够实现通过自然语言查询，来搜索海量的结构化数据信息。

本发明通过如下技术方案实现上述发明目的：

一种结构化数据搜索方法，包括以下步骤：

步骤A：对数据仓库的数据进行技术标准化。

对已有数据仓库中的数据进行标准化,所述数据标准化过程就是通过SQL语言进行数据扩展,即保持原有数据仓库的表结构和数据不变,利用SQL语言生成新的表结构和数据，主要包含三个步骤：

a1.将已有数据仓库标准化为事实表和维度表的模式,具体过程为:已有数据仓库有源数据表D包含A1、A2、…An，B1、B2、…Bm,其中A1-An为枚举型的文本值或数值，B1-Bm为数字型的度量值，则将源数据表D拆分为一个事实表Fmn和n个维度表(DA1-DAn)组成，事实表Fmn的构成是A1ID、A2ID、…AnID，B1、B2、…Bm，其中A1ID、A2ID、…AnID分别和n个维度表进行关联,每个维度表Ai的构成是AiID、AiName。所谓AiID是指维度Ai的ID，即唯一的数字标示；AiName是指维度表Ai的Name，即名称，如：有性别维度，存在两个维度值，则有性别维度ID{0，1}，对应的性别名称{‘男’，‘女’}。所谓性别维度表对应Ai，性别名称对应AiName，{0,1}对应的是ID。

a2.将已有数据仓库标准化为星型模型，如：在雪花形模型中，事实表Fmn中的客户ID关联客户维度表Ai中的客户主键AiID，而客户维度表中又存在客户分类ID关联到客户分类维度表D1中的客户分类ID，则将客户维度表中的客户分类ID放到事实表Fmn中和客户分类维度表D1的客户分类ID直接进行关联。所述客户分类维度表是存放客户分类信息的维度表，也是对数据仓库中维度表的细分。

a3.在已有数据仓库,对于存在笛卡儿乘积的维度表都转化为单一维度的维度表，如：笛卡儿乘积的维度表P是由A、B、C3个维度组成，则将维度表P拆分为3个维度表分别对应维度表A、维度表B、维度表C，同时将事实表中和维度表P关联的维度ID拆分为三个维度ID，分别关联A、B、C三个维度表中的维度ID。

经过步骤A，得到进行技术标准化后扩展的所有事实表和维度表，即技术标准化后的数据模型。

步骤B：建立搜索模型的配置参数表。

基于步骤A得到的技术标准化后的数据模型进行参数表的配置，得到配置参数表。配置参数表由度量配置参数表、维度配置参数表和维度值配置参数表3张表构成。

其中度量配置参数表包括的数据项为度量名称、所属表名、度量对应字段名和数据聚合特征。数据聚合特征是指该度量值的结果聚合方式，具体包括6类特征：求和、最大值、最小值、平均值、计数、无。

维度配置参数表的数据项主要包括维度名称、所属表名、维度字段名、维度表主键和优先级别，其中优先级别是一个排列序号，0最高，数字越大优先级越小。

维度配置参数表包括维度值、所属表名、维度字段名、维度表主键。

步骤C：搜索模型的生成。

基于步骤B中的3张配置参数表，通过SQL语句插入的方式，生成搜索模型表，搜索模型表的字段包括：索引名、类型、表名、字段名、维度表ID、聚合特征。3张配置参数表中的每一行数据对应生成搜索模型表中的一条数据，即搜索模型表的数据是3张配置参数表的数据之和，其中类型区分来自与不同的配置表。索引映射关系表是用来进行索引名称的模糊匹配，便于提高搜索效率，该索引映射关系表的初始值可以根据常规逻辑，手工进行维护，后续根据用户搜索习惯，逐步丰富完善，形成针对具体业务的匹配词库。

具体步骤是：在建立好以上3张配置参数表后，根据配置参数表生成搜索模型，模型包含数据仓库内所有度量、维度名称、维度值的索引信息，具体的数据项主要包括：索引名、类型、表名、字段名、维度表ID、聚合特征。其中类型包括度量、维度、维度值。搜索模型由步骤B中的3张配置参数表生成，其中索引名分别指3张表中的度量、维度名称(如‘性别’则是维度名称)、维度值，类型是区分3张表的来源以及搜索时的生成规则，其他字段和3张表中的字段可以通过名称对应。同时为了提高用户搜索的效率，建立一张索引映射关系表，该表结构为：标准索引名、模糊匹配名称，以便用户在输入不完整或者不规范的名称时，系统可以进行模糊匹配，提高搜索效率。

步骤D：根据搜索模型，实现结构化数据搜索。

首先根据用户的输入信息进行分词处理，将输入参数拆分为多个单独的索引；再根据拆分出的索引，在索引映射关系表中找出对应的索引名；找到索引名称后，在搜索模型表中找到各个索引名的对应属性；根据属性类型生成查询语句，对于度量和维度(如‘性别’)，放到查询语句的SELECT中，而维度值则放到WHERE 的限制语句中。

步骤E：搜索模型的更新和自我学习机制。

在步骤B中建立的3张配置表可以覆盖数据仓库中所有的度量和维度，当数据仓库中的模型发生变更时，如：新增、修改或删除，配置参数表也需要进行对应的变更操作，当3张配置参数表变更完成后，步骤C中的数据搜索模型也需要重新生成。在步骤C中除了生成数据搜索模型外，还建立了一张索引映射关系表，该表具备自我学习机制，根据用户的使用行为进行完善。

本发明对比现有技术，有如下优点：当数据仓库模型发生变化时，需要更新配置参数表，这样搜索模型表和索引映射关系表可能也会受到影响，需要进行同步更新，其更新过程和步骤C中描述的类似。索引映射关系表是在用户进行搜索时，首先在映射关系表中进行查找，如果没有查到结果，则到模型表中根据索引名进行模糊匹配，如有多个匹配结果，则都显示出来，让用户进行选择，用户选择后系统将该匹配关系写到索引映射关系表中，通过不断完善积累，索引映射关系表将越来越完善，通过这种方式根据用户的使用行为自我学习，提高查询效率。

本发明的优点在于克服了传统数据分析以定制化开发复杂业务模型的局限性，提供一种结构化数据搜索模型的方法，有效解决结构化数据分析的复杂性和灵活性问题。

附图说明

图1为本发明的结构化数据搜索方法的结构图；

图2为本发明的结构化数据搜索方法的步骤流程图；

图3为本发明的结构化数据搜索方法机制；

图4为本发明的结构化数据搜索方法实现的模块图。

具体实施方式

如图1所示，本发明的结构化数据搜索方法首先基于数据仓库已有的表结构，生成标准的事实表(Standard Fact Table)和数据表(Standard Dimension Table)，在此基础上根据模型配置参数和业务配置参数，共同生成搜索模型库，基于搜索模型库构建搜索模块，并将搜索结果数据集提交给可视化分析展现层，进行可视化分析展现。该搜索模型是基于数据仓库模型之上所生成新的数据模型，该模型实际上是一个基于数据仓库生成的索引库。

如图2所示,本方法的具体构造过程如下，包括：

步骤A：对数据仓库的数据进行技术标准化。

主要是基于已有的数据项的特点，对数据项的结构进行技术标准化，以满足数据搜索模型的建立。

由于本发明的数据搜索模型是对已有数据仓库中的数据进行搜索,需要对数据仓库的数据进行标准化,但数据标准化的过程不会影响到已有数据仓库的使用，所述数据标准化过程就是通过SQL语言进行数据扩展,即保持原有数据仓库的表结构和数据不变,利用SQL语言生成新的表结构和数据，主要包含三个步骤：

1.模型标准化为事实表和维度表的模式,如:源数据表D，包含A1、A2、…An、B1、B2、…Bm,其中A1-An为枚举型的文本值或数据值，B1-Bm为数字型的度量值，则将源数据表D拆分为一个事实表Fmn和n个维度表(DA1-DAn)组成，事实表Fmn的构成是A1ID、A2ID、…AnID，B1、B2、…Bm；其中A1ID、A2ID、…AnID分别和n个维度表进行关联,每个维度表的构成是AiID、AiName。

2.模型都标准化为星型模型，以保证搜索的效率，如：在雪花形模型中，事实表F中的客户ID关联客户维度表D中的客户ID，而客户维度表中又存在客户分类ID关联到客户分类维度表D1中的客户分类ID，则将客户维度表中的客户分类ID放到事实表F中和客户分类维度表D1的客户分类ID直接进行关联。

3.对于存在笛卡儿乘积的维度表都转化为单一维度的维度表，如：笛卡儿乘积的维度表P是由A、B、C3个维度组成，则将维度表P拆分为3个维度表分别对应维度表A、维度表B、维度表C，同时将事实表中和维度表P表关联的ID拆分为三个ID，分别对应A、B、C三个维度表。

经过以上步骤，可以得到进行技术标准化后扩展的所有事实表和维度表，构成了对数据仓库进行搜索的基础。

步骤B：建立搜索模型的配置参数表。

用户在进行数据搜索时，是基于数据仓库进行3类信息进行搜索，包括度量、维度名称、维度值，其中度量是必须存在的，如用户搜索“广州”或“地市”，搜索结果数据是没有分析意义的，这样会给出一个最频繁使用的搜索度量或用户最近使用的度量一起进行搜索，如：“广州售电量”，结果会显示广州供电局按年的售电量数据，如果需要更详细的数据可以添加时间维度的搜索条件，如“广州售电量2014年2月”。

配置参数表由度量配置参数表、维度配置参数表和维度值配置参数表等3张表构成。具体在进行配置时，首先检查系统是否有元数据管理，如果有，则通过元数据管理平台导出数据仓库的基本配置信息，包括数据表名、字段名、字段类型，将这些基本信息进行整理，整理为配置参数表要求的内容；如果系统没有进行元数据管理，则需要通过数据仓库的数据结构文档进行整理，整理为配置参数表要求的内容，然后导入到3张配置参数表中。

其中度量配置参数表主要包括的数据项为度量名称、所属表名、度量对应字段名和数据聚合特征。数据聚合特征是指该度量值的结果聚合方式，具体包括6类特征：求和、最大值、最小值、平均值、计数、无。

维度配置参数表的数据项主要包括维度名称、所属表名、维度字段名、维度表ID和优先级别，其中优先级别是一个排列序号，0最高，数字越大优先级越小，当用户只搜索一个度量值时，如：“售电量”，给出所有维度的汇总结果是没有意义的，这时根据维度的优先级别给出一个最高优先级别的维度和该度量进行组合，如：“售电量时间”，结果会以时间趋势显示售电量数据。

维度值配置参数表主要包括维度值、所属表名、维度字段名、维度表ID。

步骤C：搜索模型的生成。

具体步骤是：在建立好以上3张配置参数表后，根据配置表参数(生成搜索模型，搜索模型包含数据仓库内所有度量、维度、维度值的索引信息，具体的数据项主要包括：索引名、类型、表名、字段名、维度表ID、聚合特征。其中类型包括度量、维度、维度值；维度表ID在类型为维度和维度值时存在值，否则置为NULL；聚合特征在类型为度量时存在值，否则置为NULL。搜索模型由步骤B中的3张配置参数表生成，其中索引名分别指3张表中的度量名称、维度名称、维度值，类型是区分3张表的来源以及搜索时的生成规则，其他字段和3张表中的字段可以通过名称对应。同时为了提高用户搜索的效率，建立一张索引映射关系表，该表结构为：标准索引名、模糊匹配名称，以便用户在输入不完整或者不规范的名称时，系统可以进行模糊匹配，提高搜索效率。

步骤D：根据搜索模型，实现结构化数据搜索。

首先根据用户的输入信息进行分词处理，将输入参数拆分为多个单独的索引；再根据拆分出的索引，在索引映射关系表中找出对应的索引名；找到索引名称后，在搜索模型表中找到各个索引名的对应属性；根据属性类型生成查询语句，对于度量和维度，放到查询语句的SELECT中，而维度值则放到WHERE的限制语句中。

例如，当用户输入搜索参数时(如：“售电量2014年度客户类型”或“售电量、2014、客户类型”或“售电量，2014，客户类型”)，系统根据空格、逗号、顿号来对搜索参数进行分词处理，将输入参数拆分为多个单独的索引，以上示例输入将拆分为售电量、2014年度、客户类型三个词，然后再对每个词在索引映射关系表中找到标准索引名，如：售电量的标准索引名为“售电量”，2014年度的标准索引名为“2014年”，客户类型的标准索引名为“客户分类”。找到标准索引名称后，再在搜索模型中找到各个索引名的对应属性，如：

通过上表可以用如下搜索语句进行搜索“Select D2.KHFL,F1.SDL FROM F1,D1,D2WHERE F1.D1_ID＝D1.D1_ID AND F1.D2_ID＝D2.D2_ID AND D1.D1_ID＝’2014年’”，结果可以输出2014年每类客户的售电量情况。

步骤E：搜索模型的更新和自我学习机制。

在步骤B中建立的3张配置表可以覆盖数据仓库中所有的度量和纬度信息，当数据仓库中的模型发生变更时，如：新增、修改或删除，配置表也需要进行对应的变更操作，当3张配置表变更完成后，步骤C中的数据搜索模型也需要重新生成。在步骤C中除了生成数据搜索模型外，还建立了一张索引映射关系表，该表具备自我学习机制，根据用户的使用行为进行完善。

当数据仓库模型发生变化时，需要更新配置参数表，这样搜索模型表和索引映射关系表可能也会受到影响，需要进行同步更新，其更新过程和步骤C中描述的类似。索引映射关系表是在用户进行搜索时，首先在映射关系表中进行查找，如果没有查到结果，则到模型表中根据索引名进行模糊匹配，如有多个匹配结果，则都显示出来，让用户进行选择，用户选择后系统将该匹配关系写到索引映射关系表中，通过不断完善积累，索引映射关系表将越来越完善，通过这种方式根据用户的使用行为自我学习，提高查询效率。

图3为本发明的结构化数据搜索方法机制。搜索模型库和数据仓库一起部署到数据库服务器上，搜索模块部署在应用服务器上，Web服务器对外提供外部的搜索服务，用户通过终端设备访问Web应用服务器，实现搜索功能。

图4为本发明的结构化数据搜索方法实现的模块图。具体包括：技术标准化模块、模型参数配置模块、模型构造模块、数据搜索模块、更新和自我学习模块。

本方法在企业数据仓库的基础上，通过建立优化的结构化数据搜索模型，为企业内部员工、管理层和决策层提供更为高效、准确地业务数据分析信息，改变了传统商务智能定制化的分析方式。经过加速的商务智能数据引擎，大力提升分析流程的效率，让企业中各类业务用户每天以熟悉的业务语言，从堆积如山的数据中，简单快速地进行搜索，迅速找到自己关心的数据，并对数据进行探索和分析，从中获得业务上的洞察力，及时应对业务挑战，作出科学决策，从而提升公司整体绩效。

本发明的实施方式不限于此，在本发明上述基本技术思想前提下，按照本领域的普通技术知识和惯用手段对本发明内容所做出其它多种形式的修改、替换或变更，均落在本发明权利保护范围之内。

Claims

1.一种结构化数据搜索方法，其特征在于包括以下步骤：

步骤A：对数据仓库的数据进行技术标准化，得到进行技术标准化后扩展的所有事实表和维度表：

a1.将已有数据仓库标准化为事实表和维度表的模式；

a2.将已有数据仓库标准化为星型模型；

a3.在已有数据仓库,对于存在笛卡儿乘积的维度表都转化为单一维度的维度表；

步骤B：建立搜索模型的配置参数表；

根据步骤A的结果配置参数表，配置参数表由度量配置参数表、维度配置参数表和维度值配置参数表3张表构成；

所述度量配置参数表包括的数据项为度量名称、所属表名、度量对应字段名和数据聚合特征；所述维度配置参数表的数据项主要包括维度名称、所属表名、维度字段名、维度表主键和优先级别，其中优先级别是一个排列序号，0最高，数字越大优先级越小；所述维度值配置参数表包括维度值、所属表名、维度字段名、维度表主键；

步骤C：根据配置参数表生成搜索模型表：通过SQL语句插入的方式，生成搜索模型表，搜索模型表的字段包括：索引名、类型、表名、字段名、维度表ID、数据聚合特征；3张配置参数表中的每一行数据对应生成搜索模型表中的一条数据，即搜索模型表的数据是3张配置参数表的数据之和，其中类型区分来自于不同的配置表；

所述的数据聚合特征是指该度量值的结果聚合方式，具体包括6类特征：求和、最大值、最小值、平均值、计数、无；

步骤D：根据搜索模型表，实现结构化数据搜索，所述搜索过程为：

首先根据用户的输入信息进行分词处理，将输入参数拆分为多个单独的索引；再根据拆分出的索引，在搜索模型表中找到各个索引的对应属性；根据属性类型生成查询语句，对于度量和维度，放到查询语句的SELECT中，而维度值则放到WHERE的限制语句中，并得到查询结果。

2.根据权利要求1所述的方法，其特征在于：所述将已有数据仓库标准化为事实表和维度表的模式的具体过程为:已有数据仓库有源数据表D包含A1、A2、…An，B1、B2、…Bm,其中A1-An为枚举型的文本值或数值，B1-Bm为数字型的度量值，则将源数据表D拆分为一个事实表Fmn和n个维度表(DA1-DAn)组成，事实表Fmn的构成是A1ID、A2ID、…AnID，B1、B2、…Bm，其中A1ID、A2ID、…AnID分别和n个维度表进行关联,每个维度表Ai的构成是AiID、AiName；其中AiID是指维度Ai的ID，即唯一的数字标示；AiName是指维度表Ai的Name，即名称。

3.根据权利要求1所述的方法，其特征在于：还包括搜索模型的更新和自我学习过程：在步骤B中建立的3张配置表可以覆盖数据仓库中所有的度量和维度，当数据仓库中的模型发生变更时，所述变更包括：新增、修改或删除，配置参数表也需要进行对应的变更操作，当3张配置参数表变更完成后，步骤C中的数据搜索模型也需要重新生成。

4.根据权利要求1所述的方法，其特征在于：所述步骤B还包括配置索引映射关系表的过程，所述索引映射关系表用来进行索引名称的模糊匹配，所述索引映射关表表结构为：标准索引名、模糊匹配名称；所述索引映射关系表的初始值根据常规逻辑，手工进行维护，后续根据用户搜索习惯，逐步丰富完善，形成针对具体业务的匹配词库。