CN104978426B

CN104978426B - 一种基于6w语义标识的元数据仓库启发式智能搜索方法

Info

Publication number: CN104978426B
Application number: CN201510397909.XA
Authority: CN
Inventors: 谭远华; 张超林; 夏冬梅
Original assignee: KARAMAY HONGYOU SOFTWARE CO Ltd
Current assignee: HONGYOU SOFTWARE Co.,Ltd.
Priority date: 2015-07-08
Filing date: 2015-07-08
Publication date: 2018-03-02
Anticipated expiration: 2035-07-08
Also published as: CN104978426A

Abstract

本发明公开了一种基于6W语义标识的元数据仓库启发式智能搜索方法，涉及信息技术领域。该方法：S1分解关键词，S2，将所有被标识数据元进行场景匹配处理；S3，补充缺失项处理；S4，判断任意一个场景A所对应的数据元标识E在元数据仓库中是否找到对应的数据，如果是，则从元数据仓库中获取数据元标识E所对应的数据，将数据进行知识计算后得到的结果构建数据集，进入S6；如果否，则进入S5；S5，记录用户输入的自然语言，并提醒用户无搜索结果；S6，将数据集中按照系列层、集合层、实体层、子集层顺序进行逻辑排列的结果进行展示。本发明有效地利用已知数据解决未知问题，快速完成对相关领域数据的全面搜索、导航、启发式联想。

Description

一种基于6W语义标识的元数据仓库启发式智能搜索方法

技术领域

本发明涉及信息技术领域，尤其涉及一种基于6W语义标识的元数据仓库启发式智能搜索方法。

背景技术

飞速发展的Internet给用户提供了海量的信息资源，导致用户从爆炸性增长的信息中迅速获得需要的信息变得越来越困难。用户在搜索问题过程中，由于现有搜索方法对问题的理解层次不够深入，导致对用户的提出的问题往往答非所问、对问题的识别和分析不够深入，无法找到符合用户预期的信息。

发明内容

本发明的目的在于提供一种基于6W语义标识的元数据仓库启发式智能搜索方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明所述基于6W语义标识的元数据仓库启发式智能搜索方法，该方法包括以下步骤：

S1，分解关键词：

从用户输入的自然语言中获取关键词，并对所述关键词进行语义解析，然后标识出每个关键词对应的数据元，得到每个关键词的数据元标识，将排序后的所有被标识数据元作为索引；

S2，将所有被标识数据元进行场景匹配处理：

根据S1中被标识数据元的标识，匹配业务模型中与所述标识相关联的场景；

S3，补充缺失项处理：

判断被标识数据元的标识所对应的场景数是否大于预先设定的阈值，如果是，进行补充缺失项处理，得到补充缺失项后总数据元标识所对应的场景，然后进入S4；如果否，则直接进入S4；

S4，数据捞取处理：

判断任意一个场景A所对应的数据元标识E在元数据仓库中是否找到对应的数据，如果是，则从元数据仓库中获取数据元标识E所对应的数据，将所述数据进行知识计算后得到结果构建数据集，然后进入S6；如果否,则进入S5；

S5，将用户输入的自然语言记录下来，并提醒用户没有所述自然语言的搜索结果；

S6，将数据集中按照系列层、集合层、实体层、子集层顺序进行逻辑排列的结果进行展示。

优选地，步骤S1所述分解关键词，具体按照下述步骤实现：

S11，根据元数据模型、数据元素模型和元数据仓库形成的词典对用户输入的自然语言进行分词，得到自然语言中的已知关键词；

S12，获取已知关键词对应的数据元，并对所述数据元对应的数据元标识；

S13，判断被标识的数据元中是否存在数值数据，如果存在，则抽取所述数值数据；

S14，按照现有的数据元有既定的分类排序规则，将步骤S12中被标识数据元进行排列，将排序后的所有被标识数据元作为索引。

更优选地，步骤S11中，所述根据元数据模型、数据元素模型和元数据仓库形成的词典，具体按照下述步骤实现：

S111，读取元数据仓库中的元数据，得到元数据的标识、元数据的数据和元数据的描述，把元数据的数据作为索引对象；

S112，读取元数据模型中，得到元数据模型信息，根据元数据模型的结构将元数据模型信息作为索引对象；

S113，读取数据元素模型，得到数据元素模型信息，根据数据元素模型的结构将数据元素模型信息作为索引对象；

S114，上述S111的索引对象元数据的数据、S112的索引对象元数据模型信息、S113的索引对象数据元素模型信息作为词典的索引，完成词典的构建，词典按照预设的更新时间而变化，所述词典被存入内存。

优选地，一个关键词至少对应一个数据元，一个数据元仅有一个数据元标识。

优选地，步骤S2将被标识数据元进行场景匹配处理，具体按照下述步骤实现：

S21，判断每个关键词的数据元标识所属的标识层，所述标识层范围从大到小依次为系列层、集合层、实体层、子集层；

S22，根据系列层、集合层、实体层、子集层的顺序排序数据元标识，排序在前的数据元标识优先匹配语义解析后的关键词，得到基础场景集；

S23，计算基础场景集中数据元标识与语义解析后的关键词的匹配度，得到匹配度高于预先设定阈值的第一场景集；

S24，根据系列、集合、实体、子集的顺序进行第一场景集二次排序，得到第二场景集。

优选地，步骤S3补充缺失项处理，具体按照下述步骤实现：

S31，解析数据元标识对应的场景集，判断场景中的活动是否缺失，得到并标记活动缺失的场景；

S32，将活动缺失的场景的标记组成树结构，返回展示界面供用户选择；

S33，根据用户的选择对步骤S31中所述活动缺失的场景补充数据元标识，然后把补充的数据元标识和步骤S31中所述活动缺失的场景原有的数据元标识组合成补充后总数据元标识，完成补充缺失项处理。

优选地，步骤S4所述从元数据仓库中获取数据元标识E所对应的数据，将所述数据进行知识计算后得到结果构建数据集，具体按照下述步骤实现：

A1，将抽取到的数据组成初级数据集，对初级数据集进行梳理，得到特征数据元和非特征数据元；

A2，将非特征数据元进行知识计算，如果经过计算后得到结果数据，则进入A4；如果经过知识计算后没有得到数值数据，则没有得到数值数据的非特征数据元作为问题目标，进入A3；

A3，从元数据仓库查找与问题目标数据存在相关性的关键词的数据元标识所对应的数据，再返回A2进行计算处理；

A4，将特征数据元和得到的结果数据按照系列层、集合层、实体层、子集层顺序进行逻辑排列，得到数据集；其中，特征数据元对应具体的数值。

更优选地，步骤A2中，所述知识计算具体按照下述步骤进行：

B1，将数据集中无数据的数据元作为目标数据元；

B2，从知识库中查找与所述目标数据元存在逻辑计算关系的条件数据元，得到知识集Z；

B3，对知识集Z进行二次选择，如果知识集Z中的任意一个条件数据元是有数据的数据元或者条件数据元存在于数据集中，则选择所述条件数据元，构建知识集Z1；

B4，通过条件数据元对应的数据、知识集Z1和条件数据元与目标数据元之间的逻辑关系，得到目标数据元的数据集。

优选地，业务逻辑模型根据业务域分成不同的系列，每个系列内的业务报表按照业务分类以及对象不同分成不同的集合；所述集合再分成实体，即业务报表；所述实体再分成子集，即所述业务报表内的子表格，每一个所述集合至少含有一个M类实体，即基础的所述业务报表；所述M类实体是一种数据项的分类，用于确定数据唯一性的标识；所述数据项包括M项、C项和O项，所述M项为必填项，所述C项和所述O项均为非必填项。

本发明的有益效果是：

本发明能够根据自然语言的问题进行分析，得出问题的关键信息，再从知识库中获取匹配的知识，解决问题。能够有效地利用已知数据解决未知问题。能快速完成对相关领域数据的全面搜索、导航、启发式联想。

附图说明

图1是基于6W语义标识的元数据仓库启发式智能搜索方法的流程示意。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

实施例

参照图1，本实施例中基于6W语义标识的元数据仓库启发式智能搜索方法，该方法包括以下步骤：

S1，分解关键词：

S2，将所有被标识数据元进行场景匹配处理：

S3，补充缺失项处理：

S4，数据捞取处理：

以下详细对上述步骤中的几个进行详细说明：

(一)本实施例中，6W要素具体指：什么人Who，在什么时间When，在什么地点Where，因为什么原因发生(做)了什么事情Why，这件事情涉及到了什么对象Which，这些对象在这个活动中表现出了哪些特征What。

在本实施例中关键词、数据元和数据元标识存在以下关系：一个关键词至少对应一个数据元，一个数据元仅有一个数据元标识，再满足上述关系为原则，步骤S1所述分解关键词，具体按照下述步骤实现：

如表1所示，为关键字分解示例；

表1关键字分解示例

分解前	分解后
		井5壁心的二氧化碳含量是多少	[井]\[井5][壁心][二氧化碳含量]
井5的井底深度	[井]\[井5]的[井底深度]\[底深]\[深度]

其中，词典用于将表1中的自然语言分解成多个关键词，这些关键词可能是数据元也可能是数据，还可能是数据元对应的数据，关键词还可能对应有同义词；

步骤S11中，所述根据元数据模型、数据元素模型和元数据仓库形成的词典，具体按照下述步骤实现：

元数据模型是对业务逻辑模型基础上的转化，是对数据库中数据的一种结构化描述，也包括四层，分别为系列、集合、实体、子集。数据元素模型是用于描述数据的元素，由于元素是原子级概念，因此数据元素模型又称原子模型，共分为八大类：时间类、地点类、对象类、参与者类、资料类、活动类、特征类、参照类。元数据仓库中包含有具体的数据。

(二)步骤S2将被标识数据元进行场景匹配处理，具体按照下述步骤实现：

(三)步骤S3补充缺失项处理，具体按照下述步骤实现：

(四)步骤S4所述从元数据仓库中获取数据元标识E所对应的数据，将所述数据进行知识计算后得到结果构建数据集，具体按照下述步骤实现：

其中，步骤A2中，所述知识计算具体按照下述步骤进行：

B1，将数据集中无数据的数据元作为目标数据元；

B4，通过条件数据元对应的数据、知识集Z1和条件数据元与目标数据元之间的逻辑关系，得到目标数据元的数据集。其中，知识集Z中用于计算得到目标数据元的数据元为条件数据元。

(五)步骤S2中所述业务逻辑模型根据业务域分成不同的系列，每个系列内的业务报表按照业务分类以及对象不同分成不同的集合；所述集合再分成实体，即业务报表；所述实体再分成子集，即所述业务报表内的子表格，每一个所述集合至少含有一个M类实体，即基础的所述业务报表；所述M类实体是一种数据项的分类，用于确定数据唯一性的标识；所述数据项包括M项、C项和O项，所述M项为必填项，所述C项和所述O项均为非必填项。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：本发明能够根据自然语言的问题进行分析，得出问题的关键信息，再从知识库中获取匹配的知识，解决问题。能够有效地利用已知数据解决未知问题。能快速完成对相关领域数据的全面搜索、导航、启发式联想。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于6W语义标识的元数据仓库启发式智能搜索方法，其特征在于，该方法包括以下步骤：

S1，分解关键词：

S2，将所有被标识数据元进行场景匹配处理：

S3，补充缺失项处理：

S4，数据捞取处理：

判断任意一个场景A所对应的数据元标识E在元数据仓库中是否找到对应的数据，如果是，则从元数据仓库中获取数据元标识E所对应的数据，将所述数据进行知识计算后得到结果构建数据集，然后进入S6；如果否，则进入S5；

2.根据权利要求1所述方法，其特征在于，步骤S1所述分解关键词，具体按照下述步骤实现：

3.根据权利要求2所述方法，其特征在于，步骤S11中，所述根据元数据模型、数据元素模型和元数据仓库形成的词典，具体按照下述步骤实现：

S114，将S111的索引对象元数据的数据、S112的索引对象元数据模型信息、S113的索引对象数据元素模型信息作为词典的索引，完成词典的构建，词典按照预设的更新时间而变化，所述词典被存入内存。

4.根据权利要求1所述方法，其特征在于，一个关键词至少对应一个数据元，一个数据元仅有一个数据元标识。

5.根据权利要求1所述方法，其特征在于，步骤S2将被标识数据元进行场景匹配处理，具体按照下述步骤实现：

6.根据权利要求1所述方法，其特征在于，步骤S3补充缺失项处理，具体按照下述步骤实现：

7.根据权利要求1所述方法，其特征在于，步骤S4所述从元数据仓库中获取数据元标识E所对应的数据，将所述数据进行知识计算后得到结果构建数据集，具体按照下述步骤实现：

8.根据权利要求7所述方法，其特征在于，步骤A2中，所述知识计算具体按照下述步骤进行：

B1，将数据集中无数据的数据元作为目标数据元；

9.根据权利要求1所述方法，其特征在于，业务逻辑模型根据业务域分成不同的系列，每个系列内的业务报表按照业务分类以及对象不同分成不同的集合；

所述集合再分成实体，即业务报表；

所述实体再分成子集，即所述业务报表内的子表格，每一个所述集合至少含有一个M类实体，即基础的所述业务报表；

所述M类实体是一种数据项的分类，用于确定数据唯一性的标识；所述数据项包括M项、C项和O项，所述M项为必填项，所述C项和所述O项均为非必填项。