CN104182489A

CN104182489A - 一种文本大数据的查询处理方法

Info

Publication number: CN104182489A
Application number: CN201410391873.XA
Authority: CN
Inventors: 黄震华; 李美子; 方强; 张佳雯; 向阳
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2014-08-11
Filing date: 2014-08-11
Publication date: 2014-12-03
Anticipated expiration: 2034-08-11
Also published as: CN104182489B

Abstract

本发明涉及一种文本大数据的查询处理方法，包括以下步骤：1)规范文本大数据语义，构造文本大数据查询分析过程中的查询对象语义范式模型以及精确描述语义，2)建立指令解析与查询工作流模型，构建查询指令语义模型，精炼语义，并且选择和重构查询工作流，3)查询过程控制和反馈结果，筛选查询方法模型，评估和计算查询置信度，并且返回置信度最高的工作流。与现有技术相比，本发明具有方便快速、准确可靠等优点。

Description

一种文本大数据的查询处理方法

技术领域

本发明计算机应用技术领域，尤其是涉及一种文本大数据的查询处理方法。

背景技术

近些年，文本大数据上的查询处理已成为学术界和工业界的一个研究热点和重点。

Ciaccio AD等人指出传统的查询处理方法通常不适合管理和分析文本大数据，并提出3个改进方法TNL、CDCA和SFMAE来有效查询分析文本大数据。SysoevO等人基于steiner树理论，提出有效的近似最优算法来处理文本大数据上的多元单调回归问题。Laurila JK等人针对移动无线通讯网络中累积的文本大数据，设计了LDCC算法来有效分析用户的各通讯指标。Oliner A等人对网络的日志大数据进行一致性编码来有效优化用户的访问性能。Bennett J等人基于map-reduce计算模型，设计了UEQOT方法来提高文本大数据的查询处理效率。而Pébay P等人对文本大数据上的并行查询处理技术做了详细的综述。

在文本大数据的挖掘方面，大都研究工作通过扩展现有的方法来处理文本大数据。例如Zhou J等人、Chen L等人和JaBezdek JC等人分别对层次聚类、K-Mean聚类和Fuzzy C-Mean聚类进行了扩展。这类扩展算法基本上通过对文本大数据进行局部采样，并利用现有的算法(例如CLARA、CLARANS和BIRCH等)来完成数据挖掘过程，因此局部采样的机制在很大程度上影响全局数据挖掘的效果。另一方面，近些年，许多研究工作考虑分布式和并行实施文本大数据的数据挖掘。Chu C等人在多核处理器上基于简单的map-reduce编程模型实现了文本大数据的10类数据挖掘算法，包括局部加权线性回归、K-means聚类、逻辑回归、朴素贝叶斯、线性支持向量机、自变量分析、高斯判别式分析、期望最大化估计以及BP神经网络。Ranger C等人同样基于多核处理机系统，使用map-reduce编程模型实现了3类数据挖掘算法，包括K-means聚类、主成分分析依据线性回归。Gillick D等人基于Hadoop平台对大数据的各类数据挖掘算法进行了性能测试，并得出了map-reduce编程模型是目前最为适合的一种计算框架。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种便捷、准确的文本大数据的查询处理方法。

本发明的目的可以通过以下技术方案来实现：

一种文本大数据的查询处理方法，包括以下步骤：

1)规范文本大数据语义，该步骤包括：

11)构造文本大数据查询分析过程中所涉及的查询对象语义范式模型，通过不同级别范式的语义描述规范刻画各对象的语义描述程度；

12)；对不同的查询对象设计不同级别范式相互转化准则得到更为精确的语义描述；

2)建立指令解析与查询工作流模型，该步骤包括：

21)查询指令语义预解析，对查询指令初步解析，使其具备计算机可理解的基础形式；

22)构建查询指令语义模型；

23)指令语义精炼，使指令语义模型符合高级别的描述规范；

24)选择和重构查询工作流，通过底层数据库选取与对象模型相对应的模板实例；

25)查询工作流可靠性验证，利用大规模案例推理学习方法对所确定的结果进行验证；

3)查询过程控制和反馈结果，该步骤包括：

31)通过筛选查询方法模型，并且结合查询成功的历史查询方法模型选取符合工作流各环节需求的查询方法模型；

32)构造和组合各环节候选查询方法模型来实现指令进行正确查询的策略和规则；

33)评估查询置信度，建立“方法-指令”置信体系，通过查询历史，对每一个查询方法模型，评估它对不同类型指令的置信度；

34)构建查询工作链，根据查询工作流构建由使用过的查询方法模型构成的查询工作链；

35)计算查询工作链上的每一个工作流阶段的结果置信度；

36)全链全局置信度计算，并且进行全工作链的置信度全局排序评估，将置信度最高的结果反馈给用户。

所述的步骤1)中的语义范式模型包括文本内容语义范式模型CSNF、查询指令语义范式模型ISNF、查询方法语义范式模型MSNF和查询工作流语义范式模型FSNF。

所述的文本内容语义范式模型的转化准则包括1CSNF、2CSNF和3CSNF，分别判断可判定性、完备性和可计算性。

所述的指令语义范式模型的转换准则包括1ISNF、2ISNF和3ISNF，分别表达可查询性、非矛盾性和最优闭合性。

所述的查询方法语义范式模型的转换准则包括1MSNF、2MSNF和3MSNF，分别对应其可用性、适配性和可验证性。

所述的查询工作流语义范式模型的转换准则包括1FSNF、2FSNF和3FSNF，分别对应标准性、可柔性和完备性。

所述的步骤23)中的精炼方法包括以下步骤：

231)建立符合1ISNF的语义模型，并对该指令所具备的具体实体信息，包括条件、变量和目标进行具体赋值；

232)基于2ISNF语义级别模型的要求，对不可被理解描述为语义的部分进行语义迭代计算；

233)基于3ISNF语义级别模型，对问题中所含有的冗余部分、无效条件、重叠目标、矛盾条件干扰因素进行消除。

与现有技术相比，本发明具有以下优点。

一、方便快速，本发明设计了新的查询指令的语义模型，建立了查询模型规范，能够快速的找到最有效的查询方式获得结果。

二、准确可靠，本方法通过精炼语义，规范了语义模型，消除了查询过程中出现的冗余、无效等问题，提高了查询过程的准确性。

附图说明

图1为本发明的方法流程图

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例：

如图1所示，一种文本大数据的查询处理方法，包括以下步骤：

1)规范文本大数据语义，该步骤包括：

2)建立指令解析与查询工作流模型，该步骤包括：

22)构建查询指令语义模型；

23)指令语义精炼，使指令语义模型符合高级别的描述规范；

25)查询工作流可靠性验证，利用大规模案例推理学习方法对所确定的结果进行验证。

3)查询过程控制和反馈结果，该步骤包括：

32)构造和组合各环节候选查询方法模型来实现指令进行正确查询的策略和规则。

34)构建查询工作链，根据查询工作流构建由使用过的查询方法模型构成的查询工作链，

35)计算查询工作链上的每一个工作流阶段的结果置信度；

查询过程控制与结果反馈模块的具体实施方式如下：本发明文本大数据查询分析过程中所涉及的四类对象为文本内容、查询指令、查询方法和查询工作流程。这四类对象的语义范式模型的实施方式为：1)文本内容语义范式模型(CSNF)：即文本大数据中所识别、抽取的用于进行指令查询的内容实体，所具备不同级别的语义描述规范及其转化准则，通过1CSNF、2CSNF和3CSNF分别满足其可判定性、完备性和可计算性；2)指令语义范式模型(ISNF)：即系统所需要理解的用户指令应具备的不同级别语义描述规范及转换准则，包括1ISNF、2ISNF和3ISNF分别表达其可查询性、非矛盾性和最优闭合性；3)查询方法语义范式(MSNF)：即指令查询方法所对应计算模型应具备的不同级别语义描述规范及转换准则，包括1MSNF、2MSNF和3MSNF，分别对应其可用性、适配性和可验证性；4)查询工作流语义范式(FSNF)：即用于指令查询的工作流具备的不同级别语义描述规范及转换准则，包括1FSNF、2FSNF和3FSNF，分别对应标准性、可柔性和完备性。同时，在上述四个语义范式模型及其转化规则基础上，本发明整合描述逻辑、时态逻辑、进程代数的形式化验证技术，对语义范式模型及转化过程进行正确性和完备性验证。

指令解析与查询工作流建模模块的具体实施方式如下：针对查询指令的语义理解，本发明首先对用户指令进行文本预处理，进行初步问题内容解析，并建立符合1ISNF的语义模型，并对该指令所具备的具体实体信息，包括条件、变量和目标进行具体赋值，其次，基于2ISNF语义级别模型的要求，对不可被理解描述为语义的部分进行语义迭代计算，继而，基于3ISNF语义级别模型，本发明对问题中所含有的冗余部分、无效条件、重叠目标、矛盾条件等干扰因素进行消除，使其复杂程度降低，有利于计算机清晰读懂指令真实的查询目标，在对指令语义的准确理解之后，本发明确定其查询的工作流程，使其准确符合指令所具有的输入、目标、约束等，成为一个可执行的工作流，本发明首先基于ISNF范式模型的指令语义，从该指令类别出发利用ISNF到FSNF的语义关联和依赖，选择对应的候选工作流实例集合；其次，本发明从候选工作流中选择符合该指令语义所包含信息的工作流实例，构建其符合3FSNF的语义级别；进一步，本发明利用FSNF的流程重构语义，对所选择的工作流进行重构，完成工作流中不同工作环节、时序的柔性调整；最后本发明通过过往工作流的查询案例知识，对工作流环节中出现的各种潜在风险和威胁进行识别，验证该工作流的可靠性。

查询过程控制与结果反馈模块的具体实施方式如下：本发明首先在FSNF工作流模型基础上，对工作流中所涉及的具体查询方法模型进行评估和选择，并在此基础上利用本体库中的关联模型及其查询案例对查询方法模型的选择结果进行验证；其次，本发明利用MSNF对查询方法模型进行语义约束，消除工作流中可能导致的资源依赖、时序依赖、竞争条件、死锁等问题，确保查询工作流程的正确性；进而，本发明通过四类语义范式模型(CSNF、ISNF、MSNF和FSNF)对可使用资源的实时状态、查询方法模型的使用状态、查询工作流的进度情况等信息进行实时状态检测，记录查询的中间过程变量和临时状态，对各种情况下所发生的资源调度、工作流重构、查询方法重选或查询应急重启等情况进行控制，以确保查询过程的顺利执行，为了提高结果反馈的准确度，本发明不选取唯一的查询工作流与查询方法模型，即一个用户指令可对应多个可行的工作流进行查询，并在每个工作流环节选用多个可能的候选查询方法模型，因此，所取得的答案并不唯一，针对这个问题，本发明采用基于结果置信度排序的策略进行实施，选择最可靠的结果来进行反馈。为此，本发明首先针对指令所有可行的查询工作流和查询方法模型，记录其对特定类型、条件、目标指令的历史使用次数、查询次数、被选中率、成功率、准确率、评价值等多维度指标体系；继而，本发明从时效性、效用性、匹配性等不同角度，综合计算不同的工作流、查询方法模型的置信度值，来刻画它们的认同度、可靠度，同时利用其在过往历史中的使用概率，来预测它们的置信概率。在此基础上，本发明针对不同工作流以及工作流各环节所候选的查询方法模型，形成所有可能的查询工作链，使得每一条工作链都指向其代表的指令结果；进而，针对查询工作链的各环节进行逐一置信度计算，从而形成全工作链的全局置信度，代表该工作链所反馈结果的可靠程度；最后，本发明利用全工作链置信度对不同的结果进行排序，并将置信度最高的查询结果反馈给用户。

Claims

1.一种文本大数据的查询处理方法，其特征在于，包括以下步骤：

1)规范文本大数据语义，该步骤包括：

12)对不同的查询对象设计不同级别范式相互转化准则得到更为精确的语义描述；

2)建立指令解析与查询工作流模型，该步骤包括：

22)构建查询指令语义模型；

23)指令语义精炼，使指令语义模型符合高级别的描述规范；

3)查询过程控制和反馈结果，该步骤包括：

35)计算查询工作链上的每一个工作流阶段的结果置信度；

2.根据权利要求1所述的一种文本大数据的查询处理方法，其特征在于，所述的步骤1)中的语义范式模型包括文本内容语义范式模型CSNF、查询指令语义范式模型ISNF、查询方法语义范式模型MSNF和查询工作流语义范式模型FSNF。

3.根据权利要求2所述的一种文本大数据的查询处理方法，其特征在于，所述的文本内容语义范式模型的转化准则包括1CSNF、2CSNF和3CSNF，分别判断可判定性、完备性和可计算性。

4.根据权利要求2所述的一种文本大数据的查询处理方法，其特征在于，所述的指令语义范式模型的转换准则包括1ISNF、2ISNF和3ISNF，分别表达可查询性、非矛盾性和最优闭合性。

5.根据权利要求2所述的一种文本大数据的查询处理方法，其特征在于，所述的查询方法语义范式模型的转换准则包括1MSNF、2MSNF和3MSNF，分别对应其可用性、适配性和可验证性。

6.根据权利要求2所述的一种文本大数据的查询处理方法，其特征在于，所述的查询工作流语义范式模型的转换准则包括1FSNF、2FSNF和3FSNF，分别对应标准性、可柔性和完备性。

7.根据权利要求1或4所述的一种文本大数据的查询处理方法，其特征在于，所述的步骤23)中的精炼方法包括以下步骤：