CN113591484B

CN113591484B - 一种基于语义分析的专家系统规则库建立方法

Info

Publication number: CN113591484B
Application number: CN202110631188.XA
Authority: CN
Inventors: 冯艳丽; 兰玉乾
Original assignee: Xian Aerospace Precision Electromechanical Institute
Current assignee: Xian Aerospace Precision Electromechanical Institute
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2023-07-21
Anticipated expiration: 2041-06-07
Also published as: CN113591484A

Abstract

本发明涉及一种基于语义分析的专家系统规则库建立方法，用于以非结构化或半结构化数据作为专家经验的专家系统。以克服现有规则库建立方法存在的速度慢、易出错以及维护成本高的问题。包括数据预处理、利用预处理后的数据，训练模型，获得语义依存模型及规则库建立的步骤。采用自然语言处理技术，将具有直接语义关联的语言单元直接连接依存弧并标记上相应的语义关系，使用基于CRF的语义依存分析模型，以适应相关领域的全新数据的分析，最后以分析后的结果为基础，组合建立大量的依存弧规则信息。可以改善其规则库建立的自动化程度，不易出错且维护成本低。

Description

一种基于语义分析的专家系统规则库建立方法

技术领域

本发明涉及一种基于语义分析的专家系统规则库建立方法，用于以非结构化或半结构化数据作为专家经验的专家系统。

背景技术

在目前的人机对话应用中存在大量的基于规则的专家系统，基于规则的专家系统在工作时需要建立完整的规则库来实现。传统规则库的建立常常是通过人工方式将专家知识改写为规则逻辑，这种方式速度慢且容易造成错误；另外，专家系统需要一定的可移植性，即在升级或更换规则库后专家系统应适应新的领域任务，而新的任务将大幅修改和增加规则库的规模及内容，使得维护成本增加。

发明内容

本发明的目的是提供一种基于语义分析的专家系统规则库建立方法，以克服现有规则库建立方法存在的速度慢、易出错以及维护成本高的问题。

本发明的技术方案是提供一种基于语义分析的专家系统规则库建立方法，其特殊之处在于，包括以下步骤：

步骤1、数据预处理；

步骤1.1、读取用户和现场相关领域提供的半结构化或非结构化数据作为样本数据，并处理数据；

步骤1.2、增加样本数据标签，标示数据属性之间的语义依存弧关系；

步骤1.3、根据语义依存弧关系种类数，将样本数据分为n份样本数据，其中n为语义依存弧关系种类数；将每一份样本数据均划分为训练集和测试集；

步骤1.4、备份并保存数据样本；

步骤2、利用步骤1预处理后的数据，训练模型，获得语义依存模型；

步骤2.1、采用条件随机场(CRF，Conditional Random Fields)模型，对n个训练集数据分别进行学习，获得相对稳定的n个语义依存模型；

步骤2.2、使用各个测试集对相应语义依存模型进行测试，完成测试后，保存n个语义依存模型；

步骤3、规则库建立；

步骤3.1、将未知的工业现场数据输入至n个语义依存模型，获得n类输出结果，分别为n类依存弧；

步骤3.2、重复步骤3.1，记录n个语义依存模型输出结果，并判断输出结果的稳定程度，记录稳定程度评价值，作为后续使用该模型的权重参考；

步骤3.3、统计n类依存弧；

当两个依存弧中存在包含关系时，选择被包含的较小的依存弧为正确结果，剔除较大的依存弧；

当依存弧存在矛盾关系时，选择依存弧链较小的依存弧为正确结果，剔除较大的依存弧；

步骤3.4、基于已有的依存弧，将所有依存弧按照一定密度进行采样，得到大量的组合性依存弧数据，即构成专家系统所需的规则库。

进一步地，步骤1.1具体为：

步骤1.11、读取用户和现场相关领域提供的半结构化或非结构化数据作为样本数据，遍历样本数据，检查是否存在重复性数据，若是，则删除重复性数据，否则进入步骤1.12；

步骤1.12、删减数据量极少的属性列。

进一步地，步骤1.1中还包括数据增强，扩充样本数据的步骤，具体为：采用修改数值型数据产生绝对值为0.01正负浮动方式，对已有的样本数据进行扩充。

进一步地，步骤1.2具体为：

根据样本数据中已经存在的逻辑关系，建立样本数据属性之间的关系，并设置数据属性之间的语义依存弧关系，以数据属性列共5列为例，最后一列为语义依存弧关系示例，语义依存弧关系共包括以下4类：

(1)属性关系“1对1”的样本数据及语义依存弧关系表示为：

[属性值A，属性值B，属性值C，属性值D，属性值E，1_5]

其中，语义依存弧关系种类数为C₅ ²；

(2)属性关系“2对1”的样本数据及语义依存弧关系表示为：

[属性值A，属性值B，属性值C，属性值D，属性值E，2_3_5]

其中，语义依存弧关系种类数为C₅ ²*C₃ ¹；

(3)属性关系“3对1”的样本数据及语义依存弧关系表示为：

[属性值A，属性值B，属性值C，属性值D，属性值E，1_3_4_5]

其中，语义依存弧关系种类数为C₅ ³*C₂ ¹；

(4)属性关系“4对1”的样本数据及语义关系依存弧表示为：

[属性值A，属性值B，属性值C，属性值D，属性值E，1_2_3_4_5]

其中，语义依存弧关系种类数为C₅ ¹；

进一步地，步骤1.3中，根据语义依存弧关系种类数，划分样本数据，以数据属性列共5列为例，将样本数据分为4份样本数据；并按照6比4的比例关系将每一份样本数据分为训练集和测试集两部分。

进一步地，步骤2.1中采用LBFGS算法，默认c1和c2参数设置为0.1，最大迭代次数为100，对各个训练集数据分别进行学习。

进一步地，步骤2.2使用各个测试集对相应语义依存模型进行性能F1测试。本发明的有益效果是：

本文提出一种基于语义分析的专家系统规则库建立方法，采用自然语言处理技术，将具有直接语义关联的语言单元直接连接依存弧并标记上相应的语义关系，使用基于CRF的语义依存分析模型，以适应相关领域的全新数据的分析，最后以分析后的结果为基础，组合建立大量的依存弧规则信息。可以改善其规则库建立的自动化程度，不易出错且维护成本低。

附图说明

图1为机器人智能工艺专家系统软件组成结构图；

图2为基于语义分析的专家系统规则库建立过程流程图。

具体实施方式

以下结合附图及具体实施例对本发明做进一步地描述。

本发明方法建立的规则库可应用于机器人智能工艺专家系统软件，如图1所示。该软件基于带有任务领域知识的专家系统对通过感知系统捕获的目标基本信息进行分析和处理，得到可用于机器人执行的工艺指令参数。该专家系统的规则库就采用本发明的方法进行建立。

本发明提出一种基于语义分析的专家系统规则库建立方法，可以改善其规则库建立的自动化程度，结合图2可以看出，本发明方法包括以下步骤：

第一步，对用户和现场相关领域提供的半结构化或非结构化数据进行读取，作为样本数据，进行预处理。预处理过程包括五个子任务；

(1)删除重复性数据：遍历样本数据，检查是否存在重复性数据，避免大量重复性数据造成模型出现过拟合；

(2)样本数据属性删减：对于部分数据属性，当出现数据量极少时，应当删减该属性列。

(3)数据增强，扩充样本数据；

由于存在应用领域中的数据样本采集困难等问题，可能会出现小样本数据的情况，此时需要针对样本数据进行扩充。由于工业类数据一般为是或者非以及数值型数据，因此这一步的处理主要采用修改数值型数据产生绝对值为0.01正负浮动方式，对已有的样本数据进行扩充。

(4)增加样本数据标签；

根据用户提供的样本数据中已经存在的逻辑关系，建立样本数据属性之间的关系，并设置数据属性之间的语义关系标签，以数据属性列共5列为例，该语义关系标签即语义依存弧关系，共包括以下4类：

1)属性关系“1对1”的样本数据及语义依存弧关系表示为(最后一列为语义依存弧关系示例)：

[属性值A，属性值B，属性值C，属性值D，属性值E，1_5]

其中，语义依存弧关系种类数应该为C₅ ²。

2)属性关系“2对1”的样本数据及语义关系依存弧表示为：

[属性值A，属性值B，属性值C，属性值D，属性值E，2_3_5]

其中，语义依存弧关系种类数应该为C₅ ²*C₃ ¹。

3)属性关系“3对1”的样本数据及语义关系依存弧表示为：

[属性值A，属性值B，属性值C，属性值D，属性值E，1_3_4_5]

其中，语义依存弧关系种类数应该为C₅ ³*C₂ ¹。

4)属性关系“4对1”的样本数据及语义关系依存弧表示为：

[属性值A，属性值B，属性值C，属性值D，属性值E，1_2_3_4_5]

其中，语义依存弧关系种类数应该为C₅ ¹。

根据样本数据中语义依存弧关系的种类，划分样本数据，以数据属性列共5列为例，将样本数据分为4份样本数据，4份样本数据具有不同的语义依存弧关系种类。并按照6比4的比例关系将每份样本数据分为训练集和测试集两部分。

(5)备份设置数据，并将处理后的4份训练集数据和4份测试集数据保存至指定的文件目录下，作为模型训练的输入。

第二步，根据上述数据，进行模型训练，具体包括两个子任务；

(1)上述采用CRF模型，采用LBFGS算法，默认c1和c2参数设置为0.1，最大迭代次数为100，对4份训练集数据分别进行学习，获得相对稳定的4个语义依存模型；

(2)将训练完成后的4个语义依存模型，使用测试集的数据进行F1性能测试。最后将训练完成的4个语义依存模型保存至指定的文件目录下。至此，规则提取模型已经完成。

第三步，根据上述模型，建立规则库，具体包括四个子任务；

(1)使用4个语义依存模型对未知的工业现场数据进行处理，以多批次高相关度数据作为模型输入，获得4类输出结果，分别为“1对1”、“2对1”、“3对1”、“4对1”的模型输出依存弧。

(2)采用多组工业现场数据，重复第三步的(1)中的处理方法，记录4个语义依存模型输出结果的稳定程度，当10次处理结果中同一结果出现次数越多，则认为该模型处理结果稳定度越高，反之越低，记录每一个模型的稳定程度评价值，作为后续使用该模型的权重参考。

(3)4类输出依存弧结果整合。

当依存弧存在包含关系时，认为正确结果应为较小的依存弧，例如出现：1_4_5和1_2_4_5时，选择1_4_5并去掉1_2_4_5。

当依存弧存在矛盾关系时，认为正确结果应为较小的依存弧，例如出现：2_5和1_3_5时，选择2_5并去掉1_3_5。

(4)基于已有的依存弧，将所有依存弧按照一定密度进行采样，得到大量的组合性依存弧数据，即构成专家系统所需的规则库。

Claims

1.一种基于语义分析的专家系统规则库建立方法，其特征在于，包括以下步骤：

步骤1、数据预处理；

步骤1.4、备份并保存n份样本数据；

步骤3、规则库建立；

步骤3.3、统计n类依存弧；

2.根据权利要求1所述的基于语义分析的专家系统规则库建立方法，其特征在于，步骤1.1具体为：

步骤1.12、删减数据量极少的属性列。

3.根据权利要求2所述的基于语义分析的专家系统规则库建立方法，其特征在于，步骤1.1中还包括数据增强，扩充样本数据的步骤，具体为：采用修改数值型数据产生绝对值为0.01正负浮动方式，对已有的样本数据进行扩充。

4.根据权利要求1-3任一所述的基于语义分析的专家系统规则库建立方法，其特征在于，步骤1.2具体为：

根据样本数据中已经存在的逻辑关系，建立样本数据属性之间的关系，并设置数据属性之间的语义依存弧关系，以数据属性列共5列为例，最后一列为语义依存弧关系示例，共包括以下4类：

(1)属性关系“1对1”的样本数据及语义依存弧关系表示为：

[属性值A，属性值B，属性值C，属性值D，属性值E，1_5]

其中，语义依存弧关系种类数为C₅ ²；

(2)属性关系“2对1”的样本数据及语义依存弧关系表示为：

[属性值A，属性值B，属性值C，属性值D，属性值E，2_3_5]

其中，语义依存弧关系种类数为C₅ ²*C₃ ¹；

(3)属性关系“3对1”的样本数据及语义依存弧关系表示为：

[属性值A，属性值B，属性值C，属性值D，属性值E，1_3_4_5]

其中，语义依存弧关系种类数为C₅ ³*C₂ ¹；

(4)属性关系“4对1”的样本数据及语义依存弧关系表示为：

[属性值A，属性值B，属性值C，属性值D，属性值E，1_2_3_4_5]

其中，语义依存弧关系种类数为C₅ ¹。

5.根据权利要求4所述的基于语义分析的专家系统规则库建立方法，其特征在于：步骤1.3中，根据语义依存弧关系种类数，划分样本数据，以数据属性列共5列为例，将样本数据分为4份样本数据；并按照6比4的比例关系将每一份样本数据分为训练集和测试集两部分。

6.根据权利要求5所述的基于语义分析的专家系统规则库建立方法，其特征在于：步骤2.1中采用LBFGS算法，默认c1和c2参数设置为0.1，最大迭代次数为100，对各个训练集数据分别进行学习。

7.根据权利要求6所述的基于语义分析的专家系统规则库建立方法，其特征在于：步骤2.2使用各个测试集对相应语义依存模型进行性能F1测试。