CN113591484B - 一种基于语义分析的专家系统规则库建立方法 - Google Patents
一种基于语义分析的专家系统规则库建立方法 Download PDFInfo
- Publication number
- CN113591484B CN113591484B CN202110631188.XA CN202110631188A CN113591484B CN 113591484 B CN113591484 B CN 113591484B CN 202110631188 A CN202110631188 A CN 202110631188A CN 113591484 B CN113591484 B CN 113591484B
- Authority
- CN
- China
- Prior art keywords
- semantic
- data
- attribute value
- relationship
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于语义分析的专家系统规则库建立方法,用于以非结构化或半结构化数据作为专家经验的专家系统。以克服现有规则库建立方法存在的速度慢、易出错以及维护成本高的问题。包括数据预处理、利用预处理后的数据,训练模型,获得语义依存模型及规则库建立的步骤。采用自然语言处理技术,将具有直接语义关联的语言单元直接连接依存弧并标记上相应的语义关系,使用基于CRF的语义依存分析模型,以适应相关领域的全新数据的分析,最后以分析后的结果为基础,组合建立大量的依存弧规则信息。可以改善其规则库建立的自动化程度,不易出错且维护成本低。
Description
技术领域
本发明涉及一种基于语义分析的专家系统规则库建立方法,用于以非结构化或半结构化数据作为专家经验的专家系统。
背景技术
在目前的人机对话应用中存在大量的基于规则的专家系统,基于规则的专家系统在工作时需要建立完整的规则库来实现。传统规则库的建立常常是通过人工方式将专家知识改写为规则逻辑,这种方式速度慢且容易造成错误;另外,专家系统需要一定的可移植性,即在升级或更换规则库后专家系统应适应新的领域任务,而新的任务将大幅修改和增加规则库的规模及内容,使得维护成本增加。
发明内容
本发明的目的是提供一种基于语义分析的专家系统规则库建立方法,以克服现有规则库建立方法存在的速度慢、易出错以及维护成本高的问题。
本发明的技术方案是提供一种基于语义分析的专家系统规则库建立方法,其特殊之处在于,包括以下步骤:
步骤1、数据预处理;
步骤1.1、读取用户和现场相关领域提供的半结构化或非结构化数据作为样本数据,并处理数据;
步骤1.2、增加样本数据标签,标示数据属性之间的语义依存弧关系;
步骤1.3、根据语义依存弧关系种类数,将样本数据分为n份样本数据,其中n为语义依存弧关系种类数;将每一份样本数据均划分为训练集和测试集;
步骤1.4、备份并保存数据样本;
步骤2、利用步骤1预处理后的数据,训练模型,获得语义依存模型;
步骤2.1、采用条件随机场(CRF,Conditional Random Fields)模型,对n个训练集数据分别进行学习,获得相对稳定的n个语义依存模型;
步骤2.2、使用各个测试集对相应语义依存模型进行测试,完成测试后,保存n个语义依存模型;
步骤3、规则库建立;
步骤3.1、将未知的工业现场数据输入至n个语义依存模型,获得n类输出结果,分别为n类依存弧;
步骤3.2、重复步骤3.1,记录n个语义依存模型输出结果,并判断输出结果的稳定程度,记录稳定程度评价值,作为后续使用该模型的权重参考;
步骤3.3、统计n类依存弧;
当两个依存弧中存在包含关系时,选择被包含的较小的依存弧为正确结果,剔除较大的依存弧;
当依存弧存在矛盾关系时,选择依存弧链较小的依存弧为正确结果,剔除较大的依存弧;
步骤3.4、基于已有的依存弧,将所有依存弧按照一定密度进行采样,得到大量的组合性依存弧数据,即构成专家系统所需的规则库。
进一步地,步骤1.1具体为:
步骤1.11、读取用户和现场相关领域提供的半结构化或非结构化数据作为样本数据,遍历样本数据,检查是否存在重复性数据,若是,则删除重复性数据,否则进入步骤1.12;
步骤1.12、删减数据量极少的属性列。
进一步地,步骤1.1中还包括数据增强,扩充样本数据的步骤,具体为:采用修改数值型数据产生绝对值为0.01正负浮动方式,对已有的样本数据进行扩充。
进一步地,步骤1.2具体为:
根据样本数据中已经存在的逻辑关系,建立样本数据属性之间的关系,并设置数据属性之间的语义依存弧关系,以数据属性列共5列为例,最后一列为语义依存弧关系示例,语义依存弧关系共包括以下4类:
(1)属性关系“1对1”的样本数据及语义依存弧关系表示为:
[属性值A,属性值B,属性值C,属性值D,属性值E,1_5]
其中,语义依存弧关系种类数为C5 2;
(2)属性关系“2对1”的样本数据及语义依存弧关系表示为:
[属性值A,属性值B,属性值C,属性值D,属性值E,2_3_5]
其中,语义依存弧关系种类数为C5 2*C3 1;
(3)属性关系“3对1”的样本数据及语义依存弧关系表示为:
[属性值A,属性值B,属性值C,属性值D,属性值E,1_3_4_5]
其中,语义依存弧关系种类数为C5 3*C2 1;
(4)属性关系“4对1”的样本数据及语义关系依存弧表示为:
[属性值A,属性值B,属性值C,属性值D,属性值E,1_2_3_4_5]
其中,语义依存弧关系种类数为C5 1;
进一步地,步骤1.3中,根据语义依存弧关系种类数,划分样本数据,以数据属性列共5列为例,将样本数据分为4份样本数据;并按照6比4的比例关系将每一份样本数据分为训练集和测试集两部分。
进一步地,步骤2.1中采用LBFGS算法,默认c1和c2参数设置为0.1,最大迭代次数为100,对各个训练集数据分别进行学习。
进一步地,步骤2.2使用各个测试集对相应语义依存模型进行性能F1测试。本发明的有益效果是:
本文提出一种基于语义分析的专家系统规则库建立方法,采用自然语言处理技术,将具有直接语义关联的语言单元直接连接依存弧并标记上相应的语义关系,使用基于CRF的语义依存分析模型,以适应相关领域的全新数据的分析,最后以分析后的结果为基础,组合建立大量的依存弧规则信息。可以改善其规则库建立的自动化程度,不易出错且维护成本低。
附图说明
图1为机器人智能工艺专家系统软件组成结构图;
图2为基于语义分析的专家系统规则库建立过程流程图。
具体实施方式
以下结合附图及具体实施例对本发明做进一步地描述。
本发明方法建立的规则库可应用于机器人智能工艺专家系统软件,如图1所示。该软件基于带有任务领域知识的专家系统对通过感知系统捕获的目标基本信息进行分析和处理,得到可用于机器人执行的工艺指令参数。该专家系统的规则库就采用本发明的方法进行建立。
本发明提出一种基于语义分析的专家系统规则库建立方法,可以改善其规则库建立的自动化程度,结合图2可以看出,本发明方法包括以下步骤:
第一步,对用户和现场相关领域提供的半结构化或非结构化数据进行读取,作为样本数据,进行预处理。预处理过程包括五个子任务;
(1)删除重复性数据:遍历样本数据,检查是否存在重复性数据,避免大量重复性数据造成模型出现过拟合;
(2)样本数据属性删减:对于部分数据属性,当出现数据量极少时,应当删减该属性列。
(3)数据增强,扩充样本数据;
由于存在应用领域中的数据样本采集困难等问题,可能会出现小样本数据的情况,此时需要针对样本数据进行扩充。由于工业类数据一般为是或者非以及数值型数据,因此这一步的处理主要采用修改数值型数据产生绝对值为0.01正负浮动方式,对已有的样本数据进行扩充。
(4)增加样本数据标签;
根据用户提供的样本数据中已经存在的逻辑关系,建立样本数据属性之间的关系,并设置数据属性之间的语义关系标签,以数据属性列共5列为例,该语义关系标签即语义依存弧关系,共包括以下4类:
1)属性关系“1对1”的样本数据及语义依存弧关系表示为(最后一列为语义依存弧关系示例):
[属性值A,属性值B,属性值C,属性值D,属性值E,1_5]
其中,语义依存弧关系种类数应该为C5 2。
2)属性关系“2对1”的样本数据及语义关系依存弧表示为:
[属性值A,属性值B,属性值C,属性值D,属性值E,2_3_5]
其中,语义依存弧关系种类数应该为C5 2*C3 1。
3)属性关系“3对1”的样本数据及语义关系依存弧表示为:
[属性值A,属性值B,属性值C,属性值D,属性值E,1_3_4_5]
其中,语义依存弧关系种类数应该为C5 3*C2 1。
4)属性关系“4对1”的样本数据及语义关系依存弧表示为:
[属性值A,属性值B,属性值C,属性值D,属性值E,1_2_3_4_5]
其中,语义依存弧关系种类数应该为C5 1。
根据样本数据中语义依存弧关系的种类,划分样本数据,以数据属性列共5列为例,将样本数据分为4份样本数据,4份样本数据具有不同的语义依存弧关系种类。并按照6比4的比例关系将每份样本数据分为训练集和测试集两部分。
(5)备份设置数据,并将处理后的4份训练集数据和4份测试集数据保存至指定的文件目录下,作为模型训练的输入。
第二步,根据上述数据,进行模型训练,具体包括两个子任务;
(1)上述采用CRF模型,采用LBFGS算法,默认c1和c2参数设置为0.1,最大迭代次数为100,对4份训练集数据分别进行学习,获得相对稳定的4个语义依存模型;
(2)将训练完成后的4个语义依存模型,使用测试集的数据进行F1性能测试。最后将训练完成的4个语义依存模型保存至指定的文件目录下。至此,规则提取模型已经完成。
第三步,根据上述模型,建立规则库,具体包括四个子任务;
(1)使用4个语义依存模型对未知的工业现场数据进行处理,以多批次高相关度数据作为模型输入,获得4类输出结果,分别为“1对1”、“2对1”、“3对1”、“4对1”的模型输出依存弧。
(2)采用多组工业现场数据,重复第三步的(1)中的处理方法,记录4个语义依存模型输出结果的稳定程度,当10次处理结果中同一结果出现次数越多,则认为该模型处理结果稳定度越高,反之越低,记录每一个模型的稳定程度评价值,作为后续使用该模型的权重参考。
(3)4类输出依存弧结果整合。
当依存弧存在包含关系时,认为正确结果应为较小的依存弧,例如出现:1_4_5和1_2_4_5时,选择1_4_5并去掉1_2_4_5。
当依存弧存在矛盾关系时,认为正确结果应为较小的依存弧,例如出现:2_5和1_3_5时,选择2_5并去掉1_3_5。
(4)基于已有的依存弧,将所有依存弧按照一定密度进行采样,得到大量的组合性依存弧数据,即构成专家系统所需的规则库。
Claims (7)
1.一种基于语义分析的专家系统规则库建立方法,其特征在于,包括以下步骤:
步骤1、数据预处理;
步骤1.1、读取用户和现场相关领域提供的半结构化或非结构化数据作为样本数据,并处理数据;
步骤1.2、增加样本数据标签,标示数据属性之间的语义依存弧关系;
步骤1.3、根据语义依存弧关系种类数,将样本数据分为n份样本数据,其中n为语义依存弧关系种类数;将每一份样本数据均划分为训练集和测试集;
步骤1.4、备份并保存n份样本数据;
步骤2、利用步骤1预处理后的数据,训练模型,获得语义依存模型;
步骤2.1、采用条件随机场(CRF,Conditional Random Fields)模型,对n个训练集数据分别进行学习,获得相对稳定的n个语义依存模型;
步骤2.2、使用各个测试集对相应语义依存模型进行测试,完成测试后,保存n个语义依存模型;
步骤3、规则库建立;
步骤3.1、将未知的工业现场数据输入至n个语义依存模型,获得n类输出结果,分别为n类依存弧;
步骤3.2、重复步骤3.1,记录n个语义依存模型输出结果,并判断输出结果的稳定程度,记录稳定程度评价值,作为后续使用该模型的权重参考;
步骤3.3、统计n类依存弧;
当两个依存弧中存在包含关系时,选择被包含的较小的依存弧为正确结果,剔除较大的依存弧;
当依存弧存在矛盾关系时,选择依存弧链较小的依存弧为正确结果,剔除较大的依存弧;
步骤3.4、基于已有的依存弧,将所有依存弧按照一定密度进行采样,得到大量的组合性依存弧数据,即构成专家系统所需的规则库。
2.根据权利要求1所述的基于语义分析的专家系统规则库建立方法,其特征在于,步骤1.1具体为:
步骤1.11、读取用户和现场相关领域提供的半结构化或非结构化数据作为样本数据,遍历样本数据,检查是否存在重复性数据,若是,则删除重复性数据,否则进入步骤1.12;
步骤1.12、删减数据量极少的属性列。
3.根据权利要求2所述的基于语义分析的专家系统规则库建立方法,其特征在于,步骤1.1中还包括数据增强,扩充样本数据的步骤,具体为:采用修改数值型数据产生绝对值为0.01正负浮动方式,对已有的样本数据进行扩充。
4.根据权利要求1-3任一所述的基于语义分析的专家系统规则库建立方法,其特征在于,步骤1.2具体为:
根据样本数据中已经存在的逻辑关系,建立样本数据属性之间的关系,并设置数据属性之间的语义依存弧关系,以数据属性列共5列为例,最后一列为语义依存弧关系示例,共包括以下4类:
(1)属性关系“1对1”的样本数据及语义依存弧关系表示为:
[属性值A,属性值B,属性值C,属性值D,属性值E,1_5]
其中,语义依存弧关系种类数为C5 2;
(2)属性关系“2对1”的样本数据及语义依存弧关系表示为:
[属性值A,属性值B,属性值C,属性值D,属性值E,2_3_5]
其中,语义依存弧关系种类数为C5 2*C3 1;
(3)属性关系“3对1”的样本数据及语义依存弧关系表示为:
[属性值A,属性值B,属性值C,属性值D,属性值E,1_3_4_5]
其中,语义依存弧关系种类数为C5 3*C2 1;
(4)属性关系“4对1”的样本数据及语义依存弧关系表示为:
[属性值A,属性值B,属性值C,属性值D,属性值E,1_2_3_4_5]
其中,语义依存弧关系种类数为C5 1。
5.根据权利要求4所述的基于语义分析的专家系统规则库建立方法,其特征在于:步骤1.3中,根据语义依存弧关系种类数,划分样本数据,以数据属性列共5列为例,将样本数据分为4份样本数据;并按照6比4的比例关系将每一份样本数据分为训练集和测试集两部分。
6.根据权利要求5所述的基于语义分析的专家系统规则库建立方法,其特征在于:步骤2.1中采用LBFGS算法,默认c1和c2参数设置为0.1,最大迭代次数为100,对各个训练集数据分别进行学习。
7.根据权利要求6所述的基于语义分析的专家系统规则库建立方法,其特征在于:步骤2.2使用各个测试集对相应语义依存模型进行性能F1测试。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110631188.XA CN113591484B (zh) | 2021-06-07 | 2021-06-07 | 一种基于语义分析的专家系统规则库建立方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110631188.XA CN113591484B (zh) | 2021-06-07 | 2021-06-07 | 一种基于语义分析的专家系统规则库建立方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113591484A CN113591484A (zh) | 2021-11-02 |
CN113591484B true CN113591484B (zh) | 2023-07-21 |
Family
ID=78243453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110631188.XA Active CN113591484B (zh) | 2021-06-07 | 2021-06-07 | 一种基于语义分析的专家系统规则库建立方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113591484B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106598946A (zh) * | 2016-12-14 | 2017-04-26 | 厦门市美亚柏科信息股份有限公司 | 一种内容提取方法及装置 |
CN112733547A (zh) * | 2020-12-28 | 2021-04-30 | 北京计算机技术及应用研究所 | 一种利用语义依存分析的中文问句语义理解方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106484682B (zh) * | 2015-08-25 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 基于统计的机器翻译方法、装置及电子设备 |
-
2021
- 2021-06-07 CN CN202110631188.XA patent/CN113591484B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106598946A (zh) * | 2016-12-14 | 2017-04-26 | 厦门市美亚柏科信息股份有限公司 | 一种内容提取方法及装置 |
CN112733547A (zh) * | 2020-12-28 | 2021-04-30 | 北京计算机技术及应用研究所 | 一种利用语义依存分析的中文问句语义理解方法 |
Non-Patent Citations (1)
Title |
---|
基于非分类关系提取技术的知识图谱构建;韦韬;王金华;;工业技术创新(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113591484A (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108932192B (zh) | 一种基于抽象语法树的Python程序类型缺陷检测方法 | |
US8051410B2 (en) | Apparatus for migration and conversion of software code from any source platform to any target platform | |
CN107203468B (zh) | 一种基于ast的软件版本演化对比分析方法 | |
CN111860981B (zh) | 一种基于lstm深度学习的企业国民行业类别预测方法及系统 | |
US12106095B2 (en) | Deep learning-based java program internal annotation generation method and system | |
CN113255614A (zh) | 一种基于视频分析的rpa流程自动生成方法与系统 | |
CN109977205A (zh) | 一种计算机自主学习源代码的方法 | |
CN117215935A (zh) | 一种基于多维度代码联合图表示的软件缺陷预测方法 | |
CN113138920A (zh) | 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置 | |
CN114757286A (zh) | 一种基于条件对抗生成网络的多类别故障数据生成方法 | |
CN113901463B (zh) | 面向概念漂移的可解释Android恶意软件检测方法 | |
CN108228232B (zh) | 一种针对程序中循环问题的自动修复方法 | |
CN113591484B (zh) | 一种基于语义分析的专家系统规则库建立方法 | |
CN117093260A (zh) | 一种基于决策树分类算法的融合模型网站结构解析方法 | |
CN116166789A (zh) | 一种方法命名精准推荐和审查方法 | |
CN113377962B (zh) | 一种基于图像识别和自然语言处理的智能过程模拟方法 | |
CN115080444A (zh) | 测试用例转换方法、装置、电子设备及存储介质 | |
CN113254428A (zh) | 一种基于决策树的缺失数据填充方法及系统 | |
CN109918286A (zh) | 一种静态代码分析的处理方法及装置 | |
CN112100314B (zh) | 一种基于软件开发问答网站的api教程汇编生成方法 | |
CN115080974B (zh) | 一种恶意pe文件检测方法、装置、设备及介质 | |
Bohlin | A designer's guide for Grey-Box Identification of nonlinear dynamic systems with random disturbances | |
CN115390845A (zh) | 一种基于图像理解的跨平台脚本记录和迁移方法 | |
CN117786702A (zh) | 一种基于命名实体识别技术的源码漏洞切片提取方法 | |
CN118568158A (zh) | 数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |