CN105844335A - 一种基于6w知识表示的自学习方法 - Google Patents
一种基于6w知识表示的自学习方法 Download PDFInfo
- Publication number
- CN105844335A CN105844335A CN201510022109.XA CN201510022109A CN105844335A CN 105844335 A CN105844335 A CN 105844335A CN 201510022109 A CN201510022109 A CN 201510022109A CN 105844335 A CN105844335 A CN 105844335A
- Authority
- CN
- China
- Prior art keywords
- mark
- knowledge
- coding
- type
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于6W知识表示的自学习方法,包括以下步骤:定义每个概念的标识结构;定义用于描述概念与概念之间联系的标注结构;定义用于描述知识的知识编码;定义用于评估知识可信度的知识可信度规则,得到知识可信度;定义知识结构组织模型;其中,所述知识结构组织模型由所述标识编码、所述标注编码、所述知识编码和所述知识可信度组合而成;基于所述知识结构组织模型进行知识自学习。本发明提供的基于6W知识表示的自学习方法,通过分别定义标识结构、标注结构和知识结构,再基于所定义的标识结构、标注结构和知识结构,快速高效的扩充知识,有利于智能智慧体系建设。
Description
技术领域
本发明属于信息处理技术领域,具体涉及一种基于6W知识表示的自学习方法。
背景技术
智能智慧体系建设将是未来的主题,智能智慧体系建设的基础是知识,智能智慧体系所具有的知识数量直接影响到智能智慧体系的性能。现有技术中,标准知识的数量扩充能力有限,从而阻碍了智能智慧体系建设。
发明内容
针对现有技术存在的缺陷,本发明提供一种基于6W知识表示的自学习方法,可有效解决上述问题。
本发明采用的技术方案如下:
本发明提供一种基于6W知识表示的自学习方法,包括以下步骤:
S1,定义每个概念的标识结构;其中,所述标识结构包括标识编码;
S2,定义用于描述概念与概念之间联系的标注结构;其中,所述标注结构包括标注编码;
S3,定义用于描述知识的知识编码;其中,所述知识编码包括三部分,分别为主题编码区域、问题编码区域和知识顺序编码区域;
S4,定义用于评估知识可信度的知识可信度规则,得到知识可信度;
S5,定义知识结构组织模型;其中,所述知识结构组织模型由所述标识编码、所述标注编码、所述知识编码和所述知识可信度组合而成;并且,所述标识编码位于最底层,所述标注编码位于所述标识编码的上一层,所述知识编码位于所述标注编码的上一层;
S6,基于所述知识结构组织模型进行知识自学习。
优选的,S1具体为:
所述标识结构包括三部分,分别为:标识编码、标识名称和标识类型类别;
(1)所述标识编码包括:
标识头编码区域、数据元层级编码区域、概念模型一级大类编码区域、概念模型二级小类编码区域、类型编码区域和标识顺序编码区域;
其中,所述标识头编码区域,用于标识编码的类型为标识编码;
所述数据元层级编码区域,用于标识概念所属的数据元层级;
所述概念模型一级大类编码区域,用于标识概念所属的一级大类;
所述概念模型二级小类编码区域,用于标识概念所属的二级小类;其中,概念所属的二级小类为概念所属的一级大类细分后的类别;
所述类型编码区域,用于标识所述标识编码的类型;
所述标识顺序编码区域,用于标识归属于同一种一级大类、二级小类下的不同概念;
(2)所述标识名称用于描述概念名称,并且,所述标识名称采用概念所属不同层级之间继承关系的表现形式进行描述;
(3)所述标识类型类别包括标识类别和标识类型;
所述标识类别用于描述概念所属的一级大类和所述一级大类细分后的二级小类;
所述标识类型用于描述所述标识类别所对应的数据类型,便于计算机处理识别。
优选的,对于所述数据元层级编码区域,所标识的概念所属的数据元层级包括三层,分别为:概念数据元、逻辑数据元和应用数据元。
优选的,所述标识名称采用概念所属不同层级之间继承关系的表现形式进行描述,包括两类,分别为表示形式的标识名称和简化形式的标识名称;
所述表示形式的标识名称具体为:
(1)定义以下的四层结构:
第一层结构,系列:对象、活动;
第二层结构,集合:对象、活动、参与者、结果;
第三层结构,实体:参与者、活动、时间、地点、结果、对象、特征;
第四层结构,子集:时间、地点、对象、特征;
(2)获得概念所属的对应的四层结构,将所获得的四层结构组合到一起,其中,结构与结构之间定义分隔符号,每个结构又分为若干阶,定义相邻阶之间的分隔符;每阶中又有若干位,每个概念的概念名称代表一位;如果某个结构中的某个概念具有附带特征或者属性的,则在该概念后首先增加分隔符,再在分隔符后面增加所述附带特征或者属性,由此组合得到所述表示形式的标识名称;
所述简化形式的标识名称为:将所述表示形式的标识名称中的每个概念名称映射为概念标识,即得到所述简化形式的标识名称。
优选的,所述标识类别中的所述一级大类以及一级大类细分后的二级小类参见下表:
一级大类 | 二级小类 |
时间类 | 时间、次序、步长、速节 |
地点类 | 绝对、相对、参照、拓扑 |
对象类 | 设施、设备、零部件、材料 |
参与者类 | 作业者、执行者、操作者、参与者 |
活动类 | 领域、过程、活动、设计、规划、实施、审核、总结 |
资料类 | 矢量数据、报告、流资料、附近 |
特征类 | 值域、编码、描述、逻辑 |
参照类 | 范围、状态、性质、场景 |
所述标识类型包括:系列类型、集合类型、实体类型、子集类型、数字类型、字符类型、数据体、布尔型类型、复合型类型、文本类型、超文本类型、二进制类型、时间类型、枚举类型、枚举值类型、资料类型、附件类型、特征值类型、报告类型、图件类型、光盘类型、磁带类型和预留类型。
优选的,S2,所述标注结构包括六部分,分别为:标注编码、标注符号、标注名称、标注参数、标注描述和标注主体;
(1)所述标注编码包括:
标注头编码区域、标注大类编码区域、标注小类编码区域和标注顺序编码区域;
其中,所述标注头编码区域,用于表示编码的类型为标注编码;
所述标注大类编码区域,用于表示联系所属的大类;
所述标注小类编码区域,用于表示联系所属的小类;其中,联系所属的小类为联系所属的大类细分后的类别;
所述标注顺序编码区域用于表示属于同一小类下的联系的编码;
(2)所述标注符号为联系的符号表达形式;
(3)所述标注名称用于直观明确的描述联系的含义;
(4)所述标注参数用于表示发生联系的各个概念的名称以及各个概念在所述联系中的角色;
(5)所述标注描述,用于以自然语言描述或者函数表达式形式,清晰描述联系本身;
(6)所述标注主体是联系所依附的实体。
优选的,将所述标注结构区分为通用标注类别结构和扩展标注类别结构;所述通用标注类别结构和所述扩展标注类别结构的区别为:所涉及到的标注大类编码区域的范围不相同。
优选的,S3中,所述知识编码由三段组合而成,段间采用分隔符分隔;所述三段分别为:主题编码区域、问题编码区域和知识顺序编码区域;并且,所述主题编码区域由多个具有继承关系的子主题编码区域组合而成,位于最底层的子主题为所描述的知识所归属的主题;
每个所述子主题编码区域均包括:主题头编码区域、主题分类编码区域、主题子类编码区域、层级编码区域和主题顺序编码区域;
其中,所述主题头编码区域,用于标识编码的类型为主题编码;
所述主题分类编码区域,用于标识知识所归属的一级主题类别;
所述主题子类编码区域,用于标识知识所归属的二级主题类别;其中,所述二级主题类别为所述一级主题类别细分后的类别;
所述层级编码区域,用于标识知识所归属的层级;所述层级为所述二级主题类别细分后的类别;
所述主题顺序编码区域,用于标识归属于相同一级主题类别以及相同二级主题类别的各个主题的顺序;
所述问题编码区域包括:问题头编码区域、层级编码区域、对象编码区域和子对象编码区域;
其中,所述问题头编码区域,用于标识编码的类型为问题编码;
所述层级编码区域,用于标识问题所归属的层级;
所述对象编码区域,用于标识问题所归属的一级对象;其中,所述一级对象为所述层级细分后的对象;
所述子对象编码区域,用于标识问题所归属的二级对象;其中,所述二级对象为所述一级对象细分后的对象。
优选的,S6具体为:
S6.1,建立可动态更新的标识样本库、样注样本库和标准知识库;
其中,所述标识样本库用于存储所有的标识编码;所述标注样本库用于存储所有的标注编码;所述标准知识库用于存储已验证的知识编码;
S6.2,每当知识自学习的触发时刻到来时,按一定的选取规则从所述样注样本库中读取指定标注编码;
S6.3,对所述指定标注编码进行分析,得到所述指定标注编码所涉及到的概念名称、概念角色和联系规则;即:各个所述概念名称之间的联系为符合所述联系规则的联系;
S6.4,假设所述指定标注编码所涉及到的概念名称的数量为n,假设所述标识样本库中共存在m个标识,其中,m>n;
则:从m个标识中选取n个标识组为一个单元组,由此共得到p个单元组;
对于每个单元组所涉及到的n个标识,再通过调配n个标识的角色,由此得到a种组合;
通过上述方式,可共得到p*a组组合;
S6.5,对于p*a组组合中的每组组合,均执行以下操作:
对于任意一组组合,记为组合i,在所述联系规则的约束下,组合i即转化为初始知识;
验证所述初始知识是否与所述标准知识库中的某个标准知识相同,如果相同,则删除所述初始知识;如果不相同,进一步验证所述初始知识是否为伪知识,如果是,则删除所述初始知识;如果否,则表明所述初始知识为真知识,将其作为标准知识,存入所述标准知识库,由此扩大了标准知识库存储的标准知识的数量。
本发明的有益效果如下:
本发明提供的基于6W知识表示的自学习方法,通过分别定义标识结构、标注结构和知识结构,再基于所定义的标识结构、标注结构和知识结构,快速高效的扩充知识,有利于智能智慧体系建设。
附图说明
图1为本发明提供的基于6W知识表示的自学习方法的流程示意图;
图2为标识编码的示例图;
图3为标注编码结构图;
图4为通用标注类别结构图;
图5为扩展标注类别结构图;
图6为知识编码结构图;
图7为主题结构图;
图8为问题结构图。
具体实施方式
以下结合附图对本发明进行详细说明:
本发明提供一种基于6W知识表示的自学习方法,所述6W原则本来是指诺贝尔文学奖获得者英国作家吉卜林的思考问题、解决问题的“6W原则”,在此基础上明确了业务逻辑6W描述方法,即“Where(什么地方)、When(什么时间)、Who(什么人)、Which(针对啥)、What(做了什么,含如何做)、Why(为什么)”。
由于数据关联成信息,信息关联成知识,知识关联成智慧,数据、信息和知识均可用概念固化,知识可理解为概念与概念之间的联系,概念用语义唯一标识,在知识体系中,将概念用标识表达;将联系用符号进行标注。标识和标注组合成知识元,知识元之间彼此结合成知识。本发明中,通过分别定义标识结构、标注结构和知识结构,再基于所定义的标识结构、标注结构和知识结构,快速高效的扩充知识,有利于智能智慧体系建设。
具体的,如图1所示,包括以下步骤:
S1,定义每个概念的标识结构;其中,标识结构包括标识编码;
标识结构具体可包括三部分,分别为:标识编码、标识名称和标识类型类别;即:<标识编码><标识名称><标识类型类别>。如表1所示,为标识结构示例。
表1
(1)标识编码
标识编码包括:标识头编码区域、数据元层级编码区域、概念模型一级大类编码区域、概念模型二级小类编码区域、类型编码区域和标识顺序编码区域;
(1.1)标识头编码区域
标识头编码区域用于标识编码的类型为标识编码;
(1.2)数据元层级编码区域
数据元层级编码区域用于标识概念所属的数据元层级;具体的,所标识的概念所属的数据元层级包括三层,分别为:概念数据元、逻辑数据元和应用数据元。
(1.3)概念模型一级大类编码区域
概念模型一级大类编码区域用于标识概念所属的一级大类;
(1.4)概念模型二级小类编码区域
概念模型二级小类编码区域,用于标识概念所属的二级小类;其中,概念所属的二级小类为概念所属的一级大类细分后的类别;
(1.5)类型编码区域
类型编码区域用于标识标识编码的类型;
(1.6)标识顺序编码区域
用于标识归属于同一种一级大类、二级小类下的不同概念。
例如,如图2所示,为标识编码的示例,采用36进制表达,36进制使用数字10位和字母26位构成,其取值顺序为[0-9A-Z]。标识编码用于知识自学习与知识计算使用,标识编码由六部分组成:
第一部分为1位字母,用E表示为标识编码;
第二部分为1位,用于表示数据元层级,其中,可用1表示概念数据元,2表示逻辑数据元,3表示应用数据元,4-9A-Z为预留空间;如表2所示,为数据元层级定义示例。
表2
数据元类型 | 定义码 |
概念数据元 | 1 |
逻辑数据元 | 2 |
应用数据元 | 3 |
预留 | 4-9A-Z |
第三部分为1位,用于表示原子模型的一级大类编码;
第四部分为1位,用于表示原子模型的二级大类编码。
(2)标识名称
标识名称用于描述概念名称,并且,标识名称采用概念所属不同层级之间继承关系的表现形式进行描述;
具体的,标识名称采用概念所属不同层级之间继承关系的表现形式进行描述,包括两类,分别为表示形式的标识名称和简化形式的标识名称;
(2.1)表示形式的标识名称
表示形式的标识名称具体为:
a)定义以下的四层结构:
第一层结构,系列:对象、活动;
第二层结构,集合:对象、活动、参与者、结果;
第三层结构,实体:参与者、活动、时间、地点、结果、对象、特征;
第四层结构,子集:时间、地点、对象、特征;
如果活动有子活动,对象中又子对象时,标识名称的四层结构定义如下:
系列:对象、活动;
集合:对象、活动、参与者、结果;
实体:参与者、活动!子活动、时间、地点、结果、对象、特征;
子集:时间、地点、对象!子对象、特征。
B)获得概念所属的对应的四层结构,将所获得的四层结构组合到一起,其中,结构与结构之间定义分隔符号,每个结构又分为若干阶,定义相邻阶之间的分隔符;每阶中又有若干位,每个概念的概念名称代表一位;如果某个结构中的某个概念具有附带特征或者属性的,则在该概念后首先增加分隔符,再在分隔符后面增加附带特征或者属性,由此组合得到表示形式的标识名称;
如表3所示,为岩屑标识名称的描述内容,其均是作为约束来限定岩屑描述内容。
表3
层次 | 描述内容 |
系列 | #M/井(M/单位).#C/井筒工程 |
集合 | #M/井筒(M/井号).#C/地质录井.#C/录井公司.#C/地质总结报告 |
实体 | #C/地质师.#C/岩屑录井...#M/井段(深度(顶界,底界)).. |
子集 | .#M/深度.#M/岩屑(M/编号).描述内容 |
(2.1)简化形式的标识名称
简化形式的标识名称为:将表示形式的标识名称中的每个概念名称映射为概念标识,即得到简化形式的标识名称。
如表4所示,为简化形式的标识名称的示例。
表4
层次 | 描述内容 |
系列 | #M/301235(M/412358).#C/301244530121_ |
集合 | #M/301244(M/701892).#C/313321515325.#C/515325411697.#C/313321625410_ |
实体 | #C/420135.#C/351487515325...#M/353621(231101(231102,231103)).._ |
子集 | .#M/231101.#M/351487(M/100201).755841 |
(3)标识类型类别包括标识类别和标识类型;
标识类型类别用于将标识分类管理,以便自学习阶段用于演绎学习。
(3.1)标识类别
标识类别用于描述概念所属的一级大类和一级大类细分后的二级小类;
标识类别中的一级大类以及一级大类细分后的二级小类参见表5:
表5
一级大类 | 二级小类 |
时间类 | 时间、次序、步长、速节 |
地点类 | 绝对、相对、参照、拓扑 |
对象类 | 设施、设备、零部件、材料 |
参与者类 | 作业者、执行者、操作者、参与者 |
活动类 | 领域、过程、活动、设计、规划、实施、审核、总结 |
资料类 | 矢量数据、报告、流资料、附近 |
特征类 | 值域、编码、描述、逻辑 |
参照类 | 范围、状态、性质、场景 |
(3.2)标识类型
标识类型用于描述标识类别所对应的数据类型,便于计算机处理识别。
标识类型包括:系列类型、集合类型、实体类型、子集类型、数字类型、字符类型、数据体、布尔型类型、复合型类型、文本类型、超文本类型、二进制类型、时间类型、枚举类型、枚举值类型、资料类型、附件类型、特征值类型、报告类型、图件类型、光盘类型、磁带类型和预留类型。
S2,定义用于描述概念与概念之间联系的标注结构;其中,标注结构包括标注编码;
标注结构包括六部分,分别为:标注编码、标注符号、标注名称、标注参数、标注描述和标注主体;格式为<标注编码>[标注符号]<标注名称>(<标注参数>)<标注描述><标注主体>,如表6所示,为标注结构举例。
表6
标注编码 | F0100010001 |
标注符号 | + |
标注名称 | Add |
标注参数 | (in int a,in int b,out int c) |
标注描述 | 对两个数值类型操作数计算之和,语义表示为:a+b=c |
标注主体 | Math |
(1)标注编码
标注编码用于知识自学习与知识计算使用,标注编码包括标注头编码区域、标注大类编码区域、标注小类编码区域和标注顺序编码区域;
(1.1)标注头编码区域
标注头编码区域,用于表示编码的类型为标注编码;
(12)标注大类编码区域
标注大类编码区域,用于表示联系所属的大类;
(1.3)标注小类编码区域
标注小类编码区域,用于表示联系所属的小类;其中,联系所属的小类为联系所属的大类细分后的类别;
(1.4)标注顺序编码区域
标注顺序编码区域用于表示属于同一小类下的联系的编码;
例如,标注编码由四部分组成:
第一部分为1位字母,F表示为标注编码;
第二部分为2位,用于表示标注的顶层分类也就是大类;
第三部分为4位,属于自由变换区域,可以根据大类定义自己的小类或者子类,也可以不定义与第四部分合在一起作为方法编码区;
第四部分为4位,用于表示标注顺序编码,如图3所示,为标注编码结构图。
其中标注编码又区分为通用标注类别编码和扩展标注类别编码。
a)通用标注类别编码,是通用的算法提供的标注,通用的算法包括:算术、时间、转换、缺失值、随机数、检索、字符串等,如图4所示,为通用标注类别结构图,如表7所示,为通用标注类别编码举例。
表7
b)扩展标注类别,是由通用的标注组合而形成的复合标注类别,复合类标注用于解决具体业务问题,如图5所示,为扩展标注类别结构图。
(2)标注符号为联系的符号表达形式;
标注符号是为了书写方便、又易于理解,而进行简化为符号的操作,仅对常用符号定义,也可以不定义,标注符号为可选项。标注符号主要应用于计算公式型的知识录入,如表8所示,为常用标注符号。
表8
标注符号 | 标注名称 | 标注描述 |
+ | Add | 加法算法 |
- | Subtract | 减法算法 |
* | Multiply | 乘法算法 |
/ | Divide | 除法算法 |
% | Mod | 取模算法 |
(3)标注名称用于直观明确的描述联系的含义;
标注名称可区分为通用型标注名称和扩展型标注名称。通用型标注名称以英文单词、单词缩写、单词短语等形式表达,能够直观明确表达标注含义,每个单词首字母大写。对于扩展型标注名称,通常是知识发现过程中产生的新标注,该名称可以使用挖掘结果模型文件名称,如表9所示为标注名称示例。
表9
(4)标注参数用于表示发生联系的各个概念的名称以及各个概念在联系中的角色;
具体的,标注参数是标注可以处理的类型以及参数在处理过程中所做的角色,参数以小括号或者称圆括号为边界,参数之间以逗号分隔,格式为(<参数角色参数类型参数名称>[<参数角色参数类型参数名称>]),如表10所示为,为标注参数示例。
表10
(5)标注描述,用于以自然语言描述或者函数表达式形式,清晰描述联系本身;
具体的,标注描述是为人提供的便于理解标注本身的含义,能处理的事情;标注描述是以自然语言描述或者是函数表达式,能够清晰描述标注本身,无歧义,如表11所示,为标注描述示例。
表11
(6)标注主体是联系所依附的实体。
具体的,标注主体是标注所依附的实体,也是标注真正实现的过程,主体在算法库中是一个类,每个类名称唯一,每个类对应多个标注,格式为<编码><名称><描述><实现类>,如表12所示,为标注主体示例。
表12
此外,本发明中,将标注结构区分为通用标注类别结构和扩展标注类别结构;通用标注类别结构和扩展标注类别结构的区别为:所涉及到的标注大类编码区域的范围不相同。
S3,定义用于描述知识的知识编码;其中,知识编码包括三部分,分别为主题编码区域、问题编码区域和知识顺序编码区域;
具体的,知识编码为用于对知识本身管理的编码规则,知识编码由三段组合而成,段间采用分隔符分隔;三段分别为:主题编码区域、问题编码区域和知识顺序编码区域;主题作为知识的一部分,其用于知识的组织与分类,其编码规则将作为知识编码规则的一部分,主题是在业务逻辑模型的基础之上自动生成。并且,主题编码区域由多个具有继承关系的子主题编码区域组合而成,位于最底层的子主题为所描述的知识所归属的主题;
例如,知识编码分三段组成:第一段为主题编码,第二段为问题编码,第三部分为知识顺序编码,以K开头,后面为10位长数字字符组合而成的36进制。三段共同构成知识编码。段内用逗点分割,段间用下划线分割,如图6所示,为知识编码结构图。
(1)子主题编码区域
每个子主题编码区域均包括:主题头编码区域、主题分类编码区域、主题子类编码区域、层级编码区域和主题顺序编码区域;
其中,主题头编码区域,用于标识编码的类型为主题编码;
主题分类编码区域,用于标识知识所归属的一级主题类别;
主题子类编码区域,用于标识知识所归属的二级主题类别;其中,二级主题类别为一级主题类别细分后的类别;
层级编码区域,用于标识知识所归属的层级;层级为二级主题类别细分后的类别;
主题顺序编码区域,用于标识归属于相同一级主题类别以及相同二级主题类别的各个主题的顺序;
例如,主题编码规则将主题分成五个部分,分别是主题头、主题分类、主题子类、层级、顺序序号,如图7所示,为主题结构图。
主题头为一位,以S开头表示主题编码;
主题分类为两位,是主题的大分类编码;
主题子类为两位,是主题分类的二级子类;
层级为两位,层级代表领(01)、工程(02)、项目(03)、任务(04)、流程(05)、活动(06);
顺序序号为四位,是主题的顺序码。
(2)问题编码区域
问题同样作为知识的一部分,其用于紧邻知识的分类,同一问题下的知识用于解决同一问题下得问题,而这部分知识所形成的知识网被称为知识小网络。
问题编码区域包括:问题头编码区域、层级编码区域、对象编码区域和子对象编码区域;
其中,问题头编码区域,用于标识编码的类型为问题编码;
层级编码区域,用于标识问题所归属的层级;
对象编码区域,用于标识问题所归属的一级对象;其中,一级对象为层级细分后的对象;
子对象编码区域,用于标识问题所归属的二级对象;其中,二级对象为一级对象细分后的对象。
例如,问题编码规则将问题分为四个部分:问题头、层级、对象、子对象,如图8所示,为问题结构图。
问题头为一位,以P开头表示主题编码;
层级为两位,代表领域(01)、工程(02)、项目(03)、任务(04)、流程(05)、活动(06);
对象为五位,为问题的对象;
子对象为三位,为问题对象的子对象。
S4,定义用于评估知识可信度的知识可信度规则,得到知识可信度;
例如,知识可信度规则定义从0到100进行取值,当知识可信度取值为0时,该知识完全不可信,则是伪知识,当知识可信度为100时,该知识完全可行,放入元知识中。知识可信度是对知识评估值,也是对知识正确性的评价,部分可信知识都会作为方法型知识保存,大概率可信知识也可以放到元知识管理。
S5,定义知识结构组织模型;其中,知识结构组织模型由标识编码、标注编码、知识编码和知识可信度组合而成;并且,标识编码位于最底层,标注编码位于标识编码的上一层,知识编码位于标注编码的上一层;
具体的,知识是多层次结构,顶层为一个大标注和若干个标识组合而成,最小标注形成的知识仅有一层,因此这里仅定义顶层结构形式。知识结构的格式为<知识编码><标注编码>(<标识编码>[,<标识编码>])<可信度>,如表13所示,为知识结构示例。
表13
知识编码 | S0100040000.S0100040002_P000010100_K0000045872 |
标注编码 | F0100010001 |
标识编码 | (E3100015096,E3100015491,E3100016546) |
可信度 | 100 |
此外,知识包括元知识和业务知识。元知识包括知识元、标识、标注、规则,是它们的统称,任何一部分都是元知识,都属于元知识,元知识的知识编码没有前2段,元知识包括规则和元规则,规则是概念级的数据元之间的联系,没有具体问题与主题。元规则是最高层次的抽象,其描述的是标识类别与标注类别之间的联系。业务知识是针对某一业务相关的知识,业务知识可以有多个主题编码,编码之间用逗点分割。
S6,基于知识结构组织模型进行知识自学习。
本步骤具体为:
S6.1,建立可动态更新的标识样本库、样注样本库和标准知识库;
其中,标识样本库用于存储所有的标识编码;标注样本库用于存储所有的标注编码;标准知识库用于存储已验证的知识编码;
S6.2,每当知识自学习的触发时刻到来时,按一定的选取规则从样注样本库中读取指定标注编码;
S6.3,对指定标注编码进行分析,得到指定标注编码所涉及到的概念名称、概念角色和联系规则;即:各个概念名称之间的联系为符合联系规则的联系;
S6.4,假设指定标注编码所涉及到的概念名称的数量为n,假设标识样本库中共存在m个标识,其中,m>n;
则:从m个标识中选取n个标识组为一个单元组,由此共得到p个单元组;
对于每个单元组所涉及到的n个标识,再通过调配n个标识的角色,由此得到a种组合;
通过上述方式,可共得到p*a组组合;
S6.5,对于p*a组组合中的每组组合,均执行以下操作:
对于任意一组组合,记为组合i,在联系规则的约束下,组合i即转化为初始知识;
验证初始知识是否与标准知识库中的某个标准知识相同,如果相同,则删除初始知识;如果不相同,进一步验证初始知识是否为伪知识,如果是,则删除初始知识;如果否,则表明初始知识为真知识,将其作为标准知识,存入标准知识库,由此扩大了标准知识库存储的标准知识的数量。
本发明提供的基于6W知识表示的自学习方法,通过分别定义标识结构、标注结构和知识结构,再基于所定义的标识结构、标注结构和知识结构,快速高效的扩充知识,有利于智能智慧体系建设。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
Claims (9)
1.一种基于6W知识表示的自学习方法,其特征在于,包括以下步骤:
S1,定义每个概念的标识结构;其中,所述标识结构包括标识编码;
S2,定义用于描述概念与概念之间联系的标注结构;其中,所述标注结构包括标注编码;
S3,定义用于描述知识的知识编码;其中,所述知识编码包括三部分,分别为主题编码区域、问题编码区域和知识顺序编码区域;
S4,定义用于评估知识可信度的知识可信度规则,得到知识可信度;
S5,定义知识结构组织模型;其中,所述知识结构组织模型由所述标识编码、所述标注编码、所述知识编码和所述知识可信度组合而成;并且,所述标识编码位于最底层,所述标注编码位于所述标识编码的上一层,所述知识编码位于所述标注编码的上一层;
S6,基于所述知识结构组织模型进行知识自学习。
2.根据权利要求1所述的基于6W知识表示的自学习方法,其特征在于,S1具体为:
所述标识结构包括三部分,分别为:标识编码、标识名称和标识类型类别;
(1)所述标识编码包括:
标识头编码区域、数据元层级编码区域、概念模型一级大类编码区域、概念模型二级小类编码区域、类型编码区域和标识顺序编码区域;
其中,所述标识头编码区域,用于标识编码的类型为标识编码;
所述数据元层级编码区域,用于标识概念所属的数据元层级;
所述概念模型一级大类编码区域,用于标识概念所属的一级大类;
所述概念模型二级小类编码区域,用于标识概念所属的二级小类;其中,概念所属的二级小类为概念所属的一级大类细分后的类别;
所述类型编码区域,用于标识所述标识编码的类型;
所述标识顺序编码区域,用于标识归属于同一种一级大类、二级小类下的不同概念;
(2)所述标识名称用于描述概念名称,并且,所述标识名称采用概念所属不同层级之间继承关系的表现形式进行描述;
(3)所述标识类型类别包括标识类别和标识类型;
所述标识类别用于描述概念所属的一级大类和所述一级大类细分后的二级小类;
所述标识类型用于描述所述标识类别所对应的数据类型,便于计算机处理识别。
3.根据权利要求2所述的基于6W知识表示的自学习方法,其特征在于,对于所述数据元层级编码区域,所标识的概念所属的数据元层级包括三层,分别为:概念数据元、逻辑数据元和应用数据元。
4.根据权利要求2所述的基于6W知识表示的自学习方法,其特征在于,所述标识名称采用概念所属不同层级之间继承关系的表现形式进行描述,包括两类,分别为表示形式的标识名称和简化形式的标识名称;
所述表示形式的标识名称具体为:
(1)定义以下的四层结构:
第一层结构,系列:对象、活动;
第二层结构,集合:对象、活动、参与者、结果;
第三层结构,实体:参与者、活动、时间、地点、结果、对象、特征;
第四层结构,子集:时间、地点、对象、特征;
(2)获得概念所属的对应的四层结构,将所获得的四层结构组合到一起,其中,结构与结构之间定义分隔符号,每个结构又分为若干阶,定义相邻阶之间的分隔符;每阶中又有若干位,每个概念的概念名称代表一位;如果某个结构中的某个概念具有附带特征或者属性的,则在该概念后首先增加分隔符,再在分隔符后面增加所述附带特征或者属性,由此组合得到所述表示形式的标识名称;
所述简化形式的标识名称为:将所述表示形式的标识名称中的每个概念名称映射为概念标识,即得到所述简化形式的标识名称。
5.根据权利要求2所述的基于6W知识表示的自学习方法,其特征在于,所述标识类别中的所述一级大类以及一级大类细分后的二级小类参见下表:
所述标识类型包括:系列类型、集合类型、实体类型、子集类型、数字类型、字符类型、数据体、布尔型类型、复合型类型、文本类型、超文本类型、二进制类型、时间类型、枚举类型、枚举值类型、资料类型、附件类型、特征值类型、报告类型、图件类型、光盘类型、磁带类型和预留类型。
6.根据权利要求1所述的基于6W知识表示的自学习方法,其特征在于,S2,所述标注结构包括六部分,分别为:标注编码、标注符号、标注名称、标注参数、标注描述和标注主体;
(1)所述标注编码包括:
标注头编码区域、标注大类编码区域、标注小类编码区域和标注顺序编码区域;
其中,所述标注头编码区域,用于表示编码的类型为标注编码;
所述标注大类编码区域,用于表示联系所属的大类;
所述标注小类编码区域,用于表示联系所属的小类;其中,联系所属的小类为联系所属的大类细分后的类别;
所述标注顺序编码区域用于表示属于同一小类下的联系的编码;
(2)所述标注符号为联系的符号表达形式;
(3)所述标注名称用于直观明确的描述联系的含义;
(4)所述标注参数用于表示发生联系的各个概念的名称以及各个概念在所述联系中的角色;
(5)所述标注描述,用于以自然语言描述或者函数表达式形式,清晰描述联系本身;
(6)所述标注主体是联系所依附的实体。
7.根据权利要求6所述的基于6W知识表示的自学习方法,其特征在于,将所述标注结构区分为通用标注类别结构和扩展标注类别结构;所述通用标注类别结构和所述扩展标注类别结构的区别为:所涉及到的标注大类编码区域的范围不相同。
8.根据权利要求1所述的基于6W知识表示的自学习方法,其特征在于,
S3中,所述知识编码由三段组合而成,段间采用分隔符分隔;所述三段分别为:主题编码区域、问题编码区域和知识顺序编码区域;并且,所述主题编码区域由多个具有继承关系的子主题编码区域组合而成,位于最底层的子主题为所描述的知识所归属的主题;
每个所述子主题编码区域均包括:主题头编码区域、主题分类编码区域、主题子类编码区域、层级编码区域和主题顺序编码区域;
其中,所述主题头编码区域,用于标识编码的类型为主题编码;
所述主题分类编码区域,用于标识知识所归属的一级主题类别;
所述主题子类编码区域,用于标识知识所归属的二级主题类别;其中,所述二级主题类别为所述一级主题类别细分后的类别;
所述层级编码区域,用于标识知识所归属的层级;所述层级为所述二级主题类别细分后的类别;
所述主题顺序编码区域,用于标识归属于相同一级主题类别以及相同二级主题类别的各个主题的顺序;
所述问题编码区域包括:问题头编码区域、层级编码区域、对象编码区域和子对象编码区域;
其中,所述问题头编码区域,用于标识编码的类型为问题编码;
所述层级编码区域,用于标识问题所归属的层级;
所述对象编码区域,用于标识问题所归属的一级对象;其中,所述一级对象为所述层级细分后的对象;
所述子对象编码区域,用于标识问题所归属的二级对象;其中,所述二级对象为所述一级对象细分后的对象。
9.根据权利要求1所述的基于6W知识表示的自学习方法,其特征在于,S6具体为:
S6.1,建立可动态更新的标识样本库、样注样本库和标准知识库;
其中,所述标识样本库用于存储所有的标识编码;所述标注样本库用于存储所有的标注编码;所述标准知识库用于存储已验证的知识编码;
S6.2,每当知识自学习的触发时刻到来时,按一定的选取规则从所述样注样本库中读取指定标注编码;
S6.3,对所述指定标注编码进行分析,得到所述指定标注编码所涉及到的概念名称、概念角色和联系规则;即:各个所述概念名称之间的联系为符合所述联系规则的联系;
S6.4,假设所述指定标注编码所涉及到的概念名称的数量为n,假设所述标识样本库中共存在m个标识,其中,m>n;
则:从m个标识中选取n个标识组为一个单元组,由此共得到p个单元组;
对于每个单元组所涉及到的n个标识,再通过调配n个标识的角色,由此得到a种组合;
通过上述方式,可共得到p*a组组合;
S6.5,对于p*a组组合中的每组组合,均执行以下操作:
对于任意一组组合,记为组合i,在所述联系规则的约束下,组合i即转化为初始知识;
验证所述初始知识是否与所述标准知识库中的某个标准知识相同,如果相同,则删除所述初始知识;如果不相同,进一步验证所述初始知识是否为伪知识,如果是,则删除所述初始知识;如果否,则表明所述初始知识为真知识,将其作为标准知识,存入所述标准知识库,由此扩大了标准知识库存储的标准知识的数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510022109.XA CN105844335B (zh) | 2015-01-15 | 2015-01-15 | 一种基于6w知识表示的自学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510022109.XA CN105844335B (zh) | 2015-01-15 | 2015-01-15 | 一种基于6w知识表示的自学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105844335A true CN105844335A (zh) | 2016-08-10 |
CN105844335B CN105844335B (zh) | 2018-04-20 |
Family
ID=56580788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510022109.XA Active CN105844335B (zh) | 2015-01-15 | 2015-01-15 | 一种基于6w知识表示的自学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105844335B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446286A (zh) * | 2016-10-26 | 2017-02-22 | 红有软件股份有限公司 | 基于6w场景的知识自学习方法 |
CN108846579A (zh) * | 2018-06-15 | 2018-11-20 | 北方工业大学 | 一种学科知识的知识量计算方法和系统 |
CN108920705A (zh) * | 2018-07-19 | 2018-11-30 | 深圳习习网络科技有限公司 | 一种知识点标识的编码方法及装置 |
CN110309509A (zh) * | 2019-06-28 | 2019-10-08 | 神思电子技术股份有限公司 | 一种语义知识库构建方法 |
CN110347701A (zh) * | 2019-06-28 | 2019-10-18 | 西安理工大学 | 一种面向实体检索查询的目标类型标识方法 |
CN111046020A (zh) * | 2019-11-28 | 2020-04-21 | 泰康保险集团股份有限公司 | 信息处理方法与装置、存储介质、电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007038119A2 (en) * | 2005-09-27 | 2007-04-05 | Battelle Memorial Institute | Processes, data structures, and apparatuses for representing knowledge |
CN101710393A (zh) * | 2009-11-25 | 2010-05-19 | 北京航空航天大学 | 一种专家系统知识表示机制和推理方法 |
CN101799822A (zh) * | 2010-02-23 | 2010-08-11 | 李祯 | 分层网状知识模型建模方法及知识仓库系统建立方法 |
CN101882164A (zh) * | 2010-07-16 | 2010-11-10 | 张为斌 | 用于存储多维知识的数据仓库模型 |
CN102339428A (zh) * | 2011-10-28 | 2012-02-01 | 合肥工业大学 | 一种基于本体的大型装备mro知识构建方法 |
-
2015
- 2015-01-15 CN CN201510022109.XA patent/CN105844335B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007038119A2 (en) * | 2005-09-27 | 2007-04-05 | Battelle Memorial Institute | Processes, data structures, and apparatuses for representing knowledge |
CN101710393A (zh) * | 2009-11-25 | 2010-05-19 | 北京航空航天大学 | 一种专家系统知识表示机制和推理方法 |
CN101799822A (zh) * | 2010-02-23 | 2010-08-11 | 李祯 | 分层网状知识模型建模方法及知识仓库系统建立方法 |
CN101882164A (zh) * | 2010-07-16 | 2010-11-10 | 张为斌 | 用于存储多维知识的数据仓库模型 |
CN102339428A (zh) * | 2011-10-28 | 2012-02-01 | 合肥工业大学 | 一种基于本体的大型装备mro知识构建方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446286A (zh) * | 2016-10-26 | 2017-02-22 | 红有软件股份有限公司 | 基于6w场景的知识自学习方法 |
CN106446286B (zh) * | 2016-10-26 | 2019-04-30 | 红有软件股份有限公司 | 基于6w场景的知识自学习方法 |
CN108846579A (zh) * | 2018-06-15 | 2018-11-20 | 北方工业大学 | 一种学科知识的知识量计算方法和系统 |
CN108846579B (zh) * | 2018-06-15 | 2021-06-08 | 北方工业大学 | 一种学科知识的知识量计算方法和系统 |
CN108920705A (zh) * | 2018-07-19 | 2018-11-30 | 深圳习习网络科技有限公司 | 一种知识点标识的编码方法及装置 |
CN108920705B (zh) * | 2018-07-19 | 2020-11-03 | 邓北平 | 一种知识点标识的编码方法及装置 |
CN110309509A (zh) * | 2019-06-28 | 2019-10-08 | 神思电子技术股份有限公司 | 一种语义知识库构建方法 |
CN110347701A (zh) * | 2019-06-28 | 2019-10-18 | 西安理工大学 | 一种面向实体检索查询的目标类型标识方法 |
CN110347701B (zh) * | 2019-06-28 | 2021-07-20 | 西安理工大学 | 一种面向实体检索查询的目标类型标识方法 |
CN111046020A (zh) * | 2019-11-28 | 2020-04-21 | 泰康保险集团股份有限公司 | 信息处理方法与装置、存储介质、电子设备 |
CN111046020B (zh) * | 2019-11-28 | 2023-09-12 | 泰康保险集团股份有限公司 | 信息处理方法与装置、存储介质、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN105844335B (zh) | 2018-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105844335A (zh) | 一种基于6w知识表示的自学习方法 | |
JP5904559B2 (ja) | シナリオ生成装置、及びそのためのコンピュータプログラム | |
US8949204B2 (en) | Efficient development of a rule-based system using crowd-sourcing | |
CN111754345B (zh) | 一种基于改进随机森林的比特币地址分类方法 | |
JP5907393B2 (ja) | 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム | |
JP2015121896A (ja) | フレーズペア収集装置、及びそのためのコンピュータプログラム | |
CN105843791B (zh) | 一种基于6w语义标识的语义网络模型构建方法 | |
CN108647800A (zh) | 一种基于节点嵌入的在线社交网络用户缺失属性预测方法 | |
CN110188454A (zh) | 建筑设备与建筑信息模型匹配方法及装置 | |
CN115344504B (zh) | 基于需求规格说明书的软件测试用例自动生成方法及工具 | |
CN114358507A (zh) | 基于知识图谱的输水建筑物风险评估与防范方法 | |
CN109829065A (zh) | 图像检索方法、装置、设备及计算机可读存储介质 | |
CN106530108A (zh) | 一种基于因素表示的油气层损害智能识别方法与系统 | |
Kavouras | A unified ontological framework for semantic integration | |
CN117251685B (zh) | 一种基于知识图谱的标准化政务数据构建方法和装置 | |
CN111611774B (zh) | 一种运维操作指令安全分析方法、系统及存储介质 | |
CN110909174A (zh) | 一种基于知识图谱的简单问答中实体链接的改进方法 | |
CN104346393B (zh) | 原子级数据元素模型的建模方法 | |
CN105373561B (zh) | 识别非关系数据库中的记录模式的方法和设备 | |
ElGibreen et al. | Multi model transfer learning with RULES family | |
CN106095813A (zh) | 一种用户标识识别方法和装置 | |
Wang et al. | A Scalable Framework for Table of Contents Extraction from Complex ESG Annual Reports | |
WO2013180920A2 (en) | Buildable part pairs in an unconfigured product structure | |
CN109213807A (zh) | 一种智能制造大数据的增量学习方法及装置 | |
Hwang et al. | Design of ontology model for knowledge navigator |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: No. 197-2, Jiyun Road, Karamay District, Karamay City, Xinjiang Uygur Autonomous Region 834000 Patentee after: HONGYOU SOFTWARE Co.,Ltd. Address before: 22 Changzheng Road, Karamay, Xinjiang Uygur Autonomous Region 834000 Patentee before: KARAMAY HONGYOU SOFTWARE Co.,Ltd. |
|
CP03 | Change of name, title or address |