CN107169059A - 一种基于相似变精度粗糙集模型的知识推送规则提取方法 - Google Patents

一种基于相似变精度粗糙集模型的知识推送规则提取方法 Download PDF

Info

Publication number
CN107169059A
CN107169059A CN201710290504.5A CN201710290504A CN107169059A CN 107169059 A CN107169059 A CN 107169059A CN 201710290504 A CN201710290504 A CN 201710290504A CN 107169059 A CN107169059 A CN 107169059A
Authority
CN
China
Prior art keywords
attribute
decision
knowledge
mrow
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710290504.5A
Other languages
English (en)
Inventor
张发平
李丽
张清雅
吴迪
张晓刚
敬石开
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201710290504.5A priority Critical patent/CN107169059A/zh
Publication of CN107169059A publication Critical patent/CN107169059A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开的一种基于相似变精度粗糙集模型的知识推送规则提取方法,属于知识工程领域。本发明通过对用户行为数据提取处理,构建包括条件属性及决策属性决策表,利用信息熵理论得到条件属性相对于决策属性的重要度,在此基础上利用条件属性相对于决策属性的重要度对决策表进行约简,得到约简后的决策表;在约简后的决策表基础上提取含有确定性因子的决策规则;对推送规则进行验证评估,规则评估通过后即可利用规则进行知识推送,提高知识推送精度。本发明能够解决粗糙集模型过于严格问题、提高粗糙集模型的容错能力、使其适于知识推送规则提取情境,此外,能够获取高质量的知识推送规则,提高知识推送精度,降低知识获取成本,提高知识获取效率。

Description

一种基于相似变精度粗糙集模型的知识推送规则提取方法
技术领域
本发明涉及一种基于相似变精度粗糙集模型的知识推送规则提取方法,属于知识工程领域。
背景技术
知识推送技术是在适当的时间,将适当的知识推送给适当的人,旨在降低知识获取成本,提高知识获取效率。知识推送的依据主要是知识产生、应用的情境条件,结合知识的推送规则,判断当前用户需要的知识,并将这些知识推送给用户。知识推送规则的提取是研究知识推送的一个重点问题。
粗糙集作为一种用于处理不确定信息与知识的数据分析理论,在机器学习、知识发现领域得到了广泛且成功的应用。将粗糙集的理论应用于知识规则提取,可以从知识的使用记录中找出情境信息与知识信息之间的关联,归纳出知识推送的规则。在应用时,必须解决的问题是经典粗糙集模型的过于严格,缺乏容错能力的问题。
发明内容
针对知识推送中的知识规则提取过程中的经典粗糙集模型存在的下述问题:经典粗糙集模型过于严格、缺乏容错能力、不适于知识推送规则提取情境。本发明公开的一种基于相似变精度粗糙集模型的知识推送规则提取方法能够解决粗糙集模型过于严格的问题、提高粗糙集模型的容错能力、使其适于知识推送规则提取情境,此外,本发明能够获取高质量的知识推送规则,提高知识推送精度,降低知识获取成本,提高知识获取效率。
本发明的目的是通过下述技术方案实现的。
首先说明必要的定义。
定义1知识推送的决策信息系统。
知识推送的决策信息系统表示为有序四元组S={U,R,V,f}。
其中,U={u1,u2,…,un}表示的是用户操作记录集合,其中的每个元素记录了在特定的用户情境下用户查看和使用知识的行为记录;
R=C∪D为属性集合,其中子集C是条件属性集合,反映的是用户情境的特征属性,D为决策属性集合,反映的是用户查看、使用的知识特征属性;
V=∪Vr为属性值的集合,r∈R,Vr表示属性r的取值范围,考虑到情境和知识特征属性描述的多样性和复杂性,属性值的一般类型有数值型、向量型、字符型、模糊型,因此V是多种类型属性取值范围的集合;
f:U×R→V为一个信息函数,用于确定U中每一个对象u的属性值,即任一ui∈U,r∈R,则f(ui,r)=Vr
定义2引入相似关系的不可分辨关系。
在信息系统S={U,R,V,f}中,对于ui,uj∈U,在任意属性子集B上的相似度为SB(ui,uj),其中
SB(ui,uj)=∑(wk*sB(ui,uj,rk))其中sB(ui,uj,rk)表示ui,uj在B中第k个属性rk上的相似度,属性类型不同则属性的相似度计算方式不同。考虑到特征属性重要程度的差异,wk表示第k个属性的重要程度,可采取专家打分法、调查统计法、层次分析法确定。
基于相似度SB(ui,uj)对对象U进行聚类,聚类之后的每一类为一个等价类,同一类中的元素之间为不可分辨关系,又称等价关系,记在属性子集B上的等价关系为Ind(B)。根据条件属性和决策属性分别进行聚类,即根据情境属性相似度SC和知识属性相似度SD分别进行聚类。基于条件集合C的等价类称为条件类,记为Xi,基于决策集合D的等价类称为决策类,记为Yj
定义3变精度粗糙集模型及其正、负域。
为了增强经典粗糙集模型的容错能力,减少外界噪音对模型的影响,将概率理论引入粗糙集模型中,提出变精度粗糙集模型时,引入一对概率阈值(α,β),设0≤β<α≤1。
正域定义为:POS(α,β)(X)={u∈U|Pr(X|[u]B)≥α};
负域定义为:NEG(α,β)(X)={u∈U|Pr(X|[u]B)≤β}。
其中[u]B表示等价关系下包含元素u的等价类,Pr(X|[u]B)表示对象在属于[u]B的条件下属于集合X的概率,可见,正域划分的正确率为α,负域划分的正确率为1-β。
决策属性集D相对于条件属性集C的正域:论域U中的所有那些基于条件属性集合C的等价类,能够以不低于α的准确率划入到基于决策属性集合D的等价类之中的对象组成的集合记为POS(α,β)(D|C)={u∈U|Pr(Yj|Xi)≥α}。
定义4属性重要度和依赖度。
对信息系统S={U,R,V,f},具有条件属性和决策属性的知识表达系统可表示为决策表,记作T=(U,R,C,D)或简称CD决策表。决策表中不同的条件属性对于决策属性的重要度不同,如果某条件属性丢失后信息系统分类变化大则说明该属性重要程度高,反之则说明该属性重要程度低。
决策属性对条件属性的依赖度
其中,Card是返回集合中元素的数量的函数。
定义5属性约简及核。
条件属性可能是彼此依赖的,有些条件属性删除后对分类并没有明显影响,则这些属性是可省略的,如果属性子集B1中的每个属性都是不可省的,则称B1是独立的,如果且Ind(B1)=Ind(B),则称B1是等价关系族B的一个约简,记为Red(B)。
在B中所有不可省略关系的集合称为等价关系族B的核,记为Core(B)。即Core(B)=∩Red(B)。
定义6决策规则。
C为条件属性集,D为决策属性集。Xi和Yj分别表示条件类和决策类。
Des(Xi)表示条件类Xi的描述,定义为Des(Xi)={(a,va)|f(u,a)=va,Des(Yj)表示决策类Yj的描述,定义为Des(Yj)={(a,va)|f(u,a)=va,
决策规则定义为Tij:Des(Xi)→Des(Yj),
规则Tij的确定因子为μ(Xi,Yj)=Card(Xi∩Yj)/Card(Xi),显然,0<μ≤1。规则Tij的支持数为Card(Xi∩Yj)。
当μ(Xi,Yj)=1时,Tij是确定性规则;当0<μ<1时,Tij是不确定的规则,此时μ(Xi,Yj)反映Xi中的对象可分类到Yj中的比例。
本发明公开的一种基于相似变精度粗糙集模型的知识推送规则提取方法,包括如下步骤:
步骤1数据预处理;
步骤1.1用户行为记录及数据抽取;
进行知识规则生成的基础数据是用户浏览、使用知识的行为记录,所述的行为记录包括用户的个人特征信息、任务属性、浏览使用的知识属性,用户操作系统对行为记录进行记录,抽取用于进行规则生成的数据。
步骤1.2数据离散化;
利用粗糙集进行规则挖掘,要求数据必须是离散的,所以需要对连续值属性进行离散化处理。
根据实际情况选择离散化方式,常见的离散化处理方式有:专家划分法、等频率法、等距离法、自然算法(Naive Scaler)、半自然算法(Semi Naive Scaler)。
步骤1.3决策表建立;
构建决策表,决策表的行表示用户行为的记录,列表示属性集合,包括条件属性集C和决策属性集D,简称CD决策表。由于知识推送规则是根据用户所处情境的属性得到用户需要知识的属性,所以,条件属性为情境属性,决策属性为知识属性。
构建决策表时,对行与行之间的相似性进行计算,将等价的行进行合并,并统计其数量。另外为了便于讨论,用字母和数字标识属性名称以及属性值。
根据定义2对行与行之间的相似性进行计算。
步骤1.4决策表的一致性检验;
构建决策表之后,需要对决策表的一致性进行检验,当决策属性D完全依赖于条件属性C,即γ(C,D)=1时,称决策表是完全一致的。
由于噪声数据的影响及信息的不完备性,很难得到γ(C,D)为1的决策表。故规定一个阈值E,0<E<1,若γ(C,D)≥E,则认为决策表是满足阈值要求的,认为是可接受的,即完成数据预处理;否则不可接受,需要重新对决策表进行调整,返回步骤1.1,重新抽取其他数据进行迭代处理。
步骤2属性相对约简,得到约简后的决策表。
步骤2.1基于信息熵的属性重要度计算。
决策表中,条件属性集合C对决策属性集合D分类的信息熵为:
在上式中,Xi表示条件属性的等价类,Yj表示决策属性的等价类。
条件属性c是条件属性集合C中的某一具体属性,条件属性c的重要度w为增加该属性后信息熵的减少量:
w(c)=H(D|C)-H(D|C-c)。
步骤2.2迭代生成约简后的决策表。
首先计算相对核Core(C,D)=∩Red(C,D)和决策属性集合对条件属性集合的依赖度γ(C,D),条件属性集合C中除去相对核中已有的属性,其余属性按从大到小的顺序进行排列,并顺序编号。以核属性集合作为初始约简,即Red0(C,D)=Core(C,D),约简集合中每次增加一个权重最大的属性,直至γ(C,D)-γ(Redi(C,D),D)<e,e为可接受的阈值。满足终止条件时得到最终约简结果。至此,得到约简后的决策表。
在步骤2中,基于信息熵的属性重要度计算能够避免传统主观赋权方式的主观性,突出条件属性相对于决策属性的信息重要度。在重要度排序的基础上进行迭代约简可以提高迭代效率,缩短计算时间。
步骤3推送规则生成。
利用步骤2中约简后的决策表,生成规则Tij:Des(Xi)→μDes(Yj)
步骤3中,通过设定确定因子μ的阈值,避免样本数据的噪声数据和其他不相容信息对规则生成的影响,删除由于个别噪声样本数据生成的可信度很低的规则,为推送规则的生成提供更好的判别准则。
步骤4推送规则验证评估。
用部分未参与规则生成的历史数据验证决策规则,观测决策结论和实际结论的差别,如果规则得到的结果正确性在可接受的范围之内,则确认规则,如果正确性较低,一般是由于抽取的数据不能反映总体情况所导致,需要返回步骤1.1,重新抽取数据进行运算。
步骤5规则实施,提高知识推送精度。
根据步骤2中约简后的决策表的条件属性集合C和决策属性集合D,收集数据,进行数据预处理工作,匹配合适的规则,把相关的决策结果推送给用户,并记录用户的反馈结果,为日后的规则评价及更新积累数据,提高知识推送精度。
本发明公开的一种基于相似变精度粗糙集模型的知识推送规则提取方法适用于需要知识推送的领域,能够获取高质量的知识推送规则,提高知识推送精度,降低知识获取成本,提高知识获取效率。所述的需要知识推送的领域包括产品设计开发、工艺设计、网络学习、电子商务。
本发明公开的一种基于相似变精度粗糙集模型的知识推送规则提取方法能够解决粗糙集模型过于严格的问题、提高粗糙集模型的容错能力、使其适于知识推送规则提取情境,此外,本发明能够获取高质量的知识推送规则,提高知识推送精度,降低知识获取成本,提高知识获取效率。
本发明公开的一种基于相似变精度粗糙集模型的知识推送规则提取方法,通过对用户行为数据进行提取处理,构建包括条件属性及决策属性决策表,利用信息熵理论得到条件属性相对于决策属性的重要度,在此基础上利用条件属性相对于决策属性的重要度对决策表进行约简,得到约简后的决策表;在约简后的决策表基础上提取出含有确定性因子的决策规则;对推送规则进行验证评估,规则评估通过后即可利用规则进行知识推送,进一步提高知识推送精度。该方法具有规则客观性强,容错率高,知识推送精确的特点,适用于相关领域的知识推送过程。
所述的相关领域包括产品设计开发、工艺设计、网络学习、电子商务。
有益效果:
1、本发明公开的一种基于相似变精度粗糙集模型的知识推送规则提取方法,将经典粗糙集模型中的严格不可分辨关系扩展为引入相似关系的不可分辨关系,同时引入了概率阈值来提高模型的容错率,即实现将经典的粗糙集模型扩展为适于提取知识推送规则的模型。
2、本发明公开的一种基于相似变精度粗糙集模型的知识推送规则提取方法,在步骤2中,基于信息熵的属性重要度计算能够避免传统主观赋权方式的主观性,突出了条件属性相对于决策属性的信息重要度。在重要度排序的基础上进行迭代约简可以提高迭代效率,缩短计算时间。
3、本发明公开的一种基于相似变精度粗糙集模型的知识推送规则提取方法,适用于需要知识推送的领域,能够获取高质量的知识推送规则,提高知识推送精度,降低知识获取成本,提高知识获取效率。
附图说明
图1知识规则提取过程流程图;
图2属性约简过程示意图。
具体实施方式
为了更好的说明本发明的目的和优点,下面结合附图和实例对发明内容做进一步说明。
实施例1:
本实施例公开的一种基于相似变精度粗糙集模型的知识推送规则提取方法,包括如下步骤:
步骤1数据预处理;
步骤1.1用户行为记录及数据抽取;
进行知识规则生成的基础数据是用户浏览、使用知识的行为记录,所述的行为记录包括用户的个人特征信息、任务属性、浏览使用的知识属性,围绕某零件的设计过程,用户操作系统对行为记录进行记录,抽取100条行为记录作为进行规则生成的数据。表1展示了行为记录的部分原始数据。
表1行为记录原始数据截选
步骤1.2数据离散化;
利用粗糙集进行规则挖掘,要求数据必须是离散的,所以需要对连续值属性进行离散化处理。本实施例中,属性“载荷要求”为连续数值型,需要对其进行离散化处理。根据实际情况,选择专家划分法,领域专家参考技术标准文件,对该属性进行离散划分,得到离散化结果为:载荷要求≤5000时,划分为“低”,标识为1;5000<载荷要求<10000时,划分为“中”,标识为2;载荷要求≥10000时,划分为“高”标识为3。
步骤1.3决策表建立;
构建决策表,决策表的行表示用户行为的记录,列表示属性集合,包括条件属性集C和决策属性集D,简称CD决策表。由于知识推送规则是根据用户所处情境的属性得到用户需要知识的属性,所以这里,条件属性集合为{设计重点,载荷要求(N/m),腹板结构,端口类型},决策属性集合为{知识类型,知识领域,知识来源}。
在用户行为记录数据的基础上,将等价的行进行合并,并统计其数目,需要说明的一点是,根据定义2引入相似关系的不可分辨关系,不可分辨关系是基于相似度SB分类之后的同类中对象之间的关系,如表1的第1行数据和第2行数据虽然属性“端口类型”分别为“开口”和“豁口”,但由于相似度高,相互之间为不可分辨关系,所以两行数据可进行合并。
另外,为了便于之后讨论,将属性名用字母代替,并对各个属性值用数字进行标识。标识方式如下:
条件属性:{{设计重点,c1},{载荷要求(N/m),c2},{腹板结构,c3},{端口类型,c4}};
决策属性:{{知识类型,d1},{知识领域,d2},{知识来源,d3}};
设计重点:{{降低重量,1},{节省能源,2},{降低成本,3},{防错设计,4}};
腹板结构:{{桁架式,1},{梁式,2}};
端口类型:{{开口/豁口,1},{封闭,2}};
知识类型:{{有限元分析模型,1},{减轻质量规则,2},{载荷分析模型,3}};
知识领域:{{空心结构设计,1},{局部质量设计,2},{非对称设计,3}};
知识来源:{{轻量化设计,1},{绿色设计,2},{成本分析,3},{防错设计,4}}。
得到初始决策表如表2所示。
表2初始决策表
标识 数量 c1 c2 c3 c4 d1 d2 d3
U1 12 1 2 1 1 2 1 1
U2 8 2 3 2 2 3 3 2
U3 10 3 2 2 2 1 3 3
U4 6 4 1 2 1 1 1 4
U5 9 1 2 1 2 2 2 1
U6 13 4 2 2 1 1 1 4
U7 10 3 3 1 2 3 2 3
U8 7 4 2 1 2 1 3 4
U9 13 1 1 1 1 1 1 1
U10 10 2 2 2 2 1 3 2
U11 1 1 2 1 1 1 1 4
U12 1 3 2 2 2 3 2 3
步骤1.4决策表的一致性检验;
构建决策表之后,需要对决策表的一致性进行检验,当决策属性D完全依赖于条件属性C,即γ(C,D)=1时,称决策表是完全一致的。规定一个阈值E=0.95,若γ(C,D)≥E,则认为决策表是满足阈值要求的,认为是可接受的,即完成数据预处理;否则不可接受,需要重新对决策表进行调整,返回步骤1.1,重新抽取其他数据进行迭代处理。
Xi表示条件属性的等价类,Yj表示决策属性的等价类。对于表2,条件等价类U/C如表3所示,决策等价类如表4所示。
表3条件等价类
i 1 2 3 4 5 6 7 8 9 10
Xi {U1,U11} {U2} {U3,U12} {U4} {U5} {U6} {U7} {U8} {U9} {U10}
表4决策等价类
j 1 2 3 4 5 6 7 8 9
Yj {U1} {U2} {U3} {U4,U6,U11} {U5} {U7,U12} {U8} {U9} {U10}
定义3中的概率阈值取α=0.9,β=0.1。
计算POS(0.9,0.1)(D|C)={x∈U|Pr(Y|X)≥α},以X1为例,X1={U1,U11},Y1={U1},Card(U1)=12,Card(U11)=1,Pr(Y1|X1)=12/13=0.923≥α,即U1,U11满足Pr(Y|X)≥α条件,其余等价类同理,得
POS(0.9,0.1)(Y|X)={U1,U2,U3,U4,U5,U6,U7,U8,U9,U10,U11,U12}
故决策表一致性检验通过。
步骤2属性相对约简,得到约简后的决策表。
步骤2.1基于信息熵的属性重要度计算。
决策表中,条件属性集合C对决策属性集合D分类的信息熵为:
在上式中,Xi表示条件属性的等价类,Yj表示决策属性的等价类。
本例中,条件类的概率p(Xi)如表5所示,决策类相对于条件类的概率p(Yj|Xi)如表5所示。
表5条件类U/C概率表
i 1 2 3 4 5 6 7 8 9 10
p(Xi) 0.13 0.08 0.11 0.06 0.09 0.13 0.1 0.07 0.13 0.1
表6决策类相对于条件类U/C概率表
H(D|C)=-((0.92×log20.92+0.08×log20.08)×0.13
+(0.91×log20.91+0.09×log20.09)×0.11)=0.099
计算决策表去除属性c1后的信息熵,此时条件等价类从原来的10个变为8个,条件等价类U/C-c1如表7所示。
表7条件类U/C-c1
i 1 2 3 4 5 6 7 8
Xi {U1,U11} {U2} {U3,U10,U12} {U4} {U5U8} {U6} {U7} {U9}
表8条件类U/C-c1概率表
i 1 2 3 4 5 6 7 8
p(Xi) 0.13 0.08 0.21 0.06 0.16 0.13 0.1 0.13
表9决策类相对于条件类U/C-c1概率表
得,
H(D|C-c1)=-((0.92×log20.92+0.08×log20.08)×0.13
+(2×0.48×log20.48+0.04×log20.04)×0.21
+(0.56×log20.56+0.44×log20.44)×0.16)
=0.467
条件属性c是条件属性集合C中的某一具体属性,条件属性c的重要度w为增加该属性后信息熵的减少量,即c1的重要性为ω(c1)=H(D|C-c1)-H(D|C)=0.467-0.099=0.368。
同样的方法求得c2,c3,c4的重要性:
ω(c2)=H(D|C-c2)-H(D|C)=0.538-0.099=0.439;
ω(c3)=H(D|C-c3)-H(D|C)=0.099-0.099=0;
ω(c4)=H(D|C-c4)-H(D|C)=0.284-0.099=0.185。
步骤2.2迭代生成约简。
利用分辨矩阵的方法计算得Core(C,D)={c2},令Red0(C,D)=Core(C,D)={c2},在步骤1.4中,得γ(C,D)=1。取e=0.1。
对除了c2以外的属性根据属性值大小进行排序,为c1>c4>c3。
γ(C,D)-γ(Red0(C,D),D)=1>e,不符合要求,则,令Red1(C,D)={c2,c1},γ(C,D)-γ(Red1(C,D),D)=0.4>e,不符合要求,则,令Red2(C,D)={c2,c1,c4},γ(C,D)-γ(Red2(C,D),D)=0<e,符合要求,因此,最终约简的结果为Red2(C,D)={c2,c1,c4},c3是冗余属性,从决策表中删除,至此,得到约简后的决策表如表10所示。
表10约简后决策表
标识 支持数 c1 c2 c4 d1 d2 d3
U1 12 1 2 1 2 1 1
U2 8 2 3 2 3 3 2
U3 10 3 2 2 1 3 3
U4 6 4 1 1 1 1 4
U5 9 1 2 2 2 2 1
U6 13 4 2 1 1 1 4
U7 10 3 3 2 3 2 3
U8 7 4 2 2 1 3 4
U9 13 1 1 1 1 1 1
U10 10 2 2 2 1 3 2
U11 1 1 2 1 1 1 4
U12 1 3 2 2 3 2 3
在步骤2中,基于信息熵的属性重要度计算能够避免传统主观赋权方式的主观性,突出了条件属性相对于决策属性的信息重要度。在重要度排序的基础上进行迭代约简可以提高迭代效率,缩短计算时间。
步骤3推送规则生成。
利用步骤2中约简后的决策表,生成规则Tij:Des(Xi)→μDes(Yj)
表11规则表
步骤4推送规则验证评估。
用部分未参与规则生成的历史数据验证决策规则,在系统中抽取50条未用于生成规则的用户行为记录,根据行为记录中的c1、c2、c4属性值,根据生成的规则,得到相应的知识属性d1、d2、d3的属性值,将得到的知识属性值与用户行为记录中的属性值核对,得到推送的正确率。如果规则得到的结果正确性在可接受的范围之内,则确认规则,否则返回步骤1.1,重新抽取数据进行计算。
步骤5规则实施,提高知识推送精度。
根据步骤2中约简后的决策表的条件属性集合C{设计重点,载荷要求(N/m),端口类型},收集数据,进行数据预处理工作,匹配合适的规则,得到决策属性集合D{知识类型,知识领域,知识来源}的值,把相关的知识推送给用户,并记录用户的反馈结果,为日后的规则评价及更新积累数据。
以上结合具体实施例对本发明的技术方案和具体实施方式作了说明,但这些说明不能被理解为限制了本发明的范围,这些仅是举例说明,可以对这些实施方式做出多种变更或修改,而不背离本发明的原理和实质。本发明的保护范围由随附的权利要求书限定,任何在本发明权利要求基础上的改动都是本发明的保护范围。

Claims (6)

1.一种基于相似变精度粗糙集模型的知识推送规则提取方法,其特征在于:包括如下步骤:
步骤1数据预处理;
步骤1.1用户行为记录及数据抽取;
进行知识规则生成的基础数据是用户浏览、使用知识的行为记录,所述的行为记录包括用户的个人特征信息、任务属性、浏览使用的知识属性,用户操作系统对行为记录进行记录,抽取用于进行规则生成的数据;
步骤1.2数据离散化;
利用粗糙集进行规则挖掘,要求数据必须是离散的,所以需要对连续值属性进行离散化处理;
步骤1.3决策表建立;
构建决策表,决策表的行表示用户行为的记录,列表示属性集合,包括条件属性集C和决策属性集D,简称CD决策表;由于知识推送规则是根据用户所处情境的属性得到用户需要知识的属性,所以,条件属性为情境属性,决策属性为知识属性;
构建决策表时,对行与行之间的相似性进行计算,将等价的行进行合并,并统计其数量;另外为了便于讨论,用字母和数字标识属性名称以及属性值;
步骤1.4决策表的一致性检验;
构建决策表之后,需要对决策表的一致性进行检验,当决策属性D完全依赖于条件属性C,即γ(C,D)=1时,称决策表是完全一致的;
由于噪声数据的影响及信息的不完备性,很难得到γ(C,D)为1的决策表;故规定一个阈值E,0<E<1,若γ(C,D)≥E,则认为决策表是满足阈值要求的,认为是可接受的,即完成数据预处理;否则不可接受,需要重新对决策表进行调整,返回步骤1.1,重新抽取其他数据进行迭代处理;
步骤2属性相对约简,得到约简后的决策表;
步骤3推送规则生成;
利用步骤2中约简后的决策表,生成规则Tij:Des(Xi)→μDes(Yj)
步骤4推送规则验证评估;
用部分未参与规则生成的历史数据验证决策规则,观测决策结论和实际结论的差别,如果规则得到的结果正确性在可接受的范围之内,则确认规则,如果正确性较低,一般是由于抽取的数据不能反映总体情况所导致,需要返回步骤1.1,重新抽取数据进行运算;
步骤5规则实施,提高知识推送精度;
根据步骤2中约简后的决策表的条件属性集合C和决策属性集合D,收集数据,进行数据预处理工作,匹配合适的规则,把相关的决策结果推送给用户,并记录用户的反馈结果,为日后的规则评价及更新积累数据,提高知识推送精度。
2.根据权利要求1所述的一种基于相似变精度粗糙集模型的知识推送规则提取方法,其特征在于:基于下述定义实现,
定义1知识推送的决策信息系统;
知识推送的决策信息系统表示为有序四元组S={U,R,V,f};
其中,U={u1,u2,…,un}表示的是用户操作记录集合,其中的每个元素记录了在特定的用户情境下用户查看和使用知识的行为记录;
R=C∪D为属性集合,其中子集C是条件属性集合,反映的是用户情境的特征属性,D为决策属性集合,反映的是用户查看、使用的知识特征属性;
V=∪Vr为属性值的集合,r∈R,Vr表示属性r的取值范围,考虑到情境和知识特征属性描述的多样性和复杂性,属性值的一般类型有数值型、向量型、字符型、模糊型,因此V是多种类型属性取值范围的集合;
f∶U×R→V为一个信息函数,用于确定U中每一个对象u的属性值,即任一ui∈U,r∈R,则f(ui,r)=Vr
定义2引入相似关系的不可分辨关系;
在信息系统S={U,R,V,f}中,对于ui,uj∈U,在任意属性子集B上的相似度为SB(ui,uj),其中
SB(ui,uj)=∑(wk*sB(ui,uj,rk))其中sB(ui,uj,rk)表示ui,uj在B中第k个属性rk上的相似度,属性类型不同则属性的相似度计算方式不同;考虑到特征属性重要程度的差异,wk表示第k个属性的重要程度,可采取专家打分法、调查统计法、层次分析法确定;
基于相似度SB(ui,uj)对对象U进行聚类,聚类之后的每一类为一个等价类,同一类中的元素之间为不可分辨关系,又称等价关系,记在属性子集B上的等价关系为Ind(B);根据条件属性和决策属性分别进行聚类,即根据情境属性相似度SC和知识属性相似度SD分别进行聚类;基于条件集合C的等价类称为条件类,记为Xi,基于决策集合D的等价类称为决策类,记为Yj
步骤1.3中对行与行之间的相似性进行计算指根据定义2对行与行之间的相似性进行计算;
定义3变精度粗糙集模型及其正、负域;
为了增强经典粗糙集模型的容错能力,减少外界噪音对模型的影响,将概率理论引入粗糙集模型中,提出变精度粗糙集模型时,引入一对概率阈值(α,β),设0≤β<α≤1;
正域定义为:POS(α,β)(X)={u∈U|Pr(X|[u]B)≥α};
负域定义为:NEG(α,β)(X)={u∈U|Pr(X|[u]B)≤β};
其中[u]B表示等价关系下包含元素u的等价类,Pr(X|[u]B)表示对象在属于[u]B的条件下属于集合X的概率,可见,正域划分的正确率为α,负域划分的正确率为1-β;
决策属性集D相对于条件属性集C的正域:论域U中的所有那些基于条件属性集合C的等价类,能够以不低于α的准确率划入到基于决策属性集合D的等价类之中的对象组成的集合记为POS(α,β)(D|C)={u∈U|Pr(Yj|Xi)≥α};
定义4属性重要度和依赖度;
对信息系统S={U,R,V,f},具有条件属性和决策属性的知识表达系统可表示为决策表,记作T=(U,R,C,D)或简称CD决策表;决策表中不同的条件属性对于决策属性的重要度不同,如果某条件属性丢失后信息系统分类变化大则说明该属性重要程度高,反之则说明该属性重要程度低;
决策属性对条件属性的依赖度
<mrow> <mi>&amp;gamma;</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>,</mo> <mi>D</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>C</mi> <mi>a</mi> <mi>r</mi> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>POS</mi> <mrow> <mo>(</mo> <mi>&amp;alpha;</mi> <mo>,</mo> <mi>&amp;beta;</mi> <mo>)</mo> </mrow> </msub> <mo>(</mo> <mrow> <mi>D</mi> <mo>|</mo> <mi>C</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> <mrow> <mi>C</mi> <mi>a</mi> <mi>r</mi> <mi>d</mi> <mrow> <mo>(</mo> <mi>U</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow> 2
其中,Card是返回集合中元素的数量的函数;
定义5属性约简及核;
条件属性可能是彼此依赖的,有些条件属性删除后对分类并没有明显影响,则这些属性是可省略的,如果属性子集B1中的每个属性都是不可省的,则称B1是独立的,如果且Ind(B1)=Ind(B),则称B1是等价关系族B的一个约简,记为Red(B);
在B中所有不可省略关系的集合称为等价关系族B的核,记为Core(B);即Core(B)=∩Red(B);
定义6决策规则;
C为条件属性集,D为决策属性集;Xi和Yj分别表示条件类和决策类;
Des(Xi)表示条件类Xi的描述,定义为Des(Yj)表示决策类Yj的描述,定义为
决策规则定义为Tij
规则Tij的确定因子为μ(Xi,Yj)=Card(Xi∩Yj)/Card(Xi),显然,0<μ≤1;规则Tij的支持数为Card(Xi∩Yj);
当μ(Xi,Yj)=1时,Tij是确定性规则;当0<μ<1时,Tij是不确定的规则,此时μ(Xi,Yj)反映Xi中的对象可分类到Yj中的比例。
3.根据权利要求1或2所述的一种基于相似变精度粗糙集模型的知识推送规则提取方法,其特征在于:步骤2的具体实现方法为,
步骤2.1基于信息熵的属性重要度计算;
决策表中,条件属性集合C对决策属性集合D分类的信息熵为:
<mrow> <mi>H</mi> <mrow> <mo>(</mo> <mi>D</mi> <mo>|</mo> <mi>C</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mrow> <mo>(</mo> <mi>p</mi> <mo>(</mo> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>(</mo> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>Y</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>X</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> <msub> <mi>log</mi> <mn>2</mn> </msub> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>Y</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>X</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>
在上式中,Xi表示条件属性的等价类,Yj表示决策属性的等价类;
条件属性c是条件属性集合C中的某一具体属性,条件属性c的重要度w为增加该属性后信息熵的减少量:
w(c)=H(D|C)-H(D|C-c);
步骤2.2迭代生成约简后的决策表;
首先计算相对核Core(C,D)=∩Red(C,D)和决策属性集合对条件属性集合的依赖度γ(C,D),条件属性集合C中除去相对核中已有的属性,其余属性按从大到小的顺序进行排列,并顺序编号;以核属性集合作为初始约简,即Red0(C,D)=Core(C,D),约简集合中每次增加一个权重最大的属性,直至γ(C,D)-γ(Redi(C,D),D)<e,e为可接受的阈值;满足终止条件时得到最终约简结果;至此,得到约简后的决策表。
4.根据权利要求3所述的一种基于相似变精度粗糙集模型的知识推送规则提取方法,其特征在于:步骤1.2中根据实际情况选择离散化方式,选用专家划分法、等频率法、等距离法、自然算法(Naive Scaler)或半自然算法(Semi Naive Scaler)进行离散化处理。
5.根据权利要求3所述的一种基于相似变精度粗糙集模型的知识推送规则提取方法,其特征在于:适用于需要知识推送的领域,能够获取高质量的知识推送规则,提高知识推送精度,降低知识获取成本,提高知识获取效率。
6.一种基于相似变精度粗糙集模型的知识推送规则提取方法,其特征在于:通过对用户行为数据进行提取处理,构建包括条件属性及决策属性决策表,利用信息熵理论得到条件属性相对于决策属性的重要度,在此基础上利用条件属性相对于决策属性的重要度对决策表进行约简,得到约简后的决策表;在约简后的决策表基础上提取出含有确定性因子的决策规则;对推送规则进行验证评估,规则评估通过后即可利用规则进行知识推送,进一步提高知识推送精度。
CN201710290504.5A 2017-04-28 2017-04-28 一种基于相似变精度粗糙集模型的知识推送规则提取方法 Pending CN107169059A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710290504.5A CN107169059A (zh) 2017-04-28 2017-04-28 一种基于相似变精度粗糙集模型的知识推送规则提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710290504.5A CN107169059A (zh) 2017-04-28 2017-04-28 一种基于相似变精度粗糙集模型的知识推送规则提取方法

Publications (1)

Publication Number Publication Date
CN107169059A true CN107169059A (zh) 2017-09-15

Family

ID=59813455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710290504.5A Pending CN107169059A (zh) 2017-04-28 2017-04-28 一种基于相似变精度粗糙集模型的知识推送规则提取方法

Country Status (1)

Country Link
CN (1) CN107169059A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171334A (zh) * 2018-01-24 2018-06-15 北京航空航天大学 一种基于混合推理的自然环境效应知识推理方法
CN109214514A (zh) * 2018-08-14 2019-01-15 浪潮通用软件有限公司 一种基于Rough Set的数据分析方法
CN109284393A (zh) * 2018-08-28 2019-01-29 合肥工业大学 一种针对家谱人物属性名称的融合方法
CN109657916A (zh) * 2018-11-19 2019-04-19 深圳市中电数通智慧安全科技股份有限公司 一种火灾风险评估方法、装置及服务器
CN110288095A (zh) * 2019-06-12 2019-09-27 太原理工大学 一种基于形式向量的不一致决策信息系统规则提取方法
CN110378481A (zh) * 2019-06-18 2019-10-25 广州供电局有限公司 基于粗糙集的决策处理方法、装置、计算机和存储介质
CN111275347A (zh) * 2020-02-04 2020-06-12 重庆亿创西北工业技术研究院有限公司 博弈粗糙集的概率阈值计算方法、装置、设备和存储介质
CN111401630A (zh) * 2020-03-13 2020-07-10 河海大学 一种基于粗糙集理论的防洪系统水库属性实时动态评价方法
CN111539645A (zh) * 2020-04-30 2020-08-14 西安工业大学 一种基于粗糙集的装配知识发现方法
CN112132727A (zh) * 2020-09-23 2020-12-25 中国科学技术大学智慧城市研究院(芜湖) 基于城市大数据的情境大数据的政务服务推送方法
CN113298173A (zh) * 2021-06-10 2021-08-24 东南大学 一种基于聚类思想的访问控制策略异常检测方法
CN113495800A (zh) * 2020-04-02 2021-10-12 北京航空航天大学 基于扩展多属性决策的诊断预测数据和特征再认知方法
CN113689114A (zh) * 2021-08-23 2021-11-23 中国工商银行股份有限公司 一种信用度的确定方法、装置和设备
CN113780388A (zh) * 2021-08-30 2021-12-10 岭南师范学院 一种特征属性约简方法
CN113849497A (zh) * 2021-08-02 2021-12-28 跨境云(横琴)科技创新研究中心有限公司 基于属性权重和规则驱动的异常聚合方法及系统
CN115375456A (zh) * 2022-08-26 2022-11-22 广东工业大学 用于信贷风险评估的数据处理方法、装置、设备及介质
CN117216409A (zh) * 2023-11-07 2023-12-12 北京航空航天大学 一种基于情境导航的知识推送方法
CN113849497B (zh) * 2021-08-02 2024-11-08 跨境云(横琴)科技创新研究中心有限公司 基于属性权重和规则驱动的异常聚合方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110178964A1 (en) * 2010-01-21 2011-07-21 National Cheng Kung University Recommendation System Using Rough-Set and Multiple Features Mining Integrally and Method Thereof
CN105184371A (zh) * 2015-09-15 2015-12-23 齐鲁工业大学 一种基于流程驱动和粗糙集的领域知识推送方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110178964A1 (en) * 2010-01-21 2011-07-21 National Cheng Kung University Recommendation System Using Rough-Set and Multiple Features Mining Integrally and Method Thereof
CN105184371A (zh) * 2015-09-15 2015-12-23 齐鲁工业大学 一种基于流程驱动和粗糙集的领域知识推送方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴兵等: "基于效用的个性化推荐方法", 《计算机工程》 *
柴造坡: "基于相似关系的变精度粗糙集的数据约简", 《哈尔滨师范大学自然科学学报》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171334A (zh) * 2018-01-24 2018-06-15 北京航空航天大学 一种基于混合推理的自然环境效应知识推理方法
CN108171334B (zh) * 2018-01-24 2021-08-27 北京航空航天大学 一种基于混合推理的自然环境效应知识推理方法
CN109214514A (zh) * 2018-08-14 2019-01-15 浪潮通用软件有限公司 一种基于Rough Set的数据分析方法
CN109284393B (zh) * 2018-08-28 2020-11-06 合肥工业大学 一种针对家谱人物属性名称的融合方法
CN109284393A (zh) * 2018-08-28 2019-01-29 合肥工业大学 一种针对家谱人物属性名称的融合方法
CN109657916A (zh) * 2018-11-19 2019-04-19 深圳市中电数通智慧安全科技股份有限公司 一种火灾风险评估方法、装置及服务器
CN110288095A (zh) * 2019-06-12 2019-09-27 太原理工大学 一种基于形式向量的不一致决策信息系统规则提取方法
CN110378481A (zh) * 2019-06-18 2019-10-25 广州供电局有限公司 基于粗糙集的决策处理方法、装置、计算机和存储介质
CN110378481B (zh) * 2019-06-18 2021-08-31 广东电网有限责任公司广州供电局 基于粗糙集的决策处理方法、装置、计算机和存储介质
CN111275347A (zh) * 2020-02-04 2020-06-12 重庆亿创西北工业技术研究院有限公司 博弈粗糙集的概率阈值计算方法、装置、设备和存储介质
CN111401630A (zh) * 2020-03-13 2020-07-10 河海大学 一种基于粗糙集理论的防洪系统水库属性实时动态评价方法
CN111401630B (zh) * 2020-03-13 2022-06-03 河海大学 一种基于粗糙集理论的防洪系统水库属性实时动态评价方法
CN113495800A (zh) * 2020-04-02 2021-10-12 北京航空航天大学 基于扩展多属性决策的诊断预测数据和特征再认知方法
CN111539645A (zh) * 2020-04-30 2020-08-14 西安工业大学 一种基于粗糙集的装配知识发现方法
CN112132727B (zh) * 2020-09-23 2023-08-18 长三角信息智能创新研究院 基于城市大数据的情境大数据的政务服务推送方法
CN112132727A (zh) * 2020-09-23 2020-12-25 中国科学技术大学智慧城市研究院(芜湖) 基于城市大数据的情境大数据的政务服务推送方法
CN113298173A (zh) * 2021-06-10 2021-08-24 东南大学 一种基于聚类思想的访问控制策略异常检测方法
CN113849497A (zh) * 2021-08-02 2021-12-28 跨境云(横琴)科技创新研究中心有限公司 基于属性权重和规则驱动的异常聚合方法及系统
CN113849497B (zh) * 2021-08-02 2024-11-08 跨境云(横琴)科技创新研究中心有限公司 基于属性权重和规则驱动的异常聚合方法及系统
CN113689114A (zh) * 2021-08-23 2021-11-23 中国工商银行股份有限公司 一种信用度的确定方法、装置和设备
CN113780388A (zh) * 2021-08-30 2021-12-10 岭南师范学院 一种特征属性约简方法
CN115375456B (zh) * 2022-08-26 2023-08-08 广东工业大学 用于信贷风险评估的数据处理方法、装置、设备及介质
CN115375456A (zh) * 2022-08-26 2022-11-22 广东工业大学 用于信贷风险评估的数据处理方法、装置、设备及介质
CN117216409A (zh) * 2023-11-07 2023-12-12 北京航空航天大学 一种基于情境导航的知识推送方法
CN117216409B (zh) * 2023-11-07 2024-01-23 北京航空航天大学 一种基于情境导航的知识推送方法

Similar Documents

Publication Publication Date Title
CN107169059A (zh) 一种基于相似变精度粗糙集模型的知识推送规则提取方法
CN105868178B (zh) 一种基于短语主题建模的多文档自动摘要生成方法
CN111754345B (zh) 一种基于改进随机森林的比特币地址分类方法
AU2019210306A1 (en) Systems and methods for preparing data for use by machine learning algorithms
EP3038025A1 (en) Retention risk determiner
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN106815369A (zh) 一种基于Xgboost分类算法的文本分类方法
CN105022754A (zh) 基于社交网络的对象分类方法及装置
CN110689368B (zh) 一种移动应用内广告点击率预测系统设计方法
CN110990529B (zh) 企业的行业明细划分方法及系统
US20200090058A1 (en) Model variable candidate generation device and method
CN113435627A (zh) 基于工单轨迹信息的电力客户投诉预测方法及装置
CN105205052A (zh) 一种数据挖掘方法及装置
CN106056164A (zh) 一种基于贝叶斯网络的分类预测方法
CN111476274A (zh) 一种大数据预测分析的方法、系统、装置及存储介质
CN105741258A (zh) 基于粗糙集和神经元网络的船体零部件图像分割方法
CN111666748B (zh) 一种自动化分类器的构造方法以及识别决策的方法
CN117172381A (zh) 基于大数据的风险预测方法
CN106874286B (zh) 一种筛选用户特征的方法及装置
Chong et al. Projection based method for sparse fuzzy system generation
CN106657106A (zh) 基于时态描述逻辑ALC‑μ的语义物联网服务验证方法和系统
Wang et al. A knowledge discovery case study of software quality prediction: Isbsg database
Wen Construction project risk evaluation based on rough sets and artificial neural networks
Sun et al. Construction of Santander bank customer transaction forecast model
CN117391643B (zh) 一种基于知识图谱的医保单据审核方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170915

WD01 Invention patent application deemed withdrawn after publication