CN108416442B - 基于项频度和权值的中文词间矩阵加权关联规则挖掘方法 - Google Patents

基于项频度和权值的中文词间矩阵加权关联规则挖掘方法 Download PDF

Info

Publication number
CN108416442B
CN108416442B CN201810216894.6A CN201810216894A CN108416442B CN 108416442 B CN108416442 B CN 108416442B CN 201810216894 A CN201810216894 A CN 201810216894A CN 108416442 B CN108416442 B CN 108416442B
Authority
CN
China
Prior art keywords
chinese
item set
word matrix
weighting
frequent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810216894.6A
Other languages
English (en)
Other versions
CN108416442A (zh
Inventor
黄名选
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University of Finance and Economics
Original Assignee
Guangxi University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University of Finance and Economics filed Critical Guangxi University of Finance and Economics
Publication of CN108416442A publication Critical patent/CN108416442A/zh
Application granted granted Critical
Publication of CN108416442B publication Critical patent/CN108416442B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于项频度和权值的中文词间矩阵加权关联规则挖掘方法,首先将待挖掘的中文文档进行去除中文停用词、提取特征词并计算特征词权值的预处理,分别构建中文特征词库和中文文档索引库;采用基于项频度和权值的矩阵加权支持度计算方法挖掘中文特征词矩阵加权频繁项集,得到中文特征词矩阵加权频繁项集集合;采用置信度‑兴趣度评价框架从所述中文特征词矩阵加权频繁项集中挖掘中文特征词矩阵加权关联规则模式。本发明方法充分考虑了特征词在文档中出现频度和权值,能挖掘出更实际、更合理的和更能体现特征词间的各种关联关系的中文词间矩阵加权关联规则模式,这些模式应用于信息检索查询扩展领域能提高信息检索性能。

Description

基于项频度和权值的中文词间矩阵加权关联规则挖掘方法
技术领域
本发明属于中文文本挖掘领域,具体是一种基于项频度和权值的中文词间矩阵加权关联规则挖掘方法。
背景技术
在关联模式挖掘研究中,其核心问题是关联模式的支持度计算问题。当前的研究中,主要有如下三类关联模式支持度计算方法:第一类是无加权关联模式支持度计算方法(见文献R.Agrawal,T.Imielinski,A.Swami.Mining association rules between setsof items in large database[C].In Proceeding of 1993ACM SIGMOD InternationalConference on Management of Data,Washington D.C.,1993,(5):207-216.),这是早期经典的支持度计算方法,该方法将关联模式在事务中发生的概率作为该关联模式的支持度。该方法只考虑关联模式出现的频度,没有考虑关联模式在事务数据库中的重要性(即关联模式的权值)。第二类是项权值固定的关联模式支持度计算方法,该方法将项集权值总和与无加权关联模式支持度的乘积作为加权项集支持度(C.H.Cai,A.da,W.C.Fu,etal.Mining Association Rules with Weighted Items[C]//Proceedings of IEEEInternational database Engineering and Application Symposiums,1998:68-77.),该方法克服了第一类方法的缺陷,考虑了项目权值,但是项目权值在挖掘过程中是固定的,解决不了项目权值随着事务记录不同而变化的情况。第三类是基于项权值变化的完全加权(也称为矩阵加权)关联模式支持度计算方法,该方法克服了第二类方法的缺陷,充分考虑了项权值随事务不同而变化的情况,目前该类支持度有2种计算方法:①将项目平均权值与无加权关联模式支持度的乘积作为加权项集支持度(谭义红,林亚平.向量空间模型中完全加权关联规则的挖掘[J].计算机工程与应用,2003(13):208-211.;黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009,20(7):1854-1865.),这是典型的完全加权(矩阵加权)项集支持度计算方法;②运用几何概型理论,将事务数据库中项集权值总和占所有项目权值总和的百分比作为完全加权项集支持度(周秀梅,黄名选.基于项权值变化的矩阵加权关联规则挖掘[J].计算机应用研究,2015,32(10):2918-2923.),这是该类支持度另一种计算方法,从文献(周秀梅,黄名选.基于项权值变化的矩阵加权关联规则挖掘[J].计算机应用研究,2015,32(10):2918-2923.)的实验结果可知,该方法的关联模式挖掘效果优于方法①的,然而,该方法只考虑项集权值对支持度的贡献,忽略了项集频度的影响。针对这些问题,本发明首先提出融合项频度和权值的矩阵加权关联模式支持度计算方法,然后提出一种基于项频度和权值的中文词间矩阵加权关联规则挖掘方法。该发明能发现中文特征词之间各种隐含的、不为人知的关联,在单语言信息检索、跨语言信息检索查询扩展等领域有很高的应用价值。
发明内容
本发明所要解决的问题是提供基于项频度和权值的中文词间矩阵加权关联规则挖掘方法,能挖掘出更实际、更合理的和更能体现中文特征词间的各种关联关系的中文词间矩阵加权关联规则模式,这些关联模式应用于信息检索领域能提高检索性能。
本发明采用如下技术方案解决上述技术问题:
基于项频度和权值的中文词间矩阵加权关联则挖掘方法,首先将待挖掘的中文文档进行去除中文停用词、提取特征词并计算特征词权值的预处理,分别构建中文特征词库和中文文档索引库;采用基于项频度和权值的矩阵加权支持度计算方法挖掘中文特征词矩阵加权频繁项集,得到中文特征词矩阵加权频繁项集集合;采用置信度-兴趣度评价框架从所述中文特征词矩阵加权频繁项集中挖掘中文特征词矩阵加权关联规则模式。
所述特征词权值的计算方法为按公式(1)进行计算:
Figure BDA0001598824090000021
式(1)中,wij表示中文文档di中中文特征词tj的权值,tfj,i表示中文特征词tj在中文文档di中的出现次数,dfj表示含有中文特征词tj的中文文档数量,N表示中文文档索引库中总的文档数量。
所述采用基于项频度和权值的矩阵加权支持度计算方法挖掘中文特征词矩阵加权频繁项集具体步骤为:
(1)挖掘中文特征词矩阵加权频繁1_项集L1
(1.1)从所述中文特征词库中提取中文特征词作为候选1_项集C1
(1.2)扫描中文文档索引库累加中文文档索引库中所有特征词权值的总和W,统计中文特征词候选1_项集C1在中文文档索引库的权值
Figure BDA0001598824090000022
及其频度
Figure BDA0001598824090000023
按公式(2)计算C1的矩阵加权支持度mSup(C1);
Figure BDA0001598824090000024
公式(2)中,n为中文文档索引库中文档总篇数;
(1.3)如果步骤(1.2)所得候选1_项集C1的矩阵加权支持度mSup(C1)不小于最小支持度阈值ms,则候选1_项集C1就是中文特征词矩阵加权频繁1_项集L1,添加到中文特征词矩阵加权频繁项集集合FIS;
(2)挖掘中文特征词矩阵加权频繁k_项集Lk,k≥2,具体步骤:
(2.1)采用Apriori连接方法将中文特征词矩阵加权频繁(k-1)_项集Lk-1进行自连接得到中文特征词矩阵加权候选k_项集Ck,k≥2;
(2.2)扫描中文文档索引库累加中文特征词候选k_项集Ck在中文文档索引库中的权值
Figure BDA0001598824090000031
统计Ck在中文文档索引库中的频度
Figure BDA0001598824090000032
按公式(3)计算中文特征词矩阵加权候选k_项集Ck的矩阵加权支持度mSup(Ck);
Figure BDA0001598824090000033
公式(3)中,n和W同步骤(1.2),
Figure BDA0001598824090000034
为中文特征词矩阵加权候选k_项集Ck的项集长度;
(2.3)如果中文特征词矩阵加权候选k_项集Ck的矩阵加权支持度mSup(Ck)大于或者等于最小支持度阈值ms,则为中文特征词矩阵加权频繁k_项集Lk,添加到中文特征词矩阵加权频繁项集集合FIS;
(2.4)若中文特征词矩阵加权频繁k_项集Lk为空集,则矩阵加权频繁项集挖掘结束,否则,k加1后转入步骤(2.1)继续循环。
所述采用置信度-兴趣度评价框架从所述中文特征词矩阵加权频繁项集中挖掘中文特征词矩阵加权关联规则模式的具体步骤如下:
对于所述中文特征词矩阵加权频繁项集集合FIS中每一个频繁k_项集Lk,k≥2:
(1)找出频繁k_项集Lk的所有真子集项集,得到Lk的真子集项集集合;
(2)任意取出Lk的真子集项集集合中两个真子集项集TS1和TS2,且
Figure BDA0001598824090000035
TS1∪TS2=Lk
Figure BDA0001598824090000036
(3)按公式(4)计算中文特征词矩阵加权兴趣度MInt(TS1,TS2),如果MInt(TS1,TS2)≥最小兴趣度阈值mi,则:
按公式(5)计算中文特征词矩阵加权置信度MConf(TS1→TS2),若MConf(TS1→TS2)≥最小置信度阈值mc,则关联规则TS1→TS2是强中文特征词矩阵加权关联规则,并加入到中文特征词矩阵加权关联规则集合mAR;
按公式(6)计算中文特征词矩阵加权置信度MConf(TS2→TS1),若MConf(TS2→TS1)≥最小置信度阈值mc,则关联规则TS2→TS1是强中文特征词矩阵加权关联规则,并加入到中文特征词矩阵加权关联规则集合mAR;
Figure BDA0001598824090000041
Figure BDA0001598824090000042
Figure BDA0001598824090000043
式(4)-式(6)中,k1、k2和k12分别为项集TS1、TS2及项集(TS1,TS2)的项集长度,n1、n2和n12分别为项集TS1、TS2以及项集(TS1,TS2)在中文文档索引库中出现的频度,w1、w2和w12分别为项集TS1、TS2以及项集(TS1,TS2)在中文文档索引库中的所累加得到的项集权值总和;
(4)返回步骤(2)再顺序进行,直到Lk的真子集集合中每个真子集项集当且仅当被取出一次,然后从所述中文特征词矩阵加权频繁项集集合FIS中重新取出新的频繁k_项集Lk,转入步骤(1)进行新一轮中文特征词矩阵加权关联规则挖掘,直到所述中文特征词矩阵加权频繁项集集合FIS中每一个频繁k_项集Lk都被取出挖掘为止。
本发明与现有技术相比,具有以下有益效果:
(1)本发明提出了一种基于项频度和权值的中文词间矩阵加权关联规则挖掘方法,克服了现有矩阵加权关联规则挖掘技术的缺陷,充分考虑了特征词在文档中出现频度和权值,采用基于项频度和权值的矩阵加权支持度计算方法挖掘中文特征词矩阵加权频繁项集,采用置信度-兴趣度评价框架从频繁项集库中挖掘中文特征词间矩阵加权关联规则模式,所挖掘出的矩阵加权关联规则模式更实际、更合理和更能体现中文特征词间的各种关联关系,应用于信息检索查询扩展领域能够提高其检索性能,具有很好的应用价值。
(2)本发明方法更能提高中英跨语言信息检索性能,与传统典型的矩阵加权关联规则挖掘方法相比,本发明方法的中英跨语言检索结果的P@5和R-Prec值均比该对比方法的检索结果的高,其中,P@5值比该对比方法的提高幅度范围为4.51%-106.35%,而R-Prec值比该对比方法方法的提高幅度为63.28%-146.76%,说明本发明方法是有效的,在信息检索领域有很高的应用价值和推广前景。
附图说明
图1为本发明基于项频度和权值的中文词间矩阵加权关联规则挖掘方法的流程框图。
具体实施方式
为了更好地说明本发明的技术方案,以下结合附图详细说明本发明的具体实施方式,但不构成对本发明权利要求保护范围的限制。
如图1所示,基于项频度和权值的中文词间矩阵加权关联规则挖掘方法,包括下列步骤:
1.将待挖掘的中文文档进行预处理,即去除中文停用词、提取特征词并计算其权值,构建中文特征词库和中文文档索引库。
特征词权值表明该中文特征词对于其所在中文文档的重要程度,采用经典的和流行的tf-idf特征词权值计算方法,其计算公式是:
Figure BDA0001598824090000051
式(1)中,wij表示中文文档di中中文特征词tj的权值,tfj,i表示中文特征词tj在中文文档di中的出现次数,dfj表示含有中文特征词tj的文档数量,N表示中文文档索引库中总的文档数量。
2.挖掘中文特征词矩阵加权频繁1_项集L1
(1)从中文特征词库中提取中文特征词作为候选1_项集C1
(2)扫描中文文档索引库累加中文文档索引库中所有特征词权值的总和W,统计中文特征词候选1_项集C1在中文文档索引库的权值
Figure BDA0001598824090000052
及其频度
Figure BDA0001598824090000053
按式(2)计算C1的矩阵加权支持度mSup(C1);
Figure BDA0001598824090000054
式(2)中,n为中文文档索引库中文档总篇数。
(3)如果mSup(C1)不小于最小支持度阈值ms,则C1就是中文特征词矩阵加权频繁1_项集L1,添加到中文特征词矩阵加权频繁项集集合FIS(Frequent Itemset)。
3.采用基于项频度和权值的矩阵加权支持度计算方法挖掘中文特征词矩阵加权频繁k_项集Lk,k≥2。具体步骤:
(1)采用Apriori连接方法将中文特征词矩阵加权频繁(k-1)_项集Lk-1进行自连接得到中文特征词矩阵加权候选k_项集Ck,k≥2;
Apriori连接方法详见文献(Agrawal R,Imielinski T,Swami A.Miningassociation rules between sets of items in large database[C]//Proceedings ofthe 1993ACM SIGMOD International Conference on Management of Data,WashingtonD C,USA,1993:207-216.)
(2)扫描中文文档索引库累加中文特征词候选k_项集Ck在中文文档索引库中的权值
Figure BDA0001598824090000055
统计Ck在中文文档索引库中的频度
Figure BDA0001598824090000061
计算中文特征词矩阵加权候选k_项集Ck的矩阵加权支持度mSup(Ck);
Figure BDA0001598824090000062
式(3)中,n和W同式(2)中的定义,
Figure BDA0001598824090000063
为中文特征词矩阵加权候选k_项集Ck的项集长度,项集长度是指项集中的项目总个数,例如,项集(I1,I2)的项集长度是2。
(3)如果mSup(Ck)大于或者等于最小支持度阈值ms,则Ck就是中文特征词矩阵加权频繁k_项集Lk,添加到中文特征词矩阵加权频繁项集集合FIS(Frequent Itemset)。
(4)若中文特征词矩阵加权频繁k_项集Lk为空集,则矩阵加权频繁项集挖掘结束,转入步骤4,否则,k加1后转入步骤(1)继续循环。
4.对于中文特征词矩阵加权频繁项集集合FIS中每一个频繁k_项集Lk,k≥2,采用置信度-兴趣度评价框架从频繁k_项集Lk中挖掘中文特征词间矩阵加权关联规则模式,操作步骤如下:
(1)找出频繁k_项集Lk的所有真子集项集,得到Lk的真子集项集集合;
(2)任意取出Lk的真子集项集集合中两个真子集项集TS1和TS2,且
Figure BDA0001598824090000064
TS1∪TS2=Lk
Figure BDA0001598824090000065
(3)按公式(4)计算中文特征词矩阵加权兴趣度MInt(TS1,TS2),如果MInt(TS1,TS2)≥最小兴趣度阈值mi,则:
按公式(5)计算中文特征词矩阵加权置信度MConf(TS1→TS2),若MConf(TS1→TS2)≥最小置信度阈值mc,则关联规则TS1→TS2是强中文特征词矩阵加权关联规则,加入到中文特征词矩阵加权关联规则集合mAR;
按公式(6)计算中文特征词矩阵加权置信度MConf(TS2→TS1),若MConf(TS2→TS1)≥最小置信度阈值mc,则关联规则TS2→TS1是强中文特征词矩阵加权关联规则,加入到中文特征词矩阵加权关联规则集合mAR;
Figure BDA0001598824090000066
Figure BDA0001598824090000071
Figure BDA0001598824090000072
式(4)-式(6)中,k1、k2和k12分别为项集TS1、TS2以及项集(TS1,TS2)的项集长度,n1、n2和n12分别为项集TS1、TS2以及项集(TS1,TS2)在中文文档索引库中出现的项频度,w1、w2和w12分别为中文特征词矩阵加权项集TS1、TS2以及项集(TS1,TS2)在中文文档索引库中的所累加得到的项集权值总和。
(4)返回步骤(2)再顺序执行,直到Lk的真子集集合中每个真子集项集当且仅当被取出一次,然后从中文特征词矩阵加权频繁项集集合FIS中重新取出新的频繁k_项集Lk,转入步骤(1)进行新一轮中文特征词矩阵加权关联规则挖掘,直到中文特征词矩阵加权频繁项集集合FIS中每一个频繁k_项集Lk都已经被取出挖掘为止,这时中文特征词矩阵加权关联规则挖掘结束。
实验设计和结果:
为了验证本发明的有益效果,将传统典型的矩阵加权关联规则挖掘方法(见文献:黄名选,严小卫,张师超.基于矩阵加权关联规则的伪相关反馈查询扩展.软件学报,2009(7):1854-1865.)作为对比方法,和本发明所描述的基于项频度和权值的中文词间矩阵加权关联规则挖掘方法进行实验比较,主要验证本发明方法在跨语言信息检索领域中应用效果,从而验证本发明的有效性。
实验方法是:以汉语和英语为语言对象,构建一个中英跨语言信息检索平台。实验平台所用的机器翻译工具是微软必应(Bing)翻译接口Microsoft Translator API。通过该实验平台验证本发明方法和对比方法所获得的关联规则模式对中英跨语言检索性能的影响。
实验过程是:首先将中文查询经过机器翻译为英文查询检索英文文档,提取前列初检英文文档50篇进行相关性判断(为了简便,本文实验中,将初检前列50篇文档中含有已知结果集中的相关文档视为初检相关文档),应用本发明基于项频度和权值的中文词间矩阵加权关联规则挖掘方法和对比挖掘方法对初检相关文档进行关联规则模式挖掘,以关联规则的后件作为查询扩展词,和原查询组合为新查询再次检索英文文档,比较两种方法的跨语言检索性能。
实验数据是:选择国际上通用的NTCIR-5CLIR语料中的中文查询集和英文文档集Mainichi Daily News 2000、2001年和Korea Times 2001年的新闻文本,共有26224篇英文文档,即Mainichi Daily News 2000的新闻文本6608篇(简称m00),Mainichi Daily News2001的5547篇(简称m01)和Korea Times 2001年的14069篇(简称k01)。该语料有文档测试集、50个查询主题集及其对应的结果集。结果集有2种评价标准,即高度相关,相关的Rigid标准和高度相关、相关和部分相关的Relax标准。实验时查询主题类型选择Desc类型,Desc查询属于长查询,以句子形式简要描述查询主题。
采用P@5和R-查准率(R-Prec)作为本实验的跨语言检索评价指标。P@5是指检索结果在前5个位置处的查准率。R-查准率是指当R个文档被检索后所计算的查准率,其中R是指对应于某个查询在文档集合中相关文档数,不强调文档结果集中文档的排序情况。
实验结果如下:
运行本发明方法和对比方法的源程序,提交50个中文查询主题的DESC查询到中英跨语言信息检索平台进行实验,经过本发明方法和对比方法得到的查询扩展词和原查询组合为新查询再次检索英文文档,其中英跨语言检索结果的P@5和R-Prec值的平均值如表1所示,其中,实验参数如下:最小支持度阈值ms取值分别为0.3、0.35、0.4、0.45、0.5,最小置信度阈值mc为0.1,最小兴趣度阈值mi为0.1。
表1本发明方法与对比挖掘方法的中英跨语言检索性能比较
Figure BDA0001598824090000081
表1实验结果表明,本发明方法的中英跨语言检索结果的P@5和R-Prec值均比对比方法的检索结果的高,其中,P@5值比对比方法的提高幅度范围为4.51%-106.35%,而R-Prec值比对比方法的提高幅度为63.28%-146.76%,说明本发明方法是有效的,在信息检索领域有很高的应用价值和推广前景。

Claims (2)

1.基于项频度和权值的中文词间矩阵加权关联规则挖掘方法,其特征在于,首先将待挖掘的中文文档进行去除中文停用词、提取特征词并计算特征词权值的预处理,分别构建中文特征词库和中文文档索引库;采用基于项频度和权值的矩阵加权支持度计算方法挖掘中文特征词矩阵加权频繁项集,得到中文特征词矩阵加权频繁项集集合;采用置信度-兴趣度评价框架从所述中文特征词矩阵加权频繁项集中挖掘中文特征词矩阵加权关联规则模式;
所述采用基于项频度和权值的矩阵加权支持度计算方法挖掘中文特征词矩阵加权频繁项集具体步骤为:
(1)挖掘中文特征词矩阵加权频繁1_项集L1
(1.1)从所述中文特征词库中提取中文特征词作为候选1_项集C1
(1.2)扫描中文文档索引库累加中文文档索引库中所有特征词权值的总和W,统计中文特征词候选1_项集C1在中文文档索引库的权值
Figure FDA0003223896370000013
及其频度
Figure FDA0003223896370000014
按公式(2)计算C1的矩阵加权支持度mSup(C1);
Figure FDA0003223896370000011
公式(2)中,n为中文文档索引库中文档总篇数;
(1.3)如果步骤(1.2)所得候选1_项集C1的矩阵加权支持度mSup(C1)不小于最小支持度阈值ms,则候选1_项集C1就是中文特征词矩阵加权频繁1_项集L1,添加到中文特征词矩阵加权频繁项集集合FIS;
(2)挖掘中文特征词矩阵加权频繁k_项集Lk,k≥2,具体步骤:
(2.1)采用Apriori连接方法将中文特征词矩阵加权频繁(k-1)_项集Lk-1进行自连接得到中文特征词矩阵加权候选k_项集Ck,k≥2;
(2.2)扫描中文文档索引库累加中文特征词候选k_项集Ck在中文文档索引库中的权值
Figure FDA0003223896370000016
统计Ck在中文文档索引库中的频度
Figure FDA0003223896370000017
按公式(3)计算中文特征词矩阵加权候选k_项集Ck的矩阵加权支持度mSup(Ck);
Figure FDA0003223896370000012
公式(3)中,n和W同步骤(1.2),
Figure FDA0003223896370000015
为中文特征词矩阵加权候选k_项集Ck的项集长度;
(2.3)如果中文特征词矩阵加权候选k_项集Ck的矩阵加权支持度mSup(Ck)大于或者等于最小支持度阈值ms,则Ck为中文特征词矩阵加权频繁k_项集Lk,添加到中文特征词矩阵加权频繁项集集合FIS;
(2.4)若中文特征词矩阵加权频繁k_项集Lk为空集,则矩阵加权频繁项集挖掘结束,否则,k加1后转入步骤(2.1)继续循环;
所述采用置信度-兴趣度评价框架从所述中文特征词矩阵加权频繁项集中挖掘中文特征词矩阵加权关联规则模式的具体步骤如下:
对于所述中文特征词矩阵加权频繁项集集合FIS中每一个频繁k_项集Lk,k≥2:
(1)找出频繁k_项集Lk的所有真子集项集,得到Lk的真子集项集集合;
(2)任意取出Lk的真子集项集集合中两个真子集项集TS1和TS2,且
Figure FDA0003223896370000024
Figure FDA0003223896370000025
(3)按公式(4)计算中文特征词矩阵加权兴趣度MInt(TS1,TS2),如果MInt(TS1,TS2)≥最小兴趣度阈值mi,则:
按公式(5)计算中文特征词矩阵加权置信度MConf(TS1→TS2),若MConf(TS1→TS2)≥最小置信度阈值mc,则关联规则TS1→TS2是强中文特征词矩阵加权关联规则,并加入到中文特征词矩阵加权关联规则集合mAR;
按公式(6)计算中文特征词矩阵加权置信度MConf(TS2→TS1),若MConf(TS2→TS1)≥最小置信度阈值mc,则关联规则TS2→TS1是强中文特征词矩阵加权关联规则,并加入到中文特征词矩阵加权关联规则集合mAR;
Figure FDA0003223896370000026
Figure FDA0003223896370000021
Figure FDA0003223896370000022
式(4)-式(6)中,k1、k2和k12分别为项集TS1、TS2及项集(TS1,TS2)的项集长度,n1、n2和n12分别为项集TS1、TS2以及项集(TS1,TS2)在中文文档索引库中出现的频度,w1、w2和w12分别为项集TS1、TS2以及项集(TS1,TS2)在中文文档索引库中的所累加得到的项集权值总和;
(4)返回步骤(2)再顺序进行,直到Lk的真子集集合中每个真子集项集当且仅当被取出一次,然后从所述中文特征词矩阵加权频繁项集集合FIS中重新取出新的频繁k_项集Lk,转入步骤(1)进行新一轮中文特征词矩阵加权关联规则挖掘,直到所述中文特征词矩阵加权频繁项集集合FIS中每一个频繁k_项集Lk都被取出挖掘为止。
2.如权利要求1所述的基于项频度和权值的中文词间矩阵加权关联规则挖掘方法,其特征在于,所述特征词权值的计算方法为按公式(1)进行计算:
Figure FDA0003223896370000031
式(1)中,wij表示中文文档di中中文特征词tj的权值,tfj,i表示中文特征词tj在中文文档di中的出现次数,dfj表示含有中文特征词tj的中文文档数量,N表示中文文档索引库中总的文档数量。
CN201810216894.6A 2017-12-26 2018-03-16 基于项频度和权值的中文词间矩阵加权关联规则挖掘方法 Expired - Fee Related CN108416442B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2017114392365 2017-12-26
CN201711439236 2017-12-26

Publications (2)

Publication Number Publication Date
CN108416442A CN108416442A (zh) 2018-08-17
CN108416442B true CN108416442B (zh) 2021-10-29

Family

ID=63131834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810216894.6A Expired - Fee Related CN108416442B (zh) 2017-12-26 2018-03-16 基于项频度和权值的中文词间矩阵加权关联规则挖掘方法

Country Status (1)

Country Link
CN (1) CN108416442B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614466A (zh) * 2018-11-15 2019-04-12 阿里巴巴集团控股有限公司 基于频繁集挖掘的关键词规则生成方法及其装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317794B (zh) * 2014-08-27 2017-10-24 广西财经学院 基于动态项权值的中文特征词关联模式挖掘方法及其系统
CN104216874B (zh) * 2014-09-22 2017-03-29 广西财经学院 基于相关系数的中文词间加权正负模式挖掘方法及系统
CN106372241B (zh) * 2016-09-18 2019-03-29 广西财经学院 基于词间加权关联模式的越英跨语言文本检索方法及系统

Also Published As

Publication number Publication date
CN108416442A (zh) 2018-08-17

Similar Documents

Publication Publication Date Title
Li et al. A unified graph model for sentence-based opinion retrieval
CN105488196B (zh) 一种基于互联语料的热门话题自动挖掘系统
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN102945237B (zh) 基于原始用户输入建议和细分用户输入的系统和方法
Sarawagi et al. Open-domain quantity queries on web tables: annotation, response, and consensus models
CN102662936B (zh) 融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法
WO2018090468A1 (zh) 视频节目的搜索方法和装置
CN109299278B (zh) 基于置信度-相关系数框架挖掘规则前件的文本检索方法
Trabelsi et al. Improved table retrieval using multiple context embeddings for attributes
CN107609095B (zh) 基于加权正负规则前件与相关反馈的跨语言查询扩展方法
CN106484781B (zh) 融合关联模式和用户反馈的印尼汉跨语言检索方法及系统
CN108416442B (zh) 基于项频度和权值的中文词间矩阵加权关联规则挖掘方法
CN111897922A (zh) 基于模式挖掘与词向量相似度计算的中文查询扩展方法
CN109739953B (zh) 基于卡方分析-置信度框架和后件扩展的文本检索方法
CN111897926A (zh) 深度学习与扩展词挖掘交集融合的中文查询扩展方法
CN109684463B (zh) 基于权值比较与挖掘的跨语言译后前件扩展方法
CN109726263B (zh) 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法
CN111897923A (zh) 基于词向量与关联模式交集扩展的文本检索方法
CN111897928A (zh) 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法
Yang et al. GBMTab: A Graph-Based Method for Interpreting Noisy Semantic Table to Knowledge Graph.
CN107562904B (zh) 融合项权值与频度的英文词间加权正负关联模式挖掘方法
CN108170778B (zh) 基于完全加权规则后件的中英跨语言查询译后扩展方法
CN109684465B (zh) 基于项集权值比较的模式挖掘和混合扩展的文本检索方法
CN107526839A (zh) 基于完全加权正负模式的跨语言查询译后后件扩展方法
Alsarkhi et al. Optimizing inverted index blocking for the matrix comparator in linking unstandardized references

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211029

CF01 Termination of patent right due to non-payment of annual fee