CN104317794B - 基于动态项权值的中文特征词关联模式挖掘方法及其系统 - Google Patents
基于动态项权值的中文特征词关联模式挖掘方法及其系统 Download PDFInfo
- Publication number
- CN104317794B CN104317794B CN201410427503.7A CN201410427503A CN104317794B CN 104317794 B CN104317794 B CN 104317794B CN 201410427503 A CN201410427503 A CN 201410427503A CN 104317794 B CN104317794 B CN 104317794B
- Authority
- CN
- China
- Prior art keywords
- item set
- chinese
- candidate
- item
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 239000011159 matrix material Substances 0.000 claims abstract description 115
- 238000013138 pruning Methods 0.000 claims abstract description 23
- 238000005065 mining Methods 0.000 claims description 105
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 9
- 244000141353 Prunus domestica Species 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims 1
- 239000000463 material Substances 0.000 claims 1
- 238000009412 basement excavation Methods 0.000 abstract description 4
- 101100149325 Escherichia coli (strain K12) setC gene Proteins 0.000 description 36
- 238000012360 testing method Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013499 data model Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 101100001674 Emericella variicolor andI gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 101150117787 outL gene Proteins 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
一种基于动态项权值的矩阵加权中文特征词关联模式挖掘方法及系统,利用中文文本预处理模块进行预处理,构建中文文本数据库和特征词项目库;利用中文特征词候选项集产生及其剪枝模块产生矩阵加权特征词候选项集,采用新的矩阵加权项集剪枝方法对候选项集进行剪枝,得到最终矩阵加权特征词候选项集;利用中文特征词频繁项集产生模块计算项集权值,由此得到特征词频繁项集;利用中文特征词关联模式产生及结果显示模块生成项集的全部真子集,通过其项集权值的简单计算和比较挖掘有效的关联规则模式,并显示给用户使用。本发明具有良好的剪枝性能,其候选项集和挖掘时间明显减少,挖掘效率极大提高,其模式运用于信息检索领域,可提高信息查询性能。
Description
技术领域
本发明属于数据挖掘领域,具体是一种基于动态项权值的矩阵加权中文特征词关联模式挖掘方法及其挖掘系统,适用于中文文本挖掘中特征词关联模式发现以及中文文本信息检索查询扩展、文本跨语言信息检索等领域,其挖掘出特征词关联模式可以作为高质量扩展词来源,应用于web搜索引擎,有助于提高其信息检索查询性能。
背景技术
当前基于项频度的挖掘方法和基于固定项权值的挖掘方法得到广泛的研究和应用,基于动态项权值的挖掘方法报道不多。基于动态项权值的挖掘方法在文本挖掘、信息检索等领域具有重要的应用价值和广阔的应用前景。
基于项频度的挖掘也称无加权关联规则挖掘,这是早期传统的关联规则挖掘方法,其主要特点是按平等一致的原则处理项集,将项集在事务中出现的概率和条件概率作为其项集的支持度和关联规则的置信度。其缺陷是:只重视项频度,忽略存在项目权值的情况,导致冗余的、无效的和无趣的关联模式增多。为了解决上述问题,基于项权值的加权模式挖掘方法得到广泛讨论和研究,其特点是引入项权值,以体现项目之间具有不同的重要性和项目在事务记录中具有不同的权值。根据项权值的来源不同,基于项权值的挖掘分为基于固定项权值的加权模式挖掘方法和基于动态项权值的矩阵加权模式挖掘方法两类。
基于固定项权值的加权模式挖掘是早期的基于项权值的挖掘方法,自1998年以来得到众多学者的关注和深入研究,其特点是:项目权值来源于用户或者领域专家设置,在事务挖掘过程中固定不变。其缺陷是:没有考虑项目权值随着事务记录变化而变化的情况,即忽略项权值变化的情况,不能解决具有项权值变化特征的数据挖掘问题。通常将具有项权值变化特征的数据称为矩阵加权数据,也称完全加权数据。中文文本信息数据是典型的矩阵加权数据,海量的中文文本信息中其特征词权值是依赖于各个文档,并随文档不同而变化。基于动态项权值的矩阵加权关联规则挖掘方法克服了基于固定项权值的加权模式挖掘的缺陷,用于挖掘具有项权值变化特征的数据中各种关联模式,主要特点是其项目权值依赖于事务而动态变化。典型的矩阵加权关联规则挖掘算法是2003年谭义红等提出的向量空间模型中完全加权关联规则的挖掘方法KWEstimate(谭义红,林亚平.向量空间模型中完全加权关联规则的挖掘[J].计算机工程与应用,2003(13):208-211.)以及面向查询扩展的矩阵加权关联规则挖掘方法MWARM(黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009, 20(7):1854-1865.),这些方法在挖掘矩阵加权数据关联模式均获得良好的挖掘效果,并且已经成功地运用于信息检索查询扩展领域(黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009, 20(7):1854-1865.,黄名选, 严小卫, 张师超. 完全加权关联规则挖掘及其在查询扩展中的应用[J].计算机应用研究, 2008,25(6):1724-1727.),获得了显著的效果。现有的基于动态项权值的挖掘方法缺陷是:其所挖掘的关联模式数量仍然很庞大,无趣的、虚假的和无效的关联模式很多,给用户选择所需模式时增加难度。针对上述问题,本发明根据中文文本信息数据的特点,提一种一种基于动态权值的矩阵加权中文特征词关联模式挖掘方法及其挖掘系统。该发明提出矩阵加权项集获取新方法及其项集剪枝方法,避免很多无效的、虚假的和无趣的关联模式产生,极大提高中文文本挖掘效率,所挖掘出的中文特征词关联规则模式更加接近实际情况,其中文特征词关联模式可为中文信息检索提供可靠的查询扩展词来源,因此,该发明方法及其挖掘系统在中文文本挖掘、信息检索等领域具有重要的应用价值和广阔的应用前景。
发明内容
本发明所要解决的技术问题在于,针对中文文本特征词关联模式挖掘进行深入探索,提出一种基于动态项权值的矩阵加权中文特征词关联模式挖掘方法及其挖掘系统,提高中文文本挖掘效率,应用于中文文本信息检索查询扩展,可以提高检索性能,应用于中文文本挖掘,能够发现更加实际合理的词间关联模式,提高文本聚类和分类的精度。
本发明解决上述技术问题所采取的技术方案是:一种基于动态项权值的矩阵加权中文特征词关联模式挖掘方法,包括如下步骤:
(1)中文文本预处理:将待处理的中文文本信息数据进行分词,去除停用词、特征词的提取及其权值计算,构建中文文本数据库和特征词项目库。
中文文本特征词权值计算公式是:w ij =(0.5+0.5×tf ij /max j (tf ij ))×idf i ,
其中,w ij 为第i个特征词在第j篇文档的权值,idf i 为第i个特征词的逆向文档频度,其值idf i =log(N/df i ),N为文档集中文档总数,df i 为含有第i个特征词的文档数量,tf ij 为第i个特征词在第j篇文档的词频。
(2)挖掘矩阵加权中文特征词频繁项集,包括以下步骤2.1和步骤2.2:
2.1、挖掘矩阵加权特征词候选1_项集和频繁1_项集,具体步骤按照2.1.1和2.1.2进行:
2.1.1、从特征词项目库中提取特征词候选1_项集C 1,在中文文本数据库累加全部项目权值总和W,累加矩阵加权特征词候选1_项集在文本信息数据库中的项集权值累加总和w(C 1),计算特征词候选1_项集C 1的最小频繁权值阈值mw(C 1)= W×ms,其w(C 1)≥mw(C 1)的矩阵加权中文特征词候选1_项集为频繁1_项集L 1 ,将L 1 加入到特征词频繁项集集合MWFIS。所述ms为最小支持度阈值,mwsup(C 1)的公式如下:
2.1.2、在中文文本数据库中累加矩阵加权特征词候选1-项集的出现频度n c1,提取w r (C 1),计算候选1-项集的矩阵加权项集权值期望MWIWB(C 1,2)。MWIWB(C 1,2)的计算公式为:
MWIWB(C 1,2)=2×W×ms-n c1 ×w r (C 1)。
w r (C 1)为在不属于C 1的特征词项目集合中其他特征词项目的权值最大的项目权值。
2.2、挖掘矩阵加权特征词候选k_项集和频繁k_项集,所述的k≥2,按照步骤2.2.1~ 2.2.8进行操作:
2.2.1、计算矩阵加权候选(k-1)_项集C k-1的矩阵加权项集权值期望MWIWB(C k-1 ,k),删除矩阵加权候选(k-1)_项集C k-1的项集权值w(C k-1)小于其项集权值期望的候选(k-1)_项集MWIWB(C k-1 , k),即w(C k-1)<MWIWB(C k-1 , k),得到新的矩阵加权特征词候选(k-1)_项集C k-1集合。
其中,w(C k-1)为C k-1在文本信息数据库中的权值累加总和,MWIWB(C k-1, k) 为包含矩阵加权特征词候选(k-1)_项集C k-1的k_项集权重期望,其计算公式如下:
MWIWB(C k-1,k)=k×W×ms-n (k-1) ×w r (C k-1)
n (k-1)为特征词候选项集C k-1在中文文本数据库中的项集频度,w r (C k-1)为在不属于C k-1特征词项目集合的其他特征词项目中权值最大的项目权值。
2.2.2、将其项集频度不为0的矩阵加权特征词候选(k -1)_项集C k-1进行Apriori连接产生矩阵加权特征词候选k_项集C k ;
2.2.3、如果矩阵加权特征词候选k_项集不是空集,转入2.2.4步,否则,退出2.2步转入(3)步;
2.2.4、对于矩阵加权特征词候选k_项集C k ,若存在一个其(k-1)_项子集的项集权值w (k-1)小于其对应的项集权值期望MWIWB(C k-1 ,k) (即w (k-1)<MWIWB(C k-1 ,k)),则将该候选k_项集删除,得到新的的矩阵加权特征词候选k_项集C k 集合。
2.2.5、在中文文本数据库中累加矩阵加权特征词候选k-项集C k 的出现频度n ck 及其项集权值w k ,提取w r (C k ),计算C k 的矩阵加权项集权值期望MWIWB(C k ,k+1)。MWIWB(C k ,k+1)的计算公式为:
MWIWB(C k ,k+1) =(k+1)×W×ms-n ck ×w r (C k )
2.2.6、删除其项集频度为0的矩阵加权特征词候选k-项集C k ,得到新的矩阵加权特征词候选k_项集C k 集合。
2.2.7、计算矩阵加权特征词候选k_项集C k 的最小频繁权值阈值mw(C k ),若矩阵加权候选项集的项集权值大于或者等于其最小频繁权值阈值mw(C k ),即w(C k )≥mw(C k ),那么该特征词候选项集C k 是频繁的,加入到矩阵加权中文特征词频繁项集集合MWFIS。mw(C k )的计算公式为:
mw(C k )= W×k×ms
2.2.8、将k的值加1,循环2.2.1~2.2.7步骤,直到C k 为空,则退出2.2步转入如下(3)步。
(3)从矩阵加权中文特征词频繁项集集合MWFIS中挖掘矩阵加权特征词强关联规则模式,包括以下步骤:
3.1、对于矩阵加权特征词频繁项集集合MWFIS中每项特征词频繁项集L i ,求出L i 的全部真子集;
3.2、对于L i 的真子集集合中任意两个真子集I 1 和I 2 ,并且I 1 ÇI 2 =Æ,I 1 ÈI 2 =L i ,若(w 12×k 1)/( w 1×k 12)的值大于或者等于最小置信度阈值mc,即((w 12×k 1)/( w 1×k 12))≥mc,则挖掘出矩阵加权特征词强关联规则I 1 →I 2 ;若(w 12×k 2)/(k 12×w 2)的值大于或者等于最小置信度阈值,即((w 12×k 2)/(k 12×w 2))≥mc,则挖掘出矩阵加权特征词强关联规则I 2 →I 1 ,所述的k 1、k 2和k 12分别为项集I 1 、I 2 和(I 1 , I 2 )的项目个数,w 1、w 2和w 12分别为I 1 、I 2 和(I 1 ,I 2 )的项集权值。
3.3、继续3.2步骤,直到L i 的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤3.4;
3.4,继续3.1步骤,当MWFIS中每个L i 都被取出一次,而且仅能取出一次,则退出(3)步。
至此,矩阵加权特征词关联规则模式挖掘结束。
一种适用于上述基于动态项权值的矩阵加权中文特征词关联模式挖掘方法的挖掘系统,其特征在于,包括以下4个模块:
中文文本预处理模块:用于待处理的中文文本数据进行分词、去除停用词和特征词提取及其权值计算等预处理,构建中文文本数据库和特征词项目库。
中文特征词候选项集产生及其剪枝模块:该模块从中文文本数据库首先挖掘中文特征词候选1-项集,然后,由候选(i-1)-项集(i≥2)生成候选i-项集,最后采用本发明的项集剪枝方法对中文特征词候选项集剪枝,得到最终的中文特征词候选项集集合。
中文特征词频繁项集产生模块:该模块求出中文特征词候选项集在中文文本数据库中的项集权值,与最小频繁权值阈值比较,从候选项集中挖掘矩阵加权中文特征词频繁项集模式。
中文特征词关联模式产生及结果显示模块:该模块生成中文特征词频繁项集的所有真子集及其项集权值,通过项集权重的简单计算,与最小置信度阈值比较,从中文特征词频繁项集中挖掘矩阵加权中文特征词强关联规则模式,将最终结果按用户的需要显示给用户,供用户选择和使用。
所述的中文文本预处理模块包括以下2个模块:
特征词分词及其权值计算模块:该模块负责对中文文本信息进行分词、去除中文停用词和提取特征词,根据中文文本特征词权值公式计算其权值。
中文文本数据库和特征词库构建模块:该模块主要根据数据库理论原理,构建基于向量空间模型的中文文本数据库和特征词项目库。
所述的中文特征词候选项集产生及其剪枝模块包括以下2个模块:
特征词候选项集产生模块:该模块主要从中文文本数据库中挖掘中文特征词候选项集,具体过程如下:从特征词项目库中提取候选1-项集,在中文文本数据库中累加其权值总和,与其最小频繁权值阈值比较,得出矩阵加权中文特征词频繁1_项集;然后,由候选(i-1)-项集(i≥2) 通过Apriori连接得到矩阵加权中文特征词候选i-项集。
特征词候选项集剪枝模块:该模块利用本发明的项集剪枝方法对矩阵加权中文特征词候选项集进行剪枝,将不可能频繁的中文特征词候选项集删除,得到最终中文特征词候选项集集合。
所述的中文特征词关联模式产生及结果显示模块包括以下3个模块:
频繁项集的子项集生成模块:该模块生成中文特征词频繁项集的所有真子集,求出其项集权值和维数,为挖掘关联规则模式做准备。
生成特征词强关联规则模块:该模块通过项集权值和维数的简单计算,与最小置信度比较,从中文特征词频繁项集中挖掘矩阵加权中文特征词强关联规则模式。
特征词强关联规则显示模块:该模块将最终中文特征词强关联规则模式按用户的需要显示给用户,供用户选择和使用。
所述的挖掘系统中的最小支持度阈值ms, 最小置信度阈值mc由用户输入。
与现有技术相比,本发明具有以下有益效果:
(1)本发明提出一种新的矩阵加权中文特征词项集获取方法及其项集剪枝方法,在此基础上提出一种基于动态项权值的矩阵加权中文特征词关联模式挖掘方法及其挖掘系统。该发明能避免无效的、虚假的和无趣的关联模式产生,极大提高挖掘效率,所挖掘出的关联模式更加接近实际情况。与现有挖掘方法比较,本发明的关联模式数量以及挖掘时间均明显减少,其挖掘性能优于现有矩阵加权模式挖掘方法和基于频度的模式挖掘方法的,在中文文本信息挖掘、信息检索领域等领域中有较高的应用价值和广阔的应用前景。本发明挖掘出的特征词关联模式可以作为高质量扩展词来源,应用于web搜索引擎,有助于提高其信息检索查询性能。
(2)以国内中文标准数据集CWT200g语料作为实验数据,将本发明与传统的基于频度的模式挖掘方法和矩阵加权模式挖掘方法进行实验比较和分析,实验结果表明,无论在支持度阈值或者置信度阈值变化的情况下,在CWT200g中文测试集和NTCIR-5英文测试集上,本发明所挖掘的候选项集、频繁项集、关联规则以及挖掘时间都比现有对比算法的少,减幅较大,挖掘效率得到了很大提高,避免了无效的和无趣的关联模式出现。
附图说明
图1是本发明所述的基于动态项权值的矩阵加权中文特征词关联模式挖掘方法的框图。
图2是本发明所述的基于动态项权值的矩阵加权中文特征词关联模式挖掘方法的整体流程图。
图3是本发明所述的基于动态项权值的矩阵加权中文特征词关联模式挖掘系统的结构框图。
图4是本发明所述的中文文本预处理模块的结构框图。
图5是本发明所述的中文特征词候选项集产生及其剪枝模块的结构框图。
图6是是本发明所述的中文特征词关联模式产生及结果显示模块的结构框图。
具体实施方式
为了更好地说明本发明的技术方案,下面将本发明涉及的中文文本数据模型和相关的概念介绍如下:
一、基本概念
定义1 (矩阵加权中文文本信息数据模型):
矩阵加权中文文本信息数据模型描述如下:矩阵加权中文文本信息数据数据(Matrix-Weighted Data, MWD)模型,设MWD={d 1 ,d 2 ,…,d n }是中文文档记录集合,d i (1≤i≤n)表示MWD中的第i篇文档,Is={i 1 ,i 2 ,…,i m }表示MWD中所有特征词项目集合,i j (1≦j≦m)表示MWD中第j个特征词项目,w[d i ][i j ] (1≦i≦n, 1≦j≦m)表示特征词项目i j 在文档记录d i 中的权值,若i j Ïd i ,则i j 在该文档记录d i 的权值为0。
定义2 (矩阵加权中文特征词项集支持度):
在矩阵加权数据模型中,每个事务记录可以看作是所有项目权重值的集合,即d i ={ w[d i ][i 1 ], w[d i ][i 2 ],…, w[d i ][i m ]}。以项目权重作为一种度量,以每个项目在矩阵加权事务数据库中的权重值作为样本点,根据几何概型理论,给出一种新的矩阵加权项集I支持度(Matrix-weighted support, mwsup)计算公式,如式(1)所示。
(1)
其中,,为矩阵加权项集(I)在中文文本数据库中特征词项集权值总和,为矩阵加权中文文本数据库中所有特征词项目权值总和,k I 为特征词项集I的项目个数(即项集长度),称为矩阵加权特征词项集支持度规范化系数。
定义3 (矩阵加权中文特征词频繁项集):设ms为最小支持度阈值,若mwsup(I)≥ms,则称中文特征词项集I为矩阵加权特征词频繁项集。
,设为中文特征词项集I的最小频繁权值阈值,因此,当中文特征词项集权值时,该项集I是频繁的。
定义4 (矩阵加权中文特征词项集权值期望:Matrix-weighted Itemset WeightBound,MWIWB):
矩阵加权中文特征词项集权值频繁期望MWIWB(C k , k+1)是指包含矩阵加权k_项集I k 的(k+1)_项集频繁的权值估计值。根据MWIWB(C k , k+1),可以预测C k 的后续(k+1)_项集的频繁性。
设矩阵加权k_项集C k =(i 1 ,i 2 ,…,i k )(k<m)的权值为w k 。在事务记录中,对于不属于k_项集C k 项目集合{i 1 ,i 2 ,…,i k }的其他项目,令其权值最大的那个项目记为i r (i r ÎIs,i r Ï{i 1 ,i 2 ,…,i k }, 1≤r<m),其项目权值为w r 。若项集C k 在MWD中的频度是n k ,那么包含C k 的(k+1)_项集的可能最大权值为: w k +n k ×w r ,其中,。
若包含C k 的(k+1)_项集是频繁的,则
Þw k +n k ×w r ≥w×(k+1)×ms
Þw k ≥w×(k+1)×ms-n k ×w r (2)
将式(2)右边部分称为包含矩阵加权中文特征词k_项集C k 的(k+1)_项集权值频繁期望,记为MWIWB(C k , k+1),即,
MWIWB(C k , k+1)=w×(k+1)×ms-n k ×w r (3)
定义5 (矩阵加权中文特征词强关联规则):设mc为最小置信度阈值,w 12和w 1分别为矩阵加权项集(I 1 ,I 2 )和(I 1 )在MWD数据库中权值总和,k 12和k 1分别为矩阵加权项集(I 1 ,I 2 )和(I 1 )的项目个数,若矩阵加权项集(I 1 ,I 2 )是频繁的,并且,则称关联规则I 1 →I 2 为中文特征词矩阵加权强关联规则模式。
所述的本发明的矩阵加权中文特征词项集的剪枝方法是:
①对矩阵加权中文特征词候选(i-1)_项集C i-1进行剪枝1:计算C i-1的矩阵加权中文特征词项集权值期望MWIWB(C i-1,i),若矩阵加权特征词候选(i-1)_项集C i-1的项集权值w (i-1)< MWIWB(C i-1,i),那么其特征词(i-1)_项集C i-1后续的特征词i_项集C i 一定是非频繁项集,应该从C i-1集合中剪除该特征词(i-1)_项集。
②对矩阵加权中文特征词候选(i-1)_项集C i-1进行剪枝2:若特征词(i-1)_项集C i-1的特征词项集频度为0,即n (i-1)=0,则该特征词(i-1)_项集后续的特征词i_项集一定是非频繁项集,应该从C i-1集合中剪除该特征词(i-1)_项集。
③对于矩阵加权中文特征词候选项集C i 的剪枝:对于候选项集C i 的的任何(i-1)_项集子集,计算每个候选项集子集的特征词项集权值期望,若存在一个其(i-1)_项子集的项集权值小于其对应的特征词项集权值期望(即w (i-1)<MWIWB(C i-1,i)),则该特征词候选i_项集C i 一定是非频繁项集,应该从C i 集合中剪除该特征词候选项集。
下面通过具体实施例对本发明的技术方案做进一步的说明。
具体实施例中本发明采取的挖掘方法和系统如图1-图6所示。
实例:一个矩阵加权中文文本数据库实例,有5个中文文档记录和5个特征词项目及其权值,即文档集合为{d 1 , d 2 , d 3 , d 4 , d 5 },特征词集合为{ i 1 , i 2 , i 3 , i 4 , i 5 }={程序,队列,函数,环境,成员}。
本发明对中文文档数据实例挖掘矩阵加权中文特征词关联模式的过程如下(ms=0.1,mc=0.55):
1.求出文档数据库中全部中文特征词项目权值总和w=8.18。
2. 挖掘矩阵加权中文特征词频繁1_项集L 1,如表1所示。
表1:
,由表1可知,1-项集(i 2 )的项集权值<mw(C1),故该项集是非频繁项集。其他的项集权值都大于mw(C1),故都是频繁项集,即L 1 ={(i 1 ), (i 3 ), (i 4 ), (i 5 )}。
矩阵加权中文特征词频繁项集集合MWFIS={(i 1 ), (i 3 ), (i 4 ), (i 5 )}。
3.挖掘矩阵加权中文特征词频繁k_项集L k ,所述的k≥2。
k=2:
(1)对于候选1_项集C1,没有w(C 1)< MWIWB(C 1, 2)的情况,故候选项集C 1集合不变。
(2) 将其项集频度不为0的特征词候选1_项集C 1进行Apriori连接,生成中文特征词候选2_项集C 2,然后考察C 2的(2-1)-子项集的项集权值w 1是否小于其对应的项集权值期望MWIWB(C 1,2),该步骤不存在这种情况,候选项集C 2集合不变。
(3)计算候选项集C 2的w(C 2 ) 、n c2、w r (C 2)和MWIWB(C 2,3)如表2所示。
表2:
对于表2,进行如下操作:
﹡考察中文候选项集C 2的项集频度是否为0,该步骤不存在为0的情况,故候选项集C 2集合不变。
﹡计算mw(C2)=8.18×2×0.1=1.636,由表2可知,其项集权值w(C 2 )≥mw(C2)的候选2-项集是:( i 1 , i 2 )、(i 1 , i 3 )、(i 1 , i 5 )、(i 2 ,i 3 )、(i 3 , i 4 ),它们是频繁的,将这些项集加入到中文特征词频繁项集集合MWFIS,即,MWFIS={(i 1 ), (i 3 ), (i 4 ), (i 5 ), ( i 1 , i 2 )、(i 1 , i 3 )、(i 1 , i 5 )、(i 2 ,i 3 )、(i 3 , i 4 )}。
k=3:
﹡从表2可知,对于候选2_项集C 2,其w(C 2)<MWIWB(C 2, 3)的候选项集有:( i 1 , i 4 )、(i 2 , i 4 )、(i 2 , i 5 )、(i 3 , i 5 )和(i 4 , i 5 ),这些候选项集不可能成为频繁3_项集,应该从C 2集合中剪除,得到新的候选项集C 2集合,C 2={( i 1 , i 2 ), (i 1 , i 3 ), (i 1 , i 5 ), (i 2 ,i 3 ), (i 3 ,i 4 ) }。
﹡将其项集频度不为0的特征词候选2_项集C 2进行Apriori连接,生成特征词候选3_项集C 3,即C 3={( i 1 , i 2 , i 3 ),( i 1 , i 2 , i 5 ),( i 1 , i 3 , i 5 )}。
﹡对于候选3_项集C 3,考察C 3的任何(3-1)_项集子集,即C 3的2_项集子集:
对于(i 1 , i 2 , i 5 ):存在其子项集(i 2 ,i 5 ),其w(i 2 ,i 5 )<MWIWB((i 2 ,i 5 ), 3),对于(i 1 , i 3 , i 5 ):存在其子项集(i 3 , i 5 ),其w(i 3 , i 5 )<MWIWB((i 3 , i 5 ), 3),故特征词候选3_项集(i 1 , i 2 , i 5 )和( i 1 , i 3 , i 5 )是非频繁项集,应该从C 3删除,新的C 3={( i 1 , i 2 , i 3 ) }。
﹡计算w(C 3 )、n c3、w r (C 3)和MWIWB(C 3,4)如表3所示。
表3:
对于表3,进行如下操作:
﹡考察中文候选项集C 3的项集频度是否为0,该步骤不存在为0的情况,故候选项集C 3集合不变。
﹡计算mw(C3)=8.18×3×0.1=2.454,由表3可知,其项集权值w(C 3 )≥mw(C3)的候选3-项集是:(i 1 , i 2 , i 3 ),该项集是频繁的,将其加入到中文特征词频繁项集集合MWFIS,即,MWFIS={(i 1 ), (i 3 ), (i 4 ), (i 5 ), ( i 1 , i 2 ),(i 1 , i 3 ),(i 1 , i 5 ),(i 2 ,i 3 ),(i 3 , i 4 ), (i 1 ,i 2 , i 3 )}。
k=4:
﹡从表3可知,对于候选3_项集C 3,不存在其w(C 3)<MWIWB(C 3, 3)的候选项集,故候选项集C 3 ={(i 1 , i 2 , i 3 )}。
﹡将其项集频度不为0的特征词候选3_项集C 3进行Apriori连接,生成特征词候选4_项集C 4,即C 4=Æ。由于C 4为空,故3步骤挖掘结束,转入如下4步骤。
﹡最终的中文特征词频繁项集集合MWFIS={(i 1 ), (i 3 ), (i 4 ), (i 5 ), ( i 1 , i 2 ),(i 1 , i 3 ),(i 1 , i 5 ),(i 2 ,i 3 ),(i 3 , i 4 ), (i 1 , i 2 , i 3 )}
4. 从中文特征词频繁项集集合MWFIS中挖掘矩阵加权中文特征词强关联规则模式。
以MWFIS中特征词频繁项集(i 1 , i 2 , i 3 )为例,给出矩阵加权中文特征词强关联规则模式挖掘过程如下:
频繁项集(i 1 , i 2 , i 3 )的真子集集合为{( i 1 ), (i 2 ), (i 3 ),( i 1 , i 2 ), (i 1 ,i 3 ), (i 2 , i 3 )}。
(1)对于{( i 1 ), (i 2 , i 3 )},即I 1 =( i 1 ),I 2 = (i 2 , i 3 ),{( i 1 ), (i 2 , i 3 )}= (I 1 ,I 2 ),故k 1=1,k 2=2,k 12=3,
从表1可知,w 1=3.0,从表2可知,w 2=1.7,从表3可知,w 12=3.2,
(w 12×k 1)/(w 1× k 12)=(3.2×1)/(3.0×3)=0.356<mc,所以没有挖掘出规则。
(w 12×k 2)/(w 2× k 12)=(3.2×2)/(1.7×3)=1.25>mc,所以挖掘出中文特征词强关联规则I 2 →I 1 ,即(i 2 , i 3 )→( i 1 ),或者,(队列,函数)→(程序)。
(2)对于{(i 2 ), (i 1 , i 3 )},即I 1 =( i 2 ),I 2 = (i 1 , i 3 ),{(i 2 ), (i 1 , i 3 )}= (I 1 ,I 2 ),故k 1=1,k 2=2,k 12=3,
从表1可知,w 1=0.55,从表2可知,w 2=4.3,从表3可知,w 12=3.2,
(w 12×k 1)/(w 1× k 12)=(3.2×1)/(0.55×3)=1.94>mc,所以挖掘出中文特征词强关联规则I 1 →I 2 ,即(i 2 )→(i 1 , i 3 ),或者,(队列)→(程序,函数)。
(w 12×k 2)/(w 2× k 12)=(3.2×2)/(4.3×3)=0.496<mc,所以没有挖掘出规则。
(3)对于{(i 3 ), (i 1 , i 2 )},即I 1 =( i 3 ),I 2 = (i 1 , i 2 ),{(i 3 ), (i 1 , i 2 )}= (I 1 ,I 2 ),故k 1=1,k 2=2,k 12=3,
从表1可知,w 1=2.8,从表2可知,w 2=2.75,从表3可知,w 12=3.2,
(w 12×k 1)/(w 1× k 12)=(3.2×1)/(2.8×3)=0.38<mc,所以没有挖掘出规则。
(w 12×k 2)/(w 2× k 12)=(3.2×2)/(2.75×3)=0.776>mc,所以挖掘出中文特征词强关联规则I 2 →I 1 ,即(i 1 , i 2 )→( i 3 ),或者,(程序,队列)→(函数)。
综上所述,对于中文特征词频繁项集(i 1 , i 2 , i 3 ),可以挖掘出矩阵加权中文特征词强关联规则模式(ms=0.1,mc=0.55):(i 2 , i 3 )→( i 1 ),(i 2 )→(i 1 , i 3 ),(i 1 , i 2 )→( i 3 ),或者,(队列,函数)→(程序),(队列)→(程序,函数),(程序,队列)→(函数)。
下面通过实验对本发明的有益效果做进一步说明。
选择中文 Web 测试集CWT200g(北京大学网络实验室提供,其容量为197GB)的部分中文语料作为实验数据。从CWT200g中提取12024篇纯中文文本文档作为中文文档实验测试集,中文分词程序使用中国科学院计算技术研究所研制开发的ICTCLAS系统。
通过中文文本预处理:分词、去除停用词、提取特征词,计算特征词权值,构建基于向量空间模型的中文文本数据库和特征词项目库。将其df值在[1500, 5838]范围的中文特征词提取装入特征词库(此时获得中文特征词数量为400个)。
选择经典的无加权关联规则挖掘方法Apriori(R.Agrawal, T.Imielinski,A.Swami. Mining association rules between sets of items in large database[C]// Proceeding of 1993 ACM SIGMOD International Conference on Management ofData, Washington D.C.,1993, (5): 207-216.)和现有的矩阵加权关联规则挖掘方法MWARM(黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009, 20(7):1854-1865.)为实验对比方法,从支持度和置信度分别变化情况下对本发明和2种对比方法的挖掘性能进行实验对比与分析。实验参数是:ms,mc,n:文档集总篇数,IN:挖掘的项目数量。实验挖掘到4-项集。
实验1:支持度阈值变化时挖掘性能比较
支持度阈值变化时3种方法在中文档测试集(CWT200g)中挖掘候选项集(Candidate Itemset, CI)、频繁项集(Frequent Itemset, FI)和关联规则(Association Rule, AR)数量结果比较如表1所示。
表1 支持度阈值变化时挖掘的各类项集和关联规则数量比较
(IN=30,mc =0. 1, n=12024)
实验2:置信度阈值变化时挖掘性能比较
置信度阈值变化时本发明和2种对比方法在中文档测试集(CWT200g)中挖掘关联规则数量比较如表2所示(IN=30,ms =0.004, n=12024)。
表2 置信度阈值变化情况下
挖掘的关联规则数量比较
实验3:挖掘时间效率比较
支持度阈值变化时本发明和对比方法在中文测试集上挖掘候选项集、频繁项集和关联规则的时间(秒)如表3所示。在置信度阈值变化的情况下3种方法挖掘关联规则的时间(秒)如表4所示 (IN=30,ms =0.004, n=12024)。
关联规则实例分析
在CWT200g的中文文本测试集中,选取特征词项目集合为I={部门(1898),采用(1825),参加(1668),参与(1512),产品(2284),产生(2664),长期(1982),超过(1567),成本(1655),成长(2024),成功(3829),城市(1585),程度(1745),出现(3850), 处理(1540),传奇(1987),传统(1814),创造(1982),存在(3250),措施(1553)},其中,括号内的数是相应的项目的df值,例如,“部门(1898)”表示特征词项目“部门”的df值为1898,即在12024篇文档中含有“部门”的文档篇数为1898篇,本发明和2种对比方法MWARM、Apriori对项目集合I (20个特征词)在CWT200g中挖掘的频繁项集和关联规则,实验参数是:ms =0.011, mc=0.1,IN =20,n=12024,以特征词“参加(1668)”为例,在该实验的挖掘结果中提取含有特征词“参加”的频繁项集和关联规则实例,其结果如表5所示(IN=20,mc =0. 1, n=12024)。
表5 三种方法在CWT200g挖掘的含有特征词“参加”的关联模式实例
从表5实验结果可知,含有特征词“参加”的关联模式结果中,本发明的关联模式更接近实际情况,能避免无效的和虚假的关联模式产生。例如,“参加”和“参与”是近义词,在一句话或者一段话中应该很少同时出现,所以,项集“{参加,参与}”不应该是频繁项集,关联规则“参加→参与”,“参与→参加”不应该是强规则。在对比方法MWARM、Apriori的挖掘结果中,不仅挖掘出的模式多,而且还能挖掘出频繁项集“{参加,参与}”和强关联规则“参加→参与”,“参与→参加”,显然,这是虚假的、无趣的和无效的关联模式,而在本发明的挖掘结果中,没有挖掘出这些无效和虚假的模式。
上述实验结果表明,与实验对比相比较,本发明的挖掘性能具有良好的挖掘性能,具体表现如下:
上述实验结果表明了本发明的有效性,其挖掘性能均优于现有的无加权挖掘方法Apriori和矩阵加权关联规则挖掘方法MWARM。无论在支持度阈值或者置信度阈值变化的情况下,在CWT200g中文测试集上,本发明方法所挖掘的候选项集、频繁项集、关联规则以及挖掘时间都比现有对比算法的少,减幅较大,挖掘效率得到了很大提高,避免了无效的和无趣的关联模式出现。表5的实验结果表明,本发明所挖掘的矩阵加权特征词关联规则模式更接近实际。
Claims (6)
1.一种基于动态项权值的矩阵加权中文特征词关联模式挖掘方法,其特征在于,包括如下步骤:
(1)中文文本预处理:将待处理的中文文本信息数据进行分词,去除停用词、提取特征词及计算其权值,构建中文文本数据库和特征词项目库;
(2)挖掘矩阵加权中文特征词频繁项集,包括以下步骤2.1和步骤2.2:
(2.1)挖掘矩阵加权特征词候选1_项集和频繁1_项集,具体步骤按照2.1.1和2.1.2进行:
(2.1.1)从特征词项目库中提取特征词候选1_项集,在中文文本数据库累加全部项目权值总和,累加矩阵加权中文特征词候选1_项集在中文文本信息数据库中的项集权值总和,计算特征词候选1_项集的最小频繁权值阈值,若其项集权值大于或者等于相应的最小频繁权值阈值,则该候选项集为频繁1_项集L1,将该L1加入到特征词频繁项集集合MWFIS;
(2.1.2)在中文文本数据库中累加矩阵加权中文特征词候选1_项集的项集频度,计算候选1_项集的矩阵加权项集权值期望;
(2.2)挖掘矩阵加权特征词候选k_项集和频繁k_项集,所述的k≥2,按照步骤2.2.1~2.2.8进行操作:
(2.2.1)计算矩阵加权候选(k-1)_项集的矩阵加权项集权值期望,删除矩阵加权候选(k-1)_项集的项集权值小于其项集权值期望的候选(k-1)_项集,得到新的矩阵加权特征词候选(k-1)_项集集合;
(2.2.2)将其项集频度不为0的矩阵加权特征词候选(k-1)_项集进行Apriori连接产生矩阵加权特征词候选k_项集;
(2.2.3)如果矩阵加权特征词候选k_项集不是空集,转入2.2.4步,否则,退出2.2步转入(3)步;
(2.2.4)对于矩阵加权特征词候选k_项集,若存在一个其(k-1)_项子集的项集权值小于其对应的项集权值期望,则将该候选k_项集删除,得到新的矩阵加权特征词候选k_项集集合;
(2.2.5)在中文文本数据库中累加矩阵加权特征词候选k_项集的项集频度、项集权值及其矩阵加权项集权值期望;
(2.2.6)删除其项集频度为0的矩阵加权特征词候选k_项集,得到新的矩阵加权特征词候选k_项集集合;
(2.2.7)计算矩阵加权特征词候选k_项集Ck的最小频繁权值阈值mw(Ck),若矩阵加权候选项集的项集权值w(Ck)大于或者等于其最小频繁权值阈值mw(Ck),那么该特征词候选项集Ck是频繁的,加入到特征词频繁项集集合MWFIS;
(2.2.8)将k的值加1,循环2.2.1~2.2.7步骤,直到Ck为空,则退出2.2步转入如下(3)步;
(3)从矩阵加权特征词频繁项集集合MWFIS中挖掘矩阵加权特征词强关联规则模式,包括以下步骤:
(3.1)对于矩阵加权特征词频繁项集集合MWFIS中每项特征词频繁项集Li,求出Li的全部真子集;
(3.2)对于Li的真子集集合中任意两个真子集I1和I2,并且I1∪I2=Li,若(w12×k1)/(w1×k12)的值大于或者等于最小置信度阈值,则挖掘出矩阵加权特征词关联规则I1→I2;若(w12×k2)/(k12×w2)的值大于或者等于最小置信度阈值,则挖掘出矩阵加权特征词关联规则I2→I1;所述的k1、k2和k12分别为项集I1、I2和(I1,I2)的项目个数,w1、w2和w12分别为I1、I2和(I1,I2)的项集权值;
(3.3)继续3.2步骤,直到Li的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤3.4;
(3.4)继续3.1步骤,当MWFIS中每个Li都被取出一次,而且仅能取出一次,则退出(3)步;
至此,矩阵加权特征词关联规则模式挖掘结束。
2.一种适用于权利要求1所述的基于动态项权值的矩阵加权中文特征词关联模式挖掘方法的挖掘系统,其特征在于,包括以下4个模块:
中文文本预处理模块:用于待处理的中文文本数据进行分词、去除停用词和特征词提取及其权值计算等预处理,构建中文文本数据库和特征词项目库;
中文特征词候选项集产生及其剪枝模块:该模块从中文文本数据库首先挖掘中文特征词候选1_项集,然后,由候选(i-1)_项集生成候选i_项集,所述的i≥2,最后采用本发明的剪枝方法对中文特征词候选项集剪枝,得到最终的中文特征词候选项集集合;
中文特征词频繁项集产生模块:该模块首先求出中文特征词候选项集在中文文本数据库中的项集权值,与最小频繁权值阈值比较,从候选项集中挖掘中文特征词频繁项集模式;
中文特征词关联模式产生及结果显示模块:该模块生成中文特征词频繁项集的所有真子集,通过其项集权重的简单计算,并与最小置信度阈值比较,从中文特征词频繁项集中挖掘矩阵加权特征词强关联规则模式,并将最终结果按用户的需要显示给用户,供用户选择和使用。
3.根据权利要求2所述的挖掘系统,其特征在于,所述的中文文本预处理模块包括以下2个模块:
特征词分词及其权值计算模块:该模块对中文文本信息进行分词、去除中文停用词和提取特征词,根据中文文本特征词权值公式计算其权值;
中文文本数据库和特征词库构建模块:该模块主要根据数据库理论原理,构建基于向量空间模型的中文文本数据库和特征词项目库。
4.根据权利要求2所述的挖掘系统,其特征在于,所述的中文特征词候选项集产生及其剪枝模块包括以下2个模块:
特征词候选项集产生模块:该模块主要从中文文本数据库中挖掘中文特征词候选项集,具体过程如下:从特征词项目库中提取候选1_项集,在中文文本数据库中累加其项集权值,与1_项集最小频繁权值阈值比较,得出矩阵加权特征词频繁1_项集;然后,由候选(i-1)_项集通过Apriori连接得到矩阵加权特征词候选i_项集,所述的i≥2;
特征词候选项集剪枝模块:该模块利用本发明的剪枝方法对矩阵加权中文特征词候选项集进行剪枝,将不可能频繁的中文特征词候选项集删除,得到最终矩阵加权中文特征词候选项集集合。
5.根据权利要求2所述的挖掘系统,其特征在于,所述的中文特征词关联模式产生及结果显示模块包括以下3个模块:
频繁项集的子项集生成模块:该模块主要负责生成中文特征词频繁项集的所有真子集及其项集权值和维数,为挖掘关联规则模式做准备;
生成特征词强关联规则模块:该模块主要负责通过项集权值和维数的简单计算,与最小置信度比较,从中文特征词频繁项集中挖掘矩阵加权特征词强关联规则模式;
特征词强关联规则显示模块:该模块主要负责将最终中文特征词强关联规则模式按用户的需要显示给用户,供用户选择和使用。
6.根据权利要求2-5中任一项所述的挖掘系统,其特征在于,所述的挖掘系统中的最小置信度阈值mc由用户输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410427503.7A CN104317794B (zh) | 2014-08-27 | 2014-08-27 | 基于动态项权值的中文特征词关联模式挖掘方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410427503.7A CN104317794B (zh) | 2014-08-27 | 2014-08-27 | 基于动态项权值的中文特征词关联模式挖掘方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104317794A CN104317794A (zh) | 2015-01-28 |
CN104317794B true CN104317794B (zh) | 2017-10-24 |
Family
ID=52373026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410427503.7A Expired - Fee Related CN104317794B (zh) | 2014-08-27 | 2014-08-27 | 基于动态项权值的中文特征词关联模式挖掘方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104317794B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372241B (zh) * | 2016-09-18 | 2019-03-29 | 广西财经学院 | 基于词间加权关联模式的越英跨语言文本检索方法及系统 |
CN106570109B (zh) * | 2016-11-01 | 2020-07-24 | 深圳市点通数据有限公司 | 一种通过文本分析自动生成题库知识点的方法 |
CN107526839B (zh) * | 2017-09-08 | 2019-09-10 | 广西财经学院 | 基于完全加权正负模式的跨语言查询译后后件扩展方法 |
CN107943919B (zh) * | 2017-11-21 | 2019-11-12 | 华中科技大学 | 一种面向会话式实体搜索的查询扩展方法 |
CN108416442B (zh) * | 2017-12-26 | 2021-10-29 | 广西财经学院 | 基于项频度和权值的中文词间矩阵加权关联规则挖掘方法 |
CN109739953B (zh) * | 2018-12-30 | 2021-07-20 | 广西财经学院 | 基于卡方分析-置信度框架和后件扩展的文本检索方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5809499A (en) * | 1995-10-20 | 1998-09-15 | Pattern Discovery Software Systems, Ltd. | Computational method for discovering patterns in data sets |
CN103279570A (zh) * | 2013-06-19 | 2013-09-04 | 广西教育学院 | 一种面向文本数据库的矩阵加权负模式挖掘方法 |
CN103678499A (zh) * | 2013-11-19 | 2014-03-26 | 肖冬梅 | 一种基于多源异构专利数据语义集成的数据挖掘方法 |
-
2014
- 2014-08-27 CN CN201410427503.7A patent/CN104317794B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5809499A (en) * | 1995-10-20 | 1998-09-15 | Pattern Discovery Software Systems, Ltd. | Computational method for discovering patterns in data sets |
CN103279570A (zh) * | 2013-06-19 | 2013-09-04 | 广西教育学院 | 一种面向文本数据库的矩阵加权负模式挖掘方法 |
CN103678499A (zh) * | 2013-11-19 | 2014-03-26 | 肖冬梅 | 一种基于多源异构专利数据语义集成的数据挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104317794A (zh) | 2015-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104317794B (zh) | 基于动态项权值的中文特征词关联模式挖掘方法及其系统 | |
CN104182527B (zh) | 基于偏序项集的中英文本词间关联规则挖掘方法及其系统 | |
CN106991092B (zh) | 基于大数据挖掘相似裁判文书的方法和设备 | |
CN104216874B (zh) | 基于相关系数的中文词间加权正负模式挖掘方法及系统 | |
CN102662952B (zh) | 一种基于层次的中文文本并行数据挖掘方法 | |
AL-Zawaidah et al. | An improved algorithm for mining association rules in large databases | |
CN104239513B (zh) | 一种面向领域数据的语义检索方法 | |
CN107491518A (zh) | 一种搜索召回方法和装置、服务器、存储介质 | |
CN103955542B (zh) | 文本词间完全加权正负关联模式挖掘方法及其挖掘系统 | |
TWI547815B (zh) | Information retrieval method and device | |
CN102043851A (zh) | 一种基于频繁项集的多文档自动摘要方法 | |
CN110321446B (zh) | 相关数据推荐方法、装置、计算机设备及存储介质 | |
JP7103496B2 (ja) | 関連スコア算出システム、方法およびプログラム | |
CN106021626A (zh) | 基于数据挖掘的数据搜索方法 | |
CN112199926B (zh) | 基于文本挖掘和自然语言处理的地质报告文本可视化方法 | |
CN103838854B (zh) | 用于发现文本词间关联规则的完全加权模式挖掘方法 | |
CN106202552A (zh) | 基于云计算的数据搜索方法 | |
CN103440308B (zh) | 一种基于形式概念分析的数字论文检索方法 | |
CN111897928A (zh) | 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法 | |
CN111897926A (zh) | 深度学习与扩展词挖掘交集融合的中文查询扩展方法 | |
CN104239430B (zh) | 基于项权值变化的教育数据关联规则挖掘方法及其系统 | |
CN102222119A (zh) | 数字图书系统中的个性化自动文摘方法 | |
CN104182528B (zh) | 基于偏序模式的教育信息化课程关联模式发现方法及系统 | |
Syahrir et al. | Improvement of Apriori Algorithm Performance Using the TID-List Vertical Approach and Data Partitioning. | |
Cao et al. | A survey on visual data mining techniques and applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20160325 Address after: Nanning City, 530003 West Road Mingxiu the Guangxi Zhuang Autonomous Region No. 100 Applicant after: Guangxi Finance and Economics Institute Address before: Building 530023 Nanning Road, the Guangxi Zhuang Autonomous Region No. 37 Applicant before: Guangxi College of Education |
|
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171024 Termination date: 20180827 |
|
CF01 | Termination of patent right due to non-payment of annual fee |