CN103678643B - 一种针对关联关系的语义区分能力度量方法 - Google Patents
一种针对关联关系的语义区分能力度量方法 Download PDFInfo
- Publication number
- CN103678643B CN103678643B CN201310713258.1A CN201310713258A CN103678643B CN 103678643 B CN103678643 B CN 103678643B CN 201310713258 A CN201310713258 A CN 201310713258A CN 103678643 B CN103678643 B CN 103678643B
- Authority
- CN
- China
- Prior art keywords
- incidence relation
- function
- semantic
- model
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
Abstract
本发明公开了针对关联关系的语义区分能力度量方法,该方法建立在语义区分模型的基础上,语义区分模型是文档空间密度与抽取某关键词的文档空间密度的差,并用函数来模拟语义区分模型,根据统计和图论的特征提出五种不同的策略,利用一定规模的数据验证了,建立在语义区分模型基础上语义区分能力计算方法具有高相关特性,从而证明了该方法的准确性。更重要的是,该专利将该方法应用于文档聚类分析中,表明语义区分能力在处理数据挖掘任务时更具有发展前景。同时本方案用函数来模拟语义区分模型,降低了语义区分能力计算的复杂度。
Description
技术领域
本发明涉及数据挖掘领域,具体涉及一种基于关联关系的度量语义区分能力的方法。
背景技术
关联关系挖掘发现大量数据中项集之间有趣的关联或相关联系,随着大量数据不停地收集和存储,许多业界人士对于从他们的数据库中挖掘关联关系越来越感兴趣。从大量商务事务记录中发现有趣的关联关系,可以帮助许多商务决策的制定。如分类设计、交叉购物和贱卖分析。虽然可以从数据库中挖掘大量的关联关系,但是关联关系在知识发现之前已被挖掘,且度量关联关系方法中很少将语义考虑在内,所以大多数关联关系是缺乏语义的。
度量关联关系包括客观的和主观的方法,客观的方法主要有兴趣度度量、相关性分析和挖掘压缩或关联关系的近似集。支持度和置信度是主要的兴趣度度量标准,分别反映关系的有用性和确定性。主观的方法主要依靠用户对关联关系的检验。
为了度量概念词的语义区分能力,Salton提出语义区分模型,即文档空间密度与抽取某关键词的文档空间密度的差,文档空间密度是在文档空间中任意两个文档之间相似度的平均。但是该算法对于m个文档n个关键词,语义区分能力计算的复杂度是,这样对于大量文档的收集是不现实的。与Salton不同,Cai利用信息论的知识来计算语义区分能力,提出的语义区分模型是语义区分能力是支持一类文档拒绝其它类文档的程度。
综上所述,大量的关联关系被挖掘,但是度量关联关系的主观和客观的方法中很少将语义考虑在内,所以大多数关联关系是缺乏语义的;同时,现有语义区分能力的度量计算的复杂度非常高的,需要花费大量时间来进行计算,效率低下。
发明内容
针对现有语义区分能力的度量方法所存在的大多数关联关系是缺乏语义,且度量计算的复杂度高等问题,本发明的目的在于提供一种针对关联关系的语义区分能力度量方法,以解决现有技术所存在的问题。
为了达到上述目的,本发明采用如下的技术方案:
一种针对关联关系的语义区分能力度量方法,所述度量方法建立在语义区分模型的基础上,选择五个统计与图论方面的参数,用函数来模拟语义区分模型,再利用由函数来模拟的语义区分模型进行语义区分能力度量。
在本方案的优选实例中,所述五个统计与图论方面的参数分别为:
(1)关联关系的支持度,在文档空间中为篇频;
(2)关联关系前键的支持度;
(3)关联关系后键的支持度;
(4)关联关系的出度,以关键词为节点,以关联关系为边的有向图中的链;
(5)关联关系的入度,以关键词为节点,以关联关系为边的有向图中的接。
进一步的,所述用函数来模拟语义区分模型时,根据已选参数,采用了五种策略:
(1)建立与关联关系的支持度线性相关的函数;
(2)建立与入度线性相关的函数;
(3)建立与支持度和入度线性相关的函数;
(4)建立与入度非线性相关的函数,该函数与入度成指数关系;
(5)建立与支持度和关联关系的入度的非线性相关函数;
且就五种策略分别计算该函数与语义区分模型的相关系数,通过对比确定最终的用于模拟语义区分模型的函数。
进一步的,所述度量方法应用于文档聚类算法时,使用关键字和关联关系来表示文件。
本发明提供的方案能够为信息检索中客观度量关联关系提供标准,挖掘客户感兴趣的关联关系。同时本方案用函数来模拟语义区分模型,降低了语义区分能力计算的复杂度。
附图说明
以下结合附图和具体实施方式来进一步说明本发明。
图1为本发明实施的原理流程框图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
本发明提供的针对关联关系的语义区分能力度量方法,其是建立在语义区分模型的基础上,选择五个统计与图论方面的参数,根据该参数用函数来模拟语义区分模型,再利用由函数来模拟的语义区分模型对两篇文档的语义关系进行度量。
本语义区分能力度量方法,还可应用于文档聚类算法中。
由上可知,本发明提供的语义区分能力度量方法是建立在语义区分模型的基础上,这里的语义区分模型是文档空间密度与抽取某关键词的文档空间密度的差;同时,语义区分能力是支持一类文档拒绝其它类文档的程度,故语义区分模型涉及到的文档空间密度是在文档空间中任意两个文档之间相似度的平均。
由于关联关系的语义区分复杂度比较大,对于m个文档n个关键词,语义区分能力计算的复杂度是O(mn2),所以本方法中用函数来模拟语义区分模型。用函数来模拟语义区分模型,首先要找到度量语义区分能力的参数,所以本方法中选择了五个统计与图论方面的参数。
具体的,根据关联关系的支持度,以下五个参数可以用来度量语义区分能力:
(1)关联关系的支持度,在文档空间中为篇频;
(2)关联关系前键的支持度;
(3)关联关系后键的支持度;
(4)关联关系的出度,以关键词为节点,以关联关系为边的有向图中的链;
(5)关联关系的入度,以关键词为节点,以关联关系为边的有向图中的接。
本方法中对于用函数来模拟语义区分模型时,根据已选参数(即前述的五个参数),采用了五种策略:
(1)建立与关联关系的支持度线性相关的函数;
(2)建立与入度线性相关的函数;
(3)建立与支持度和入度线性相关的函数;
(4)建立与入度非线性相关的函数,该函数与入度成指数关系;
(5)建立与支持度和关联关系的入度的非线性相关函数,该函数是Shepard定律的拓展。
最后,将这五种策略都分别计算该函数与语义区分模型的相关系数,通过对比确定第三种策略相关系数最大,所以第三种方法最优。故在实际的度量中可采用第三种函数来进行度量计算。
再者,本方法在具体实现,其可应用于文档聚类算法,进行文档聚类分析,具体操作时使用关键字和关联关系来表示文件,使用了k-means算法进行聚类。
针对上述的针对关联关系的语义区分能力度量方法的具体方案,以下通过一具体应用实例来进一步的说明。
参见图1,其所示为本实例中实现度量语义区分能力的流程图。由于可知,整个度量过程分为4步:
步骤1:输入文件集,文件集中包含大量文本文档,用D={d1,d2,...,dn}(n≥2)表示输入的文件集集合,其中di∈D表示文本库中任意一个文档,|D|表示文件集中的文件总数。
步骤2:用关键词和关联关系表示文本文档;
1)提取每篇文本文档的关键词,di={k1,k2,...,km}(m≥2)表示一个文本文档中有m个词汇组成,先计算每篇文本文档中各词汇在文档中出现的次数即词频,词频用以评估词汇对文本文档的重要程度,词频越大,表示该词汇对文本文档越重要,选择词频靠前的k个词汇作为该文本文档的关键词。
2)提取关联关系,关联关系是指大量数据集中项集之间有趣的关联或相关关系。在本步骤中,提取关联关系用支持度和置信度表示,通过提取支持度和置信度公式中所需要的值,来实现提取关联关系。
具体的,关联关系是形如的蕴含式,支持度用表示,即是在文档中同时出现A和B的概率。
置信度用表示,在文档中出现A的情况下出现B的概率。
同时满足最小支持度阀值η和最小置信度阀值γ的规则称为强规则。这里的最小支持度阀值η和最小置信度阀值γ,是根据实际需求进行设定的值。
3)用提取到的关键词和关联关系表示文本文档,即用语义区分模型表示文档,语义区分模型是文档空间密度与抽取某关键词的文档空间密度的差。
步骤3:用sdc(ari)=α*IDAR(ari)-β*Support(ari)函数来模拟语义区分模型,其中α∈[0,1],β∈[0,1],α,β不能同时为零。由于关联关系的语义区分复杂度比较大,所以用函数来模拟语义区分模型,其中ari表示关联关系,IDAR(ari)表示关联关系的入度,Support(ari)表示关联关系的支持度,取α=0.05,β=1。
通过上述内容可知,由于建立与支持度和入度线性相关的函数所得到的效果最好,故本步骤利用与支持度和入度线性相关的函数来模拟语义区分模型。
步骤4:根据步骤3中确定的函数度量出语义区分能力的值sdc1(ari)。
其中,由于取α=0.05,β=1时,sdc(ari)的值都是负的,所以取绝对值,且sdc(ari)是负相关的,所以取倒数,sdc1(ari)越小,说明该关联关系的语义区分能力越强。
由上可知,本方案中关联关系的语义区分能力是建立在语义区分模型的基础上,语义区分模型是文档空间密度与抽取某关键词的文档空间密度的差,并用函数来模拟语义区分模型,根据统计和图论的特征提出五种不同的策略,利用一定规模的数据验证了,建立在语义区分模型基础上语义区分能力计算方法具有高相关特性,从而证明了该方法的准确性。更重要的是,该专利将该方法应用于文档聚类分析中,表明语义区分能力在处理数据挖掘任务时更具有发展前景。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (2)
1.一种针对关联关系的语义区分能力度量方法,其特征在于,所述度量方法建立在语义区分模型的基础上,选择五个统计与图论方面的参数,用函数来模拟语义区分模型,再利用由函数来模拟的语义区分模型进行语义区分能力度量;
所述五个统计与图论方面的参数分别为:
(1)关联关系的支持度,在文档空间中为篇频;
(2)关联关系前键的支持度;
(3)关联关系后键的支持度;
(4)关联关系的出度,以关键词为节点,以关联关系为边的有向图中的链;
(5)关联关系的入度,以关键词为节点,以关联关系为边的有向图中的接;
所述用函数来模拟语义区分模型时,根据已选参数,采用了五种策略:
(1)建立与关联关系的支持度线性相关的函数;
(2)建立与入度线性相关的函数;
(3)建立与支持度和入度线性相关的函数;
(4)建立与入度非线性相关的函数,该函数与入度成指数关系;
(5)建立与支持度和关联关系的入度的非线性相关函数;
且就五种策略分别计算每种策略建立的函数与语义区分模型的相关系数,通过对比确定最终的用于模拟语义区分模型的函数。
2.根据权利要求1所述的一种针对关联关系的语义区分能力度量方法,其特征在于,所述度量方法应用于文档聚类算法时,使用关键字和关联关系来表示文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310713258.1A CN103678643B (zh) | 2013-12-20 | 2013-12-20 | 一种针对关联关系的语义区分能力度量方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310713258.1A CN103678643B (zh) | 2013-12-20 | 2013-12-20 | 一种针对关联关系的语义区分能力度量方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103678643A CN103678643A (zh) | 2014-03-26 |
CN103678643B true CN103678643B (zh) | 2017-02-08 |
Family
ID=50316187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310713258.1A Active CN103678643B (zh) | 2013-12-20 | 2013-12-20 | 一种针对关联关系的语义区分能力度量方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103678643B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101561805A (zh) * | 2008-04-18 | 2009-10-21 | 日电(中国)有限公司 | 文档分类器生成方法和系统 |
CN102571752A (zh) * | 2011-12-03 | 2012-07-11 | 山东大学 | 基于服务关联索引图的QoS感知Top-k服务组合系统 |
CN103279570A (zh) * | 2013-06-19 | 2013-09-04 | 广西教育学院 | 一种面向文本数据库的矩阵加权负模式挖掘方法 |
CN103440248A (zh) * | 2013-07-22 | 2013-12-11 | 西南交通大学 | 基于动态关联规则的网络视频事件挖掘框架 |
-
2013
- 2013-12-20 CN CN201310713258.1A patent/CN103678643B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101561805A (zh) * | 2008-04-18 | 2009-10-21 | 日电(中国)有限公司 | 文档分类器生成方法和系统 |
CN102571752A (zh) * | 2011-12-03 | 2012-07-11 | 山东大学 | 基于服务关联索引图的QoS感知Top-k服务组合系统 |
CN103279570A (zh) * | 2013-06-19 | 2013-09-04 | 广西教育学院 | 一种面向文本数据库的矩阵加权负模式挖掘方法 |
CN103440248A (zh) * | 2013-07-22 | 2013-12-11 | 西南交通大学 | 基于动态关联规则的网络视频事件挖掘框架 |
Non-Patent Citations (3)
Title |
---|
《Web环境下关联语义链接特征分析及其应用研究》;张顺香;《中国博士学位论文全文数据库(电子期刊)》;20130531;1-32 * |
《基于效益度的高效关联规则挖掘算法》;刘渊等;《浙江大学学报(工学版)》;20070630;第41卷(第6期);正文第909-914页 * |
吉根林等.《挖掘支持度和兴趣度最优的数量关联规则》.《小型微型计算机系统》.2004,第25卷(第2期),正文第225-228页. * |
Also Published As
Publication number | Publication date |
---|---|
CN103678643A (zh) | 2014-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10977447B2 (en) | Method and device for identifying a user interest, and computer-readable storage medium | |
CN105718506B (zh) | 一种科技项目查重对比的方法 | |
US10410138B2 (en) | System and method for automatic generation of features from datasets for use in an automated machine learning process | |
CN110851176B (zh) | 一种自动构造并利用伪克隆语料的克隆代码检测方法 | |
CN104573130A (zh) | 基于群体计算的实体解析方法及装置 | |
CN105512333A (zh) | 基于情感倾向的产品评论主题搜索方法 | |
CN102436480A (zh) | 一种面向文本的知识单元关联关系挖掘方法 | |
CN103530416A (zh) | 项目数据预测评分库的生成、项目数据的推送方法和系统 | |
CN104346408A (zh) | 一种对网络用户进行标注的方法与设备 | |
CN116848490A (zh) | 使用模型相交进行文档分析 | |
CN111506504A (zh) | 基于软件开发过程度量的软件安全性缺陷预测方法及装置 | |
CN110781333A (zh) | 一种基于机器学习的斜拉桥非结构化监测数据处理方法 | |
CN111915022B (zh) | 滑移式岩溶危岩稳定系数快速识别的高斯过程方法及装置 | |
CN110019820A (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
CN105068986B (zh) | 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法 | |
CN109783633A (zh) | 数据分析服务流程模型推荐方法 | |
Dulá et al. | DEA with streaming data | |
CN110569355B (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 | |
CN111522950A (zh) | 一种针对非结构化海量文本敏感数据的快速识别系统 | |
CN112417082B (zh) | 一种科研成果数据消歧归档存储方法 | |
CN113705099A (zh) | 基于对比学习的社交平台谣言检测模型构建方法及检测方法 | |
CN106844765B (zh) | 基于卷积神经网络的显著信息检测方法及装置 | |
CN103678643B (zh) | 一种针对关联关系的语义区分能力度量方法 | |
CN106874447A (zh) | 一种数据展示方法及装置 | |
CN104200222B (zh) | 一种基于因子图模型的图片中对象识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |