CN105574087B - 依据数据关联规则的必要条件分析方法 - Google Patents

依据数据关联规则的必要条件分析方法 Download PDF

Info

Publication number
CN105574087B
CN105574087B CN201510910422.7A CN201510910422A CN105574087B CN 105574087 B CN105574087 B CN 105574087B CN 201510910422 A CN201510910422 A CN 201510910422A CN 105574087 B CN105574087 B CN 105574087B
Authority
CN
China
Prior art keywords
necessary condition
combination
item
data
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510910422.7A
Other languages
English (en)
Other versions
CN105574087A (zh
Inventor
史墨轩
张作职
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Mass Information Technology Ltd By Share Ltd
Original Assignee
Tianjin Mass Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Mass Information Technology Ltd By Share Ltd filed Critical Tianjin Mass Information Technology Ltd By Share Ltd
Priority to CN201510910422.7A priority Critical patent/CN105574087B/zh
Publication of CN105574087A publication Critical patent/CN105574087A/zh
Application granted granted Critical
Publication of CN105574087B publication Critical patent/CN105574087B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90324Query formulation using system suggestions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种依据数据关联规则的必要条件分析方法中,针对数据筛选规则进行分析,提取筛选规则中的必要条件组合,必要条件组合中包括必要条件,将必要条件组合中的检索词进行还原,并将每一必要条件项都转换为检索词集合,检索词之间为并集关系,再通过对不同情况下的处理规则的必要条件进行分析,可得到面向不同的业务,不同的规则组配的快速筛选条件,满足了业务上的灵活性,必要条件的分析使用了一系列归并优化的方法既能完全覆盖目标数据又一定程度上继承了规则的精度,满足了完整性和复杂性。

Description

依据数据关联规则的必要条件分析方法
技术领域
本发明涉及数据处理的技术领域,具体说是一种依据数据关联规则的必要条件分析方法。
背景技术
随着大数据领域的不断发展,针对海量数据的处理变得越来越普遍。当前互联网数据的存量在飞速的增长,针对大数据的处理都会面临一个根本性的问题,如何在海量的数据中找到自己想要的数据。通常这些数据都具有离散性、不可预测性以及主观性等特点,为满足各种个性化的数据筛选需求,业界通常都使用了可灵活组配的规则来解决这个问题。但是随着数据量的增加,以及筛选规则的日益复杂,筛选的性能问题逐渐凸显,慢慢变成了阻碍整个业务最严重的环节。为了解决这个问题,需要让数据在具体进行规则筛选之前进行一次初筛,而初筛使用的条件来源于规则的必要条件,不同的业务需求使用的规则必要条件不尽相同,数量也成千上万,但其中有相同部分,有相似部分,有重叠部分,如何进行必要条件的分析以减少冗余计算的快速筛选条件是当前大数据处理行业所面对的主要问题。
发明内容
本发明要解决的技术问题是提供一种依据数据关联规则的必要条件分析方法。
本发明为解决公知技术中存在的技术问题所采取的技术方案是:
本发明的依据数据关联规则的必要条件分析方法,包括以下步骤:
A、针对数据筛选规则进行分析,提取筛选规则中的必要条件组合,必要条件组合中包括必要条件;
B、将必要条件组合中的检索词进行还原,并将每一必要条件项都转换为检索词集合,检索词之间为并集关系;
C、如果必要条件组合中仅包含一个必要条件项的,则对该必要条件项进行单独提取;
D、如果一个必要条件组合的其中一个必要条件项被包含在了另一个必要条件项的范围中,则放弃该必要条件组合,而保留另一个必要条件项;
E、如果存在相同的必要条件组合则进行消重,只保留其中一组必要条件组合;
F、对同一个必要条件项中的检索词进一步抽象出更少的公共条件;
G、如果多组必要条件组合中的对应必要条件项相等或存在包含关系,则视为同一个条件项,只保留母集对应的必要条件组合;
H、如果多组必要条件组合中存在相同的部分,则对相同部分进行提取,对不同部分进行合并;
I、按照数据类型进行分类汇总,以获得数据快速筛选条件。
本发明还可以采用以下技术措施:
步骤H中,舍弃不同的必要条件项,只保留公共部分的必要条件项。
本发明具有的优点和积极效果是:
本发明的依据数据关联规则的必要条件分析方法中,通过对处理规则的必要条件进行分析,得到面向不同的业务,不同的规则组配的快速筛选条件,满足了业务上的灵活性,必要条件的分析使用了一系列归并优化的方法既能完全覆盖目标数据又一定程度上继承了规则的精度,满足了完整性和复杂性。
具体实施方式
以下通过具体实施例对本发明进行详细说明。
A、针对数据筛选规则进行分析,提取筛选规则中的必要条件组合,必要条件组合中包括必要条件;
B、将必要条件组合中的检索词进行还原,并将每一必要条件项都转换为检索词集合,检索词之间为并集关系;例如,将必要条件A 转换为检索词集合{a,b,c},其关系是a∪b∪c;
C、如果必要条件组合中仅包含一个必要条件项的,则对该必要条件项进行单独提取;例如,必要条件组合A中仅包含一个必要条件项A,则对必要条件项A进行单独提取;
D、如果一个必要条件组合的其中一个必要条件项被包含在了另一个必要条件项的范围中,则放弃该必要条件组合,而保留另一个必要条件项;例如,必要条件项A和必要条件组合B∩C∩D,如果其中的B⊆A,则只保留A;
E、如果存在相同的必要条件组合则进行消重,只保留其中一组必要条件组合;例如必要条件组合A∩B和A∩B中需消重只保留一个A∩B;
F、对同一个必要条件项中的检索词进一步抽象出更少的公共条件;例如,在必要条件项A中,包含三个检索词a,b,c,三者的关系式a∪b∪c,如果c⊆a,则可将必要条件项A对应的检索词化简为a∪b;
G、如果多组必要条件组合中的对应必要条件项相等或存在包含关系,则视为同一个条件项,只保留母集对应的必要条件组合;例如,两组必要条件组合A∩B和A∩C中,如果B⊆C,则仅保留必要条件组合A∩C;
H、如果多组必要条件组合中存在相同的部分,则对相同部分进行提取,对不同部分进行合并;例如,两组必要条件组合A∩B和A∩C,可合并成为A∩(B∪C)
I、按照数据类型进行分类汇总,以获得数据快速筛选条件。
在步骤H中,还可以舍弃不同的必要条件项,只保留公共部分的必要条件项。例如两组必要条件组合A∩B和A∩C,则仅保留A,这样数据处理时更加简单。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例公开如上,然而,并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当然会利用揭示的技术内容作出些许更动或修饰,成为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均属于本发明技术方案的范围内。

Claims (2)

1.一种依据数据关联规则的必要条件分析方法,包括以下步骤:
A、针对数据筛选规则进行分析,提取筛选规则中的必要条件组合,必要条件组合中包括必要条件;
B、将必要条件组合中的检索词进行还原,并将当前必要条件组合中每一项必要条件项都转换为检索词集合,检索词之间为并集关系;
C、如果必要条件组合中仅包含一个必要条件项的,则对该必要条件项进行单独提取;
D、如果一个必要条件组合的其中一个必要条件项被包含在了另一个必要条件项的范围中,则放弃该必要条件组合,而保留另一个必要条件项;
E、如果存在相同的必要条件组合则进行消重,只保留其中一组必要条件组合;
F、对同一个必要条件项中的检索词进一步抽象出更少的公共条件;
G、如果多组必要条件组合中的对应必要条件项相等或存在包含关系,则视为同一个条件项,只保留母集对应的必要条件组合;
H、如果多组必要条件组合中存在相同的部分,则对相同部分进行提取,对不同部分进行合并;
I、按照数据类型进行分类汇总,以获得数据快速筛选条件。
2.根据权利要求1所述的依据数据关联规则的必要条件分析方法,其特征在于:步骤H中,舍弃不同的必要条件项,只保留公共部分的必要条件项。
CN201510910422.7A 2015-12-10 2015-12-10 依据数据关联规则的必要条件分析方法 Active CN105574087B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510910422.7A CN105574087B (zh) 2015-12-10 2015-12-10 依据数据关联规则的必要条件分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510910422.7A CN105574087B (zh) 2015-12-10 2015-12-10 依据数据关联规则的必要条件分析方法

Publications (2)

Publication Number Publication Date
CN105574087A CN105574087A (zh) 2016-05-11
CN105574087B true CN105574087B (zh) 2018-12-07

Family

ID=55884218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510910422.7A Active CN105574087B (zh) 2015-12-10 2015-12-10 依据数据关联规则的必要条件分析方法

Country Status (1)

Country Link
CN (1) CN105574087B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620597A (zh) * 2008-06-30 2010-01-06 上海全成通信技术有限公司 移动通信业数据业务的产品关联分析方法
CN102023977A (zh) * 2009-09-21 2011-04-20 陈俊 一种数据筛选方法、数据筛选系统及其应用
CN102867022A (zh) * 2012-08-10 2013-01-09 上海交通大学 通过部分删除某些项目达到对集合型数据匿名化的系统
CN103699622A (zh) * 2013-12-19 2014-04-02 浙江工商大学 一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法
CN104866484A (zh) * 2014-02-21 2015-08-26 阿里巴巴集团控股有限公司 一种数据处理方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020049720A1 (en) * 2000-05-11 2002-04-25 Chase Manhattan Bank System and method of data mining
US20090019022A1 (en) * 2007-07-15 2009-01-15 Dawning Technologies, Inc. Rules-based data mining

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620597A (zh) * 2008-06-30 2010-01-06 上海全成通信技术有限公司 移动通信业数据业务的产品关联分析方法
CN102023977A (zh) * 2009-09-21 2011-04-20 陈俊 一种数据筛选方法、数据筛选系统及其应用
CN102867022A (zh) * 2012-08-10 2013-01-09 上海交通大学 通过部分删除某些项目达到对集合型数据匿名化的系统
CN103699622A (zh) * 2013-12-19 2014-04-02 浙江工商大学 一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法
CN104866484A (zh) * 2014-02-21 2015-08-26 阿里巴巴集团控股有限公司 一种数据处理方法和装置

Also Published As

Publication number Publication date
CN105574087A (zh) 2016-05-11

Similar Documents

Publication Publication Date Title
Castles Welfare state development in Southern Europe
CN105306475B (zh) 一种基于关联规则分类的网络入侵检测方法
Li et al. Detection and characterization of human trafficking networks using unsupervised scalable text template matching
CN103631929A (zh) 一种用于搜索的智能提示的方法、模块和系统
Sanchez-Perez et al. Adaptive algorithm for plagiarism detection: The best-performing approach at PAN 2014 text alignment competition
Fraisier et al. Uncovering like-minded political communities on twitter
CN104281565A (zh) 语义词典构建方法和装置
Fu et al. Combining PCA with DEA to improve the evaluation of project performance data: A Taiwanese Bureau of Energy case study
Dang et al. HotMatch results for OEAI 2012.
Raihan et al. Human behavior analysis using association rule mining techniques
CN105574087B (zh) 依据数据关联规则的必要条件分析方法
Steinmann et al. Contribution profiles of voluntary mappers in OpenStreetMap
Ahmed et al. Progressive convergent definition and conceptualization of organizational resilience: A model development
Frolov et al. Scientific and technological potential of Russia at the present stage: Implementation challenges and prospects for development
CN103257983B (zh) 一种基于唯一性约束的Deep Web实体识别方法
Sinno et al. Political ideology and polarization of policy positions: A multi-dimensional approach
WO2016142531A8 (en) Method and system for identifying relevant members of a social or business network
CN108549640A (zh) 一种基于统计学的企业名称相似度计算方法
Kwei A comparison of online news media framing of the 2022 Russia-Ukraine conflict in Ukraine, Russia, the US & China
Bonafilia et al. Sudden Semantic Shifts in Swedish NATO Discourse
Brounstein et al. Stylometric and Temporal Techniques for Social Media Account Resolution.
Pramudita et al. Clustering Sports News in Indonesian Using Modified K-Medoid Method
Huddar et al. Scalable distributed first story detection using storm for twitter data
Hussain Commitment or Conspiracy? A Historical Exploration of Freedom of Association in the Readymade Garment Industry of Bangladesh
Yousafzai Exploring the Causality and Co-integration Relationship between FDI, GDP and Employment: A Case of Czech Republic

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 300020 Tianjin Heping District, South Road, No. 11 International Building 23 purchase of Wheat

Applicant after: Tianjin mass information technology Limited by Share Ltd

Address before: 300020 Tianjin Heping District, South Road, No. 11 International Building 23 purchase of Wheat

Applicant before: Tianjin Hylanda Information Technology Co.,Ltd.

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant