CN105574087B - 依据数据关联规则的必要条件分析方法 - Google Patents
依据数据关联规则的必要条件分析方法 Download PDFInfo
- Publication number
- CN105574087B CN105574087B CN201510910422.7A CN201510910422A CN105574087B CN 105574087 B CN105574087 B CN 105574087B CN 201510910422 A CN201510910422 A CN 201510910422A CN 105574087 B CN105574087 B CN 105574087B
- Authority
- CN
- China
- Prior art keywords
- necessary condition
- combination
- item
- data
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90324—Query formulation using system suggestions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种依据数据关联规则的必要条件分析方法中,针对数据筛选规则进行分析,提取筛选规则中的必要条件组合,必要条件组合中包括必要条件,将必要条件组合中的检索词进行还原,并将每一必要条件项都转换为检索词集合,检索词之间为并集关系,再通过对不同情况下的处理规则的必要条件进行分析,可得到面向不同的业务,不同的规则组配的快速筛选条件,满足了业务上的灵活性,必要条件的分析使用了一系列归并优化的方法既能完全覆盖目标数据又一定程度上继承了规则的精度,满足了完整性和复杂性。
Description
技术领域
本发明涉及数据处理的技术领域,具体说是一种依据数据关联规则的必要条件分析方法。
背景技术
随着大数据领域的不断发展,针对海量数据的处理变得越来越普遍。当前互联网数据的存量在飞速的增长,针对大数据的处理都会面临一个根本性的问题,如何在海量的数据中找到自己想要的数据。通常这些数据都具有离散性、不可预测性以及主观性等特点,为满足各种个性化的数据筛选需求,业界通常都使用了可灵活组配的规则来解决这个问题。但是随着数据量的增加,以及筛选规则的日益复杂,筛选的性能问题逐渐凸显,慢慢变成了阻碍整个业务最严重的环节。为了解决这个问题,需要让数据在具体进行规则筛选之前进行一次初筛,而初筛使用的条件来源于规则的必要条件,不同的业务需求使用的规则必要条件不尽相同,数量也成千上万,但其中有相同部分,有相似部分,有重叠部分,如何进行必要条件的分析以减少冗余计算的快速筛选条件是当前大数据处理行业所面对的主要问题。
发明内容
本发明要解决的技术问题是提供一种依据数据关联规则的必要条件分析方法。
本发明为解决公知技术中存在的技术问题所采取的技术方案是:
本发明的依据数据关联规则的必要条件分析方法,包括以下步骤:
A、针对数据筛选规则进行分析,提取筛选规则中的必要条件组合,必要条件组合中包括必要条件;
B、将必要条件组合中的检索词进行还原,并将每一必要条件项都转换为检索词集合,检索词之间为并集关系;
C、如果必要条件组合中仅包含一个必要条件项的,则对该必要条件项进行单独提取;
D、如果一个必要条件组合的其中一个必要条件项被包含在了另一个必要条件项的范围中,则放弃该必要条件组合,而保留另一个必要条件项;
E、如果存在相同的必要条件组合则进行消重,只保留其中一组必要条件组合;
F、对同一个必要条件项中的检索词进一步抽象出更少的公共条件;
G、如果多组必要条件组合中的对应必要条件项相等或存在包含关系,则视为同一个条件项,只保留母集对应的必要条件组合;
H、如果多组必要条件组合中存在相同的部分,则对相同部分进行提取,对不同部分进行合并;
I、按照数据类型进行分类汇总,以获得数据快速筛选条件。
本发明还可以采用以下技术措施:
步骤H中,舍弃不同的必要条件项,只保留公共部分的必要条件项。
本发明具有的优点和积极效果是:
本发明的依据数据关联规则的必要条件分析方法中,通过对处理规则的必要条件进行分析,得到面向不同的业务,不同的规则组配的快速筛选条件,满足了业务上的灵活性,必要条件的分析使用了一系列归并优化的方法既能完全覆盖目标数据又一定程度上继承了规则的精度,满足了完整性和复杂性。
具体实施方式
以下通过具体实施例对本发明进行详细说明。
A、针对数据筛选规则进行分析,提取筛选规则中的必要条件组合,必要条件组合中包括必要条件;
B、将必要条件组合中的检索词进行还原,并将每一必要条件项都转换为检索词集合,检索词之间为并集关系;例如,将必要条件A 转换为检索词集合{a,b,c},其关系是a∪b∪c;
C、如果必要条件组合中仅包含一个必要条件项的,则对该必要条件项进行单独提取;例如,必要条件组合A中仅包含一个必要条件项A,则对必要条件项A进行单独提取;
D、如果一个必要条件组合的其中一个必要条件项被包含在了另一个必要条件项的范围中,则放弃该必要条件组合,而保留另一个必要条件项;例如,必要条件项A和必要条件组合B∩C∩D,如果其中的B⊆A,则只保留A;
E、如果存在相同的必要条件组合则进行消重,只保留其中一组必要条件组合;例如必要条件组合A∩B和A∩B中需消重只保留一个A∩B;
F、对同一个必要条件项中的检索词进一步抽象出更少的公共条件;例如,在必要条件项A中,包含三个检索词a,b,c,三者的关系式a∪b∪c,如果c⊆a,则可将必要条件项A对应的检索词化简为a∪b;
G、如果多组必要条件组合中的对应必要条件项相等或存在包含关系,则视为同一个条件项,只保留母集对应的必要条件组合;例如,两组必要条件组合A∩B和A∩C中,如果B⊆C,则仅保留必要条件组合A∩C;
H、如果多组必要条件组合中存在相同的部分,则对相同部分进行提取,对不同部分进行合并;例如,两组必要条件组合A∩B和A∩C,可合并成为A∩(B∪C)
I、按照数据类型进行分类汇总,以获得数据快速筛选条件。
在步骤H中,还可以舍弃不同的必要条件项,只保留公共部分的必要条件项。例如两组必要条件组合A∩B和A∩C,则仅保留A,这样数据处理时更加简单。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例公开如上,然而,并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当然会利用揭示的技术内容作出些许更动或修饰,成为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均属于本发明技术方案的范围内。
Claims (2)
1.一种依据数据关联规则的必要条件分析方法,包括以下步骤:
A、针对数据筛选规则进行分析,提取筛选规则中的必要条件组合,必要条件组合中包括必要条件;
B、将必要条件组合中的检索词进行还原,并将当前必要条件组合中每一项必要条件项都转换为检索词集合,检索词之间为并集关系;
C、如果必要条件组合中仅包含一个必要条件项的,则对该必要条件项进行单独提取;
D、如果一个必要条件组合的其中一个必要条件项被包含在了另一个必要条件项的范围中,则放弃该必要条件组合,而保留另一个必要条件项;
E、如果存在相同的必要条件组合则进行消重,只保留其中一组必要条件组合;
F、对同一个必要条件项中的检索词进一步抽象出更少的公共条件;
G、如果多组必要条件组合中的对应必要条件项相等或存在包含关系,则视为同一个条件项,只保留母集对应的必要条件组合;
H、如果多组必要条件组合中存在相同的部分,则对相同部分进行提取,对不同部分进行合并;
I、按照数据类型进行分类汇总,以获得数据快速筛选条件。
2.根据权利要求1所述的依据数据关联规则的必要条件分析方法,其特征在于:步骤H中,舍弃不同的必要条件项,只保留公共部分的必要条件项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510910422.7A CN105574087B (zh) | 2015-12-10 | 2015-12-10 | 依据数据关联规则的必要条件分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510910422.7A CN105574087B (zh) | 2015-12-10 | 2015-12-10 | 依据数据关联规则的必要条件分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105574087A CN105574087A (zh) | 2016-05-11 |
CN105574087B true CN105574087B (zh) | 2018-12-07 |
Family
ID=55884218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510910422.7A Active CN105574087B (zh) | 2015-12-10 | 2015-12-10 | 依据数据关联规则的必要条件分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105574087B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101620597A (zh) * | 2008-06-30 | 2010-01-06 | 上海全成通信技术有限公司 | 移动通信业数据业务的产品关联分析方法 |
CN102023977A (zh) * | 2009-09-21 | 2011-04-20 | 陈俊 | 一种数据筛选方法、数据筛选系统及其应用 |
CN102867022A (zh) * | 2012-08-10 | 2013-01-09 | 上海交通大学 | 通过部分删除某些项目达到对集合型数据匿名化的系统 |
CN103699622A (zh) * | 2013-12-19 | 2014-04-02 | 浙江工商大学 | 一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法 |
CN104866484A (zh) * | 2014-02-21 | 2015-08-26 | 阿里巴巴集团控股有限公司 | 一种数据处理方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020049720A1 (en) * | 2000-05-11 | 2002-04-25 | Chase Manhattan Bank | System and method of data mining |
US20090019022A1 (en) * | 2007-07-15 | 2009-01-15 | Dawning Technologies, Inc. | Rules-based data mining |
-
2015
- 2015-12-10 CN CN201510910422.7A patent/CN105574087B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101620597A (zh) * | 2008-06-30 | 2010-01-06 | 上海全成通信技术有限公司 | 移动通信业数据业务的产品关联分析方法 |
CN102023977A (zh) * | 2009-09-21 | 2011-04-20 | 陈俊 | 一种数据筛选方法、数据筛选系统及其应用 |
CN102867022A (zh) * | 2012-08-10 | 2013-01-09 | 上海交通大学 | 通过部分删除某些项目达到对集合型数据匿名化的系统 |
CN103699622A (zh) * | 2013-12-19 | 2014-04-02 | 浙江工商大学 | 一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法 |
CN104866484A (zh) * | 2014-02-21 | 2015-08-26 | 阿里巴巴集团控股有限公司 | 一种数据处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105574087A (zh) | 2016-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Castles | Welfare state development in Southern Europe | |
CN105306475B (zh) | 一种基于关联规则分类的网络入侵检测方法 | |
Li et al. | Detection and characterization of human trafficking networks using unsupervised scalable text template matching | |
CN103631929A (zh) | 一种用于搜索的智能提示的方法、模块和系统 | |
Sanchez-Perez et al. | Adaptive algorithm for plagiarism detection: The best-performing approach at PAN 2014 text alignment competition | |
Fraisier et al. | Uncovering like-minded political communities on twitter | |
CN104281565A (zh) | 语义词典构建方法和装置 | |
Fu et al. | Combining PCA with DEA to improve the evaluation of project performance data: A Taiwanese Bureau of Energy case study | |
Dang et al. | HotMatch results for OEAI 2012. | |
Raihan et al. | Human behavior analysis using association rule mining techniques | |
CN105574087B (zh) | 依据数据关联规则的必要条件分析方法 | |
Steinmann et al. | Contribution profiles of voluntary mappers in OpenStreetMap | |
Ahmed et al. | Progressive convergent definition and conceptualization of organizational resilience: A model development | |
Frolov et al. | Scientific and technological potential of Russia at the present stage: Implementation challenges and prospects for development | |
CN103257983B (zh) | 一种基于唯一性约束的Deep Web实体识别方法 | |
Sinno et al. | Political ideology and polarization of policy positions: A multi-dimensional approach | |
WO2016142531A8 (en) | Method and system for identifying relevant members of a social or business network | |
CN108549640A (zh) | 一种基于统计学的企业名称相似度计算方法 | |
Kwei | A comparison of online news media framing of the 2022 Russia-Ukraine conflict in Ukraine, Russia, the US & China | |
Bonafilia et al. | Sudden Semantic Shifts in Swedish NATO Discourse | |
Brounstein et al. | Stylometric and Temporal Techniques for Social Media Account Resolution. | |
Pramudita et al. | Clustering Sports News in Indonesian Using Modified K-Medoid Method | |
Huddar et al. | Scalable distributed first story detection using storm for twitter data | |
Hussain | Commitment or Conspiracy? A Historical Exploration of Freedom of Association in the Readymade Garment Industry of Bangladesh | |
Yousafzai | Exploring the Causality and Co-integration Relationship between FDI, GDP and Employment: A Case of Czech Republic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 300020 Tianjin Heping District, South Road, No. 11 International Building 23 purchase of Wheat Applicant after: Tianjin mass information technology Limited by Share Ltd Address before: 300020 Tianjin Heping District, South Road, No. 11 International Building 23 purchase of Wheat Applicant before: Tianjin Hylanda Information Technology Co.,Ltd. |
|
COR | Change of bibliographic data | ||
GR01 | Patent grant | ||
GR01 | Patent grant |