CN106980682A - 一种基于大数据生成器的非时间属性关联模型的建模方法 - Google Patents
一种基于大数据生成器的非时间属性关联模型的建模方法 Download PDFInfo
- Publication number
- CN106980682A CN106980682A CN201710204048.8A CN201710204048A CN106980682A CN 106980682 A CN106980682 A CN 106980682A CN 201710204048 A CN201710204048 A CN 201710204048A CN 106980682 A CN106980682 A CN 106980682A
- Authority
- CN
- China
- Prior art keywords
- relation
- liveness
- frequency
- popularity
- evaluated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及一种基于大数据生成器的非时间属性关联模型的建模方法,首先从数据集中提取评价主体和被评价主体的关键属性,进行两重频数统计,得到基于关键属性的4个关系对;然后计算各关系对的MIC值来评估各关系对的相关性,并采用SE分布对各关系对进行关系拟合;通过拟合的关系得到评价主体的属性特征与其数据规模的关系,以及被评价主体的属性特征与其数据规模的关系,并将这两个属性特征通过活跃度总和等于流行度总和建立关联,得到非时间属性关联的H模型。该方法建立的模型可以有效地刻画真实数据集中的数据特征。
Description
技术领域
本发明涉及大数据生成技术领域,特别涉及一种基于大数据生成器的非时间属性关联模型的建模方法。
背景技术
互联网特别是移动互联网的发展,加快了信息化向大众日常生活、社会各个方面的渗透,大数据时代正在到来。为了挖掘大数据中隐藏的价值,一系列关于大数据的系统相继出现,同时伴随着大数据评测系统应运而生。在大数据评测中,考虑到大数据集不易获取,对大数据生成工具的研究引起了广泛关注。大数据生成器最重要的要求是能保持真实数据集中数据的特征。如何逼真的生成表格数据,关键在于如何刻画属性具有什么特征的问题,如何处理表内部关键属性间的关联性问题,如何处理表与表之间的关联性问题。
表内部属性间的关联,分为与时间相关和非时间属性相关的关联。在表格形式的大规模数据生成研究工作中,已有许多学者做了大量的工作,特别是对表与表之间的关联、某个属性具有的特征、与时间属性相关的特征关注比较多,而对非时间属性间的关联比较少。对非时间属性间的关联的研究,停留在相对粗糙的层面上。比如,采用正/负相关来表达关联,通过计算相关系数来表达关联,等等。对非时间字段相关性质研究中仍存在许多需要急于解决的困难问题。
发明内容
本发明的目的在于提供一种基于大数据生成器的非时间属性关联模型的建模方法,该方法建立的模型可以有效地刻画真实数据集中的数据特征。
为实现上述目的,本发明的技术方案是:一种基于大数据生成器的非时间属性关联模型的建模方法,首先从数据集中提取评价主体和被评价主体的关键属性,进行两重频数统计,得到基于关键属性的4个关系对:评价主体的活跃度与活跃度排名的关系、评价主体的活跃度与其出现频数的关系、被评价主体的流行度与流行度排名的关系和被评价主体的流行度与其出现频数的关系;然后计算各关系对的MIC值来评估各关系对的相关性,并采用SE分布对各关系对进行关系拟合;通过拟合的关系得到评价主体的属性特征与其数据规模的关系,即评价主体的活跃度与其出现频数关系和评价主体的数据规模的关系,以及被评价主体的属性特征与其数据规模的关系,即流行度与其出现频数关系和被评价主体的数据规模的关系,并将这两个属性特征通过活跃度总和等于流行度总和建立关联,得到非时间属性关联的H模型。
进一步的,该方法包括以下步骤:
步骤S1:从数据集中提取关键属性,包括评价主体id和被评价主体id;
步骤S2:对评价主体id出现的频次做频数统计得到评价主体的活跃度,对被评价对象id出现的频次做频数统计得到被评价对象的流行度,对活跃度降序排列得到相应的活跃度排名,对流行度降序排列得到相应的流行度排名,对活跃度出现的频次做频数统计得到活跃度与其出现的频数,对流行度出现的频次做频数统计得到流行度与其出现的频数,从而得到以下4个关系:活跃度与活跃度排名的关系、活跃度与其出现频数的关系、流行度与流行度排名的关系和流行度与其出现频数的关系;
步骤S3:分别对得到的4个关系计算MIC值,得到4个关系的MIC值,以度量各个关系中两个字段间的相关性;
步骤S4:对应于4个关系分别预设4个阈值,比较4个MIC值是否都不小于预设的阈值,是则进行下一步骤,否则此模型不适用,建模结束;
步骤S5:采用SE分布对得到的4个关系进行拟合,得到4个关系的SE分布参数;
步骤S6:设置评价主体的数据规模和被评价主体的数据规模;
步骤S7:在活跃度排名的取值范围内随机取一个数作为活跃度排名,通过活跃度与活跃度排名关系的SE分布,得到活跃度,进一步通过活跃度与其出现频数关系的SE分布,得到活跃度对应的出现频数;
步骤S8:对步骤S7得到的出现频数求和,判断求和总数是否等于评价主体的数据规模,是则转下一步骤,否则重复步骤S7;
步骤S9:将活跃度乘以其对应的出现频数得到活跃度总和;
步骤S10:采用与步骤S7、S8同样的方法,得到流行度对应的出现频数,然后将流行度乘以其对应的出现频数得到流行度总和;
步骤S11:判断步骤S10得到的活跃度总和是否等于步骤S9得到的流行度总和,是则建模完成,否则重复步骤S10。
本发明的有益效果是针对表内非时间属性间的关联问题,提出了一种基于大数据生成器的非时间属性关联模型的建模方法,该方法从数据集中提取关键属性,通过MIC值来评估字段间的相关性,并采用SE分布进行关系拟合,建立了非时间属性关联的H模型,从统计特性上刻画非时间属性间关联性,建立的模型能够保持真实数据集的数据特征。
附图说明
图1是本发明实施例中建立的H模型的结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
表内部属性间的关联,分为与时间相关和非时间属性相关的关联。本发明基于大数据生成器的非时间属性关联模型的建模方法,针对表内部与非时间属性相关的关联性问题,首先从数据集中提取评价主体和被评价主体的关键属性,进行两重频数统计,得到基于关键属性的4个关系对:评价主体的活跃度与活跃度排名的关系、评价主体的活跃度与其出现频数的关系、被评价主体的流行度与流行度排名的关系和被评价主体的流行度与其出现频数的关系;然后,计算各关系对的最大信息系数(The Maximal InformationCoefficient,MIC)值,即MIC值来评估各关系对的相关性,并采用拉伸指数分布(TheStretched Exponential Distribution,SE),即SE分布对各关系对进行关系拟合;通过拟合的关系得到评价主体的属性特征与其数据规模的关系,即评价主体的活跃度与其出现频数关系和评价主体的数据规模的关系,以及被评价主体的属性特征与其数据规模的关系,即流行度与其出现频数关系和被评价主体的数据规模的关系,并将这两个属性特征通过活跃度总和等于流行度总和建立关联,得到如图1所示的非时间属性关联的H模型。在图1中,Freq表示活跃度,UserCount表示评价主体的数据规模,Popu表示流行度,ItemCount表示被评价主体的数据规模,∑Freq=∑Popu表示活跃度总和等于流行度总和。实验结果表明,H模型能有效地刻画真实数据集中的数据特征。
具体的,本发明方法包括以下步骤:
步骤S1:从数据集中提取关键属性,包括评价主体id和被评价主体id;
步骤S2:对评价主体id出现的频次做频数统计得到评价主体的活跃度,对被评价对象id出现的频次做频数统计得到被评价对象的流行度,对活跃度降序排列得到相应的活跃度排名,对流行度降序排列得到相应的流行度排名,对活跃度出现的频次做频数统计得到活跃度与其出现的频数,对流行度出现的频次做频数统计得到流行度与其出现的频数,从而得到以下4个关系:活跃度与活跃度排名的关系、活跃度与其出现频数的关系、流行度与流行度排名的关系和流行度与其出现频数的关系;
步骤S3:分别对得到的4个关系计算MIC值,得到4个关系的MIC值,以度量各个关系中两个字段间的相关性;
步骤S4:对应于4个关系分别预设4个阈值,比较4个MIC值是否都不小于预设的阈值,是则进行下一步骤,否则此模型不适用,建模结束;
步骤S5:采用SE分布对得到的4个关系进行拟合,得到4个关系的SE分布参数;
步骤S6:设置评价主体的数据规模和被评价主体的数据规模;
步骤S7:在活跃度排名的取值范围内随机取一个数作为活跃度排名,通过活跃度与活跃度排名关系的SE分布,得到活跃度,进一步通过活跃度与其出现频数关系的SE分布,得到活跃度对应的出现频数;
步骤S8:对步骤S7得到的出现频数求和,判断求和总数是否等于评价主体的数据规模,是则转下一步骤,否则重复步骤S7;
步骤S9:将活跃度乘以其对应的出现频数得到活跃度总和;
步骤S10:采用与步骤S7、S8同样的方法,得到流行度对应的出现频数,然后将流行度乘以其对应的出现频数得到流行度总和;
步骤S11:判断步骤S10得到的活跃度总和是否等于步骤S9得到的流行度总和,是则建模完成,否则重复步骤S10。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (2)
1.一种基于大数据生成器的非时间属性关联模型的建模方法,其特征在于,首先从数据集中提取评价主体和被评价主体的关键属性,进行两重频数统计,得到基于关键属性的4个关系对:评价主体的活跃度与活跃度排名的关系、评价主体的活跃度与其出现频数的关系、被评价主体的流行度与流行度排名的关系和被评价主体的流行度与其出现频数的关系;然后计算各关系对的MIC值来评估各关系对的相关性,并采用SE分布对各关系对进行关系拟合;通过拟合的关系得到评价主体的属性特征与其数据规模的关系,即评价主体的活跃度与其出现频数关系和评价主体的数据规模的关系,以及被评价主体的属性特征与其数据规模的关系,即流行度与其出现频数关系和被评价主体的数据规模的关系,并将这两个属性特征通过活跃度总和等于流行度总和建立关联,得到非时间属性关联的H模型。
2.根据权利要求1所述的一种基于大数据生成器的非时间属性关联模型的建模方法,其特征在于,包括以下步骤:
步骤S1:从数据集中提取关键属性,包括评价主体id和被评价主体id;
步骤S2:对评价主体id出现的频次做频数统计得到评价主体的活跃度,对被评价对象id出现的频次做频数统计得到被评价对象的流行度,对活跃度降序排列得到相应的活跃度排名,对流行度降序排列得到相应的流行度排名,对活跃度出现的频次做频数统计得到活跃度与其出现的频数,对流行度出现的频次做频数统计得到流行度与其出现的频数,从而得到以下4个关系:活跃度与活跃度排名的关系、活跃度与其出现频数的关系、流行度与流行度排名的关系和流行度与其出现频数的关系;
步骤S3:分别对得到的4个关系计算MIC值,得到4个关系的MIC值,以度量各个关系中两个字段间的相关性;
步骤S4:对应于4个关系分别预设4个阈值,比较4个MIC值是否都不小于预设的阈值,是则进行下一步骤,否则此模型不适用,建模结束;
步骤S5:采用SE分布对得到的4个关系进行拟合,得到4个关系的SE分布参数;
步骤S6:设置评价主体的数据规模和被评价主体的数据规模;
步骤S7:在活跃度排名的取值范围内随机取一个数作为活跃度排名,通过活跃度与活跃度排名关系的SE分布,得到活跃度,进一步通过活跃度与其出现频数关系的SE分布,得到活跃度对应的出现频数;
步骤S8:对步骤S7得到的出现频数求和,判断求和总数是否等于评价主体的数据规模,是则转下一步骤,否则重复步骤S7;
步骤S9:将活跃度乘以其对应的出现频数得到活跃度总和;
步骤S10:采用与步骤S7、S8同样的方法,得到流行度对应的出现频数,然后将流行度乘以其对应的出现频数得到流行度总和;
步骤S11:判断步骤S10得到的活跃度总和是否等于步骤S9得到的流行度总和,是则建模完成,否则重复步骤S10。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710204048.8A CN106980682A (zh) | 2017-03-30 | 2017-03-30 | 一种基于大数据生成器的非时间属性关联模型的建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710204048.8A CN106980682A (zh) | 2017-03-30 | 2017-03-30 | 一种基于大数据生成器的非时间属性关联模型的建模方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106980682A true CN106980682A (zh) | 2017-07-25 |
Family
ID=59339259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710204048.8A Pending CN106980682A (zh) | 2017-03-30 | 2017-03-30 | 一种基于大数据生成器的非时间属性关联模型的建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106980682A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107493277A (zh) * | 2017-08-10 | 2017-12-19 | 福建师范大学 | 基于最大信息系数的大数据平台在线异常检测方法 |
CN112085323A (zh) * | 2020-07-30 | 2020-12-15 | 北京明略软件系统有限公司 | 基于活跃度指标的关联可信度评估方法和装置 |
-
2017
- 2017-03-30 CN CN201710204048.8A patent/CN106980682A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107493277A (zh) * | 2017-08-10 | 2017-12-19 | 福建师范大学 | 基于最大信息系数的大数据平台在线异常检测方法 |
CN107493277B (zh) * | 2017-08-10 | 2020-06-16 | 福建师范大学 | 基于最大信息系数的大数据平台在线异常检测方法 |
CN112085323A (zh) * | 2020-07-30 | 2020-12-15 | 北京明略软件系统有限公司 | 基于活跃度指标的关联可信度评估方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lloyd et al. | The influence of chronological age on periods of accelerated adaptation of stretch-shortening cycle performance in pre and postpubescent boys | |
CN106980692A (zh) | 一种基于微博特定事件的影响力计算方法 | |
CN108806698A (zh) | 一种基于卷积神经网络的伪装语音识别方法 | |
CN106940732A (zh) | 一种面向微博的疑似水军发现方法 | |
CN104317389B (zh) | 一种通过动作识别人物角色的方法和装置 | |
CN105279288A (zh) | 一种基于深度神经网络的在线内容推荐方法 | |
CN103916436B (zh) | 信息推送方法、装置、终端及服务器 | |
CN102722532B (zh) | 一种基于内容和用户历史的音乐推荐算法 | |
CN104181875A (zh) | 基于物联模式的运动健身系统 | |
CN106980682A (zh) | 一种基于大数据生成器的非时间属性关联模型的建模方法 | |
CN103729467B (zh) | 一种社交网络中的社区结构发现方法 | |
Hao et al. | An approach for calculating semantic similarity between words using WordNet | |
CN109568123A (zh) | 一种基于yolo目标检测的穴位定位方法 | |
CN104112131B (zh) | 一种用于人脸检测的训练样本的生成方法及装置 | |
CN103810170B (zh) | 交流平台文本分类方法及装置 | |
CN115188078A (zh) | 一种基于语音交互和姿态估计的乒乓球智能动作训练方法 | |
Peveler | The accuracy of simulated indoor time trials utilizing a CompuTrainer and GPS data | |
CN107609982A (zh) | 考虑社区结构稳定度和增量相关节点进行社区发现的方法 | |
CN105975487B (zh) | 一种app软件用户评论有关性判断方法 | |
CN107169051A (zh) | 基于本体间语义相关的三维模型检索方法及系统 | |
CN110399656B (zh) | 基于模糊逻辑与神经网络的下装腰省参数设计方法 | |
CN109260693A (zh) | 运动音乐的生成方法、智能手环、可读存储介质及系统 | |
Chang et al. | [Retracted] Analyzing the Effect of Badminton on Physical Health and Emotion Recognition on the account of Smart Sensors | |
CN106940731A (zh) | 一种基于非时间属性关联的数据逼真生成方法 | |
CN102650997B (zh) | 一种元素推荐方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170725 |
|
RJ01 | Rejection of invention patent application after publication |