CN104102730A - 一种基于已知标签的大数据常态模式提取方法及系统 - Google Patents

一种基于已知标签的大数据常态模式提取方法及系统 Download PDF

Info

Publication number
CN104102730A
CN104102730A CN201410355680.9A CN201410355680A CN104102730A CN 104102730 A CN104102730 A CN 104102730A CN 201410355680 A CN201410355680 A CN 201410355680A CN 104102730 A CN104102730 A CN 104102730A
Authority
CN
China
Prior art keywords
attribute
value
identification
importance
property value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410355680.9A
Other languages
English (en)
Other versions
CN104102730B (zh
Inventor
王电
陈庆彬
黄煜可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA SOFTWARE AND TECHNOLOGY SERVICE Co Ltd
Original Assignee
CHINA SOFTWARE AND TECHNOLOGY SERVICE Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA SOFTWARE AND TECHNOLOGY SERVICE Co Ltd filed Critical CHINA SOFTWARE AND TECHNOLOGY SERVICE Co Ltd
Priority to CN201410355680.9A priority Critical patent/CN104102730B/zh
Publication of CN104102730A publication Critical patent/CN104102730A/zh
Application granted granted Critical
Publication of CN104102730B publication Critical patent/CN104102730B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于已知标签的大数据常态模式提取方法。本方法为:1)服务器从各终端采集的总样本数据集中抽取若干样本,得到一抽样样本集合,抽样样本集合中的样本已分类并按照类别标签进行标注;2)根据选取的属性降维指标计算抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性四项指标;3)根据计算结果对属性进行排序,选取若干属性作为大数据降维后保留的属性;4)根据选取的属性划分指标计算属性降维后的全体样本数据每一属性的四项指标,然后选取若干属性特征对该总样本数据集进行划分,将划分结果作为常态模式。本发明计算复杂度低,结果确定性高,增强了在实际应用中的可信度。

Description

一种基于已知标签的大数据常态模式提取方法及系统
技术领域
本发明涉及一种常态模式提取方法及系统,尤其涉及一种基于已知标签的大数据常态模式提取方法及系统。
背景技术
在现实生活中,我们经常希望根据一组已知标签的样本获取数据内在蕴含的更丰富的信息,这就需要将各个标签对应的众多样本进行进一步细分,获得每个标签类别的若干子类别,以便从各个子类别中获得更加丰富的信息。例如,某公司针对会员进行了一次促销活动,按照是否在促销中购买产品,可以给公司的全体会员标上“购买”和“未购买”两种标签,使得全体会员的数据成为带有已知标签的样本数据。我们希望获取更丰富的信息,比如部分会员未购买的原因,是否有更加有针对性的促销方式等等。这就需要将这两个已知的样本集合进一步划分为子集合,获得更丰富的会员消费习惯信息。
对样本数据进行再分类的问题,常用的处理方法有两种:
第一种分类方法,基于经验确定一些分类的指标(属性、属性值)并按照这些指标将样本数据分类,例如将一群人分为“青年”、“中年”、“老年”三类,就是基于属性“年龄层”做出的。这种分类方式强烈的依赖于分类人的经验,具有较强的主观色彩,使得不同人对同一组样本数据得到的分类结果可能有较大不同,而且难以确定究竟哪种分类更加科学。
第二种分类方法,基于数据挖掘聚类分析的聚类结果,将聚类结果直接作为分类结果。这种方法具有较好的客观性,但存在以下不足:
(1)聚类分析算法复杂性过高,在数据量较大时处理困难;
(2)传统的聚类算法不能给出簇的命名,不利于实际应用;
(3)主流的聚类算法属于随机算法,基于随机的初值,聚类结果也随着初值变化,聚类结果的不确定性在一定程度上影响了聚类结果在实际应用中的可信度。
对样本数据进行再分类时,还会遇到“大数据”的问题。随着信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。经过清洗的已知标签样本数据汇总到中央数据库。由于样本量巨大,形成了维数大、规模大、复杂性大的大数据形态,要挖掘其中有意义的知识和内容以指导实际生产和具体应用,需要首先进行降维处理,即维数约简,它一方面可以解决“维数灾难”,缓解大数据中“信息丰富但知识贫乏”的问题,降低计算的复杂度;另一方面可以引导人们更好地认识和理解数据。数据降维的方法很多,例如:根据数据本身的特性,可以分为线性降维和非线性降维两种;根据是否考虑和利用数据的监督信息,可以分为无监督降维、有监督降维和半监督降维三种;根据是否需要保持数据的结构,可以分为全局保持降维、局部保持降维和全局与局部保持一致降维等。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种基于已知标签的大数据常态模式提取方法和系统。该方法和系统提出了全新的“常态模式”概念,使用全新的“属性对已知标签的影响力”提取技术,计算属性值辨识度、属性辨识度、属性值重要性、属性重要性等四项指标,完成大数据降维。针对降维后的全体样本数据,提取全体数据的常态模式,相对直接分析高维全体数据而言,有利于降低本系统的计算复杂度、提高分析效率。该步骤获得的常态模式,即已知集合的加细划分问题。作为一项副产品,本发明还给出常态模式的命名方法,由此克服了传统的聚类分析算法不能自动给簇命名的弊端。
本发明的技术方案为:
一种基于已知标签的大数据常态模式提取方法,其步骤为:
1)中央服务器从各终端服务器采集的总样本数据集中抽取若干样本,得到一抽样样本集合,所述抽样样本集合中的样本已分类并按照类别标签进行标注;
2)根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性;
3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序,选取若干属性作为大数据降维后保留的属性;
4)根据选取的属性划分指标计算属性降维后的全体样本数据每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性,然后对计算结果进行排序选取若干属性特征对该总样本数据集进行划分,将划分结果作为常态模式;
其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属性值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的概率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨识度;
属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨识度;
属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性;
属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重要性。
进一步的,对该属性i所有属性值的属性值辨识度的平方平均数作为该属性i的属性辨识度。
进一步的,对该属性i所有属性值的属性值重要性的平方平均数作为该属性i的属性重要性。
进一步的,根据所述常态模式划分所依据的属性和属性值,命名所述常态模式的名称。
进一步的,采用基于条件概率和贝叶斯算法计算所述辨识度。
进一步的,设定一分类精细度阈值N,如果步骤4)划分后的任一常态模式的样本数小于该分类精细度阈值N,则重新选取属性特征对该总样本数据进行划分。
本发明的系统如图4所示,主要包括:
(1)数据采集模块。
将待分析的已知标签样本数据从分布在各地的终端服务器数据库中传输汇总到中央服务器的数据库中。
(2)数据降维模块。
本发明中的数据降维和常态模式提取都基于全新的“属性对已知标签的影响力”提取技术,其包括四项指标:属性值辨识度、属性辨识度、属性值重要性、属性重要性。根据指标计算结果对属性排序;选取排序靠前的属性对大数据进行降维。
(3)常态模式划分模块。
算属性降维后的全体样本数据每一属性的属性值辨识度、属性辨识度以及属性值重要性、属性重要性,然后对计算结果进行排序选取若干属性特征对该总样本数据进行划分,将划分结果作为常态模式。根据常态模式划分所依据的属性和属性值,命名常态模式的名称,然后通过一常态模式发布器发布。常态模式,可以理解为样本数据中的常见类型,每个常态模式都是一组属性值的集合,常态模式集合是对全体样本的一种划分。
例如,图1中的一个常态模式可能是{颜色=黑,形状=方,尺寸=小},该类型包括了所有小的黑方块,它对应属性值{颜色=黑}、{形状=方}和{尺寸=小},是这三个属性值的集合。当然,某一个确实的常态模式中的属性值不一定是唯一的,因此,{颜色=黑或灰,形状=方,尺寸=小}也可能是一个常态模式。另一方面,由于{颜色=黑,形状=方或圆,尺寸=小}可以化简为{颜色=黑,尺寸=小},因此,常态模式对应的属性值不一定包含所有的属性,也就是说,有的属性在常态模式的划分中并不重要。
直观的讲,一个样本总体全体常态模式的集合对应一个分类树,如图2所示,就是一个可能的常态模式集合。
常态模式的一个重要特点是“划分”性,也就是“不重不漏”。两个常态模式不能拥有共同的样本,即不相交;同时,绝大部分样本都属于某一个常态模式,只有少部分“异常值”、“离群值”。在图1中,常态模式覆盖了绝大部分样本,除了左下角灰底白点的大圆,这是异常值。
一个需要区别的概念是正常类型。事实上,常态模式并不等价于正常类型,常态模式只是从出现的频率上给出了出现频率高的划分方法,并不意味着它一定是正常的、正确的。例如,在道路上暂时没有机动车通过时行人闯红灯过马路,这是一种常见的行为,但却不是正确、合法的行为。当然,一般来说,常态模式是正常类型,不属于常态模式的异常值是不正常的样本。
与现有技术相比,积极效果为:
(1)客观地给出已知标签的各个集合的子集合(加细划分),不使用经验模型,避免主观因素引起错误或误差;
(2)算法复杂性较低,并且提供了大数据维数选择的解决方案;
(3)与主流的聚类算法相比,属于确定性算法,保证了结果的确定性,增强了在实际应用中的可信度;
(4)与主流的聚类算法相比,给出了常态模式的命名方案。
本方法可应用于公安情报数据分析、反腐败数据分析、居民家庭用电情况分析、交通出行模式分析、疾病特征数据分析、医疗数据分析、客户市场细分等多种领域,获取常态模式,从而促进资源合理配置,本方法具有较强的普适性。
附图说明
图1为常态模式示意图;
图2为常态模式实例图;
图3为常态模式提取系统流程图;
图4为常态模式提取系统结构图;
图5为常态模式提取及命名操作结果图;
图6为常态模式查看方法图;
图7为时间序列分析和拐点分析预警示意图。
具体实施方式
本发明公开了一种全新的基于已知标签的大数据常态模式提取方法,如图3所示,包括以下主要步骤。
步骤1:数据采集。
数据采集模块是本系统的硬件基础。该模块将待分析的已知标签样本数据从分布在各地的终端数据库中传输汇总到中央数据库。
步骤2:数据清洗。
通过数据采集终端汇总得到的数据,难免存在不完整、错误、重复等现象。数据清洗步骤用于过滤这些不符合要求的数据,过滤的结果将提交给相关主管部门,确认是直接过滤掉还是作为异常值提取出来做进一步分析。
步骤3:数据降维。
经过清洗的已知标签样本数据汇总到中央数据库。由于样本量(N1)巨大,形成了维数大、规模大、复杂性大的大数据形态,要挖掘其中有意义的知识和内容以指导实际生产和具体应用,需要首先进行降维处理,即维数约简,它一方面可以解决“维数灾难”,缓解大数据中“信息丰富但知识贫乏”的问题,降低计算的复杂度;另一方面可以引导人们更好地认识和理解数据。
数据降维步骤包括以下子步骤:
步骤3.1:数据抽样。
对全体样本进行系统抽样(systematic sampling)。系统抽样,又称机械抽样、等距抽样。具体而言:
(1)由系统硬件运转能力确定适合的抽样样本量(N2),定义压缩比(M)为:
M=N1÷N2;
(2)将全体样本数据按某一顺序排列起来,标注唯一的序号;
(3)从前M个样本中随机的选出一个样本作为抽样样本,记其序号为k;
(4)将序号为k、k+M、k+2*M、…、k+(N2-1)*M的N2个样本作为抽样结果。
步骤3.2:降维指标选择。
针对抽样得到的N2个样本可以通过后续的步骤计算降维指标(即“属性对已知标签的影响力”),并根据“影响力”的排序来确定降维后保留的属性。本系统提供降维指标的选择,可选择的降维指标有:
降维指标1:属性辨识度指标;
降维指标2:属性重要性指标。
降维指标选择主要看待分析的问题中“样本量”因素是否重要,建议如下:
(1)如果“样本量”因素不重要,应选择属性辨识度指标给出影响力排序;
(2)如果“样本量”因素重要,应选择属性重要性指标给出影响力排序;
(3)如果想综合考虑上述两种情况,应结合这两个指标给出综合性的排序。
步骤3.3:降维指标计算。
计算降维指标,也就是计算每个属性“对已知标签的影响力”,具体包括:属性辨识度和属性重要性,同时还需要计算两个过渡性的指标:属性值辨识度和属性值重要性。我们以案例为基础,说明这四项指标的主要计算步骤。系统将根据用户在步骤3.2中的选择情况计算相应的指标。
四项指标计算案例:
一个包含100人的研究样本,其中包含50名女性和50名男性,其中10人犯盗窃罪,其中4名女性、6名男性;100人中20人有前科,其中有8人犯盗窃罪。具体数据如下表1:
表1:四项指标计算案例
序号 样本量 性别 前科 标签
1 42 未犯盗窃罪
2 36 未犯盗窃罪
3 8 未犯盗窃罪
4 5 犯盗窃罪
5 4 未犯盗窃罪
6 3 犯盗窃罪
7 1 犯盗窃罪
8 1 犯盗窃罪
(1)计算属性值相对某个标签的辨识度。
样本集合中的样本已分类并按照类别标签进行标注;计算属性值的辨识度,也就是基于条件概率和贝叶斯算法的理论,计算哪些属性值对已知的标签取值有较大影响(定性)以及影响值多大(定量)。具体而言,用增加属性条件后的概率变化值,即条件概率值与概率值的差,来表示每个标签中每个属性值的辨识度。
具体到本案例,我们想研究哪些属性对样本是否犯有盗窃罪具有较大的影响力,从而实施有针对性的预防和干预工作。我们首先计算属性值相对某个标签的辨识度,以“犯盗窃罪”这个标签为例。
对于这100人中的一个样本x,在属性未知的情况下,预测他(她)犯盗窃罪的概率(可能性)是:P(x犯盗窃罪)=10/100=10%。
情况1:对于“性别=女”这个属性,如果知道这个人x是女性,则x犯盗窃罪的条件概率是:P(x犯盗窃罪|x是女性)=4/50=8%,因为50名女性中有4人犯盗窃罪,概率变化值为8%-10%=-2%。
情况2:对于“前科=有”这个属性,如果知道这个人x有前科,则x犯盗窃罪的条件概率是:P(x犯盗窃罪|x有前科)=8/20=40%,因为20名有前科的人中有8人犯盗窃罪,概率变化值为40%-10%=30%。
比较情况1和情况2:“前科=有”这个属性值相对标签“犯盗窃罪”的辨识度大于0,也就是具有该属性值的样本(条件概率),比无法判断是否具有该属性值的样本(无条件概率)犯盗窃罪的可能性更大;“性别=女”这个属性值相对标签“犯盗窃罪”的辨识度小于0,也就是具有该属性值的样本,比无法判断是否具有该属性值的样本犯盗窃罪的可能性更小。进一步,“前科=有”这个属性值相对标签“犯盗窃罪”的辨识度的绝对值要远远大于“性别=女”这个属性值,可以认为前者对“犯盗窃罪”这个已知标签的影响力更大。
同理,可以计算出“性别=男”这个属性值相对标签“犯盗窃罪”的辨识度为0.02,“前科=无”这个属性值相对标签“犯盗窃罪”的辨识度为-0.075。进一步考虑标签“未犯盗窃罪”,可以计算得到:“性别=女”相对标签“未犯盗窃罪”的辨识度为0.02;“性别=男”相对标签“未犯盗窃罪”的辨识度为-0.02;“前科=有”相对标签“未犯盗窃罪”的辨识度为-0.3;“前科=无”相对标签“未犯盗窃罪”的辨识度为0.075。
(2)计算属性值的辨识度。
对于样本具有的每一个属性值,将它相对所有的标签,都按照步骤2计算一个概率差值,即该属性值相对该标签的辨识度,再将这些辨识度取平方平均数,得到该属性值针对整个空间的辨识度。可见,“性别=女”和“性别=男”的辨识度均为0.02;“前科=有”的辨识度为0.3;“前科=无”的辨识度为0.075。
这样计算的属性值辨识度没有考虑属性值对应的样本量大小,可以很好的识别样本量很少但辨别能力很强的属性。落实到实践中,针对“前科=有”的群体开展预防和干预工作要比针对“性别=男”的群体开展工作具有更好的效果。而“前科=无”和“性别=女”的群体,“犯盗窃罪”的可能性小于平均值,不需要进行预防干预工作。
(3)计算属性的辨识度。
利用步骤3,我们得到了属性值“性别=女”和“性别=男”对于两类标签划分(相似性)的辨识度,将两者的平方平均数定义为“性别”这一属性对于已知标签的辨识度,计算得0.02。同样的,将属性值“前科=有”和“前科=无”的辨识度的平方平均数定义为“前科”这一属性对于已知标签的辨识度,计算得0.2187。
(4)计算属性值的重要性。
为了平衡属性值的辨别能力和对应的样本量,在“辨识度”概念的基础上定义“重要性”概念。粗略的说,属性值的重要性等于属性值的辨识度乘上属性值对应的样本量。
例如,属性值“性别=女”和“性别=男”的辨识度均为0.02,对应样本量均为50,重要性为1;属性值“前科=有”的辨识度为0.3,对应样本量为20,重要性为6;属性值“前科=无”的辨识度为0.075,对应样本量为80,重要性为6。更加细化的,我们还可以计算属性值相对于某个标签的重要性,例如,属性值“性别=女”相对标签“犯盗窃罪”的重要性为-1;属性值“性别=男”相对标签“未犯盗窃罪”的重要性为1。
可见,由于对应样本量的差异,两着的辨识度差别较大但重要性差别较小,辨识度和重要性反映的信息存在不同。对于更复杂的情况,不同属性对应的的样本数量可能存在很大的差异,甚至常常造成辨识度较高但对应样本量较少的属性值的重要性低于辨识度较低但对应样本量较多的属性值。重要性指标可以用于较大范围的宣传教育工作,较好的平衡的针对性和覆盖面。落实到实践中,可以针对“前科=有”的群体开展犯罪危害的教育工作。
进一步的,当一个属性只有两个属性值时,两者对已知标签的重要性绝对值相同,这符合我们对“重要性”概念的一般认识,因为两个取值知道其中一个也就知道了另一个。
(5)计算属性的重要性。
属性的重要性可以有两种定义,一种是通过属性值的重要性来计算,即“属性的重要性等于属性值的重要性的平方平均数”;一种是通过属性的辨识度来计算,即“属性的重要性等于属性的辨识度乘上属性对应的样本量”。由于每个属性对应的样本量都是样本总量,如果采用后者的定义,那么属性的重要性和辨识度概念则本质上是相同的,不利于建立多层次的属性影响力排序。因此,我们采用前一种定义方式。粗略的说,属性的重要性等于属性值的重要性的平方平均数。
在本例中,属性“性别”的重要性为1,属性“前科”的重要性为6。这个结果也是与我们的直观非常一致的。
步骤3.4:降维指标排序。
降维指标计算,也就是给出属性“对已知标签的影响力”排序。根据步骤3.2中用户的选择以及步骤3.3中的相关指标计算结果,获得属性“对已知标签的影响力”排序。
步骤3.5:大数据降维(维度选择)。
根据步骤3.4中给出的属性“对已知标签的影响力”排序,根据实际需求设定影响力阈值,选择前D个属性或影响力大于该阈值的若干属性作为大数据降维后保留的属性,即维度选择。
步骤4:常态模式划分及命名。
针对降维后的全体样本数据,提取低维全体数据的常态模式。相对于直接提取高维全体数据的常态模式,有利于降低本系统的计算复杂度、提高分析效率。
步骤4.1:划分指标选择。
我们可是使用四种不同的指标作为常态模式划分的标准。这四项指标包括:属性值辨识度、属性辨识度、属性值重要性、属性重要性。如前所述,它们都是“属性对已知标签的影响力”指标。
客户可以单独使用其中某项指标进行划分,也可以结合上述两个或多个指标给出综合性的划分。本系统提供划分指标的选择功能,客户可以根据实际需求选择需要使用的指标。划分指标选择主要看待分析的问题中“样本量”因素是否重要以及属性中各属性值“对已知标签的影响力”是否比较接近,选择的建议如下表2:
表2:“属性对已知标签的影响力”排序指标选择建议
步骤4.2:划分指标计算。
常态模式的划分过程需要重复的计算属性值辨识度、属性辨识度、属性值重要性、属性重要性等相关指标,具体的计算方法参见步骤3.3。
步骤4.3:常态模式划分。
以“发明内容”部分的图形常态模式划分案例为例,说明常态模式划分的具体操作流程。
首先,针对全体样本计算客户指定的划分指标,选择影响力最大的属性作为待划分属性。例如,如果选择的属性为“形状”,数据将按照其属性值分为“形状=方”和“形状=圆”两个类。每个部分属性1的属性值可能唯一,也可能是几个相近属性值的集合,但不同部分属性1的属性值一定不同,这些都是由算法自动实现的。接下来,针对划分获得的每个部分,不考虑属性1,再选择其中重要性或者辨识度最高的属性,分别进行第二步划分(三个部分的下一步划分可能选取不同的属性)。例如,“形状=方”的类,按照“尺寸”属性再划分。
当分类的精细程度满足实际需求时,划分结束(每个部分划分的次数也可能不同),得到单纯基于属性重要性的分类,称为常态模式。实际操作时,需要针对情况选择重要性或辨识度作为下一步划分的标准。常态模式覆盖了绝大部分样本,基本做到“不重不漏”,具有很强的客观性。
分类的精细程度,又称为颗粒度,作为算法的停止规则,可以规定划分后的任一常态模式的样本数不小于N,或者划分次数等于K等等。
步骤4.4:常态模式命名。
通过步骤4.3构建的常态模式具有很强的可命名性。事实上,常态模式是由各个属性和属性值一步一步划分得到,因此这些属性值自然的成为了类型的“名称”,很自然的解决了“常态模式”的命名问题。
常态模式的命名方式为:针对需要命名的常态模式(叶节点),沿着根节点向该叶节点发展,将涉及的全部属性值的集合作为该常态模式的名称。也就是说,常态模式的名称是若干对分类影响较大的属性值的集合。
以图2为例,常态模式包括以下六个:
常态模式1:{形状=方,尺寸=大};
常态模式2:{形状=方,尺寸=小,颜色=黑};
常态模式3:{形状=方,尺寸=小,颜色=灰};
常态模式4:{形状=方,尺寸=小,颜色=白};
常态模式5:{形状=圆,颜色=黑};
常态模式6:{形状=圆,颜色=灰或白}。
步骤5:常态模式发布。
本系统最后一个环节是将上述计算获得的常态模式发布,反馈给用户。
应用实例
本发明公开了一种基于已知标签的大数据常态模式提取方法及系统,已经用以进行××地区治安风险防范的评估。它是基于数据仓库与数据挖掘技术,以本发明的基本分析方法为基础,从历史数据中获取指定时间区段的社会治安风险评估常态特征指标(属性及属性值),进行大数据降维和常态模式提取,从而形成区域性社会安全态势综合评估与专项评估模型和评估指标(属性及属性值)体系,并对相应时间区段的全部常态指标(属性及属性值)进行标定。在所标定的常态指标(属性及属性值)体系中,依据降维后的属性辨识度及重要性对其进行排序处理,并给予相应的命名。
本发明已经用于某地区全部案件类别的经常性态势描述,经过本发明常态模式提取及命名操作,结果如图5所示。
常态模式提取的重要意义不仅仅在于清晰的展示了数据的内在子结构。它也可以作为一系列重要分析的基础,例如:我们可以在提取的常态模式基础上对样本的属性值重要性进行排序。在本专利公开的系统中,我们可以通过第一行菜单选择需要查看的常态模式,如图6所示。
另一个重要的应用是:将常态模式的个数作为一个整体指标,通过时间序列分析和拐点分析,获得基于这个整体指标的预警信息,如图7所示。这种预警信息可以很好的表现出数据子结构的异常变动。

Claims (10)

1.一种基于已知标签的大数据常态模式提取方法,其步骤为:
1)中央服务器从各终端服务器采集的总样本数据集中抽取若干样本,得到一抽样样本集合,所述抽样样本集合中的样本已分类并按照类别标签进行标注;
2)根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性;
3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序,选取若干属性作为大数据降维后保留的属性;
4)根据选取的属性划分指标计算属性降维后的全体样本数据每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性,然后对计算结果进行排序选取若干属性特征对该总样本数据集进行划分,将划分结果作为常态模式;
其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属性值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的概率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨识度;
属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨识度;
属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性;
属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重要性。
2.如权利要求1所述的方法,其特征在于对该属性i所有属性值的属性值辨识度的平方平均数作为该属性i的属性辨识度。
3.如权利要求1所述的方法,其特征在于对该属性i所有属性值的属性值重要性的平方平均数作为该属性i的属性重要性。
4.如权利要求1或2或3所述的方法,其特征在于根据所述常态模式划分所依据的属性和属性值,命名所述常态模式的名称。
5.如权利要求1或2或3所述的方法,其特征在于采用基于条件概率和贝叶斯算法计算所述辨识度。
6.如权利要求1或2或3所述的方法,其特征在于设定一分类精细度阈值N,如果步骤4)划分后的任一常态模式的样本数小于该分类精细度阈值N,则重新选取属性特征对该总样本数据进行划分。
7.一种基于已知标签的大数据常态模式提取系统,其特征在于包括多个终端服务器和一中央服务器,所述终端服务器通过网络与所述中央服务器连接;其中,所述中央服务器包括数据采集模块、数据降维模块和常态模式划分模块;
所述数据采集模块,用于从各终端服务器采集样本数据,得到一总样本数据集;所述样本数据为已分类并按照类别标签进行标注;
所述数据降维模块,用于从总样本数据集中抽取若干样本,得到一抽样样本集合,根据选取的属性降维指标计算该抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性,以及根据计算结果对属性进行排序,选取属性特征;
所述常态模式划分模块,用于根据选取的属性划分指标计算属性降维后的全体样本数据每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性,然后对计算结果进行排序选取若干属性特征对该总样本数据进行划分,将划分结果作为常态模式;
其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属性值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的概率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨识度;
属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨识度;
属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性;
属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重要性。
8.如权利要求7所述的系统,其特征在于对该属性i所有属性值的属性值辨识度的平方平均数作为该属性i的属性辨识度;对该属性i所有属性值的属性值重要性的平方平均数作为该属性i的属性重要性。
9.如权利要求7所述的系统,其特征在于根据所述常态模式划分所依据的属性和属性值,命名所述常态模式的名称;所述中央服务器通过一常态模式发布器发布所述常态模式。
10.如权利要求7或8或9所述的系统,其特征在于所述常态模式划分模块中设定一分类精细度阈值N,如果划分后的任一常态模式的样本数小于该分类精细度阈值N,则所述数据降维模块重新选取属性特征发送给所述常态模式划分模块对该总样本数据进行划分。
CN201410355680.9A 2014-07-24 2014-07-24 一种基于已知标签的大数据常态模式提取方法及系统 Active CN104102730B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410355680.9A CN104102730B (zh) 2014-07-24 2014-07-24 一种基于已知标签的大数据常态模式提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410355680.9A CN104102730B (zh) 2014-07-24 2014-07-24 一种基于已知标签的大数据常态模式提取方法及系统

Publications (2)

Publication Number Publication Date
CN104102730A true CN104102730A (zh) 2014-10-15
CN104102730B CN104102730B (zh) 2017-04-26

Family

ID=51670883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410355680.9A Active CN104102730B (zh) 2014-07-24 2014-07-24 一种基于已知标签的大数据常态模式提取方法及系统

Country Status (1)

Country Link
CN (1) CN104102730B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184574A (zh) * 2015-06-30 2015-12-23 电子科技大学 一种套用商户类别码欺诈行为的检测方法
CN107004006A (zh) * 2014-10-30 2017-08-01 培生教育公司 内容数据库的生成
CN108984734A (zh) * 2018-07-13 2018-12-11 中国科学院长春光学精密机械与物理研究所 一种大样本容量图像质量主观评价方法及系统
CN110020211A (zh) * 2017-10-23 2019-07-16 北京京东尚科信息技术有限公司 用户属性影响力的评估方法和装置
CN111967229A (zh) * 2020-09-01 2020-11-20 申建常 一种高效标签式数据分析方法及分析系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009075671A (ja) * 2007-09-18 2009-04-09 Nippon Telegr & Teleph Corp <Ntt> 文書分類装置およびプログラム
CN102314519A (zh) * 2011-10-11 2012-01-11 中国软件与技术服务股份有限公司 一种基于公安领域知识本体模型的信息搜索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009075671A (ja) * 2007-09-18 2009-04-09 Nippon Telegr & Teleph Corp <Ntt> 文書分類装置およびプログラム
CN102314519A (zh) * 2011-10-11 2012-01-11 中国软件与技术服务股份有限公司 一种基于公安领域知识本体模型的信息搜索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WAN-GUO YU 等: "A WEIGHTED FLEXIBLE NAIVE BAYESIAN CLASSIFIER FOR CONTINUOUS ATTRIBUTES", 《PROCEEDINGS OF THE2012 INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND CYBERNETICS》 *
石洪波 等: "产生式与判别式线性混合分类器", 《模式识别与人工智能》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107004006A (zh) * 2014-10-30 2017-08-01 培生教育公司 内容数据库的生成
CN105184574A (zh) * 2015-06-30 2015-12-23 电子科技大学 一种套用商户类别码欺诈行为的检测方法
CN105184574B (zh) * 2015-06-30 2018-09-07 电子科技大学 一种套用商户类别码欺诈行为的检测方法
CN110020211A (zh) * 2017-10-23 2019-07-16 北京京东尚科信息技术有限公司 用户属性影响力的评估方法和装置
CN110020211B (zh) * 2017-10-23 2021-08-17 北京京东尚科信息技术有限公司 用户属性影响力的评估方法和装置
CN108984734A (zh) * 2018-07-13 2018-12-11 中国科学院长春光学精密机械与物理研究所 一种大样本容量图像质量主观评价方法及系统
CN108984734B (zh) * 2018-07-13 2020-11-24 中国科学院长春光学精密机械与物理研究所 一种大样本容量图像质量主观评价方法及系统
CN111967229A (zh) * 2020-09-01 2020-11-20 申建常 一种高效标签式数据分析方法及分析系统

Also Published As

Publication number Publication date
CN104102730B (zh) 2017-04-26

Similar Documents

Publication Publication Date Title
CN104156403B (zh) 一种基于聚类的大数据常态模式提取方法及系统
CN110223168B (zh) 一种基于企业关系图谱的标签传播反欺诈检测方法及系统
Chen et al. Non-parametric scan statistics for event detection and forecasting in heterogeneous social media graphs
CN104142986B (zh) 一种基于聚类的大数据态势分析预警方法及系统
CN107657267B (zh) 产品潜在用户挖掘方法及装置
CN104123368B (zh) 基于聚类的大数据属性重要性和辨识度的预警方法及系统
CN105389713A (zh) 基于用户历史数据的移动流量套餐推荐算法
CN105574544A (zh) 一种数据处理方法和装置
CN104102730A (zh) 一种基于已知标签的大数据常态模式提取方法及系统
CN106909643A (zh) 基于知识图谱的社交媒体大数据主题发现方法
CN104933622A (zh) 一种基于用户和微博主题的微博流行度预测方法及系统
CN104503973A (zh) 一种基于奇异值分解与分类器融合推荐的方法
CN106570778A (zh) 一种基于大数据的数据集成与线损分析计算的方法
CN103605651A (zh) 一种基于olap多维分析的数据处理展现方法
CN102567807A (zh) 加油卡客户流失预测方法
CN104239553A (zh) 一种基于Map-Reduce框架的实体识别方法
CN103955547A (zh) 发现论坛热帖的方法和系统
CN111597331A (zh) 一种基于贝叶斯网络的裁判文书分类方法
CN104077295A (zh) 一种数据标签的挖掘方法及系统
AU2018101531A4 (en) Stock forecast model based on text news by random forest
CN104598449A (zh) 基于偏好的聚类
CN109783633A (zh) 数据分析服务流程模型推荐方法
CN104123466A (zh) 一种基于常态模式的大数据态势分析预警方法及系统
CN113094448B (zh) 住宅空置状态的分析方法及分析装置、电子设备
CN105389714A (zh) 一种从行为数据识别用户特性的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant