CN108932530A - 标签体系的构建方法及装置 - Google Patents

标签体系的构建方法及装置 Download PDF

Info

Publication number
CN108932530A
CN108932530A CN201810701424.9A CN201810701424A CN108932530A CN 108932530 A CN108932530 A CN 108932530A CN 201810701424 A CN201810701424 A CN 201810701424A CN 108932530 A CN108932530 A CN 108932530A
Authority
CN
China
Prior art keywords
field
default classification
label
classification
target object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810701424.9A
Other languages
English (en)
Inventor
郑东东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Big Data Technologies Co Ltd
Original Assignee
New H3C Big Data Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Big Data Technologies Co Ltd filed Critical New H3C Big Data Technologies Co Ltd
Priority to CN201810701424.9A priority Critical patent/CN108932530A/zh
Publication of CN108932530A publication Critical patent/CN108932530A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Abstract

本公开涉及标签体系的构建方法及装置,包括按照预设类目从数据源中抽取目标对象的原始数据;对各预设类目的原始数据分别进行预处理,得到目标对象的各预设类目的目标特征信息;针对每个预设类目,从该预设类目的目标特征信息包括的字段中选择第一特征字段,并根据第一特征字段的特征值确定该预设类目的标签;从所有预设类目的目标特征信息包括的字段中选择第二特征字段,并将第二特征字段的特征值输入倾向研判模型得到目标对象的倾向预测标签;基于各预设类目的标签和倾向预测标签构建目标对象的标签体系。通过获取目标对象在多个方面的标签,根据本公开实施例的标签体系的构建方法及装置能够全面直观的刻画目标对象的特征和倾向。

Description

标签体系的构建方法及装置
技术领域
本公开涉及数据处理技术领域,尤其涉及一种标签体系的构建方法及装置。
背景技术
随着社会信息化、智能化和智慧化发展的不断推进,信息获取手段和传播方式发生重大变化。多样的信息获取手段和信息传播方式为目标行为和选择提供了多种可能。构建目标标签体系,实现目标人员行为预测,受到各领域和业务部门的关注。
基于公安数据构建目标人员的标签体系,可以实现对目标人员倾向的研判,例如对目标人员涉恐倾向的研判,意义重大。相关技术中,基于公安数据构建目标人员的标签时存在:人物信息以逐条的数据库记录为主,人物刻画不直观;人物信息分散,特征信息整合和量化困难;主题信息不明显等问题。
发明内容
有鉴于此,本公开提出了一种标签体系的构建方法及装置,能够全面直观的刻画目标对象的特征和倾向。
根据本公开的一方面,提供了一种标签体系的构建方法,所述方法包括:按照预设类目,从数据源中抽取目标对象的原始数据;对各预设类目的原始数据分别进行预处理,得到所述目标对象的各预设类目的目标特征信息,且每个预设类目的目标特征信息包括一个或多个字段;针对每个预设类目,从该预设类目的目标特征信息包括的字段中选择第一特征字段,并根据所述第一特征字段的特征值,确定该预设类目的标签;从所有预设类目的目标特征信息包括的字段中选择第二特征字段,并将所述第二特征字段的特征值输入倾向研判模型,得到所述目标对象的倾向预测标签;基于各预设类目的标签和所述倾向预测标签,构建所述目标对象的标签体系。
根据本公开的另一方面,提供了一种标签体系的构建装置,所述装置包括:抽取模块,用于按照预设类目,从数据源中抽取目标对象的原始数据;预处理模块,用于对各预设类目的原始数据分别进行预处理,得到所述目标对象的各预设类目的目标特征信息,且每个预设类目的目标特征信息包括一个或多个字段;确定模块,用于针对每个预设类目,从该预设类目的目标特征信息包括的字段中选择第一特征字段,并根据所述第一特征字段的特征值,确定该预设类目的标签;输入模块,用于从所有预设类目的目标特征信息包括的字段中选择第二特征字段,并将所述第二特征字段的特征值输入倾向研判模型,得到所述目标对象的倾向预测标签;构建模块,用于基于各预设类目的标签和所述倾向预测标签,构建所述目标对象的标签体系。
通过按照预设类目,从数据源中抽取目标对象的原始数据;对各预设类目的原始数据分别进行预处理,得到目标对象的各预设类目的目标特征信息,且每个预设类目的目标特征信息包括一个或多个字段;针对每个预设类目,从该类目的目标特征信息包括的字段中选择第一特征字段,并根据第一特征字段的特征值,确定该预设类目的标签;从所有预设类目的目标特征信息包括的字段中选择第二特征字段,并将第二特征字段的特征值输入倾向研判模型,得到所述目标对象的倾向预测标签;基于各预设类目的标签和倾向预测标签,构建所述目标对象的标签体系,根据本公开各方面的标签体系的构建方法及装置,能够获取目标对象在多个方面的标签,全面直观的刻画目标对象的特征和倾向。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开一实施例的标签体系的构建方法的流程图。
图2示出根据本公开一实施例的标签体系的构建方法的流程图。
图3示出根据本公开一实施例的目标对象的标签体系的展示结果的一个示例。
图4示出根据本公开一实施例的标签体系的构建装置的框图。
图5示出根据本公开一实施例的标签体系的构建装置的框图。
图6是根据一示例性实施例示出的一种用于标签体系的构建的装置的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
图1示出根据本公开一实施例的标签体系的构建方法的流程图。根据标签体系的构建方法可以全面直观的刻画目标对象的特征和倾向,本公开实施例中以刻画目标对象的涉恐主题的特征和倾向为例进行说明。如图1所示,该标签体系的构建方法包括:
步骤S11,按照预设类目,从数据源中抽取目标对象的原始数据。
目标对象为需要刻画特征和倾向的对象。服务器可以从多个数据源(例如户籍系统、学籍系统、案件系统和道路监控系统等)抽取数据,将构建目标对象的标签体系时需要用到的数据整合在一起,解决原始数据因源于多张数据表和不同系统而造成的数据分散问题。
服务器在从多个数据源抽取数据时,可以按照预设类目进行抽取。针对每个预设类目,服务器可以从多个数据源中抽取与该预设类目有关的数据,作为该预设类目的原始数据。
以刻画目标对象的涉恐主题的特征和倾向为例,预设类目可以包括基本信息类目、财产状况类目、社交状态类目、轨迹信息类目和涉案信息类目。
其中,基本信息可以表示目标对象的基本情况,例如姓名、年龄、性别、户口地址、职业等。目标对象的基本信息记录在户籍信息、社保信息、学籍信息等多张数据表中。
财产状况可以表示目标对象的经济实力,例如拥有的房产和车辆等。目标对象的财产状况记录在房产信息、机动车登记表等多张数据表中。
社交状态可以表示目标对象的人际关系,例如经常与谁住在一起,经常与谁一起出行等。目标对象的社交状态可以基于住宿信息和出行信息等确定,其中,住宿信息主要记录在住宿登记表中,出行信息主要记录在火车、飞机等乘坐登记表、道路监控信息表中。
轨迹信息可以表示目标人员的活动情况,例如活动轨迹、目的地等。目标对象的轨迹信息可以基于出行信息确定。
步骤S12,对各预设类目的原始数据分别进行预处理,得到所述目标对象的各预设类目的目标特征信息,且每个预设类目的目标特征信息包括一个或多个字段。
服务器抽取到各预设类目原始数据后,对各个预设类目的原始数据分别进行预处理,得到各预设类目的目标特征信息,实现对各预设类目的特征数据的提取。
每个预设类目的目标特征信息可以包括一个或多个字段。各预设类目的特征信息包括哪些字段可以根据先验知识结合数据探索分析确定。例如,基本信息类目的特征信息可以包括姓名、年龄、体型、体重、婚姻状况、职业、文化程度、民族、户口地址、常驻地址、社保编号等字段。财产状况类目的特征信息可以包括房产数量、车辆数量等字段。社交状态类目的特征信息可以包括异常住宿、异常飞机、异常大巴、异常火车等字段。轨迹信息类目的特征信息可以包括出入敏感区的次数等字段。涉案信息类目的特征信息可以包括涉案次数、拘留次数、犯罪次数、涉毒次数、涉嫌次数等字段。各预设类目的特征信息包括的字段还可以通过其他方式进行确定,对此本公开不做限制。
在一种可能的实现方式中,步骤S12可以包括:对各预设类目的原始数据分别进行整合和清洗,得到各预设类目的初步信息;对各预设类目的初步信息进行离散化处理或统计分析处理,得到各预设类目的目标特征信息。
以涉案信息类目为例,对如何得到初步特征信息进行说明。目标对象的涉案信息记录在案件基本信息、涉案人员基本信息、交通违法信息等多张数据表中,这些数据表可以作为涉案信息维度的原始数据。服务器可以分别从这些数据表中获取目标对象涉案信息,将获取的这些涉案信息整合在一起并去除重复的信息,从而得到涉案信息类目的初步特征信息。
服务器得到各预设类目的初步特征信息后,可以对各预设类目的初步特征信息进行离散化处理或统计分析处理,得到各预设类目的目标特征信息。
其中,对各预设类目的初步信息进行离散化处理或统计分析处理,得到各预设类目的目标特征信息可以包括:针对每个预设类目的每个字段:若该字段对应于分类变量,则对预设类目中该字段的初步信息进行离散化处理,得到该字段的特征值;若该字段对应于连续变量,则对预设类目中该字段的初步信息进行统计分析,得到该字段的特征值。
以基本信息类目的户口地址字段为例,该字段对应于分类变量,可以通过离散化处理将户口地址离散化为北京、山东和上海等中的一个,将离散结果确定为户口地址字段的值。
以财产状况类目的房产数量字段、车辆数量字段为例,该字段对应于连续变量,可以通过统计分析统计目标对象拥有的房产数量和车辆数量,将统计结果作分别为财产状况类目中房产数量和车辆数量字段的值。
以涉案信息类目中交通事故次数字段为例,该字段对应于连续变量可以通过统计分析统计目标对象发生的交通事故的次数,将统计结果作作为交通事故次数字段的值。
以轨迹信息类目的出入学校次数字段为例,该字段对应于连续变量,可以通过统计分析统计目标对象发生交通事故的次数,将统计结果作为轨迹信息类目的出入学校次数字段的值。
以社交状态类目中的异常火车次数字段为例,该字段对应于连续变量,可以通过统计分析统计目标对象异常火车次数,将统计结果作为社交状态类目的异常火车次数字段的值。
需要说明的是,服务器在统计目标对象异常火车次数时,需要首先通过关联分析,确定什么是异常火车。在一个示例中,服务器可以提取目标对象的火车出行记录,以及可能存在同火车出行关系的人员的火车出行记录,通过关联分析,确定和目标对象多次同火车出行的人员列表,形成该目标对象的同火车出行关系圈,进而确定目标人员是否与重点人员(例如,涉恐人员)存在同火车出行关系,若存在同火车出行关系,则确定本次出行为异常火车。
步骤S13,针对每个预设类目,从该预设类目的目标特征信息包括的字段中选择第一特征字段,并根据所述第一特征字段的特征值,确定该预设类目的标签。
第一特征字段为能够体现目标对象在相应预设类目特点的字段。服务器可以通过分析各预设类目的第一特征字段的特征值,得到各预设类目的标签。
在一种可能的实现方式中,可以通过过滤式特征选择方法从各预设类目的目标特征信息包括的所有字段中选择第一特征字段。其中,过滤式特征选择与特定的学习算法无关,选择出来的指标具有较强的通用型,选择方法计算复杂度低,可以快速去除大量不相关的冗余特征,可以作为特征的预筛选器。
在一个示例中,基本信息类目的目标特征信息的第一特征字段可以包括姓名、性别、年龄和职业字段,各第一特征字段的特征值分别为小明、男、21岁和学生,则目标对象在基本信息类目的标签为小明、男、21岁和学生。
财产状况类目的目标特征信息的第一特征字段可以包括房产数量和车辆数量字段。服务器可以将目标对象作为目标群体中的一个对象,根据目标群体中每个对象的房产数量和车辆数据进行聚类(例如,采用K-均值等算法进行聚类),根据聚类结果,确定目标对象所述类别,将目标对象所述类别对应的标签确定为目标对象在财产状况类目下的标签。例如,目标对象归类于拥有多套房产和车辆的类别时,对应标签为富人;目标对象归类于拥有无车无房类别时,对应标签为穷人。
社交状态类目的目标特征信息的第一特征字段可以包括异常住宿次数、异常飞机次数、异常大巴次数、异常火车次数和异常通话次数字段。异常住宿次数、异常飞机次数、异常大巴次数、异常火车次数和异常通话次数分别表示与重点人员同住宿、同飞机、同大巴、同火车、通话的次数。当目标对象对应的异常火车次数字段的特征值小于指定阈值时,可以确定目标对象在社交状态类目下的标签为火车出行正常;当目标对象对应的异常火车次数字段的特征值大于或等于指定阈值时,可以确定目标对象在社交状态类目下的标签为火车出行异常。其中,指定阈值可以根据需要进行设置,例如设置为2或者3等,对此本公开不做限制。目标对象在社交状态类目下与异常住宿次数、异常飞机次数、异常大巴次数和异常通话次数对应的标签,可以参照异常或者次数对应的标签,这里不再赘述。
轨迹信息类目的目标特征信息的第一特征字段可以包括出入敏感区的次数,其中敏感区包括学校、火车站、商场等人员密集的场所中的一个或多个。举例来说,当目标对象对应的出入学校的次数和出入火车站次数较多时,可以确定目标对象在轨迹信息类目下的标签为常驻学校和常去火车站。
涉案信息类目的目标特征信息的第一特征字段可以包括交通违规次数、涉毒次数。举例来说,当目标对象对应的交通违规次数和涉毒次数为0时,可以确定目标对象在涉案信息类目下的标签为无交通违规和无涉毒信息。
步骤S14,从所有预设类目的目标特征信息包括的字段中选择第二特征字段,并将第二特征字段的特征值,输入倾向研判模型,得到所述目标对象的倾向预测标签。
第二特征字段为对倾向判断有影响的字段,倾向研判模型中可以采用这些字段的特征值,第二特征字段与目标对象的倾向密切相关(例如,与目标对应的涉恐倾向密切相关),第二特征字段可以包括各个类目中的字段,例如基本信息类目中的职业字段、涉案信息类目中的涉毒次数字段、社交状态类目中的异常火车字段和异常住宿字段、轨迹信息类目中的出入敏感区次数字段。第二特征字段的选择方式可以参照第一特征字段,这里不再赘述。
倾向研判模型为用于判断目标对象倾向的机器学习模型。
在一种可能的实现方式中,通过训练对象的目标特征信息,训练所述倾向研判模型,具体可以包括:获取多个训练对象的目标特征信息,从每一个训练对象的目标特征信息中获取第二特征字段对应的特征值,得到与每一个训练对象对应的第二特征值集合;采用所有训练对象的第二特征值集合和各训练对象的真实标签,训练逻辑回归模型,得到所述倾向研判模型。
其中,训练对象的目标特征信息的确定方法可以参照目标对象的目标特征信息的确定方法,这里不再赘述。
Logistic逻辑回归模型是一种概率型非线性回归模型,是研究二分类观察结果y与一些影响因素(x1,x2,…,xn)之间关系的一种多变量分析方法。通常的问题是,研究某些因素条件下某个结果是否发生,比如根据目标对象的一些公安数据判断该目标对象是否有涉恐倾向。
在分类情形下,经过学习后的LR(Logistic Regression Classifier,Logistic回归分类器)是一组权值(w0,w1,…,wn),当测试样本的数据输入时,这组权值与测试数据按照线性加和得到:g(x)=w0+w1x1+…+wnxn,其中,x1,x2,…,xn是每个样本的n个特征。之后按照sigmoid函数的形式得到
设条件概率P(y=1|x)为在x条件下y发生的概率。Logistics回归模型可以表示为其中,g(x)=w0+w1x1+…+wnxn。在x条件下y不发生的概率为在x条件下y发生与不发生的概率之比为:这个比值称为在x条件下y的发生比,简记为odds。对odds取对数得到:
在本公开实施例中,目标对象的第二特征字段对应的第二特征值可以作为服务器训练得到的Logistic逻辑回归模型(倾向研判模型)中的(x1,x2,…,xn),将第二特征值集合输入该模型中可以得到在x条件下y发生的概率或者在x条件下y不发生的概率,从而确定y是否发生,得到分类结果。在本公开实施例中,服务器可以将该倾向研判模型的输出结果作为目标对象的倾向预测标签。在一个示例中,目标对象的倾向预测标签分为有涉恐倾向和无涉恐倾向。
步骤S15,基于各预设类目的标签和所述倾向预测标签,构建所述目标对象的标签体系。
目标对象在各预设类目的标签和倾向预测标签共同构成目标对象的标签体系。
在本公开实施例中,能够获取目标对象多个方面标签,全面直观的刻画了目标对象的特征和倾向。
图2示出根据本公开一实施例的标签体系的构建方法的流程图。如图2所示,该方法还包括:
步骤S16,展示所述目标对象的标签体系,所述标签体系包括所述倾向预测标签和各预设类目的标签。
图3示出根据本公开一实施例的目标对象的标签体系的展示结果的一个示例。如图3所示,展示了目标对象在基本信息、财产状况、社交状态、轨迹信息和涉案信息五个类目下的标签,以及倾向预测标签和分类概率。
另外,在Logistic逻辑回归模型训练完成的情况下,Logistic逻辑回归模型的权值(w0,w1,…,wn)是确定的,将第二特征值集合(x1,x2,…,xn)输入Logistic逻辑回归模型后,可以通过公式g(x)=w0+w1x1+…+wnxn,得到在x条件下y发生的概率,从确定目标对象的分类概率,例如图3所示的涉恐倾向的评分。
图4示出根据本公开一实施例的标签体系的构建装置的框图。如图4所示,该装置40包括:
抽取模块41,用于按照预设类目,从数据源中抽取目标对象的原始数据;
预处理模块42,用于对各预设类目的原始数据分别进行预处理,得到所述目标对象的各预设类目的目标特征信息,且每个预设类目的目标特征信息包括一个或多个字段;
确定模块43,用于针对每个预设类目,从该预设类目的目标特征信息包括的字段中选择第一特征字段,并根据所述第一特征字段的特征值,确定该预设类目的标签;
输入模块44,用于从所有预设类目的目标特征信息包括的字段中选择第二特征字段,并将所述第二特征字段的特征值输入倾向研判模型,得到所述目标对象的倾向预测标签;
构建模块45,用于基于各预设类目的标签和所述倾向预测标签,构建所述目标对象的标签体系。
图5示出根据本公开一实施例的标签体系的构建装置的框图。如图5所示,在一种可能的实现方式中,所述预处理模块42包括:
整合子模块421,用于对各预设类目的原始数据分别进行整合和清洗,得到各预设类目的初步信息;
处理子模块422,用于对各预设类目的初步信息进行离散化处理或统计分析处理,得到各预设类目的目标特征信息。
在一种可能的实现方式中,所述处理子模块422具体用于:
针对每个预设类目的每个字段:
若该字段对应于分类变量,则对预设类目中该字段的初步信息进行离散化处理,得到该字段的特征值;
若该字段对应于连续变量,则对预设类目中该字段的初步信息进行统计分析,得到该字段的特征值。
在一种可能的实现方式中,所述装置40还包括:
训练模块46,用于通过训练对象的目标特征信息,训练所述倾向研判模型,其中,所述训练模块46包括:
获取子模块461,用于获取多个训练对象的目标特征信息,从每一个训练对象的目标特征信息中获取第二特征字段对应的特征值,得到与每一个训练对象对应的第二特征值集合;
训练子模块462,用于采用所有训练对象的第二特征值集合和各训练对象的真实标签,训练逻辑回归模型,得到所述倾向研判模型。
在一种可能的实现方式中,该装置40还包括:
选择模块47,用于采用过滤式特征选择法选择所述第一特征字段和所述第二特征字段。
在一种可能的实现方式中,所述装置40还包括:
展示模块48,用于展示所述目标对象的标签体系,所述标签体系包括所述倾向预测标签和各预设类目的标签。
图6是根据一示例性实施例示出的一种用于标签体系的构建的装置900的框图。参照图6,该装置900可包括处理器901、存储有机器可执行指令的机器可读存储介质902。处理器901与机器可读存储介质902可经由系统总线903通信。并且,处理器901通过读取机器可读存储介质902中与标签体系的构建逻辑对应的机器可执行指令以执行上文所述的标签体系的构建方法。
本文中提到的机器可读存储介质902可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (12)

1.一种标签体系的构建方法,其特征在于,所述方法包括:
按照预设类目,从数据源中抽取目标对象的原始数据;
对各预设类目的原始数据分别进行预处理,得到所述目标对象的各预设类目的目标特征信息,且每个预设类目的目标特征信息包括一个或多个字段;
针对每个预设类目,从该预设类目的目标特征信息包括的字段中选择第一特征字段,并根据所述第一特征字段的特征值,确定该预设类目的标签;
从所有预设类目的目标特征信息包括的字段中选择第二特征字段,并将所述第二特征字段的特征值输入倾向研判模型,得到所述目标对象的倾向预测标签;
基于各预设类目的标签和所述倾向预测标签,构建所述目标对象的标签体系。
2.根据权利要求1所述的方法,其特征在于,对各预设类目的原始数据分别进行预处理,得到所述目标对象的各预设类目的目标特征信息,包括:
对各预设类目的原始数据分别进行整合和清洗,得到各预设类目的初步信息;
对各预设类目的初步信息进行离散化处理或统计分析处理,得到各预设类目的目标特征信息。
3.根据权利要求2所述的方法,其特征在于,所述对各预设类目的初步信息进行离散化处理或统计分析处理,包括:
针对每个预设类目的每个字段:
若该字段对应于分类变量,则对预设类目中该字段的初步信息进行离散化处理,得到该字段的特征值;
若该字段对应于连续变量,则对预设类目中该字段的初步信息进行统计分析,得到该字段的特征值。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过训练对象的目标特征信息,训练所述倾向研判模型,包括:
获取多个训练对象的目标特征信息,从每一个训练对象的目标特征信息中获取第二特征字段对应的特征值,得到与每一个训练对象对应的第二特征值集合;
采用所有训练对象的第二特征值集合和各训练对象的真实标签,训练逻辑回归模型,得到所述倾向研判模型。
5.根据权利要求1至4中任意一项所述的方法,其特征在于,该方法还包括:采用过滤式特征选择法选择所述第一特征字段和所述第二特征字段。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
展示所述目标对象的标签体系,所述标签体系包括所述倾向预测标签和各预设类目的标签。
7.一种标签体系的构建装置,其特征在于,所述装置包括:
抽取模块,用于按照预设类目,从数据源中抽取目标对象的原始数据;
预处理模块,用于对各预设类目的原始数据分别进行预处理,得到所述目标对象的各预设类目的目标特征信息,且每个预设类目的目标特征信息包括一个或多个字段;
确定模块,用于针对每个预设类目,从该预设类目的目标特征信息包括的字段中选择第一特征字段,并根据所述第一特征字段的特征值,确定该预设类目的标签;
输入模块,用于从所有预设类目的目标特征信息包括的字段中选择第二特征字段,并将所述第二特征字段的特征值输入倾向研判模型,得到所述目标对象的倾向预测标签;
构建模块,用于基于各预设类目的标签和所述倾向预测标签,构建所述目标对象的标签体系。
8.根据权利要求7所述的装置,其特征在于,所述预处理模块包括:
整合子模块,用于对各预设类目的原始数据分别进行整合和清洗,得到各预设类目的初步信息;
处理子模块,用于对各预设类目的初步信息进行离散化处理或统计分析处理,得到各预设类目的目标特征信息。
9.根据权利要求8所述的装置,其特征在于,所述处理子模块具体用于:
针对每个预设类目的每个字段:
若该字段对应于分类变量,则对预设类目中该字段的初步信息进行离散化处理,得到该字段的特征值;
若该字段对应于连续变量,则对预设类目中该字段的初步信息进行统计分析,得到该字段的特征值。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
训练模块,用于通过训练对象的目标特征信息,训练所述倾向研判模型,其中,所述训练模块包括:
获取子模块,用于获取多个训练对象的目标特征信息,从每一个训练对象的目标特征信息中获取第二特征字段对应的特征值,得到与每一个训练对象对应的第二特征值集合;
训练子模块,用于采用所有训练对象的第二特征值集合和各训练对象的真实标签,训练逻辑回归模型,得到所述倾向研判模型。
11.根据权利要求7至10中任意一项所述的装置,其特征在于,该装置还包括:
选择模块,用于采用过滤式特征选择法选择所述第一特征字段和所述第二特征字段。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
展示模块,用于展示所述目标对象的标签体系,所述标签体系包括所述倾向预测标签和各预设类目的标签。
CN201810701424.9A 2018-06-29 2018-06-29 标签体系的构建方法及装置 Pending CN108932530A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810701424.9A CN108932530A (zh) 2018-06-29 2018-06-29 标签体系的构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810701424.9A CN108932530A (zh) 2018-06-29 2018-06-29 标签体系的构建方法及装置

Publications (1)

Publication Number Publication Date
CN108932530A true CN108932530A (zh) 2018-12-04

Family

ID=64447060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810701424.9A Pending CN108932530A (zh) 2018-06-29 2018-06-29 标签体系的构建方法及装置

Country Status (1)

Country Link
CN (1) CN108932530A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026744A (zh) * 2019-12-11 2020-04-17 新奥数能科技有限公司 一种基于能源站系统模型框架的数据治理方法及装置

Citations (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103262069A (zh) * 2010-12-21 2013-08-21 国际商业机器公司 用于预测建模的方法和系统
CN103646025A (zh) * 2013-10-24 2014-03-19 三星电子(中国)研发中心 一种基于推理的层级知识库构建系统和方法
CN104699717A (zh) * 2013-12-10 2015-06-10 中国银联股份有限公司 数据挖掘方法
CN104850531A (zh) * 2014-02-19 2015-08-19 日本电气株式会社 一种建立数学模型的方法和装置
CN104933075A (zh) * 2014-03-20 2015-09-23 百度在线网络技术(北京)有限公司 用户属性预测平台和方法
CN105512245A (zh) * 2015-11-30 2016-04-20 青岛智能产业技术研究院 一种基于回归模型建立企业画像的方法
CN105654144A (zh) * 2016-02-29 2016-06-08 东南大学 一种基于机器学习的社交网络本体构建方法
CN106096623A (zh) * 2016-05-25 2016-11-09 中山大学 一种犯罪识别与预测方法
CN106126513A (zh) * 2016-05-03 2016-11-16 成都市公安局 超维度时空刻画方法
CN106227863A (zh) * 2016-07-29 2016-12-14 浪潮软件集团有限公司 在案件串并和嫌疑人排查中的数据挖掘方法
CN106372961A (zh) * 2016-08-23 2017-02-01 北京小米移动软件有限公司 商品推荐方法及装置
WO2017067153A1 (zh) * 2015-10-22 2017-04-27 腾讯科技(深圳)有限公司 基于文本分析的信用风险评估方法及装置、存储介质
CN106650270A (zh) * 2016-12-28 2017-05-10 北京科技大学 一种中医症状标签体系的构建方法
CN106874693A (zh) * 2017-03-15 2017-06-20 国信优易数据有限公司 一种医疗大数据分析处理系统及方法
CN107103514A (zh) * 2017-04-25 2017-08-29 北京京东尚科信息技术有限公司 商品性别标签确定方法和装置
CN107133323A (zh) * 2017-05-04 2017-09-05 山东浪潮云服务信息科技有限公司 数据模型构建方法、政务服务业务的实现方法及装置
CN107203787A (zh) * 2017-06-14 2017-09-26 江西师范大学 一种无监督正则化矩阵分解特征选择方法
CN107220217A (zh) * 2017-05-31 2017-09-29 北京京东尚科信息技术有限公司 基于逻辑回归的特征系数训练方法和装置
CN107464037A (zh) * 2017-07-05 2017-12-12 九次方大数据信息集团有限公司 基于多指标维度模型的企业画像方法及系统
CN107480692A (zh) * 2017-07-06 2017-12-15 浙江工业大学 一种基于主成份分析的人体行为识别方法
CN107506781A (zh) * 2017-07-06 2017-12-22 浙江工业大学 一种基于bp神经网络的人体行为识别方法
CN107622333A (zh) * 2017-11-02 2018-01-23 北京百分点信息科技有限公司 一种事件预测方法、装置及系统
CN107688606A (zh) * 2017-07-26 2018-02-13 北京三快在线科技有限公司 一种推荐信息的获取方法及装置,电子设备
CN107844836A (zh) * 2017-10-24 2018-03-27 信雅达系统工程股份有限公司 一种基于机器学习的系统及学习方法
CN107895245A (zh) * 2017-12-26 2018-04-10 国网宁夏电力有限公司银川供电公司 一种基于用户画像的电费回收风险评估方法
CN107909092A (zh) * 2017-10-19 2018-04-13 中国人民公安大学 基于本体身份特征的涉嫌暴恐人员研判识别方法及系统
CN107977737A (zh) * 2017-11-19 2018-05-01 国网浙江省电力公司信息通信分公司 基于mxnet框架深度神经网络的配变负荷预测方法
CN108053322A (zh) * 2017-12-15 2018-05-18 东峡大通(北京)管理咨询有限公司 车辆的用户投资回报估算方法及系统
CN108090216A (zh) * 2017-12-29 2018-05-29 咪咕文化科技有限公司 一种标签预测方法、装置及存储介质

Patent Citations (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103262069A (zh) * 2010-12-21 2013-08-21 国际商业机器公司 用于预测建模的方法和系统
CN103646025A (zh) * 2013-10-24 2014-03-19 三星电子(中国)研发中心 一种基于推理的层级知识库构建系统和方法
CN104699717A (zh) * 2013-12-10 2015-06-10 中国银联股份有限公司 数据挖掘方法
CN104850531A (zh) * 2014-02-19 2015-08-19 日本电气株式会社 一种建立数学模型的方法和装置
CN104933075A (zh) * 2014-03-20 2015-09-23 百度在线网络技术(北京)有限公司 用户属性预测平台和方法
WO2017067153A1 (zh) * 2015-10-22 2017-04-27 腾讯科技(深圳)有限公司 基于文本分析的信用风险评估方法及装置、存储介质
CN105512245A (zh) * 2015-11-30 2016-04-20 青岛智能产业技术研究院 一种基于回归模型建立企业画像的方法
CN105654144A (zh) * 2016-02-29 2016-06-08 东南大学 一种基于机器学习的社交网络本体构建方法
CN106126513A (zh) * 2016-05-03 2016-11-16 成都市公安局 超维度时空刻画方法
CN106096623A (zh) * 2016-05-25 2016-11-09 中山大学 一种犯罪识别与预测方法
CN106227863A (zh) * 2016-07-29 2016-12-14 浪潮软件集团有限公司 在案件串并和嫌疑人排查中的数据挖掘方法
CN106372961A (zh) * 2016-08-23 2017-02-01 北京小米移动软件有限公司 商品推荐方法及装置
CN106650270A (zh) * 2016-12-28 2017-05-10 北京科技大学 一种中医症状标签体系的构建方法
CN106874693A (zh) * 2017-03-15 2017-06-20 国信优易数据有限公司 一种医疗大数据分析处理系统及方法
CN107103514A (zh) * 2017-04-25 2017-08-29 北京京东尚科信息技术有限公司 商品性别标签确定方法和装置
CN107133323A (zh) * 2017-05-04 2017-09-05 山东浪潮云服务信息科技有限公司 数据模型构建方法、政务服务业务的实现方法及装置
CN107220217A (zh) * 2017-05-31 2017-09-29 北京京东尚科信息技术有限公司 基于逻辑回归的特征系数训练方法和装置
CN107203787A (zh) * 2017-06-14 2017-09-26 江西师范大学 一种无监督正则化矩阵分解特征选择方法
CN107464037A (zh) * 2017-07-05 2017-12-12 九次方大数据信息集团有限公司 基于多指标维度模型的企业画像方法及系统
CN107480692A (zh) * 2017-07-06 2017-12-15 浙江工业大学 一种基于主成份分析的人体行为识别方法
CN107506781A (zh) * 2017-07-06 2017-12-22 浙江工业大学 一种基于bp神经网络的人体行为识别方法
CN107688606A (zh) * 2017-07-26 2018-02-13 北京三快在线科技有限公司 一种推荐信息的获取方法及装置,电子设备
CN107909092A (zh) * 2017-10-19 2018-04-13 中国人民公安大学 基于本体身份特征的涉嫌暴恐人员研判识别方法及系统
CN107844836A (zh) * 2017-10-24 2018-03-27 信雅达系统工程股份有限公司 一种基于机器学习的系统及学习方法
CN107622333A (zh) * 2017-11-02 2018-01-23 北京百分点信息科技有限公司 一种事件预测方法、装置及系统
CN107977737A (zh) * 2017-11-19 2018-05-01 国网浙江省电力公司信息通信分公司 基于mxnet框架深度神经网络的配变负荷预测方法
CN108053322A (zh) * 2017-12-15 2018-05-18 东峡大通(北京)管理咨询有限公司 车辆的用户投资回报估算方法及系统
CN107895245A (zh) * 2017-12-26 2018-04-10 国网宁夏电力有限公司银川供电公司 一种基于用户画像的电费回收风险评估方法
CN108090216A (zh) * 2017-12-29 2018-05-29 咪咕文化科技有限公司 一种标签预测方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王楠等: "公安大数据应用研究", 《警察技术》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026744A (zh) * 2019-12-11 2020-04-17 新奥数能科技有限公司 一种基于能源站系统模型框架的数据治理方法及装置

Similar Documents

Publication Publication Date Title
Liu et al. Understanding public transit patterns with open geodemographics to facilitate public transport planning
Barry et al. Origin and destination estimation in New York City with automated fare system data
Wang et al. TaxiRec: Recommending road clusters to taxi drivers using ranking-based extreme learning machines
Sari Aslam et al. A high-precision heuristic model to detect home and work locations from smart card data
Cui et al. Travel behavior classification: an approach with social network and deep learning
Balakrishnan Significance of classification techniques in prediction of learning disabilities
CN111476177B (zh) 嫌疑人检测方法及装置
CN112800210B (zh) 基于海量公交数据的人群画像算法
Viallard et al. Assessing the evolution of transit user behavior from smart card data
Chapleau et al. Application of machine learning to two large-sample household travel surveys: A characterization of travel modes
Won et al. Knowledge-based system for estimating incident clearance duration for Maryland I-95
Lepage et al. Impact of weather, activities, and service disruptions on transportation demand
Li et al. Volume estimation using traffic signal event-based data from video-based sensors
Enamorado Active learning for probabilistic record linkage
Li et al. Taxi utilization rate maximization by dynamic demand prediction: A case study in the city of chicago
CN108932530A (zh) 标签体系的构建方法及装置
Yu et al. Smoothing regression and impact measures for accidents of traffic flows
CN110955804B (zh) 一种针对用户时空数据行为检测的Adaboost方法
Sun et al. Mining vehicle trajectories to discover individual significant places: case study using floating car data in the Paris region
Roy et al. Comparing driving cycle development methods based on markov chains
Utku et al. New deep learning-based passenger flow prediction model
Ale-Ahmad et al. Travel time variability and congestion assessment for origin–destination clusters through the experience of mobility companies
Chan et al. Transit usage in social shocks: a case study of station-level metro ridership in anti-extradition protests in Hong Kong
CN114612246A (zh) 对象集合识别方法、装置、计算机设备及存储介质
CN115599985A (zh) 目标客户识别方法和系统、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181204

RJ01 Rejection of invention patent application after publication