CN107741958A - 一种数据处理方法及系统 - Google Patents
一种数据处理方法及系统 Download PDFInfo
- Publication number
- CN107741958A CN107741958A CN201710854051.4A CN201710854051A CN107741958A CN 107741958 A CN107741958 A CN 107741958A CN 201710854051 A CN201710854051 A CN 201710854051A CN 107741958 A CN107741958 A CN 107741958A
- Authority
- CN
- China
- Prior art keywords
- family
- daily record
- information
- data set
- collection file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种数据处理方法及系统,涉及数据处理技术领域,所述数据处理方法包括步骤:获取用户日志信息数据集;根据所述用户日志信息中的网关标识信息,归类所述用户日志数据集为各家庭的家庭日志数据集;根据所述用户日志信息中的终端设备标识信息,归类所述家庭日志数据集为各家庭成员的家庭成员日志数据集。本发明将所有用户日志信息,以家庭为单位进行划分,而在家庭内部再以家庭成员为单位进行划分,从而实现家庭结构信息的初步画像、家庭消费水平和家庭成员的画像以及消费水平等信息的推测和预估,具有重要的商业价值。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理方法及系统。
背景技术
随着社会的发展,人类活动产生的数据量越来越大。尤其是今年来流行的大数据。
在使用这些数据前,我们需要对他进行恰当的处理。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。
设备在运行过程中产生了大量的日志数据,用来记录发生的事件,包含用户的使用信息。通过大量的日志数据的分析能获得使用设备的用户的信息。对大量的用户信息进行统计分析能得到具有商业价值的结论。
在家庭中,我们使用的智能设备有很多种,例如平板电脑、智能手机、计算机。他们都能产生大量的日志数据。在这些数据中包含巨大的商业价值。如果以恰当的方式处理这些数据,就可以挖掘其中的价值。
通常在分析数据前,需要对数据进行分类处理,以便后续的分析。如公开号为CN106529110A的专利公开了一种用户数据的分类方法,所述方法包括:获取若干用户数据,并基于所述用户数据生成若干样本,每一所述样本包括具有相同标识特征信息的两个用户数据;基于所述样本中两个用户数据的区别特征信息及所述区别特征信息的比较信息,将所述样本分为相同类样本、不同类样本或待确定类样本;利用预测分类模型将所述待确定类样本再分为相同类样本或不同类样本,其中,所述预测分类模型为基于所述相同类样本和所述不同类样本及其中用户数据的综合描述特征信息进行训练所获得的;基于所述相同类样本和不同类样本,对所述用户数据进行分类。此方法根据用户特征信息进行分类。
在现有技术中,数据的分类都是以用户个体来考虑。并不能最大限度的利用数据本身的价值。因为在现代的生活中,都是以家庭为单位的。单纯的以个体用户为单位进行数据处理和分析,并不能最大限度的利用数据的商业价值。
例如,在分析用户的消费情况时,既要考虑用户个体的消费情况,又需要考虑用户个体所在的家庭的消费结构。这样才能全面的分析用户及家庭的消费水平及类型。这就要求在数据处理时,提供可靠的家庭消费数据以及用户个体的消费数据。
发明内容
本发明所要解决的技术问题在于如何有效的处理用户日志信息数据,为用户画像元素提取和日志特征信息的分析提供数据来源和支撑,以便挖掘其中数据的商业价值。
本发明解决其技术问题,提出一种数据处理方法及系统。
所述数据处理方法包括:
获取用户日志信息数据集;
根据所述用户日志信息中的网关标识信息,归类所述用户日志数据集为各家庭的家庭日志数据集;
根据所述用户日志信息中的终端设备标识信息,归类所述家庭日志数据集为各家庭成员的家庭成员日志数据集。
进一步地,所述根据所述用户日志信息中的网关标识信息,归类所述用户日志数据集为各家庭的家庭日志数据集包括:
根据所述用户日志信息中的网关标识信息,判断是否存在对应所述网关标识的家庭日志集文件;
若存在,将所述用户日志信息存储到对应所述网关标识的家庭日志集文件中;否则,新建对应所述网关标识的家庭日志集文件,并将所述用户日志信息存储到所述新建的家庭日志集文件中。
所述根据所述用户日志信息中的终端设备标识信息,归类所述家庭日志数据集为各家庭成员的家庭成员日志数据集包括:
根据所述用户日志信息中的终端设备标识信息,判断是否存在对应所述终端设备标识的终端设备日志集文件;
若是,将所述用户日志信息存储到对应所述终端设备标识的终端设备日志集文件中;若否,新建对应所述终端设备标识信息的终端设备日志集文件,并将所述用户日志信息存储到所述新建的终端设备日志集文件中。
进一步地,还包括:
根据所述家庭成员日志数据集中的用户日志信息,进行用户行为特征画像;
对比所述家庭日志数据集中各家庭成员日志数据集的用户行为特征的相似度;若相似度高于预设阈值,判定为同一家庭成员并归并所述家庭成员日志数据集。
进一步地,所述将所述用户日志信息存储到对应所述终端设备标识的终端设备日志集文件中包括:
以(key,value)=(HID,(UID1.txt,UID2.txt,…,UIDn.txt))的形式将读取的日志信息导入到对应的终端设备日志集文件中;其中,所述HID为所述网关标识信息,所述UID为终端设备标识,所述UID.txt为对应所述终端设备标识的终端设备日志集文件。
所述数据处理系统包括:
信息获取单元,用于获取用户日志信息数据集;
家庭日志数据归类单元,用于根据所述用户日志信息中的网关标识信息,归类所述用户日志数据集为各家庭的家庭日志数据集;
家庭成员日志数据归类单元,用于根据所述用户日志信息中的终端设备标识信息,归类所述家庭日志数据集为各家庭成员的家庭成员日志数据集。
进一步地,所述家庭日志数据归类单元包括:
第一判断子单元,用于根据所述用户日志信息中的网关标识信息,判断是否存在对应所述网关标识的家庭日志集文件;
第一家庭日志存储子单元,用于当存在对应所述网关标识的家庭日志集文件时,将所述用户日志信息存储到对应所述网关标识的家庭日志集文件中;
第二家庭日志存储子单元,用于当不存在对应所述网关标识的家庭日志集文件时,新建对应所述网关标识的家庭日志集文件,并将所述用户日志信息存储到所述新建的家庭日志集文件中。
进一步地,所述家庭成员日志数据归类单元包括:
第二判断子单元,用于根据所述用户日志信息中的终端设备标识信息,判断是否存在对应所述终端设备标识的终端设备日志集文件;
第一设备日志存储子单元,用于当存在对应所述终端设备标识的终端设备日志集文件时,将所述用户日志信息存储到对应所述终端设备标识的终端设备日志集文件中;
第二设备日志存储子单元,用于当不存在对应所述终端设备标识的终端设备日志集文件时,新建对应所述终端设备标识信息的终端设备日志集文件,并将所述用户日志信息存储到所述新建的终端设备日志集文件中。
进一步地,还包括:
用户画像单元,用于根据所述家庭成员日志数据集中的用户日志信息,进行用户行为特征画像;
对比单元,用于对比所述家庭日志数据集中各家庭成员日志数据集的用户行为特征的相似度;若相似度高于预设阈值,判定为同一家庭成员并归并所述家庭成员日志数据集。
进一步地,所述第一设备日志存储子单元包括:
文件存储模块,用于以(key,value)=(HID,(UID1.txt,UID2.txt,…,UIDn.txt))的形式将读取的日志信息导入到对应的终端设备日志集文件中;其中,所述HID为所述网关标识信息,所述UID为终端设备标识,所述UID.txt为对应所述终端设备标识的终端设备日志集文件。
本发明从家庭层面和家庭成员层面划分用户日志信息数据,全面的反应了用户已经家庭的情况。相比现有的处理技术及方法,本发明提供的处理数据方法更加合理,以便充分的挖掘数据中有价值的信息。
本发明将所有用户日志信息,以家庭为单位进行划分,而在家庭内部再以家庭成员为单位进行划分,从而实现家庭结构信息的初步画像、家庭消费水平和家庭成员的画像以及家庭成员消费水平等信息的推测和预估,具有重要的商业价值。
附图说明
图1是本发明实施例一提供的一种数据处理方法的流程图;
图2是本发明实施例二提供的一种数据处理方法的流程图;
图3是本发明实施例三提供的一种数据处理系统的结构框图。
具体实施方式
以下是本发明的具体实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
还应当理解,此处所描述的具体实施例仅仅用于理解本发明,并不用于限定本发明。
实施例一
本实施例提供一种数据处理方法,其流程图如图1所示,结合流程图详述如下:
步骤S101,获取用户日志信息数据集。
用户日志信息数据来自用户使用的终端设备,例如平板、智能手机、计算机等。在使用这些设备时,会产生大量的日志文件以记录用户的行为。
通过将这些用户日志信息数据进行有效的分类处理,可充分的挖掘数据中包含的商业价值。
在本发明中,不限制数据量的大小以及数据的来源。
步骤S102,根据所述用户日志信息中的网关标识信息,归类所述用户日志数据集为各家庭的家庭日志数据集。
在本步骤中,将用户日志信息以家庭为单位划分,得到每个家庭的家庭用户日志信息。该家庭用户日志信息是指包含家庭成员或家庭设备产生的日志信息。
在用户日志信息中,包含家庭里所有终端设备的网关标识信息。
由于现代家庭中通常有多个终端设备连接网络,如手机、平板、个人计算机,通常这些终端设备都通过一个路由器连接网络;这样,一个家庭相当于一个家庭局域网;一般来说,在家庭局域网的这些终端设备都有共同的网关。所述网关标识信息用于唯一标识这些家庭局域网的网关,进而通过家庭的网关标识信息标识一个家庭。
进一步地,通过提取用户日志信息中的网关标识信息,可以将这些用户日志信息分类到具体的家庭。
总的来说,通过用户日志信息中的网关标识信息,将所述用户日志信息归类到各个家庭中,得到家庭日志数据集。
步骤S103,根据所述用户日志信息中的终端设备标识信息,归类所述家庭日志数据集为各家庭成员的家庭成员日志数据集。
一般来说,在每个家庭中包含多个终端设备。可以通过终端设备标识信息标识这些设备。
所述终端设备标识信息可以在家庭中唯一标识一台终端设备,可以为终端设备的MAC地址、产品信息等。此外,也可以是多种信息的组合,例如可以通过产品种类信息区分不同种类的设备;首先通过种类信息区分计算机、手机、平板;进而通过国际移动设备身份码(IMEI)来区分不同的手机。以上只是一个例子,在实际操作过程中可以由多种方式。
通过终端设备标识信息来将家庭日志数据集进行分类,以得到每个设备的用户日志信息数据集。
需要说明的是,这里将一个设备对应一个家庭成员。所以将一个终端设备的用户日志信息数据集视为一个家庭成员的家庭成员日志数据集。
这样,通过所述用户日志信息中的终端设备标识信息,将每个家庭的家庭日志数据集归类到各家庭成员上,以得到各家庭成员的家庭成员日志数据集。
实施例二
本实施例提供一种数据处理方法,其流程图如图2所示,结合流程图详述如下:
步骤S201,获取用户日志信息数据集。
步骤S202,根据所述用户日志信息中的网关标识信息,判断是否存在对应所述网关标识的家庭日志集文件。
步骤S203,若存在对应所述网关标识的家庭日志集文件,将所述用户日志信息存储到对应所述网关标识的家庭日志集文件中;否则,新建对应所述网关标识的家庭日志集文件,并将所述用户日志信息存储到所述新建的家庭日志集文件中。
步骤S202和步骤S203,是具体的归类家庭日志数据集的过程。
具体地,以一个网关标识信息来说,首先判断是否存在与该网关标识信息对应的家庭日志集文件。这一步骤主要是为了确保单个家庭的唯一性,将所有属于该家庭的用户日志数据都归类到该家庭日志集文件里。
当存在对应所述网关标识的家庭日志集文件时,将所述用户日志信息存储到对应所述网关标识的家庭日志集文件中。
当不存在对应所述网关标识的家庭日志集文件时,新建对应所述网关标识的家庭日志集文件,并将所述用户日志信息存储到所述新建的家庭日志集文件中。
更具体地,通常用户日志信息以文件的形式存储,为每一个家庭创建一个家庭日志集文件夹,以对应的网关标识信息命名;并使用每个家庭日志集文件夹的名称,即网关标识信息,创建家庭列表home_list。
以一个包含用户日志信息的文件为例进行说明,例如file_txt日志文件。
首先确认file_txt是否为空;
当file_txt不是空文件时,获取该文件中的网关标识信息;
进一步地,判断该文件中的网关标识信息是否存在于家庭列表home_list中;若存在,则说明已经存在该网关标识信息对应的家庭日志集文件夹,将该文件file_txt存放入该网关标识信息对应的家庭日志集文件夹;若不存在,则将该网关标识信息添加到家庭列表home_list中,并创建以该网关标识信息命名的家庭日志集文件夹,将该文件file_txt放入该家庭日志集文件夹。
按上述步骤,将所有的用户日志信息文件划分到对应所述网关标识的家庭日志集文件夹中。
步骤S204,根据所述用户日志信息中的终端设备标识信息,判断是否存在对应所述终端设备标识的终端设备日志集文件。
步骤S205,若存在对应所述终端设备标识的终端设备日志集文件,将所述用户日志信息存储到对应所述终端设备标识的终端设备日志集文件中;若否,新建对应所述终端设备标识信息的终端设备日志集文件,并将所述用户日志信息存储到所述新建的终端设备日志集文件中。
步骤S204和步骤S205是具体的将家庭日志数据集归类为家庭成员日志数据集的过程。
具体地,以一个终端设备标识信息对应的家庭成员来说,首先,判断是否存在该终端设备标识信息对应的终端设备日志集文件,这一步骤主要为了确保单个家庭成员日志数据集,即终端设备日志集文件的唯一性,确保将所有属于该家庭成员或设备的日志数据存放到一个终端设备日志集文件中。
当存在对应所述终端设备标识的终端设备日志集文件,将所述用户日志信息存储到对应所述终端设备标识的终端设备日志集文件中。
更具体地,以一个家庭日志集文件夹的归类为例进行说明,假如其网关标识信息HID在家庭列表home_list中的位置为第i个。该家庭对应的名称可为home(i)_HID。
在一个网关标识信息对应的家庭中,每个终端设备都对应一个终端设备标识信息,并且对应一个以该终端设备标识信息命名的终端设备日志集文件。
所述终端设备日志集文件的命名规则为user(j)_UID.txt,其中j为家庭内第j位置的用户设备UID。
进一步地,对该家庭日志集文件夹中的每个文件进行读取和处理;以一个从该家庭日志集文件夹中取出的日志文件file为例进行说明。
首先判断该日志文件file是否为空文件;
如果不为空,逐条读取该日志文件file中每一条日志信息。
将每条日志信息归类到其终端设备标识信息对应的终端设备日志集文件中。当该终端设备日志集文件不存在时,以该条日志信息对应的终端设备标识信息为名称创建终端设备日志集文件,然后将该条日志放入创建的终端设备日志集文件。
可为该家庭建立一个终端设备标识信息的列表,所述列表中包含所有的已经存在的终端设备日志集文件对应的终端设备标识信息。当日志信息的终端设备标识信息存在于该列表中时,说明存在该日志信息的终端设备标识信息对应的终端设备日志集文件。将其归入该终端设备日志集文件。当不存在于该列表中时,说明不存在该终端设备标识信息对应的终端设备日志集文件,将所述日志信息的终端设备标识信息加入该列表。并在该家庭日志集文件夹中建立以所述日志信息的终端设备标识信息命名的终端设备日志集文件,将该日志信息存入建立的终端设备日志集文件。
按上述规则将每条日志信息归类到对应的终端设备日志集文件中。
进一步地,将每个家庭日志集文件夹中的日志信息按上述规则归类到每个家庭的终端设备日志集文件中。
进一步地,所述将所述用户日志信息存储到对应所述终端设备标识的终端设备日志集文件中包括:
以(key,value)=(HID,(UID1.txt,UID2.txt,…,UIDn.txt))的形式将读取的日志信息导入到对应的终端设备日志集文件中;其中,所述HID为所述网关标识信息,所述UID为终端设备标识,所述UID.txt为对应所述终端设备标识的终端设备日志集文件。
以网关标识信息命名与该网关标识信息对应的家庭日志集文件,以终端设备标识命名与该终端设备标识对应的终端设备日志集文件;将所有终端设备日志集文件放置在对应的家庭日志集文件中。
当不存在对应所述终端设备标识的终端设备日志集文件,新建对应所述终端设备标识信息的终端设备日志集文件,并将所述用户日志信息存储到所述新建的终端设备日志集文件中。
需要说明的是,这里将一个设备对应一个家庭成员。所以将一个终端设备的用户日志信息数据集视为一个家庭成员的家庭成员日志数据集。
步骤S206,根据所述家庭成员日志数据集中的用户日志信息,进行用户行为特征画像。
通过家庭成员日志数据集,可以对用户行为特征进行画像,即用户行为特征分析。
通过对家庭成员日志数据集进行统计、分析,从中发现用户访问网站的规律和用户的使用习惯。具体的来说,包括:用户经常使用的网站;用户在网站的停留时间、回访次数;网站的注册;用户所使用的搜索引擎时搜索的关键词、关联关键词;用户的网上购物的交易习惯、交易物品的类型等等,所有这些用户的行为习惯都是可分析和画像的。
步骤S207,对比所述家庭日志数据集中各家庭成员日志数据集的用户行为特征的相似度;若相似度高于预设阈值,判定为同一家庭成员并归并所述家庭成员日志数据集。
如果同一个家庭日志数据集中,不同的家庭成员日志数据集的用户行为特征相似度比较大,超过预设的阈值,则判定为同一家庭成员并归并所述家庭成员日志数据集。
对每个终端设备日志集文件中的每条日志信息,利用URL重组、网络爬虫技术和维护的UA库等信息进行用户特征日志信息的统计和分析,分别对一个家庭内部的设备之间的用户特征画像相似度进行分析,将相似度比较高的几个设备的日志信息归属为同一个家庭成员的日志信息集。
进一步地,例如家庭日志集文件夹下有5个常住设备:设备UID1、UID2、UID3、UID4和UID5其中前三个是手机设备,第四个是ipad,第五个是PC。在对这些设备的用户日志信息进行爬虫和分析的时候发现,UID1和UID3连个PC设备的行为高度相似,检测到都访问技术类论坛(51CTO/CSDN)、百度知道和同一个优惠聚合网站,可推测是同一个人,因此这两个设备有可能属于同一位价格敏感、年轻的男性用户,从Cookie检测到更多的电商ID和社交ID等信息验证属于同一用户,也就是说这两个设备是属于同一个家庭成员。采用同样的方法得出UID3为一女性,同时PC和ipad上同时出现两个人的网络行为特征。因此可以推测出家庭内部有一男一女两个家庭成员,同时还能够推测出该家庭成员的消费水平和基本信息等。
可选地,对用户行为特征进行量化,即所述的用户行为特征相似度为用户行为特征匹配的个数。例如,都频繁浏览百度知道记为1次匹配,频繁浏览58同城记为1次匹配,所述用户行为特征匹配的个数为2,即用户行为特征相似度为2。依此来确定用户行为特征相似度;进一步地,设定一个用户行为特征匹配的个数的阈值;若相似度高于预设阈值,判定为同一家庭成员并归并所述家庭成员日志数据集。
在本发明中不限制用户行为特征相似度的计算方法,只要是合理的都是可以的。
应当理解,上述的步骤并没有严格的执行顺序,所有可预见并且不影响功能的实现的变化都应该在本发明的保护范围内。
实施例三
本实施例提供了一种数据处理系统,其结构框图如图3所示,结合附图详述如下:
所述数据处理系统包括:
信息获取单元31,用于获取用户日志信息数据集;
家庭日志数据归类单元32,用于根据所述用户日志信息中的网关标识信息,归类所述用户日志数据集为各家庭的家庭日志数据集;
家庭成员日志数据归类单元33,用于根据所述用户日志信息中的终端设备标识信息,归类所述家庭日志数据集为各家庭成员的家庭成员日志数据集。
进一步地,所述家庭日志数据归类单元32包括:
第一判断子单元321,用于根据所述用户日志信息中的网关标识信息,判断是否存在对应所述网关标识的家庭日志集文件;
第一家庭日志存储子单元322,用于当存在对应所述网关标识的家庭日志集文件时,将所述用户日志信息存储到对应所述网关标识的家庭日志集文件中;
第二家庭日志存储子单元323,用于当不存在对应所述网关标识的家庭日志集文件时,新建对应所述网关标识的家庭日志集文件,并将所述用户日志信息存储到所述新建的家庭日志集文件中。
进一步地,所述家庭成员日志数据归类单元33包括:
第二判断子单元331,用于根据所述用户日志信息中的终端设备标识信息,判断是否存在对应所述终端设备标识的终端设备日志集文件;
第一设备日志存储子单元332,用于当存在对应所述终端设备标识的终端设备日志集文件时,将所述用户日志信息存储到对应所述终端设备标识的终端设备日志集文件中;
第二设备日志存储子单元333,用于当不存在对应所述终端设备标识的终端设备日志集文件时,新建对应所述终端设备标识信息的终端设备日志集文件,并将所述用户日志信息存储到所述新建的终端设备日志集文件中。
进一步地,还包括:
用户画像单元34,用于根据所述家庭成员日志数据集中的用户日志信息,进行用户行为特征画像;
对比单元35,用于对比所述家庭日志数据集中各家庭成员日志数据集的用户行为特征的相似度;若相似度高于预设阈值,判定为同一家庭成员并归并所述家庭成员日志数据集。
进一步地,所述第一设备日志存储子单元包括:
文件存储模块,用于以(key,value)=(HID,(UID1.txt,UID2.txt,…,UIDn.txt))的形式将读取的日志信息导入到对应的终端设备日志集文件中;其中,所述HID为所述网关标识信息,所述UID为终端设备标识,所述UID.txt为对应所述终端设备标识的终端设备日志集文件。
由于本实施中的数据处理系统应用于实施例一和实施例二中的数据处理方法,相关的内容已经在实施例一和实施例二中详述,这里就不再赘述了。
应该理解,所描述的方法和系统都是示意性的,在实际实施过程中通过调整可以有所差别。
在本申请所提供的实施例中,应该理解所描述的方法和系统都是示意性的,在实际实施过程中通过调整可以有所差别。
另外,各功能单元或模块的具体名称也只是为了便于相互区分,并不用于本发明的保护范围。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (10)
1.一种数据处理方法,其特征在于,包括步骤:
获取用户日志信息数据集;
根据所述用户日志信息中的网关标识信息,归类所述用户日志数据集为各家庭的家庭日志数据集;
根据所述用户日志信息中的终端设备标识信息,归类所述家庭日志数据集为各家庭成员的家庭成员日志数据集。
2.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述用户日志信息中的网关标识信息,归类所述用户日志数据集为各家庭的家庭日志数据集包括:
根据所述用户日志信息中的网关标识信息,判断是否存在对应所述网关标识的家庭日志集文件;
若存在,将所述用户日志信息存储到对应所述网关标识的家庭日志集文件中;否则,新建对应所述网关标识的家庭日志集文件,并将所述用户日志信息存储到所述新建的家庭日志集文件中。
3.根据权利要求1或2所述的数据处理方法,其特征在于,所述根据所述用户日志信息中的终端设备标识信息,归类所述家庭日志数据集为各家庭成员的家庭成员日志数据集包括:
根据所述用户日志信息中的终端设备标识信息,判断是否存在对应所述终端设备标识的终端设备日志集文件;
若是,将所述用户日志信息存储到对应所述终端设备标识的终端设备日志集文件中;若否,新建对应所述终端设备标识信息的终端设备日志集文件,并将所述用户日志信息存储到所述新建的终端设备日志集文件中。
4.根据权利要求3所述的数据处理方法,其特征在于,还包括:
根据所述家庭成员日志数据集中的用户日志信息,进行用户行为特征画像;
对比所述家庭日志数据集中各家庭成员日志数据集的用户行为特征的相似度;若相似度高于预设阈值,判定为同一家庭成员并归并所述家庭成员日志数据集。
5.根据权利要求3所述的数据处理方法,其特征在于,所述将所述用户日志信息存储到对应所述终端设备标识的终端设备日志集文件中包括:
以(key,value)=(HID,(UID1.txt,UID2.txt,…,UIDn.txt))的形式将读取的日志信息导入到对应的终端设备日志集文件中;其中,所述HID为所述网关标识信息,所述UID为终端设备标识,所述UID.txt为对应所述终端设备标识的终端设备日志集文件。
6.一种数据处理系统,其特征在于,包括:
信息获取单元,用于获取用户日志信息数据集;
家庭日志数据归类单元,用于根据所述用户日志信息中的网关标识信息,归类所述用户日志数据集为各家庭的家庭日志数据集;
家庭成员日志数据归类单元,用于根据所述用户日志信息中的终端设备标识信息,归类所述家庭日志数据集为各家庭成员的家庭成员日志数据集。
7.根据权利要求6所述的数据处理系统,其特征在于,所述家庭日志数据归类单元包括:
第一判断子单元,用于根据所述用户日志信息中的网关标识信息,判断是否存在对应所述网关标识的家庭日志集文件;
第一家庭日志存储子单元,用于当存在对应所述网关标识的家庭日志集文件时,将所述用户日志信息存储到对应所述网关标识的家庭日志集文件中;
第二家庭日志存储子单元,用于当不存在对应所述网关标识的家庭日志集文件时,新建对应所述网关标识的家庭日志集文件,并将所述用户日志信息存储到所述新建的家庭日志集文件中。
8.根据权利要求6或7所述的数据处理系统,其特征在于,所述家庭成员日志数据归类单元包括:
第二判断子单元,用于根据所述用户日志信息中的终端设备标识信息,判断是否存在对应所述终端设备标识的终端设备日志集文件;
第一设备日志存储子单元,用于当存在对应所述终端设备标识的终端设备日志集文件时,将所述用户日志信息存储到对应所述终端设备标识的终端设备日志集文件中;
第二设备日志存储子单元,用于当不存在对应所述终端设备标识的终端设备日志集文件时,新建对应所述终端设备标识信息的终端设备日志集文件,并将所述用户日志信息存储到所述新建的终端设备日志集文件中。
9.根据权利要求8所述的数据处理系统,其特征在于,还包括:
用户画像单元,用于根据所述家庭成员日志数据集中的用户日志信息,进行用户行为特征画像;
对比单元,用于对比所述家庭日志数据集中各家庭成员日志数据集的用户行为特征的相似度;若相似度高于预设阈值,判定为同一家庭成员并归并所述家庭成员日志数据集。
10.根据权利要求8所述的数据处理系统,其特征在于,所述第一设备日志存储子单元包括:
文件存储模块,用于以(key,value)=(HID,(UID1.txt,UID2.txt,…,UIDn.txt))的形式将读取的日志信息导入到对应的终端设备日志集文件中;其中,所述HID为所述网关标识信息,所述UID为终端设备标识,所述UID.txt为对应所述终端设备标识的终端设备日志集文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710854051.4A CN107741958A (zh) | 2017-09-20 | 2017-09-20 | 一种数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710854051.4A CN107741958A (zh) | 2017-09-20 | 2017-09-20 | 一种数据处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107741958A true CN107741958A (zh) | 2018-02-27 |
Family
ID=61235848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710854051.4A Pending CN107741958A (zh) | 2017-09-20 | 2017-09-20 | 一种数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107741958A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875084A (zh) * | 2018-07-17 | 2018-11-23 | 上海精数信息科技有限公司 | 项目声量排序方法、装置、电子设备、存储介质 |
CN109948638A (zh) * | 2018-12-04 | 2019-06-28 | 阿里巴巴集团控股有限公司 | 对象匹配方法、装置、设备及计算机可读存储介质 |
CN111601171A (zh) * | 2020-05-21 | 2020-08-28 | 广州欢网科技有限责任公司 | 定位智能电视家庭成员的方法、装置及控制器 |
CN112311612A (zh) * | 2019-07-29 | 2021-02-02 | 腾讯科技(深圳)有限公司 | 一种家庭画像构建方法、装置及存储介质 |
CN112506063A (zh) * | 2020-11-25 | 2021-03-16 | 中移(杭州)信息技术有限公司 | 数据分析方法、系统、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103995907A (zh) * | 2014-06-13 | 2014-08-20 | 北京奇艺世纪科技有限公司 | 一种访问用户的确定方法 |
JP5679354B2 (ja) * | 2012-10-23 | 2015-03-04 | 株式会社オプティム | イベント解析サーバ、イベント解析方法、イベント解析サーバ用プログラム |
CN105430504A (zh) * | 2015-11-27 | 2016-03-23 | 中国科学院深圳先进技术研究院 | 基于电视观看日志挖掘的家庭成员结构识别方法与系统 |
CN106910136A (zh) * | 2017-02-23 | 2017-06-30 | 北京小米移动软件有限公司 | 为家庭画像的方法及装置、系统 |
-
2017
- 2017-09-20 CN CN201710854051.4A patent/CN107741958A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5679354B2 (ja) * | 2012-10-23 | 2015-03-04 | 株式会社オプティム | イベント解析サーバ、イベント解析方法、イベント解析サーバ用プログラム |
CN103995907A (zh) * | 2014-06-13 | 2014-08-20 | 北京奇艺世纪科技有限公司 | 一种访问用户的确定方法 |
CN105430504A (zh) * | 2015-11-27 | 2016-03-23 | 中国科学院深圳先进技术研究院 | 基于电视观看日志挖掘的家庭成员结构识别方法与系统 |
CN106910136A (zh) * | 2017-02-23 | 2017-06-30 | 北京小米移动软件有限公司 | 为家庭画像的方法及装置、系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875084A (zh) * | 2018-07-17 | 2018-11-23 | 上海精数信息科技有限公司 | 项目声量排序方法、装置、电子设备、存储介质 |
CN108875084B (zh) * | 2018-07-17 | 2021-03-12 | 上海精数信息科技有限公司 | 项目声量排序方法、装置、电子设备、存储介质 |
CN109948638A (zh) * | 2018-12-04 | 2019-06-28 | 阿里巴巴集团控股有限公司 | 对象匹配方法、装置、设备及计算机可读存储介质 |
CN112311612A (zh) * | 2019-07-29 | 2021-02-02 | 腾讯科技(深圳)有限公司 | 一种家庭画像构建方法、装置及存储介质 |
CN111601171A (zh) * | 2020-05-21 | 2020-08-28 | 广州欢网科技有限责任公司 | 定位智能电视家庭成员的方法、装置及控制器 |
CN112506063A (zh) * | 2020-11-25 | 2021-03-16 | 中移(杭州)信息技术有限公司 | 数据分析方法、系统、电子设备和存储介质 |
CN112506063B (zh) * | 2020-11-25 | 2024-05-07 | 中移(杭州)信息技术有限公司 | 数据分析方法、系统、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107741958A (zh) | 一种数据处理方法及系统 | |
CN103914478B (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN105005594B (zh) | 异常微博用户识别方法 | |
CN103885987B (zh) | 一种音乐推荐方法和系统 | |
CN101794311B (zh) | 基于模糊数据挖掘的中文网页自动分类方法 | |
CN103218431B (zh) | 一种能识别网页信息自动采集的系统 | |
CN105447186B (zh) | 一种基于大数据平台的用户行为分析系统 | |
CN103678335B (zh) | 商品标识标签的方法、装置及商品导航的方法 | |
CN107515915B (zh) | 基于用户行为数据的用户标识关联方法 | |
CN108776671A (zh) | 一种网络舆情监控系统及方法 | |
CN103678417B (zh) | 人机交互数据处理方法和装置 | |
CN104899508B (zh) | 一种多阶段钓鱼网站检测方法与系统 | |
CN107705066A (zh) | 一种商品入库时信息录入方法及电子设备 | |
CN101621391A (zh) | 基于概率主题进行短文本分类的方法及系统 | |
CN105095187A (zh) | 一种搜索意图识别方法及装置 | |
CN103970891B (zh) | 一种基于情境的用户兴趣信息查询方法 | |
CN106383887A (zh) | 一种环保新闻数据采集和推荐展示的方法及系统 | |
CN106682686A (zh) | 一种基于手机上网行为的用户性别预测方法 | |
CN110737821B (zh) | 相似事件查询的方法、装置、存储介质和终端设备 | |
CN106843941B (zh) | 信息处理方法、装置和计算机设备 | |
CN107480134A (zh) | 一种数据处理方法和系统 | |
CN109636495A (zh) | 一种基于大数据的科技信息在线推荐方法 | |
CN107092592A (zh) | 一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法 | |
CN105792152A (zh) | 伪基站短信识别方法和装置 | |
CN107220745B (zh) | 一种意图行为数据的识别方法、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20201207 Address after: Room 10242, No. 260, Jiangshu Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province Applicant after: Hangzhou Jiji Intellectual Property Operation Co., Ltd Address before: 201616 Shanghai city Songjiang District Sixian Road No. 3666 Applicant before: Phicomm (Shanghai) Co.,Ltd. |