CN111881180A - 构建方法、构建装置、终端及可读存储介质 - Google Patents

构建方法、构建装置、终端及可读存储介质 Download PDF

Info

Publication number
CN111881180A
CN111881180A CN202010708838.1A CN202010708838A CN111881180A CN 111881180 A CN111881180 A CN 111881180A CN 202010708838 A CN202010708838 A CN 202010708838A CN 111881180 A CN111881180 A CN 111881180A
Authority
CN
China
Prior art keywords
feature
characteristic
data
database
period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010708838.1A
Other languages
English (en)
Inventor
苏沛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202010708838.1A priority Critical patent/CN111881180A/zh
Publication of CN111881180A publication Critical patent/CN111881180A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种用户画像的构建方法,构建方法包括获取WIFI特征数据,形成特征数据库;识别特征数据库的第一特征及第二特征,第一特征包括特征数据的相似度,第二特征包括特征数据的场景信息;及基于预设训练模型、第一特征和第二特征,构建用户画像。本申请还公开了一种构建装置、终端及非易失性计算机可读存储介质。本申请的构建方法中,通过对获取到的WIFI的特征数据进行统计分析,可以准确地构建用户画像。

Description

构建方法、构建装置、终端及可读存储介质
技术领域
本申请涉及数据分析技术领域,更具体而言,涉及一种构建方法、构建装置、终端及非易失性计算机可读存储介质。
背景技术
随着终端的普及以及其功能的丰富,用户每天沉浸在终端的时间越来越多,终端成为用户每天获取信息的渠道,用户生活中、工作中及学习过程中,均离不开终端,用户的使用终端获取信息时,通常会连接无线网络(Wireless-Fidelity,WIFI),以减少流量的损耗。由于缺乏对用户各方面的特征信息以及习惯的了解,终端的运营人员对用户无法进行精准化营销,同时无法提供精准地个性化服务,导致用户的体验较差。
发明内容
本申请实施方式提供一种用户画像的构建方法、构建装置、终端及非易失性计算机可读存储介质。
本申请实施方式的构建方法用于构建用户画像,所述构建方法包括获取WIFI特征数据,形成特征数据库;识别所述特征数据库的第一特征及第二特征,所述第一特征包括所述特征数据的相似度,所述第二特征包括所述特征数据的场景信息;及基于预设训练模型、所述第一特征和所述第二特征,构建所述用户画像。
本申请实施方式的构建装置用于构建用户画像,所述构建装置包括获取模块、识别模块及构建模块,所述获取模块用于获取WIFI特征数据,形成特征数据库;所述识别模块用于识别所述特征数据库的第一特征及第二特征,所述第一特征包括所述特征数据的相似度,所述第二特征包括所述特征数据的场景信息;所述构建模块用于基于预设训练模型、所述第一特征和所述第二特征,构建所述用户画像。
本申请实施方式的终端包括处理器,所述处理器用于获取WIFI特征数据,形成特征数据库;识别所述特征数据库的第一特征及第二特征,所述第一特征包括所述特征数据的相似度,所述第二特征包括所述特征数据的场景信息;及基于预设训练模型、所述第一特征和所述第二特征,构建所述用户画像。
本申请实施方式的一种包含计算机可执行指令的非易失性计算机可读存储介质,当所述计算机可执行指令被一个或多个处理器执行时,使得所述处理器执行上述实施方式所述的构建方法。所述构建方法包括获取WIFI特征数据,形成特征数据库;识别所述特征数据库的第一特征及第二特征,所述第一特征包括所述特征数据的相似度,所述第二特征包括所述特征数据的场景信息;及基于预设训练模型、所述第一特征和所述第二特征,构建所述用户画像。
本申请实施方式的构建方法、构建装置、终端及非易失性计算机可读存储介质中,首先获取WIFI特征数据,形成特征数据库,然后识别特征数据库中的第一特征及第二特征,其中,第一特征包括特征数据的相似度,第二特征包括特征数据的场景信息,最后基于预设训练模型、第一特征及第二特征,构建用户画像。通过终端侧获取的WIFI的特征数据,对WIFI的特征数据进行统计及分析,即可实现对用户进行精准画像。
本申请的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实施方式的实践了解到。
附图说明
本申请的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本申请某些实施方式的构建方法的流程示意图;
图2是本申请某些实施方式的终端的结构示意图;
图3是本申请某些实施方式的构建装置的模块示意图;
图4是本申请某些实施方式的构建方法的流程示意图;
图5是本申请某些实施方式的获取模块的模块示意图;
图6是本申请某些实施方式的特征数据库的平面示意图;
图7是本申请某些实施方式的构建方法的流程示意图;
图8是本申请某些实施方式的构建方法的流程示意图;
图9是本申请某些实施方式的特征数据块的平面示意图;
图10是本申请某些实施方式的第一特征表的平面示意图;
图11是本申请某些实施方式的第二特征表的平面示意图;
图12是本申请某些实施方式的构建方法的流程示意图;
图13是本申请某些实施方式的构建方法的流程示意图;
图14是本申请某些实施方式的数据块的平面示意图;
图15是本申请某些实施方式的构建方法的流程示意图;
图16是本申请某些实施方式的构建方法的场景示意图;和
图17是计算机可读存储介质与处理器的连接关系示意图。
具体实施方式
以下结合附图对本申请的实施方式作进一步说明。附图中相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。
另外,下面结合附图描述的本申请的实施方式是示例性的,仅用于解释本申请的实施方式,而不能理解为对本申请的限制。
在本申请中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可以是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
请参阅图1至图3,本申请实施方式的用户画像的构建方法包括以下步骤:
010:获取WIFI特征数据,形成特征数据库;
020:识别特征数据库的第一特征及第二特征,第一特征包括特征数据的相似度,第二特征包括特征数据的场景信息;及
030:基于预设训练模型、第一特征和第二特征,构建用户画像。
在某些实施方式中,构建装置10包括获取模块11、识别模块12及构建模块13,获取模块11、识别模块12和构建模块13可分别用于实现步骤010、步骤020和步骤030。即,获取模块11用于获取WIFI特征数据,形成特征数据库;识别模块12用于识别特征数据库的第一特征及第二特征;构建模块13用于基于预设训练模型、第一特征和第二特征,构建所述用户画像。
在某些实施方式中,终端100包括处理器20,处理器20用于获取WIFI特征数据,形成特征数据库;识别特征数据库的第一特征及第二特征;和基于预设训练模型、第一特征和第二特征,构建用户画像。也即是说,步骤010、步骤020及步骤030均可由处理器20实现。
具体地,终端100包括壳体30和处理器20。处理器20安装在壳体30内。更具体地,终端100可以是手机、平板电脑、笔记本电脑、台式电脑、电脑、显示器、柜员机、智能手表、头显设备、游戏机等,在此不做限制。本申请实施方式以终端100是手机为例进行说明,可以理解,终端100的具体形式并不限于手机,可以是其它。其中,壳体30还可以用于安装终端100的成像装置、供电装置、通信装置等功能模块,以使壳体30为功能模块提供防尘、防摔、防水等保护。
终端100一般具备无线上网(Wireless Fidelity,WIFI)扫描模块,WIFI扫描模块可以对终端100预设范围内的WIFI进行扫描。通常,用户在终端100上开启WIFI开关,终端100将对预设范围内的WIFI进行扫描,用户可以选择连接扫描到的WIFI中的一个,进行上网、追剧等,以降低终端100的流量损耗。
本申请实施方式的构建方法、构建装置10及终端100中,首先获取的WIFI特征数据,形成特征数据库,然后识别特征数据库中的第一特征及第二特征,其中,第一特征包括特征数据的相似度,第二特征包括特征数据的场景信息,最后基于预设训练模型、第一特征及第二特征,构建用户画像。通过终端100侧获取的WIFI的特征数据,对WIFI的特征数据进行统计及分析,即可实现对用户进行精准画像。
更具体地,在步骤010中,获取WIFI特征数据,形成特征数据库。用户开启终端100上的WIFI开关后,终端100将会扫描预设范围内的WIFI,并获取扫描到的WIFI的特征数据,例如WIFI的扫描时间、WIFI的名称、WIFI的地址等数据,将获取到的特征数据存入特征数据库中,每扫描一次WIFI,便将获取扫描到的WIFI的特征数据存入特征数据库,多次扫描到的WIFI的特征数据形成特征数据库,则特征数据库中包括了多个WIFI的特征数据。在一个实施例中,WIFI的特征数据包括WIFI的服务集标识符(Service Set Identifier,SSID)及对应的基本服务集标识符(Basic Service Set Identifier,BSSID)。
进一步地,在步骤020中,识别特征数据库中的第一特征及第二特征。在步骤020中形成了特征数据库,特征数据库中包括了多个WIFI的特征数据,特征数据之间可能存在一定的差异,识别特征数据的相似度,例如识别两个不同日期,获取到的特征数据相同的部分,再例如识别同一日期的不同时间的特征数据之间相同的部分。通过特征数据可以识别出特征数据的场景信息,例如通过WIFI的名称可以获取到WIFI所处的场景,判断WIFI是办公室、超市、健身房等场景的WIFI。
在步骤030中,基于预设训练模型、第一特征和第二特征,构建用户画像。在步骤020中识别得到第一特征及第二特征,将第一特征及第二特征输入预设训练模型,预设训练模型能够对第一特征及第二特征进行分析,然后构建用户画像。其中,预设训练模型可以是神经网络模型也可以是机器学习模型,通过神经网络模型或机器学习模型进行训练,使其可以对第一特征及第二特征进行分析,得到比较精准的用户画像。其中,预设训练模型可以是设置在终端100上的,由此,只需要在终端100侧即可实现构建用户画像,不需要额外借助服务器。
请参阅图4至图6,在某些实施方式中,步骤010包括以下步骤:
011:间隔预定时长获取一次特征数据K1;和
012:将特征数据K1按时间顺序存储到特征数据库K100。其中,特征数据库为时序数据库,特征数据库包括多个数据块K10,数据块K10用于存储预定时段T10内的特征数据K1。
在某些实施方式中,获取模块11包括第一获取单元111和存储单元112,第一获取单元111用于间隔预定时长获取一次特征数据K1,存储单元112用于将特征数据K1按时间顺序存储到特征数据库K100。也即是说,第一获取单元111用于实现步骤011,存储单元112用于实现步骤012。
在某些实施方式中,处理器20还用于间隔预定时长获取一次特征数据K1;和将特征数据K1按时间顺序存储到特征数据库K100。也即是说,处理器20还可以用于实现步骤011和步骤022。
具体地,每间隔预定时长扫描一次预设范围内的WIFI,并提取扫描到的WIFI的特征数据,其中,预定时长可以是一秒、三十秒、一分钟、三分钟、五分钟、八分钟,十分钟、三十分钟等时长,间隔预定时长获取一次特征数据K1,由此通过获取多次特征数据K1,便于形成特征数据库K100,同时获取到的WIFI的特征数据也比较准确,更加接近于用户的实际数据。
进一步地,特征数据K1是间隔预设时长获取到的,每个特征数据K1获取的时间存在先后顺序,按照获取的时间顺序将对应的特征数据K1存储到特征数据库K100中,则特征数据库K100是时序数据库。特征数据库K100中包括多个预定时段T10,每个预定时段T10内包括的特征数据即为一个数据块,也即是说,特征数据库K100包括多个数据块K10,数据块K10用于存储预定时段T10内的特征数据K1。其中,预定时段T10可以是十二个小时、一天、两天等时间。可以理解,每隔预定时段T10将特征数据库K100拆分为多个数据块K10,便于对每个数据块K10进行统计分析。例如在图6的实施例中,特征数据库包括8个数据块K10。
请参阅图6至图8,在某些实施方式中,步骤020包括以下步骤:
021:根据特征数据库K100中的特征数据块K20的特征数据K1建立第一特征表和第二特征表;特征数据块K20为预定时段T10位于预设时段T100内的数据块K10;和
022:基于第一特征表及第二特征表,获取第一特征及第二特征。
在某些实施方式中,识别模块12包括建立单元121及第二获取单元122,建立单元121用于根据特征数据库K100中的特征数据块K20的特征数据K1建立第一特征表和第二特征表;第二获取单元122用于基于第一特征表及第二特征表,获取第一特征及第二特征。也即是说,建立单元121可以实现步骤021,第二获取单元122可以实现步骤022。
在某些实施方式中,处理器20还用于根据特征数据库K100中的特征数据块K20的特征数据K1建立第一特征表和第二特征表;及基于第一特征表及第二特征表,获取第一特征及第二特征。也即是说,处理器20还用于实现步骤021及步骤022。
具体地,请参阅图6,其中,t1为特征数据在数据块K10的的时间顺序,t2为数据块K10在特征数据库K100中的时间顺序,预设时段T100的长度大于预定时段T10的长度,例如预设时段T100可以是第一天到第三天的之间的时段,再例如预设时段T100可以是第一天到第五天之间的时段。特征数据库K100中存在多个预定时段T10,多个预定时段T10是按照时间顺序进行排列的,将预定时段T10在预设时段T100内的数据块K10形成特征数据块K20。
在图6所示的实施例中,特征数据库K100中一共包括八个数据块K10,分别为数据块K11至数据块K18,其中数据块K11至数据块K18分别对应的是预定时段T11至预定时段T18中的特征数据K1,其中,预定时段T11至预定时段T17位于预设时段T100中,特征数据块K20包括数据块K11至数据块K17。然后根据特征数据块K20中的特征数据K1建立第一特征表及第二特征表,基于第一特征表及第二特征表,获取第一特征及第二特征。需要说明的是,第一特征并非只基于第一特征表得到,第一特征需要基于第一特征表及第二特征表得到。通过特征数据块K20的特征数据建立第一特征表及第二特征表,进一步获取第一特征及第二特征,得到的第一特征及第二特征更加准确,使构建的用户画像更加精准。
进一步地,请参阅图8至图11,在某些实施方式中,预设时段T100包括第一预设时段T20和第二预设时段T30,特征数据块K20包括第一特征数据块K21和第二特征数据块K12,第一特征数据块K21为预定时段T10位于第一预设时段T20内的数据块K10,第二特征数据块K22为预定时段T10位于第二预设时段T30内的数据块K10,步骤021包括以下步骤:
0211:根据特征数据库K100中第一特征数据块K21的特征数据K1,建立第一特征表B1;和
0212:根据特征数据库K100中第二特征数据块K22的特征数据K1,建立第二特征表B2。
在某些实施方式中,建立单元121还包括第一建立子单元1211及第二建立子单元1212,第一建立子单元1211用于根据特征数据库K100中第一特征数据块K21的特征数据K1,建立第一特征表B1;第二建立子单元1212用于根据特征数据库K100中第二特征数据块K22的特征数据K1,建立第二特征表B2。也即是说,第一建立子单元1211可以用于实现步骤0211,第二建立子单元1212用于实现步骤0212。
在某些实施方式中,处理器20还可以用于根据特征数据库K100中第一特征数据块K21的特征数据K1,建立第一特征表B1;和根据特征数据库K100中第二特征数据块K22的特征数据K1,建立第二特征表B2。也即是说,处理器20还可以用于实现步骤0211及步骤0212。
具体地,预设时段T100包括第一预设时段T20及第二预设时段T30,部分预定时段T10位于第一预设时段T20中,部分预定时段T10位于第二预设时段T30中。根据位于第一预设时段T20内的多个预定时段T10,这些预定时段T10所对应的数据块K10形成第一特征数据块K21,则第一特征数据块K21中包括了多个特征数据K1,根据第一特征数据块K21包括的特征数据K1,建立第一特征表B1,第一特征表B1包括了第一特征数据块K21中的特征数据K1。根据位于第二预设时段T20内的多个预定时段T10,所对应的数据块K10形成第二特征数据块K22,第二特征数据块K22包括了多个特征数据K1,根据第二特征数据块K22中的特征数据K1,建立第二特征表B2。
将预设时段T100分为第一预设时段T20及第二预设时段T30,且分别建立第一特征表B1及第二特征表B2,然后根据第一特征表B1可以得到第一预设时段T20内第一特征及第二特征,根据第二特征表B2可以得到第二预设时段T30内的第一特征及第二特征,可以根据不同的预设时段对用户进行画像,以使最后得到的用户画像更加精准。
进一步地,当第一特征表B1中的特征数据数量达到第一预设数量阈值时,对第一特征表B1进行清空,重新获取WIFI的特征数据并存入第一特征表B1,以实现对第一特征表B1中的特征数据进行更新。当第二特征表B2中的特征数据数量达到第二预设数量阈值时,清空第二特征表B2中的特征数据,重新获取WIFI的特征数据,并存入第二特征表B2,以实现对第二特征表B2中的特征数据进行更新。其中,第一预设数量阈值与第二预设数量阈值可以相同,也可以不相同。第一预设数量阈值与第二预设数量阈值可以是用户自定义的,也可以是根据移动终端100的存储空间设置的,在此不做限制。
在图9所示的实施例中,预定时段T11至预定时段T15均位于第一预设时段T20内,预定时段T11至预定时段T15对应的数据块K11至数据块K15,则第一特征数据块K21包括数据块K11至数据块K15,也即是根据数据块K11至数据块K15包括的特征数据建立第一特征表B1(如图10所示)。预定时段T16及预定时段T17位于第二预设时段T30内,预定时段T16对应数据块K16,预定时段T17对应数据块K17,第二特征数据块K22包括数据块K16及数据块K17,根据数据块K16及数据块K17包括的特征数据建立第二特征表B2(如图11所示)。
当然,预设时段T100还可以包括第三预设时段、第四预设时段、第五预设时段等,特征数据块K20还可以包括第三特征数据块、第四特征数据块及第五特征数据块,还可以建立第三特征表、第四特征表及第五特征表等,在此不做限制。
在某些实施方式中,第一预设时段T20为工作日时段,第二预设时段T30为休息日时段,工作日时段包括周一至周五,休息日时段包括周六和周日。具体地,第一预设时段T20和第二预设时段T30结合起来即是一周,其中,第一预设时段T20为工作日时段,工作日时段可以理解为用户需要工作的时段,休息日时段可以理解为用户休息的时段,该时段用户不需要进行工作。更具体地,工作日时段包括周一、周二、周三、周四及周五,休息日时段包括周六和周日。
由于第一预设时段T20为工作日时段,第二预设时段T30为休息日时段,则第一特征表B1根据工作日时段的特征数据建立的,第二特征表B2根据休息日时段的特征数据建立的。由此,可以将用户的工作时间和休息时间分开,可以分别获取用户工作和休息的特征数据,使构建的用户画像更加准确。
进一步地,工作日时段不限于周一至周五,也可以是周一至周日中的至少一天,例如,工作日时段可以是周三、周四、周五、周六、周日,休息日时段不限于周六和周日,休息日时段也可以是周一至周日中的至少一天,例如,休息日时段可以是周一、周二。工作日时段及休息日时段的具体形式可以根据用户的职业设置,也可以是用户自定义设置,还可以是通过神经网络或者机器学习模型智能定义,在此不做限制。
请参阅图12,在某些实施方式中,预定时段T10为周一至周日中的任意一天,预定时段T10包括多个预定子时段T1,步骤022包括以下步骤:
0221:计算相邻两个预定时段T10对应的数据块中,对应的预定子时段T1的特征数据的相似度以获取第一特征。
在某些实施方式中,第二获取单元122还用于计算相邻两个预定时段T10对应的数据块中,对应的预定子时段T1的特征数据的相似度以获取第一特征。也即是说,第二获取单元122用于实现步骤0221。
在某些实施方式中,处理器20还可以用于计算相邻两个预定时段T10对应的数据块中,对应的预定子时段T1的特征数据的相似度以获取第一特征。也即是说,处理器20还可以用于实现步骤0221。
具体地,预定时段T10可以是周一、周二、周三、周四、周五、周六、周日中的任意一天,例如,预定时段T10可以是周一,预定时段T10可以是周三、预定时段T10可以是周日。预定时段T10包括多个预定子时段T1,预定时段T10为一天,一天包括多个小时,可以依据时间将预定时段T10划分为多个预定子时段T1,预定子时段T1的数量也可以是三个、四个、五个、六个、七个等,多个预定子时段T1的时长可以是相同的,也可以是不相同的,在此不做限制。
进一步地,请结合图10及图11,在一个实施例中,预定时段T11至预定时段T17分别对应周一至周日,也即是说,预定时段T11为周一,预定时段T12为周二,预定时段T13为周三,预定时段T14为周四,预定时段T15为周五,预定时段T16为周六,预定时段T17为周日。
更具体地,在一个实施例中,预定时段T11至预定时段T17均包括四个预定子时段,四个预定子时段分别为第一预定子时段、第二预定子时段、第三预定子时段及第四预定子时段。其中,第一预定子时段为八点至十二点之间,第二子时段为十二点至十八点之间,第三预定子时段为十八点至二四十点之间,第四预定子时段为零点至八点之间。两个相邻预定时段T10即为相邻的两天,例如周一与周二、周二与周三、周三与周四、周四与周五、周六与周日。预定时段T11至预定时段T17均分别对应有一个数据块,数据块包括多个预定子时段中的特征数据。
在扫描WIFI时,根据WIFI的扫描时间将WIFI的特征数据划分至对应的预定子时段的特征数据中,例如一个WIFI的扫描时间为八点三十五分,则将此时扫描到的WIFI的特征数据存入第一预定子时段对应的特征数据中,再例如另一个WIFI的扫描时间为十六点四十分,则将该WIFI存入第二预定子时段对应的特征数据中。
进一步地,计算相邻两个预定时段T10对应的数据块中,对应的预定子时段的特征数据的相似度。每个预定时段T10包括四个预定子时段,分别计算相邻两个预定时段T10中,对应的第一预定子时段的特征数据的相似度、第二预定子时段的特征数据的相似度、第三预定子时段的特征数据的相似度及第四预定子时段的特征数据的相似度。
进一步地,每两个相邻预定时段T10可以获取到四个相似度,例如,周一至周五一共可以获取到十六个相似度,周六和周日一共可以获取四个相似度,由此,可以得到特征数据库的第一特征,通过计算相邻两个预定时段T10中对应的预定子时段之间的特征数据的相似度,可以更好地识别到用户两个相邻预定时段T10之间的变化,可以更加准确地构建用户画像。
请参阅图13,在某些实施方式中,相邻两个预定时段T10分别为第一预定时段和第二预定时段,步骤0221包括以下步骤:
2211:获取第一预定时段对应的数据块中的特征数据的第一条数值和第二预定时段对应的数据块中的特征数据的第二条数值;
2212:计算第一预定时段对应的数据块和第二预定时段对应的数据块中,具有相同特征的特征数据的第三条数值;和
2213:根据第一条数值、第二条数值和第三条数值计算特征数据的相似度。
在某些实施方式中,第二获取单元122还可以用于获取第一预定时段对应的数据块中的特征数据的第一条数值和第二预定时段对应的数据块中的特征数据的第二条数值计算第一预定时段对应的数据块和第二预定时段对应的数据块中,具有相同特征的特征数据的第三条数值;用于根据第一条数值、第二条数值和第三条数值计算特征数据的相似度。也即是说,第二获取单元122还可以用于实现步骤2211、步骤2212及步骤2213。
在某些实施方式中,处理器20还可以用于获取第一预定时段对应的数据块中的特征数据的第一条数值和第二预定时段对应的数据块中的特征数据的第二条数值;第一计算第一预定时段对应的数据块和第二预定时段对应的数据块中,具有相同特征的特征数据的第三条数值;根据第一条数值、第二条数值和第三条数值计算特征数据的相似度。也即是说,处理器20还可以用于实现步骤2211、步骤2212及步骤2213。
具体地,相邻两个预定时段T10分别为第一预定时段和第二预定时段,第一预定时段对应的数据块中特征数据的数量为第一条数值,第二预定时段对应的数据块中存在的特征数据的数量为第二条数值,其中,第一条数值可以与第二条数值相等,第一条数值可以与第二条数值不相等。第一预定时段对应的数据块中的特征数据与第二预定时段对应的数据块中的特征数据可能存在一定的差异,需要计算第一预定时段对应的数据块和第二预定时段对应的数据块中,具有相同特征的特征数据的数量,即第三条数值,然后根据第一条数值、第二条数值及第三条数值计算特征数据的相似度。
更具体地,请结合图9,以第一预定时段为预定时段T11,第二预定时段为预定时段T12为例进行说明,第一预定时段包括四个预定子时段,第二预定时段中预定子时段与第一预定时段的预定子时段相同。预定时段T11对应数据块K11,预定时段T11对应数据块K12,获取数据块K11中的特征数据的第一条数值M1,获取数据库K12中的特征数据的第二条数值M2,计算数据库K11和数据库K12中相同特征的特征数据的第三条数值M3,若M1≥M2,则特征数据的相似度β=M3/M1,若M1<M2,则特征数据的相似度β=M3/M2。
进一步地,第一预定时段中的第一预定子时段中的特征数据的条数为N1,第二预定时段中的第一预定子时段的特征数据的条数为N2,第一预定时段与第二预定时段中的第一预定子时段中的相同特征的特征数据条数为N3,若N1≥N2,则第一预定时段与第二预定时段在第一预定子时段的特征数据的相似度β1=N3/N1,若N1<N2,则第一预定时段与第二预定时段在第一预定子时段的特征数据的相似度β1=N3/N2。然后分别计算第一预定时段与第二预定时段在第二预定子时段的特征数据的相似度β2,第一预定时段与第二预定时段在第三预定子时段的特征数据的相似度β3,第一预定时段与第二预定时段在第四预定子时段的特征数据的相似度β4。最后计算每两个相邻预定时段T10对应的相似度。例如,计算相似度β1、相似度β2、相似度β3和相似度β4的平均值,得到每两个相邻预定时段T10对应的相似度,或者根据相似度β1、相似度β2、相似度β3和相似度β4对应设置的权重计算,得到每两个相邻预定时段T10对应的相似度。
进一步地,请结合图10及图11,第一预设时段为工作日时段,第二预设时段为休息日时段,第一预设时段中包括周一至周五五个预定时段T10,第二预设时段包括周六和周日两个预定时段T10,周一至周五每两个相邻的预定时段T10均计算对应预定子时段的特征数据的相似度,可以得到工作日时段对应的特征数据的相似度,计算周六和周日对应预定子时段的特征数据的相似度,可以得到休息日时段对应特征数据的相似度,由此,可以更好地构建用户工作日时段的画像和休息日时段的画像,由此,使最后构建得到的用户画像更加准确。
请参阅图14,在一个实施例中,特征数据包括WIFI的SSID和对应的BSSID,图14为第一预定时段中一个预定子时段中的第一子数据块K211,和第二预定时段中相同预定子时段的第二子数据块K212,由于WIFI的SSID容易出现相同的情况,WIFI的BSSID是唯一的,则计算特征数据的相似度时统计的是BSSID的个数,以避免出现误差。获取第一子数据块K211中BSSID的个数P1,和获取第二子数据块K212中BSSID的个数P2,以及计算第一子数据块K211和第二子数据块K212中BSSID相同的个数片3,若P1大于等于P2,则第一子数据块K211和第二子数据块K212中特征数据的相似度β=P3/P1。
请参阅图15,在某些实施方式中,特征数据包括WIFI的名称和WIFI的网际互连协议(Internet Protocol,IP)信息,步骤020还包括以下步骤:
023:根据IP信息确定WIFI所处的地理位置;和
024:根据地理位置及WIFI的名称确定第二特征。
在某些实施方式中,识别模块12还包括第一确定单元123和第二确定单元124,第一确定单元123用于根据IP信息确定WIFI所处的地理位置,第二确定单元124用于根据地理位置及WIFI的名称确定第二特征。也即是说,第一确定单元123用于实现步骤023,第二确定单元124用于实现步骤024。
在某些实施方式中,处理器20还可以用于根据IP信息确定WIFI所处的地理位置;和根据地理位置及WIFI的名称确定第二特征。也即是说,处理器20还可以用于实现步骤023和步骤024。
具体地,在步骤010中获取到了WIFI的特征数据,且形成了特征数据库。WIFI的特征数据包括了WIFI的名称和WIFI的IP信息,根据IP信息可以确定WIFI所处的地理位置,例如处于商场、写字楼等,同时WIFI的名称也包括了部分场景信息,例如WIFI名字为某某商场,即可识别场景大致为商场,再例如WIFI名字为某某公司,即可识别场景大致为公司。结合WIFI的IP信息即可确定用户在那个时刻所处的场景信息,由此可以更好地了解用户在各个时刻所处的场景,使构建的用户画像更加的准确。
当然,也可以直接根据WIFI的名称确定WIFI所处的场景信息。在一个实施例中,获取各个预定时段T10对应的数据块,特征数据包括WIFI的SSID和对应的BSSID,在数据块中将BSSID按照出现的次数由多到少依次排列,提取各个预定子时段中出现最多的BSSID,获取该BSSID对应的SSID,然后根据对应的SSID中的关键字对WIFI进行分类,以得到更加丰富的场景信息。
更具体地,根据SSID中的关键字判断用户当时所在场景,例如可以将场景分为商场、机场、学校、写字楼等四大类,由于各大商场、机场学校的命名有很多相同点,如包含“机场、airport”等字符可判断为机场,包含“学校、School、Edu”等字符可判断为学校,包含各大商圈名称、简称可判断为商场,包含“Office、公司”等字符可判断为写字楼或办公室。当然,场景不局限于商场、机场、学校、写字楼,还可以是其他。
进一步地,还可以运用一些用于分类的神经网络或机器学习的模型对WIFI进行分类,由此前期需要搜集大量的数据以使神经网络或机器学习的模型分类更加准确。通过识别WIFI的特征数据的场景信息,可以更加清楚地了解用户各个时段所处的场景,以使构建的用户画像更加准确。
请参阅图1和图16,在步骤030中,基于预设训练模型、所述第一特征和所述第二特征,构建所述用户画像。将第一特征(即,特征数据的相似度)和第二特征(即,特征数据的场景信息)作为输入端,输入预设训练模型中,预设训练模型对第一特征及第二特征进行分析,输出完整的用户画像。
在一个实施例中,请结合图16,预设训练模型的输出端的用户画像结构包括上班族S1、大学生S2、商旅人士S3、户外走动较多S4及家里待的较多S5五种用户特征,其中S1、S2、S3、S4、S5为特征所占的比重,预设训练模型每次输出为各类特征所占的比重,例如输出70%大学生、10%户外走动较多、20%商旅人士的综合特征,由此可以推测出该用户是一位喜爱旅游的大学生。例如输出80%上班族和20%家里待的较多,可以推测出该用户是一位爱宅家的上班族。当然,用户画像结构不局限于上述特征,还可以包括其他特征。
在某些实施方式中,工作日时段和休息日时段中特征数据的对应的场景类型可以相同,也可以不相同。例如,工作日时段对应的场景类型可以是写字楼、住宅、学校、机场、商场等,休息日时段对应的场景类型可以是住宅、健身房、公园、餐厅等场景,由此可以更加准确地构建用户画像。
请参阅图2和图17,本申请实施方式的一个或多个包含计算机可执行指令302的非易失性计算机可读存储介质300,当计算机可执行指令302被一个或多个处理器20执行时,使得处理器20可执行上述任一实施方式的构建方法。
例如,请结合图1和图3,当计算机可执行指令302被一个或多个处理器20执行时,使得处理器20执行以下步骤:
010:获取WIFI特征数据,形成特征数据库;
020:识别特征数据库的第一特征及第二特征,第一特征包括特征数据的相似度,第二特征包括特征数据的场景信息;及
030:基于预设训练模型、第一特征和第二特征,构建用户画像。
再例如,请结合图2和图15,当计算机可执行指令302被一个或多个处理器20执行时,处理器20还可以执行以下步骤:
023:根据IP信息确定WIFI所处的地理位置;和
024:根据地理位置及WIFI的名称确定第二特征。
在本说明书的描述中,参考术语“某些实施方式”、“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”、或“一些示例”的描述意指结合所述实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个所述特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个,除非另有明确具体的限定。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。

Claims (10)

1.一种用户画像的构建方法,其特征在于,所述构建方法包括:
获取WIFI特征数据,形成特征数据库;
识别所述特征数据库的第一特征及第二特征,所述第一特征包括所述特征数据的相似度,所述第二特征包括所述特征数据的场景信息;及
基于预设训练模型、所述第一特征和所述第二特征,构建所述用户画像。
2.根据权利要求1所述的构建方法,其特征在于,所述获取扫描到的WIFI的特征数据,以形成特征数据库,包括:
间隔预定时长获取一次所述特征数据;及
将所述特征数据按时间顺序存储到所述特征数据库,所述特征数据库为时序数据库,所述特征数据库包括多个数据块,所述数据块用于存储预定时段内的特征数据。
3.根据权利要求2所述的构建方法,其特征在于,所述识别所述特征数据库的第一特征及第二特征,包括:
根据所述特征数据库中的特征数据块的特征数据建立第一特征表和第二特征表,所述特征数据块为所述预定时段位于预设时段内的数据块;及
基于所述第一特征表及所述第二特征表,获取所述第一特征及所述第二特征。
4.根据权利要求3所述的构建方法,其特征在于,所述预设时段包括第一预设时段和第二预设时段,所述特征数据块包括第一特征数据块和第二特征数据块,所述第一特征数据块为所述预定时段位于所述第一预设时段内的数据块,所述第二特征数据块为所述预定时段位于所述第二预设时段内的数据块,所述根据所述特征数据库中的特征数据块的特征数据建立第一特征表和第二特征表,包括:
根据所述特征数据库中所述第一特征数据块的特征数据,建立所述第一特征表;及
根据所述特征数据库中所述第二特征数据块的特征数据,建立所述第二特征表。
5.根据权利要求3所述的构建方法,其特征在于,所述预定时段为周一至周日中任意一天,所述预定时段包括多个预定子时段,所述基于所述第一特征表及所述第二特征表,获取所述第一特征及所述第二特征,包括:
计算相邻两个所述预定时段对应的所述数据块中,对应的所述预定子时段的特征数据的相似度以获取所述第一特征。
6.根据权利要求5所述的构建方法,其特征在于,所述相邻两个预定时段分别为第一预定时段和第二预定时段,所述计算相邻两个所述预定时段对应的所述数据块中,对应的所述预定子时段的特征数据的相似度以获取所述第一特征,包括:
获取所述第一预定时段对应的所述数据块中的特征数据的第一条数值和所述第二预定时段对应的所述数据块中的特征数据的第二条数值;
计算所述第一预定时段对应的数据块和所述第二预定时段对应的数据块中,具有相同特征的特征数据的第三条数值;及
根据所述第一条数值、第二条数值和所述第三条数值计算所述特征数据的相似度。
7.根据权利要求1所述的构建方法,其特征在于,所述特征数据包括所述WIFI的名称和所述WIFI所在的IP信息,所述识别所述特征数据库的第一特征及第二特征,包括:
根据所述IP信息确定所述WIFI所处的地理位置;及
根据所述地理位置及所述WIFI的名称确定所述第二特征。
8.一种用户画像的构建装置,其特征在于,所述构建装置包括:
获取模块,所述获取模块用于获取已连接的WIFI的特征数据,以形成特征数据库;
识别模块,所述识别模块用于识别所述特征数据库的第一特征及第二特征,所述第一特征包括所述特征数据的相似度,所述第二特征包括所述特征数据的场景信息;
构建模块,所述构建模块用于基于预设训练模型、所述第一特征和所述第二特征,构建所述用户画像。
9.一种终端,其特征在于,所述终端包括处理器,所述处理器用于:
获取已连接的WIFI的特征数据,以形成特征数据库;
识别所述特征数据库的第一特征及第二特征,所述第一特征包括所述特征数据的相似度,所述第二特征包括所述特征数据的场景信息;及
基于预设训练模型、所述第一特征和所述第二特征,构建所述用户画像。
10.一种包含计算机可执行指令的非易失性计算机可读存储介质,当所述计算机可执行指令被一个或多个处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述的构建方法。
CN202010708838.1A 2020-07-22 2020-07-22 构建方法、构建装置、终端及可读存储介质 Pending CN111881180A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010708838.1A CN111881180A (zh) 2020-07-22 2020-07-22 构建方法、构建装置、终端及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010708838.1A CN111881180A (zh) 2020-07-22 2020-07-22 构建方法、构建装置、终端及可读存储介质

Publications (1)

Publication Number Publication Date
CN111881180A true CN111881180A (zh) 2020-11-03

Family

ID=73155937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010708838.1A Pending CN111881180A (zh) 2020-07-22 2020-07-22 构建方法、构建装置、终端及可读存储介质

Country Status (1)

Country Link
CN (1) CN111881180A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114117236A (zh) * 2021-12-07 2022-03-01 广州道然信息科技有限公司 基于智能终端的用户交互方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109660980A (zh) * 2018-09-27 2019-04-19 深圳壹账通智能科技有限公司 基于历史连接WiFi构建用户画像的方法、装置、设备及介质
CN109684539A (zh) * 2018-12-07 2019-04-26 陈包容 一种基于手机设备信息和上网信息的用户画像方法
CN110708741A (zh) * 2019-10-16 2020-01-17 浙江每日互动网络科技股份有限公司 一种目标对象信息处理方法和计算机设备
CN111050193A (zh) * 2019-11-12 2020-04-21 汉口北进出口服务有限公司 用户画像构建方法、装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109660980A (zh) * 2018-09-27 2019-04-19 深圳壹账通智能科技有限公司 基于历史连接WiFi构建用户画像的方法、装置、设备及介质
CN109684539A (zh) * 2018-12-07 2019-04-26 陈包容 一种基于手机设备信息和上网信息的用户画像方法
CN110708741A (zh) * 2019-10-16 2020-01-17 浙江每日互动网络科技股份有限公司 一种目标对象信息处理方法和计算机设备
CN111050193A (zh) * 2019-11-12 2020-04-21 汉口北进出口服务有限公司 用户画像构建方法、装置、计算机设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114117236A (zh) * 2021-12-07 2022-03-01 广州道然信息科技有限公司 基于智能终端的用户交互方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
KR102097426B1 (ko) 피셀 알고리즘을 이용하여 실시간 유동 인구 데이터의 제공이 가능한 유동인구 정보 분석 방법
US10332019B2 (en) Ranking nearby destinations based on visit likelihoods and predicting future visits to places from location history
CN109151168B (zh) 乘车码的切换方法、装置、移动终端及可读存储介质
CN106021363B (zh) 课程推荐方法和装置
RU2540824C2 (ru) Устройство агрегации информации о местоположении и способ агрегации информации о местоположении
CN104778642A (zh) 基于WiFi的校园用户数据处理方法、服务器和监测系统
US20160192156A1 (en) System and method for determining audience characteristics of a music concert based on mobile phone tracking and mobile data transmission
CN108495254B (zh) 一种基于信令数据的交通小区人口特征估计方法
CN108427679B (zh) 一种人流分布处理方法及其设备
CN105531746A (zh) 为流量分析而收集的数据的管理
EP3241367B1 (en) Method and system for real-time computing of origin-destination matrices relating to attendees at a public happening through analysis of mobile communication network data
EP3274871A1 (en) Area modeling by geographic photo label analysis
CN110955820A (zh) 一种媒体信息兴趣点推荐方法、装置、服务器及存储介质
CN115017400A (zh) 一种应用app推荐方法及电子设备
CN111148018A (zh) 基于通信数据识别定位区域价值的方法和装置
EP3241369B1 (en) Method and system for a posteriori computation of origin-destination matrices relating to gathering of people through analysis of mobile communication network data
CN112738729A (zh) 一种用手机信令数据判别探亲返乡游客的方法及系统
US20120066266A1 (en) Mesh data creation method
CN107133689B (zh) 一种位置标记方法
CN111881180A (zh) 构建方法、构建装置、终端及可读存储介质
CN110471997A (zh) 一种基于手机使用数据的个性化地点推荐方法
CN107291784B (zh) 地理围栏类别的获取方法、装置及业务设备
CN112241485A (zh) 旅游数据的管理方法、推荐方法、系统、存储介质及设备
CN112465565A (zh) 一种基于机器学习的用户画像预测的方法及装置
WO2018202272A1 (en) Cellular network management based on automatic social-data acquisition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination