CN107480271A - 基于抽样查找和索引查找的人群画像方法及系统 - Google Patents

基于抽样查找和索引查找的人群画像方法及系统 Download PDF

Info

Publication number
CN107480271A
CN107480271A CN201710711123.XA CN201710711123A CN107480271A CN 107480271 A CN107480271 A CN 107480271A CN 201710711123 A CN201710711123 A CN 201710711123A CN 107480271 A CN107480271 A CN 107480271A
Authority
CN
China
Prior art keywords
data
crowd
crowd portrayal
sampling
full dose
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710711123.XA
Other languages
English (en)
Other versions
CN107480271B (zh
Inventor
汤奇峰
宁绍军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZAMPLUS ADVERTISING (SHANGHAI) CO Ltd
Original Assignee
ZAMPLUS ADVERTISING (SHANGHAI) CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZAMPLUS ADVERTISING (SHANGHAI) CO Ltd filed Critical ZAMPLUS ADVERTISING (SHANGHAI) CO Ltd
Priority to CN201710711123.XA priority Critical patent/CN107480271B/zh
Publication of CN107480271A publication Critical patent/CN107480271A/zh
Application granted granted Critical
Publication of CN107480271B publication Critical patent/CN107480271B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于抽样查找和索引查找的人群画像方法及系统,该方法首先设定人群画像条件,并对全量数据建立索引,然后进行抽样查找,计算抽样查找计算的误差率,并对误差率进行判断,当误差率小于等于最大允许误差时,抽样数据为计算人群画像的输入数据,当误差率大于最大允许误差时,采用索引查找计算的方法得到用户数据的唯一标识符,然后得到这些标识符对应的个体画像,将个体画像作为计算人群画像的输入数据,因此,本发明在计算人群画像时误差小,并且在用户记录条数上亿级别的情况下,具有秒级响应能力。

Description

基于抽样查找和索引查找的人群画像方法及系统
技术领域
本发明属于信息技术技术领域,具体涉及一种基于抽样查找和索引查找的人群画像方法及系统。
背景技术
人群画像是为了让团队成员在产品设计的过程中能够抛开个人喜好,将焦点关注在目标用户的动机和行为上进行产品设计。简单讲就是通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,抽象模拟出的一种调查分析报告,是用户信息标签。譬如在百度指数输入产品关键词,就会得出搜索该产品消费人群的行为喜好。人群画像能够对产品运营、客户维系起到精准用户群体以及获取用户需求反馈信息作用。
在数据收集时,通常是将海量的用户记录进行抽样,然后对抽样数据进行人群画像计算。但是抽样计算产生的结果产生的误差率有时会大于最大允许误差,即抽样计算结果产生的误差大于业务可以接受的值,不能满足业务需求。因此,需要找到一种合理的人群画像方法使得计算结果的误差率不超过允许误差,并且计算时相应迅速。
发明内容
本发明是为了解决上述问题而进行的,目的在于提供一种在用户记录条数上亿级别的情况下,响应迅速且误差小的基于抽样查找和索引查找的人群画像方法及系统。
本发明提供了一种基于抽样查找和索引查找的人群画像方法,其特征在于,包括以下步骤:步骤1,设定人群画像条件,并对全量数据建立索引;
步骤2,对全量数据进行抽样,产生抽样数据;
步骤3,根据所述人群画像条件对所述抽样数据进行人群规划计算,并计算人群规划计算结果的误差率;
步骤4,将人群规划计算结果的误差率与设定的最大允许误差进行比较,如果误差率小于等于最大允许误差,则将抽样数据作为人群画像的输入数据,执行步骤7,如果误差率大于最大允许误差,则执行步骤5;
步骤5,在全量数据中通过索引查找满足所述人群画像条件的受众的唯一标识符;
步骤6,根据查找到的受众的唯一标识符得到每个受众对应的个体画像,将个体画像作为人群画像的输入数据;
步骤7,根据人群画像的输入数据计算目标人群的人群画像。
进一步,在本发明提供的基于抽样查找和索引查找的人群画像方法中,还可以具有这样的特征:其中,定期对所述全量数据进行更新,根据更新的全量数据更新抽样数据,并对更新的全量数据的索引进行更新。
进一步,在本发明提供的基于抽样查找和索引查找的人群画像方法中,还可以具有这样的特征:其中,人群规划计算结果的误差率采用以下方法得到:
d为误差率,m为从抽样数据中抽取的满足人群画像条件的样本数据,s为全量数据。
进一步,在本发明提供的基于抽样查找和索引查找的人群画像方法中,还可以具有这样的特征:其中,每个受众的唯一标识符采用murmur哈希算法对整条记录进行哈希计算得到。
进一步,在本发明提供的基于抽样查找和索引查找的人群画像方法中,还可以具有这样的特征:其中,对全量数据建立索引时,采用混合索引方式。
进一步,在本发明提供的基于抽样查找和索引查找的人群画像方法中,还可以具有这样的特征:其中,混合索引为:b-tree索引加range索引。
进一步,在本发明提供的基于抽样查找和索引查找的人群画像方法中,还可以具有这样的特征:其中,混合索引的具体建立方法如下:
对全量数据建立b-tree索引;
在b-tree索引的基础上建立range索引。
进一步,在本发明提供的基于抽样查找和索引查找的人群画像方法中,还可以具有这样的特征:其中,在b-tree索引的基础上建立range索引的建立方法如下:
计算受众的每个纬度的uv分布,每个纬度创建一个索引条目;
判断索引条目的uv数量与最小阈值和最大阈值的大小;
如果索引条目的uv数量小于最小阈值,则合并该索引条目相邻的索引条目,并判断合并后的索引条目的uv数量与最小阈值和最大阈值的大小;
如果索引条目的uv数量大于最小阈值且小于最大阈值,则创建该索引条目;
如果索引条目的uv数量大于最大阈值,则将该纬度条件与其它纬度条件合并,降低该索引条目的uv数量,使其uv数量大于最小阈值且小于最大阈值。
本发明还提供了一种基于抽样查找和索引查找的人群画像系统,其特征在于,包括:设定模块,用与设定人群画像条件;
索引创建模块,用于对全量数据建立索引;
抽样查找计算模块,用于对全量数据进行抽样查找计算得到抽样计算的误差率;
判断模块,用于判断抽样计算的误差率与最大允许误差的大小,并根据判断的结果确定是否进行索引查找计算;
索引查找计算模块,用于对全量数据进行索引查找计算,得到满足人群画像条件的受众的个体画像;
计算模块,根据抽样数据或个体画像计算人群画像。
进一步,在本发明提供的基于抽样查找和索引查找的人群画像系统中,还可以具有这样的特征:基于抽样查找和索引查找的人群画像系统还包括数据更新模块,用于定期更新用户数据得到新的全量数据。
本发明的优点如下:
根据本发明所涉及的基于抽样查找和索引查找的人群画像方法,由于对抽样查找计算的误差率进行判断,当误差率小于等于最大允许误差时,抽样数据为计算人群画像的输入数据,当误差率大于最大允许误差时,采用索引查找计算的方法得到用户数据的唯一标识符,然后得到这些标识符对应的个体画像,将个体画像作为计算人群画像的输入数据,因此,本发明的基于抽样查找和索引查找的人群画像方法在计算人群画像时误差小,并且在用户记录条数上亿级别的情况下,具有秒级响应能力。
本发明所涉及的基于抽样查找和索引查找的人群画像系统,在计算人群画像时误差小,并且在用户记录条数上亿级别的情况下,具有秒级响应能力。
附图说明
图1是本发明中基于抽样查找和索引查找的人群画像方法的流程图;图2是本发明中基于抽样查找和索引查找的人群画像系统的结构图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下实施例结合附图对本发明基于抽样查找和索引查找的人群画像方法及系统作具体阐述。
在进行描述之前,对一些专业术语进行解释:
人群规划:计算满足一定条件的人群的独立访客总数。
人群画像:计算满足一定条件的人群在不同维度上面的独立访客数。
最大允许误差:在满足满足业务需求时允许产生的最大误差。
uv:独立访客。
受众:全量数据中所有的用户数据。
在本实施例中,如图1所示,基于抽样查找和索引查找的人群画像方法包含以下步骤:
步骤1,设定人群画像条件,并对全量数据建立索引。
对全量数据建立索引时,采用混合索引方式。在本实施例中采用b-tree索引加range索引对全量数据建立索引。采用b-tree索引加range索引对全量数据建立索引的方法如下:
首先,对全量数据建立b-tree索引。
然后,在b-tree索引的基础上建立range索引。目的是减少索引条目,加快索引查找时的速度。具体建立方法如下:
遍历全量数据的所有用户数据。计算受众的每个纬度的uv分布,每个纬度创建一个索引条目。其中,每个纬度指b-tree索引中的叶子节点。索引条目指纬度的属性。
判断索引条目的uv数量与最小阈值和最大阈值的大小。
如果索引条目的uv数量小于最小阈值,则合并该索引条目相邻的索引条目,并判断合并后的索引条目的uv数量与最小阈值和最大阈值的大小。
如果索引条目的uv数量大于最小阈值且小于最大阈值,则创建该索引条目。
如果索引条目的uv数量大于最大阈值,则将该纬度条件与其它纬度条件合并,降低该索引条目的uv数量,使其uv数量大于最小阈值且小于最大阈值。
步骤2,对全量数据进行抽样,产生抽样数据。
步骤3,根据人群画像条件对抽样数据进行人群规划计算,并计算人群规划计算结果的误差率。
人群规划计算结果的误差率采用以下方法得到:
其中,d为误差率,m为从抽样数据中抽取的满足人群画像条件的样本数据,s为全量数据。
例如,全量数据中一共有10亿条用户数据,抽样数据为1000万,根据人群画像条件筛选后的样本数据为1万,那么人群规划计算后的误差率为:
步骤4,将人群规划计算结果的误差率与设定的最大允许误差进行比较,如果误差率小于等于最大允许误差,则将抽样数据作为人群画像的输入数据,进入步骤7,如果误差率大于最大允许误差,则进入步骤5。
步骤5,在全量数据中通过索引查找满足人群画像条件的受众的唯一标识符。
在本实施例中,每个受众的唯一标识符采用murmur哈希算法对整条记录进行哈希计算得到。
步骤6,根据查找到的受众的唯一标识符得到每个受众对应的个体画像,将个体画像作为人群画像的输入数据。
步骤7,根据人群画像的输入数据计算目标人群的人群画像。
在本实施例中,需要定期对用户数据进行更新,产生新的全量数据,并对新的全量数据进行抽样,产生新的抽样数据,并对新的全量数据的索引进行更新。
基于抽样查找和索引查找的人群画像系统100包括:设定模块10、索引创建模块20、抽样查找计算模块30、判断模块40、索引查找计算模块50和计算模块60。
设定模块10用与设定人群画像条件。
索引创建模块20用于对全量数据建立索引。
抽样查找计算模块30用于对全量数据200进行抽样查找计算得到抽样计算的误差率。
判断模块40用于判断抽样计算的误差率与最大允许误差的大小,并根据判断的结果确定是否进行索引查找计算。
索引查找计算模块50用于对全量数据进行索引查找计算,得到满足人群画像条件的受众的个体画像。
计算模块60根据抽样数据或个体画像计算人群画像。
在本实施例中,基于抽样查找和索引查找的人群画像系统还包含数据更新模块70,数据更新模块70用于定期更新用户数据得到新的全量数据200。
上述实施方式为本发明的优选案例,并不用来限制本发明的保护范围。

Claims (10)

1.一种基于抽样查找和索引查找的人群画像方法,其特征在于,包括以下步骤:
步骤1,设定人群画像条件,并对全量数据建立索引;
步骤2,对全量数据进行抽样,产生抽样数据;
步骤3,根据所述人群画像条件对所述抽样数据进行人群规划计算,并计算人群规划计算结果的误差率;
步骤4,将人群规划计算结果的误差率与设定的最大允许误差进行比较,如果误差率小于等于最大允许误差,则将抽样数据作为人群画像的输入数据,执行步骤7,如果误差率大于最大允许误差,则执行步骤5;
步骤5,在全量数据中通过索引查找满足所述人群画像条件的受众的唯一标识符;
步骤6,根据查找到的受众的唯一标识符得到每个受众对应的个体画像,将个体画像作为人群画像的输入数据;
步骤7,根据人群画像的输入数据计算目标人群的人群画像。
2.根据权利要求1所述的基于抽样查找和索引查找的人群画像方法,其特征在于:
其中,定期对所述全量数据进行更新,根据更新的全量数据更新抽样数据,并对更新的全量数据的索引进行更新。
3.根据权利要求1所述的基于抽样查找和索引查找的人群画像方法,其特征在于:
其中,所述人群规划计算结果的误差率采用以下方法得到:
<mrow> <mi>d</mi> <mo>=</mo> <mfrac> <mi>m</mi> <mi>s</mi> </mfrac> <mo>&amp;times;</mo> <mn>100</mn> <mi>%</mi> </mrow>
d为误差率,m为从抽样数据中抽取的满足人群画像条件的样本数据,s为全量数据。
4.根据权利要求1所述的基于抽样查找和索引查找的人群画像方法,其特征在于:
其中,每个受众的唯一标识符采用murmur哈希算法对整条记录进行哈希计算得到。
5.根据权利要求1所述的基于抽样查找和索引查找的人群画像方法,其特征在于:
其中,对全量数据建立索引时,采用混合索引方式。
6.根据权利要求5所述的基于抽样查找和索引查找的人群画像方法,其特征在于:
其中,所述混合索引为:b-tree索引加range索引。
7.根据权利要求6所述的基于抽样查找和索引查找的人群画像方法,其特征在于:
其中,所述混合索引的具体建立方法如下:
对全量数据建立b-tree索引;
在b-tree索引的基础上建立range索引。
8.根据权利要求7所述的基于抽样查找和索引查找的人群画像方法,其特征在于:
在b-tree索引的基础上建立range索引的建立方法如下:
计算受众的每个纬度的uv分布,每个纬度创建一个索引条目;
判断索引条目的uv数量与最小阈值和最大阈值的大小;
如果索引条目的uv数量小于最小阈值,则合并该索引条目相邻的索引条目,并判断合并后的索引条目的uv数量与最小阈值和最大阈值的大小;
如果索引条目的uv数量大于最小阈值且小于最大阈值,则创建该索引条目;
如果索引条目的uv数量大于最大阈值,则将该纬度条件与其它纬度条件合并,降低该索引条目的uv数量,使其uv数量大于最小阈值且小于最大阈值。
9.一种基于抽样查找和索引查找的人群画像系统,其特征在于,包括:
设定模块,用与设定人群画像条件;
索引创建模块,用于对全量数据建立索引;
抽样查找计算模块,用于对全量数据进行抽样查找计算得到抽样计算的误差率;
判断模块,用于判断抽样计算的误差率与最大允许误差的大小,并根据判断的结果确定是否进行索引查找计算;
索引查找计算模块,用于对全量数据进行索引查找计算,得到满足人群画像条件的受众的个体画像;
计算模块,根据抽样数据或个体画像计算人群画像。
10.根据权利要求9所述的基于抽样查找和索引查找的人群画像系统,其特征在于,还包括:
数据更新模块,用于定期更新用户数据得到新的全量数据。
CN201710711123.XA 2017-08-18 2017-08-18 基于抽样查找和索引查找的人群画像方法及系统 Active CN107480271B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710711123.XA CN107480271B (zh) 2017-08-18 2017-08-18 基于抽样查找和索引查找的人群画像方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710711123.XA CN107480271B (zh) 2017-08-18 2017-08-18 基于抽样查找和索引查找的人群画像方法及系统

Publications (2)

Publication Number Publication Date
CN107480271A true CN107480271A (zh) 2017-12-15
CN107480271B CN107480271B (zh) 2020-09-18

Family

ID=60601563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710711123.XA Active CN107480271B (zh) 2017-08-18 2017-08-18 基于抽样查找和索引查找的人群画像方法及系统

Country Status (1)

Country Link
CN (1) CN107480271B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111223235A (zh) * 2019-12-27 2020-06-02 合肥美的智能科技有限公司 无人柜机的商品投放方法、无人柜机及其控制装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5978799A (en) * 1997-01-30 1999-11-02 Hirsch; G. Scott Search engine including query database, user profile database, information templates and email facility
CN104750731A (zh) * 2013-12-30 2015-07-01 华为技术有限公司 一种获取完整用户画像的方法及装置
CN105426395A (zh) * 2015-10-28 2016-03-23 上汽通用汽车有限公司 一种受众画像生成方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5978799A (en) * 1997-01-30 1999-11-02 Hirsch; G. Scott Search engine including query database, user profile database, information templates and email facility
CN104750731A (zh) * 2013-12-30 2015-07-01 华为技术有限公司 一种获取完整用户画像的方法及装置
CN105426395A (zh) * 2015-10-28 2016-03-23 上汽通用汽车有限公司 一种受众画像生成方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111223235A (zh) * 2019-12-27 2020-06-02 合肥美的智能科技有限公司 无人柜机的商品投放方法、无人柜机及其控制装置

Also Published As

Publication number Publication date
CN107480271B (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
US11580104B2 (en) Method, apparatus, device, and storage medium for intention recommendation
CN107391687B (zh) 一种面向地方志网站的混合推荐系统
CN104935963B (zh) 一种基于时序数据挖掘的视频推荐方法
CN109299090B (zh) 基金中心度计算方法、系统、计算机设备和存储介质
Chen et al. General functional matrix factorization using gradient boosting
Lee et al. When twitter meets foursquare: tweet location prediction using foursquare
CN106484764A (zh) 基于人群画像技术的用户相似度计算方法
US20110208715A1 (en) Automatically mining intents of a group of queries
CN104361102A (zh) 一种基于群组匹配的专家推荐方法及系统
CN110532480B (zh) 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN106294859A (zh) 一种基于属性耦合矩阵分解的项目推荐方法
CN103823900A (zh) 信息点重要性确定方法和装置
CN113407729B (zh) 一种面向司法的个性化案例推荐方法及系统
CN105678590A (zh) 一种面向社交网络基于云模型的topN推荐方法
CN103164537B (zh) 一种面向用户信息需求的搜索引擎日志数据挖掘的方法
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN116049379A (zh) 知识推荐方法、装置、电子设备和存储介质
Chen et al. Trajectory pattern mining: Exploring semantic and time information
KR101910424B1 (ko) 태그의 감성 분석을 이용한 영화 평점 예측 방법, 이를 수행하기 위한 기록 매체 및 장치
CN103646035A (zh) 一种基于启发式方法的信息搜索方法
Zhou et al. Identifying trip ends from raw GPS data with a hybrid spatio-temporal clustering algorithm and random forest model: a case study in Shanghai
Afyouni et al. E-ware: a big data system for the incremental discovery of spatio-temporal events from microblogs
CN107480271A (zh) 基于抽样查找和索引查找的人群画像方法及系统
Xiaolu Design of travel route recommendation system based on fast Spark artificial intelligence architecture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant