CN107562924A - 基于列存储和键值存储的人群画像方法及系统 - Google Patents
基于列存储和键值存储的人群画像方法及系统 Download PDFInfo
- Publication number
- CN107562924A CN107562924A CN201710825520.XA CN201710825520A CN107562924A CN 107562924 A CN107562924 A CN 107562924A CN 201710825520 A CN201710825520 A CN 201710825520A CN 107562924 A CN107562924 A CN 107562924A
- Authority
- CN
- China
- Prior art keywords
- storage
- user
- key assignments
- key
- row
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于列存储和键值存储的人群画像方法及系统,基于列存储和键值存储的人群画像方法包含以下步骤:步骤1,采集用户数据;步骤2,将采集的用户数据以列存储的方式建立列存储数据库,并以键值存储的方式建立键值存储数据库;步骤3,根据筛选条件从列存储数据库中查找到符合筛选条件的用户主键;步骤4,根据步骤3中得到的用户主键在键值存储数据库中得到与每个用户主键相对应的所有属性;步骤5,根据步骤4中得到的所有用户的属性进行人群画像,本发明的基于列存储和键值存储的人群画像方法在进行特定人群的人群画像时速度快、响应迅速。
Description
技术领域
本发明属于信息技术技术领域,具体涉及一种基于列存储和键值存储的人群画像方法及系统。
背景技术
人群画像是为了让团队成员在产品设计的过程中能够抛开个人喜好,将焦点关注在目标用户的动机和行为上进行产品设计。简单讲就是通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,抽象模拟出的一种调查分析报告,是用户信息标签。譬如在百度指数输入产品关键词,就会得出搜索该产品消费人群的行为喜好。人群画像能够对产品运营、客户维系起到精准用户群体以及获取用户需求反馈信息作用。
目前,在针对海量的用户进行人群画像时,由于数据庞大的原因,在查找满足一定条件的用户时,耗费时间比较长,因此,进行人群画像时响应速度比较慢。
发明内容
本发明是为了解决上述问题而进行的,目的在于提供一种计算效率高、响应迅速的基于列存储和键值存储的人群画像方法及系统。
本发明提供了一种基于列存储和键值存储的人群画像方法,其特征在于,包括以下步骤:步骤1,采集用户数据;
步骤2,将采集的用户数据以列存储的方式建立列存储数据库,并以键值存储的方式建立键值存储数据库;
步骤3,根据筛选条件从列存储数据库中查找到符合筛选条件的用户主键;
步骤4,根据步骤3中得到的用户主键在键值存储数据库中得到与每个用户主键相对应的所有属性;
步骤5,根据步骤4中得到的所有用户的属性进行人群画像。
进一步,在本发明提供的基于列存储和键值存储的人群画像方法中,还可以具有这样的特征:其中,步骤1中,采集用户数据后,需要对用户数据进行以下处理:步骤1-1,对用户数据ETL;步骤1-2,对用户数据进行处理。
进一步,在本发明提供的基于列存储和键值存储的人群画像方法中,还可以具有这样的特征:其中,建立列存储数据库后,需要对列存储数据库进行压缩。
进一步,在本发明提供的基于列存储和键值存储的人群画像方法中,还可以具有这样的特征:其中,列存储数据库中的列为用户数据中用户的属性。
进一步,在本发明提供的基于列存储和键值存储的人群画像方法中,还可以具有这样的特征:其中,在键值存储数据库中,用户主键为key,用户的属性转换成的字符串为value。
进一步,在本发明提供的基于列存储和键值存储的人群画像方法中,还可以具有这样的特征:其中,定期更新列存储数据库和键值存储数据库。
进一步,在本发明提供的基于列存储和键值存储的人群画像方法中,还可以具有这样的特征:其中,步骤3中得到符合筛选条件的用户主键后需要根据抽样参数对用户主键进行抽样,得到用于进行人群画像的用户主键。
进一步,在本发明提供的基于列存储和键值存储的人群画像方法中,还可以具有这样的特征:其中,步骤4中,根据用户主键在键值存储数据库中得到与每个用户主键相对应的所有属性的方法如下:
步骤4-1,根据用户主键的数量创建线程池;
步骤4-2,在线程池中多线程执行命令,获取与每个用户主键相对应的用户的所有属性。
本发明还提供了一种基于列存储和键值存储的人群画像系统,其特征在于,包括:数据收集模块,用于收集用户数据;
列存储模块,用于将用户数据以列存储方式存储;
键值存储模块,用于将用户数据以键值存储方式存储;以及
设定模块,用于设定筛选条件;
计算模块,根据所述筛选条件在列存储模块中查找到符合条件的用户主键,然后根据得到的用户主键在键值存储模块得到与用户主键相对应的用户的属性,最后根据得到的所有用户的属性进行人群画像。
进一步,在本发明提供的基于列存储和键值存储的人群画像系统中,还可以具有这样的特征:基于列存储和键值存储的人群画像系统还包括更新模块,用于更新列存储模块和键值存储模块中的用户数据。
进一步,在本发明提供的基于列存储和键值存储的人群画像系统中,还可以具有这样的特征:所述设定模块还用于设定抽样参数,所述计算模块中还包含抽样单元,所述抽样单元根据所述抽样参数对根据所述筛选条件在列存储模块中查找到符合筛选条件的用户主键进行抽样,得到用于进行人群画像的用户主键。
本发明的优点如下:
根据本发明所涉及的基于列存储和键值存储的人群画像方法,由于将用户数据分别以列存储的方式和键值存储的方式进行存储,因此在想要得到符合一定条件的人群的人群画像时,通过筛选条件筛选用户数据时,先从列存储数据库中搜索到符合要求的用户主键,搜索速度比较快,然后根据用户主键在键值存储数据库中搜索得到符合要求的用户主键对应的属性,最后根据得到的用户属性进行人群画像,因此,本发明的基于列存储和键值存储的人群画像方法在进行特定人群的人群画像时速度快、响应迅速。
本发明所涉及的基于抽样查找和索引查找的人群画像系统,能够快速的计算出特定人群的人群画像。
附图说明
图1是本发明中基于列存储和键值存储的人群画像方法的流程图;
图2是本发明中基于列存储和键值存储的人群画像系统的结构框图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下实施例结合附图对本发明基于列存储和键值存储的人群画像方法及系统作具体阐述。
在进行描述之前,对一些专业术语进行解释:
人群画像:计算满足一定条件的人群在不同属性上的分布。
在本实施例中,如图1所示,基于列存储和键值存储的人群画像方法包含以下步骤:
步骤1,采集用户数据。
采集用户数据后,需要对用户数据进行以下处理:
步骤1-1,对用户数据ETL。即从数据源抽取出用户数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将用户数据加载到数据仓库中去。
步骤1-2,对用户数据进行处理。
步骤2,将采集的用户数据以列存储的方式建立列存储数据库,并以键值存储的方式建立键值存储数据库。
在本实施例中,在建立列存储数据库后,需要对列存储数据库进行压缩。具体的,对列存储数据库的压缩可以采用dictionary encoding,即字典编码算法进行压缩。字典编码算法的核心思想即是利用简短的编码代替列中某些重复出现的字符串,编码与被替代的字符串建立映射关系。使用字典编码算法对列存储数据库进行压缩后,能够大大缩小数据的存储空间。
键值存储数据库即key-value数据库。在键值存储数据库中,用户主键做为key,用户的属性转换成的字符串做为value。在列存储数据库中,每列为用户数据中的一个用户的属性。
在本实施例中,建立完列存储数据库和键值存储数据库后,要定期对列存储数据库和键值存储数据库进行更新。因此,当采集的用户数据一定时间产生变动时,列存储数据库和键值存储数据库能够及时进行更新。
步骤3,根据筛选条件从列存储数据库中查找到符合筛选条件的用户主键。筛选条件为用户数据中的一个属性或多个属性的组合。比如筛选条件为“20-30岁&本科”。
在列存储数据库中进行筛选时,首先应该将筛选条件转化为列存储数据库能够识别的表达式,然后用此表达式在列存储数据库中进行筛选,选出所有符合条件的用户主键。
由于在建立列存储数据库时,对列存储数据库进行了压缩,因此在设定筛选条件从列存储数据库中查找符合筛选条件的用户主键时需要相应的解压算法。
在本实施例中,针对字典编码算法进行压缩的解压算法如下:首先从字典表里面找出筛选条件对应的编码,然后用编码到列表里面进行匹配,匹配上的位置设置为“1”,未匹配的位置设置为“0”,然后把不同列的匹配结果进行位运算,不同列中同一位置处均匹配的为查询的结果。比如:以两列为例,一列的匹配情况为0、0、1、0、0、1、0,另一列的匹配情况为1、0、0、0、0、1、0,只有第6位均能匹配,因此查询结果为0、0、0、0、0、1、0。
在本实施例中,找出符合条件的用户主键后,需要对这些用户主键集合进行抽样,以减少在键值存储数据库中进行查找时的检索数量。根据实际需要,选取合适的抽样参数,根据设定的抽样参数对用户主键集合进行抽样,得到用于进行人群画像的用户主键集合。
步骤4,根据步骤3中得到的用户主键在键值存储数据库中得到与每个用户主键相对应的所有属性。
在本实施例中,在键值存储数据库中进行查找的用户主键为步骤3中得到的对符合筛选条件的用户主键进行抽样后的用于进行人群画像的用户主键。
当然,步骤3中,如果没有对符合筛选条件的用户主键进行抽样,那么在键值存储数据库中进行查找的用户主键为所有符合筛选条件的用户主键。
根据用户主键在键值存储数据库中得到相对应的用户数据的方法如下:
步骤4-1,根据用户主键的数量创建线程池。
步骤4-2,在线程池中多线程执行命令,命令为“根据用户主键获取用户的value值”,获取与每个key(即每个用户主键)相对应对的用户的value值,从而得到用于进行人群画像计算的所有用户的属性。
步骤5,根据步骤4中得到的所有用户的属性进行人群画像。
如图2所示,基于列存储和键值存储的人群画像系统100包括:数据收集模块10、列存储模块20、键值存储模块30、设定模块50、计算模块60。
数据收集模块10用于收集用户数据。
列存储模块20用于将数据收集模块10收集的用户数据以列存储方式存储。
键值存储模块30用于将数据收集模块10收集的用户数据以键值存储方式存储。
设定模块50用于设定筛选条件。
计算模块60首先根据筛选条件在列式存储模块20中查找到符合条件的用户主键,然后根据得到的用户主键在键值存储模块30得到与用户主键相对应的用户数据,最后根据得到的用户数据进行人群画像。
在本实施例中,计算模块60中还包含抽样单元61,设定模块50还用于设定抽样参数,抽样单元61根据抽样参数对根据筛选条件在列式存储模块20中查找到的符合条件的用户主键集合进行抽样,得到用于进行人群画像的用户主键集合,然后计算模块60根据抽样得到的用于进行人群画像的用户主键集合在键值存储模块30得到与用户主键相对应的用户数据。
基于列存储和键值存储的人群画像系统100还包括:更新模块40,更新模块40用于定期对列存储模块20和键值存储模块30中存储的数据进行更新。
上述实施方式为本发明的优选案例,并不用来限制本发明的保护范围。
Claims (11)
1.一种基于列存储和键值存储的人群画像方法,其特征在于,包括以下步骤:
步骤1,采集用户数据;
步骤2,将采集的用户数据以列存储的方式建立列存储数据库,并以键值存储的方式建立键值存储数据库;
步骤3,根据筛选条件从列存储数据库中查找到符合筛选条件的用户主键;
步骤4,根据步骤3中得到的用户主键在键值存储数据库中得到与每个用户主键相对应的所有属性;
步骤5,根据步骤4中得到的所有用户的属性进行人群画像。
2.根据权利要求1所述的基于列存储和键值存储的人群画像方法,其特征在于:
其中,步骤1中,采集用户数据后,需要对用户数据进行以下处理:
步骤1-1,对用户数据ETL;
步骤1-2,对用户数据进行处理。
3.根据权利要求1所述的基于列存储和键值存储的人群画像方法,其特征在于:
其中,建立列存储数据库后,需要对列存储数据库进行压缩。
4.根据权利要求1所述的基于列存储和键值存储的人群画像方法,其特征在于:
其中,列存储数据库中的列为用户数据中用户的属性。
5.根据权利要求1所述的基于列存储和键值存储的人群画像方法,其特征在于:
其中,在键值存储数据库中,用户主键为key,用户的属性转换成的字符串为value。
6.根据权利要求1所述的基于列存储和键值存储的人群画像方法,其特征在于:
其中,定期更新列存储数据库和键值存储数据库。
7.根据权利要求1所述的基于列存储和键值存储的人群画像方法,其特征在于:
其中,步骤3中得到符合筛选条件的用户主键后需要根据抽样参数对用户主键进行抽样,得到用于进行人群画像的用户主键。
8.根据权利要求1所述的基于列存储和键值存储的人群画像方法,其特征在于:
其中,步骤4中,根据用户主键在键值存储数据库中得到与每个用户主键相对应的所有属性的方法如下:
步骤4-1,根据用户主键的数量创建线程池;
步骤4-2,在线程池中多线程执行命令,获取与每个用户主键相对应的用户的所有属性。
9.一种基于列存储和键值存储的人群画像系统,其特征在于,包括:
数据收集模块,用于收集用户数据;
列存储模块,用于将用户数据以列存储方式存储;
键值存储模块,用于将用户数据以键值存储方式存储;以及
设定模块,用于设定筛选条件;
计算模块,根据所述筛选条件在列存储模块中查找到符合条件的用户主键,然后根据得到的用户主键在键值存储模块得到与用户主键相对应的用户的属性,最后根据得到的所有用户的属性进行人群画像。
10.根据权利要求9所述的基于列存储和键值存储的人群画像系统,其特征在于,还包括:
更新模块,用于更新列存储模块和键值存储模块中的用户数据。
11.根据权利要求9所述的基于列存储和键值存储的人群画像系统,其特征在于:
所述设定模块还用于设定抽样参数,所述计算模块中还包含抽样单元,所述抽样单元根据所述抽样参数对根据所述筛选条件在列存储模块中查找到符合筛选条件的用户主键进行抽样,得到用于进行人群画像的用户主键。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710825520.XA CN107562924A (zh) | 2017-09-14 | 2017-09-14 | 基于列存储和键值存储的人群画像方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710825520.XA CN107562924A (zh) | 2017-09-14 | 2017-09-14 | 基于列存储和键值存储的人群画像方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107562924A true CN107562924A (zh) | 2018-01-09 |
Family
ID=60980742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710825520.XA Pending CN107562924A (zh) | 2017-09-14 | 2017-09-14 | 基于列存储和键值存储的人群画像方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107562924A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767282A (zh) * | 2018-11-20 | 2019-05-17 | 北京五八亚太企业管理服务有限公司 | 智能化商品筛选方法及装置、电子设备 |
CN109977308A (zh) * | 2019-03-20 | 2019-07-05 | 北京字节跳动网络技术有限公司 | 用户群体画像的构建方法、装置、存储介质及电子设备 |
CN110008228A (zh) * | 2019-03-26 | 2019-07-12 | 北京字节跳动网络技术有限公司 | 用户群体数据的获取方法和装置、存储介质及电子设备 |
CN110458626A (zh) * | 2019-08-16 | 2019-11-15 | 京东数字科技控股有限公司 | 一种信息数据处理方法和装置 |
CN112612786A (zh) * | 2020-11-24 | 2021-04-06 | 北京思特奇信息技术股份有限公司 | 一种大数据量的行列转换方法及系统 |
CN116561135A (zh) * | 2023-07-10 | 2023-08-08 | 和元达信息科技有限公司 | 多特征数据交叉查询方法、设备及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104133858A (zh) * | 2014-07-15 | 2014-11-05 | 武汉邮电科学研究院 | 基于列存储的智能双引擎分析系统及方法 |
CN104866608A (zh) * | 2015-06-05 | 2015-08-26 | 中国人民大学 | 一种数据仓库中基于连接索引的查询优化方法 |
CN105930388A (zh) * | 2016-04-14 | 2016-09-07 | 中国人民大学 | 一种基于函数依赖关系的olap分组聚集方法 |
US20170024435A1 (en) * | 2015-07-22 | 2017-01-26 | Oracle International Corporation | Use Of Dynamic Dictionary Encoding With An Associated Hash Table To Support Many-To-Many Joins And Aggregations |
-
2017
- 2017-09-14 CN CN201710825520.XA patent/CN107562924A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104133858A (zh) * | 2014-07-15 | 2014-11-05 | 武汉邮电科学研究院 | 基于列存储的智能双引擎分析系统及方法 |
CN104866608A (zh) * | 2015-06-05 | 2015-08-26 | 中国人民大学 | 一种数据仓库中基于连接索引的查询优化方法 |
US20170024435A1 (en) * | 2015-07-22 | 2017-01-26 | Oracle International Corporation | Use Of Dynamic Dictionary Encoding With An Associated Hash Table To Support Many-To-Many Joins And Aggregations |
CN105930388A (zh) * | 2016-04-14 | 2016-09-07 | 中国人民大学 | 一种基于函数依赖关系的olap分组聚集方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767282A (zh) * | 2018-11-20 | 2019-05-17 | 北京五八亚太企业管理服务有限公司 | 智能化商品筛选方法及装置、电子设备 |
CN109977308A (zh) * | 2019-03-20 | 2019-07-05 | 北京字节跳动网络技术有限公司 | 用户群体画像的构建方法、装置、存储介质及电子设备 |
CN109977308B (zh) * | 2019-03-20 | 2021-07-13 | 北京字节跳动网络技术有限公司 | 用户群体画像的构建方法、装置、存储介质及电子设备 |
CN110008228A (zh) * | 2019-03-26 | 2019-07-12 | 北京字节跳动网络技术有限公司 | 用户群体数据的获取方法和装置、存储介质及电子设备 |
CN110458626A (zh) * | 2019-08-16 | 2019-11-15 | 京东数字科技控股有限公司 | 一种信息数据处理方法和装置 |
CN112612786A (zh) * | 2020-11-24 | 2021-04-06 | 北京思特奇信息技术股份有限公司 | 一种大数据量的行列转换方法及系统 |
CN116561135A (zh) * | 2023-07-10 | 2023-08-08 | 和元达信息科技有限公司 | 多特征数据交叉查询方法、设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107562924A (zh) | 基于列存储和键值存储的人群画像方法及系统 | |
US8938475B2 (en) | Managing business objects data sources | |
US8560531B2 (en) | Search tool that utilizes scientific metadata matched against user-entered parameters | |
CN104285222B (zh) | 用于重写查询的方法和系统 | |
CN106383836B (zh) | 将可操作属性归于描述个人身份的数据 | |
US20130166573A1 (en) | Managing Business Objects Data Sources | |
CN105809473B (zh) | 匹配模型参数的训练方法、服务推荐方法及对应装置 | |
CN111274267A (zh) | 一种数据库查询方法、装置及计算机可读取存储介质 | |
KR20100113423A (ko) | 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치 | |
WO2018090468A1 (zh) | 视频节目的搜索方法和装置 | |
CN106250545A (zh) | 一种基于用户搜索内容的多媒体推荐方法及系统 | |
CN113254630B (zh) | 一种面向全球综合观测成果的领域知识图谱推荐方法 | |
CN113407729B (zh) | 一种面向司法的个性化案例推荐方法及系统 | |
CN109408578A (zh) | 一种针对异构环境监测数据融合方法 | |
CN113239159B (zh) | 基于关系推理网络的视频和文本的跨模态检索方法 | |
Zhou et al. | Relevance feature mapping for content-based multimedia information retrieval | |
Chen et al. | Big data analysis | |
JP5844824B2 (ja) | Sparqlクエリ最適化方法 | |
CN105608118B (zh) | 基于用户交互信息的结果推送方法 | |
CN112001539B (zh) | 一种高精度的客运预测方法及客运预测系统 | |
US10521455B2 (en) | System and method for a neural metadata framework | |
CN112800083A (zh) | 一种面向政府决策的政务大数据分析方法及设备 | |
JP2013029891A (ja) | 抽出プログラム、抽出方法及び抽出装置 | |
KR101592670B1 (ko) | 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법 | |
Du et al. | Integrating KNN and Gradient Boosting Decision Tree for Recommendation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180109 |