CN110457590A - 基于小数据输入的智能用户画像方法 - Google Patents
基于小数据输入的智能用户画像方法 Download PDFInfo
- Publication number
- CN110457590A CN110457590A CN201910554801.5A CN201910554801A CN110457590A CN 110457590 A CN110457590 A CN 110457590A CN 201910554801 A CN201910554801 A CN 201910554801A CN 110457590 A CN110457590 A CN 110457590A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- portrait
- information
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种基于小数据输入的智能用户画像方法,其中,包括:创建用户基本信息模型、行为纬度模型,输入用户对应数据,生成基本信息行为数据;对基本信息行为数据进行深度学习,获取用户行为高阶信息数据;通过前馈神经网络将用户行为高阶信息数据映射到隐性内驱力模型中,获取隐性内驱力数据;创建用户跨领域行为模型数据;将隐性内驱力数据与用户跨领域行为模型数据匹配,生成用户画像。本发明在完成前期的数据收集处理后,将隐性内驱力数据与用户跨领域行为模型数据匹配,生成用户画像。采用了隐性内驱力(BFI)技术,大大减弱了对数据的依赖量,支持小数据冷启动;输出维度丰富,支持跨领域预测;削弱了马太效应。
Description
技术领域
本发明涉及一种用户画像方法,尤其涉及一种基于小数据输入的智能用户画像方法。
背景技术
现有技术中的用户画像技术,是一种通过挖掘用户的行为数据给用户打上标签的技术,在兴趣挖掘、广告推荐、异常检测等方面有着诸多应用。
传统的用户画像技术主要基于协同过滤算法,该算法的训练过程中需要用到大量的、多维度的行为数据,当用户行为数据稀疏或者维度稀少时,对用户画像的描述准确性较差,不仅会影响商用,同时会带来诸多的误导。
另外传统的用户画像技术具有很强的马太效应,对长尾挖掘性能很低。因此,支持小数据冷启动、具有跨领域预测一直是用户画像领域的难点和关键点。
中国专利公开号CN107330271A公开了一种基于云端大数据物联网和智能画像技术的医疗体检方法及其装置,该方案包括体检一体机,体检一体机包括体检软件和信息采集设备;体检软件包括信息接收模块,云端数据同步模块,数据分析模块、智能画像模块和诊疗建议反馈模块;信息接收模块,用于接收信息采集设备所采集的体检信息;云端数据同步模块,用于将采集到的体检信息同步到云端;数据分析模块,用于对采集到的体检信息进行大数据分析;智能画像模块,用于通过智能画像技术得到诊疗建议;诊疗建议反馈模块,用于将诊疗建议反馈给体检者;信息采集设备,包括医疗设备和读卡器。其公开的技术方案结合了物联网、大数据、智能画像技术,可以给予体检者专业的诊疗建议,但是,其采集体检人员的各种信息用到了大量的用户数据来构建用户画像,无法解决小数据冷启动问题。
鉴于上述问题,本发明致力于提供一种可以有效解决小数据冷启动的问题,并且实现跨领域推荐应用的基于小数据的用户画像方法。
发明内容
本发明的上述目的是通过以下技术方案实现的:
一种基于小数据输入的智能用户画像方法,其中,包括:
创建用户基本信息模型、行为纬度模型,输入用户对应数据,生成基本信息行为数据;
对基本信息行为数据进行深度学习,获取用户行为高阶信息数据;
通过前馈神经网络将用户行为高阶信息数据映射到隐性内驱力模型中,获取隐性内驱力数据;
创建用户跨领域行为模型数据;
将隐性内驱力数据与用户跨领域行为模型数据匹配,生成用户画像。
如上所述的基于小数据输入的智能用户画像方法,其中,基本信息模型包括:人口统计学信息、征信信息、税务信息。
如上所述的基于小数据输入的智能用户画像方法,其中,行为纬度模型包括:经济行为、网络行为、个人爱好、购物记录。
如上所述的基于小数据输入的智能用户画像方法,其中,将用户对应数据入数据库得出基本信息行为数据。
如上所述的基于小数据输入的智能用户画像方法,其中,将基本信息行为数据导入python中利用深度学习框架Keras搭建自编码神经网络获取高阶信息数据,高阶信息数据包括静态数据和动态数据。
如上所述的基于小数据输入的智能用户画像方法,其中,在python中利用Tensorflow搭建前馈神经网络,将提取出来的静态特征和动态特征映射到隐性内驱力,并存入数据库。
如上所述的基于小数据输入的智能用户画像方法,其中,隐性内驱力包括想象力、责任心、活跃性、利他性、神经质这5个维度。
如上所述的基于小数据输入的智能用户画像方法,其中,创建用户跨领域行为模型数据包括:将数据映射到隐性内驱力,将不同来源的稀疏数据整合。
如上所述的基于小数据输入的智能用户画像方法,其中,数据匹配包括:利用Wasserstein度量将隐性内驱力数据与用户跨领域行为模型数据匹配。
如上所述的基于小数据输入的智能用户画像方法,其中,跨领域行为模型数据包括:音乐偏好、消费偏好、理财偏好、价值观。
综上所述,由于采用了上述技术方案,本发明在完成前期的数据收集处理后,将隐性内驱力数据与用户跨领域行为模型数据匹配,生成用户画像。采用了隐性内驱力(BFI)技术,大大减弱了对数据的依赖量,支持小数据冷启动;输出维度丰富,支持跨领域预测;削弱了马太效应。本发明通过引入人格内核和深度学习相融合的方式,可以有效解决小数据冷启动的问题,实现跨领域推荐。特别针对电商、券商、品牌商等商户当只有用户少量信息时也可以进行有效用户画像的构建。
具体实施方式
下面对本发明做进一步描述:
本发明公开了一种基于小数据输入的智能用户画像方法,其中,包括:
创建用户基本信息模型、行为纬度模型,输入用户对应数据,生成基本信息行为数据;
对基本信息行为数据进行深度学习,获取用户行为高阶信息数据;
通过前馈神经网络将用户行为高阶信息数据映射到隐性内驱力模型中,获取隐性内驱力数据;
创建用户跨领域行为模型数据;
将隐性内驱力数据与用户跨领域行为模型数据匹配,生成用户画像。
具体的,将用户基本信息输入用户基本信息模型,将用户行为数据输入行为纬度模型。
进一步的,基本信息模型包括:人口统计学信息、征信信息、税务信息。基本信息还可以包括其它官方披露信息。
具体的,人口统计学信息包括:性别、年龄、地区等。
进一步的,行为纬度模型包括:经济行为、网络行为、个人爱好、购物记录。
进一步的,将对用户对应数据输入数据库得出基本信息行为数据。本发明的数据库为Hive数据库,基本信息行为数据是通过输入Hive数据库中而得到的。
具体的,将输入的用户基本信息、用户行为数据
进一步的,将基本信息行为数据导入python中利用深度学习框架Keras搭建自编码神经网络获取高阶信息数据,高阶信息数据包括静态数据和动态数据。利用这种方法提取的静态和动态特征是用户行为的高阶信息,有利于降低数据维度并且更好的利用数据。
进一步的,在python中利用Tensorflow搭建前馈神经网络,将提取出来的静态特征和动态特征映射到隐性内驱力,并存入数据库。这里的数据库同样是Hive数据库。
进一步的,隐性内驱力包括想象力、责任心、活跃性、利他性、神经质这5个维度。
进一步的,创建用户跨领域行为模型数据包括:将数据映射到隐性内驱力,将不同来源的稀疏数据整合。并且,通过以上的操作,完成了数据的降维,同时加深了对数据的理解,可以有效实现小数据冷启动和跨领域预测。
进一步的,数据匹配包括:利用Wasserstein度量将隐性内驱力数据与用户跨领域行为模型数据匹配。这样就给出了从输入特征到输出特征的方法,该方法主要通过公共内核(BFI)结合深度学习方法有效利用用户的稀疏小数据,完成用户画像。
Wasserstein度量的计算公式如下:
进一步的,跨领域行为模型数据包括:音乐偏好、消费偏好、理财偏好、价值观。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员或是一般模型爱好者可以无需创造性劳动或者通过软件编程就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员或是一般模型爱好者依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种基于小数据输入的智能用户画像方法,其特征在于,包括:
创建用户基本信息模型、维度模型,生成基本信息行为数据;
对基本信息行为数据进行深度学习,获取用户行为高阶信息数据;
通过前馈神经网络将用户行为高阶信息数据映射到隐性内驱力模型中,获取隐性内驱力数据;
创建用户跨领域行为模型数据;
将隐性内驱力数据与用户跨领域行为模型数据匹配,生成用户画像。
2.根据权利要求1所述的基于小数据输入的智能用户画像方法,其特征在于,基本信息模型包括:人口统计学信息、征信信息、税务信息。
3.根据权利要求1所述的基于小数据输入的智能用户画像方法,其特征在于,维度模型包括:经济行为、网络行为、个人爱好、购物记录。
4.根据权利要求1所述的基于小数据输入的智能用户画像方法,其特征在于,将基本信息模型、维度模型输入数据库得出基本信息行为数据。
5.根据权利要求1所述的基于小数据输入的智能用户画像方法,其特征在于,将基本信息行为数据导入python中利用深度学习框架Keras搭建自编码神经网络获取高阶信息数据,高阶信息数据包括静态数据和动态数据。
6.根据权利要求1所述的基于小数据输入的智能用户画像方法,其特征在于,在python中利用Tensorflow搭建前馈神经网络,将提取出来的静态特征和动态特征映射到隐性内驱力,并存入数据库。
7.根据权利要求1所述的基于小数据输入的智能用户画像方法,其特征在于,隐性内驱力包括想象力、责任心、活跃性、利他性、神经质这5个维度。
8.根据权利要求1所述的基于小数据输入的智能用户画像方法,其特征在于,创建用户跨领域行为模型数据包括:将数据映射到隐性内驱力,将不同来源的稀疏数据整合。
9.根据权利要求1所述的基于小数据输入的智能用户画像方法,其特征在于,数据匹配包括:利用Wasserstein度量将隐性内驱力数据与用户跨领域行为模型数据匹配。
10.根据权利要求1所述的基于小数据输入的智能用户画像方法,其特征在于,跨领域行为模型数据包括:音乐偏好、消费偏好、理财偏好、价值观。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910554801.5A CN110457590B (zh) | 2019-06-25 | 2019-06-25 | 基于小数据输入的智能用户画像方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910554801.5A CN110457590B (zh) | 2019-06-25 | 2019-06-25 | 基于小数据输入的智能用户画像方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110457590A true CN110457590A (zh) | 2019-11-15 |
CN110457590B CN110457590B (zh) | 2021-08-27 |
Family
ID=68480873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910554801.5A Active CN110457590B (zh) | 2019-06-25 | 2019-06-25 | 基于小数据输入的智能用户画像方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110457590B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114731284A (zh) * | 2019-11-17 | 2022-07-08 | 微软技术许可有限责任公司 | 协同过滤异常检测可解释性 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136330A (zh) * | 2013-01-04 | 2013-06-05 | 武汉大学 | 基于微博平台的用户可信度评估方法 |
CN105975472A (zh) * | 2015-12-09 | 2016-09-28 | 乐视网信息技术(北京)股份有限公司 | 一种推荐方法和装置 |
CN107357793A (zh) * | 2016-05-10 | 2017-11-17 | 腾讯科技(深圳)有限公司 | 信息推荐方法和装置 |
CN107895303A (zh) * | 2017-11-15 | 2018-04-10 | 电子科技大学 | 一种基于ocean模型的个性化推荐的方法 |
CN108399575A (zh) * | 2018-01-24 | 2018-08-14 | 大连理工大学 | 一种基于社交媒体文本的大五人格预测方法 |
CN108460100A (zh) * | 2018-02-02 | 2018-08-28 | 方欣科技有限公司 | 一种用户画像构建方法及装置 |
CN109377347A (zh) * | 2018-09-27 | 2019-02-22 | 深圳先进技术研究院 | 基于特征选择的网络信用预警方法、系统及电子设备 |
CN109783460A (zh) * | 2019-01-30 | 2019-05-21 | 北京信息科技大学 | 基于网络日志的用户行为刻画与预测方法及系统 |
US10409915B2 (en) * | 2017-11-30 | 2019-09-10 | Ayzenberg Group, Inc. | Determining personality profiles based on online social speech |
-
2019
- 2019-06-25 CN CN201910554801.5A patent/CN110457590B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136330A (zh) * | 2013-01-04 | 2013-06-05 | 武汉大学 | 基于微博平台的用户可信度评估方法 |
CN105975472A (zh) * | 2015-12-09 | 2016-09-28 | 乐视网信息技术(北京)股份有限公司 | 一种推荐方法和装置 |
CN107357793A (zh) * | 2016-05-10 | 2017-11-17 | 腾讯科技(深圳)有限公司 | 信息推荐方法和装置 |
CN107895303A (zh) * | 2017-11-15 | 2018-04-10 | 电子科技大学 | 一种基于ocean模型的个性化推荐的方法 |
US10409915B2 (en) * | 2017-11-30 | 2019-09-10 | Ayzenberg Group, Inc. | Determining personality profiles based on online social speech |
CN108399575A (zh) * | 2018-01-24 | 2018-08-14 | 大连理工大学 | 一种基于社交媒体文本的大五人格预测方法 |
CN108460100A (zh) * | 2018-02-02 | 2018-08-28 | 方欣科技有限公司 | 一种用户画像构建方法及装置 |
CN109377347A (zh) * | 2018-09-27 | 2019-02-22 | 深圳先进技术研究院 | 基于特征选择的网络信用预警方法、系统及电子设备 |
CN109783460A (zh) * | 2019-01-30 | 2019-05-21 | 北京信息科技大学 | 基于网络日志的用户行为刻画与预测方法及系统 |
Non-Patent Citations (2)
Title |
---|
SHUOTIAN BAI ET AL.: ""Predicting Big Five Personality Traits of Microblog Users"", 《2013 IEEE/WIC/ACM INTERNATIONAL JOINT CONFERENCES ON WEB INTELLIGENCE (WI) AND INTELLIGENT AGENT TECHNOLOGIES (IAT)》 * |
徐英楠: ""基于文本挖掘的社交网络用户画像建模与应用"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114731284A (zh) * | 2019-11-17 | 2022-07-08 | 微软技术许可有限责任公司 | 协同过滤异常检测可解释性 |
CN114731284B (zh) * | 2019-11-17 | 2024-05-28 | 微软技术许可有限责任公司 | 协同过滤异常检测可解释性 |
Also Published As
Publication number | Publication date |
---|---|
CN110457590B (zh) | 2021-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ahani et al. | Market segmentation and travel choice prediction in Spa hotels through TripAdvisor’s online reviews | |
Li et al. | Deep transfer learning for time series data based on sensor modality classification | |
Orîndaru et al. | Leveraging COVID-19 outbreak for shaping a more sustainable consumer behavior | |
CN102138140A (zh) | 利用综合语义语境的信息处理 | |
CN102160329A (zh) | 使用与信息关联的语义语境便于协作搜索 | |
Puri et al. | Blockchain propels tourism industry—an attempt to explore topics and information in smart tourism management through text mining and machine learning | |
La Rosa et al. | Influences on consumer engagement with sustainability and the purchase intention of apparel products | |
Akhtar et al. | Effective voting ensemble of homogenous ensembling with multiple attribute-selection approaches for improved identification of thyroid disorder | |
Meena et al. | Sentiment analysis on images using convolutional neural networks based Inception-V3 transfer learning approach | |
Liu et al. | Speech emotion recognition based on selective interpolation synthetic minority over-sampling technique in small sample environment | |
Jung et al. | Exploring the sustainability concepts regarding leather apparel in China and South Korea | |
Daim et al. | Digital transformations: new tools and methods for mining technological intelligence | |
Wu et al. | Interpretable machine learning for personalized medical recommendations: A LIME-based approach | |
Gulzar et al. | An Efficient Healthcare Data Mining Approach Using Apriori Algorithm: A Case Study of Eye Disorders in Young Adults | |
Kuanr et al. | Recommender system for the efficient treatment of COVID-19 using a convolutional neural network model and image similarity | |
Tounekti et al. | Research in electronic and mobile payment systems: a bibliometric analysis | |
Bagwari et al. | CBIR-DSS: Business decision oriented content-based recommendation model for E-commerce | |
Akber et al. | Deep learning-based motion style transfer tools, techniques and future challenges | |
CN110457590A (zh) | 基于小数据输入的智能用户画像方法 | |
Xia et al. | A new information-theoretic method for advertisement conversion rate prediction for large-scale sparse data based on deep learning | |
Xu et al. | Financing target and resale pricing in reward-based crowdfunding | |
Piegorsch et al. | Computational Statistics in Data Science | |
Huang et al. | A Multi-Scaling Reinforcement Learning Trading System Based on Multi-Scaling Convolutional Neural Networks | |
Lin et al. | An analysis of the abstracts presented at the annual meetings of the Society for Neuroscience from 2001 to 2006 | |
Chandirasekeran et al. | Analyzing implications of various social factors on life expectancy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 200072 9 / F, 1256, 1258, Wanrong Road, Jing'an District, Shanghai Applicant after: Huayuan computing technology (Shanghai) Co.,Ltd. Address before: 200072 9 / F, 1256, 1258, Wanrong Road, Jing'an District, Shanghai Applicant before: UNIDT TECHNOLOGY (SHANGHAI) Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |