CN114595387A - 一种基于机器学习勾勒人物画像的方法、设备、存储介质 - Google Patents
一种基于机器学习勾勒人物画像的方法、设备、存储介质 Download PDFInfo
- Publication number
- CN114595387A CN114595387A CN202210210394.8A CN202210210394A CN114595387A CN 114595387 A CN114595387 A CN 114595387A CN 202210210394 A CN202210210394 A CN 202210210394A CN 114595387 A CN114595387 A CN 114595387A
- Authority
- CN
- China
- Prior art keywords
- model
- habit
- training
- data
- work
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000010801 machine learning Methods 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 135
- 230000009471 action Effects 0.000 claims abstract description 84
- 230000006399 behavior Effects 0.000 claims abstract description 59
- 238000001514 detection method Methods 0.000 claims description 52
- 230000000875 corresponding effect Effects 0.000 claims description 39
- 238000004458 analytical method Methods 0.000 claims description 35
- 239000003550 marker Substances 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 235000021152 breakfast Nutrition 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009182 swimming Effects 0.000 description 2
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000011449 brick Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0269—Targeted advertisements based on user profile or attribute
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- General Health & Medical Sciences (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本申请公开了一种基于机器学习勾勒人物画像的方法、设备、存储介质,该方法包括:获取用户兴趣爱好样本数据,根据兴趣爱好数据训练得到兴趣爱好模型;获取用户习惯样本数据,根据习惯样本数据训练得到行为习惯模型;获取用户作息习惯样本数据,根据作息习惯样本数据训练得到作息习惯模型;获取用户行动轨迹样本数据,根据行动轨迹样本数据训练得到行动轨迹模型;采集目标人物的开源信息,将开源信息存储到搜索引擎Elasticsearch中;根据兴趣爱好模型、行为习惯模型、作息习惯模型、行动轨迹模型生成API接口;通过调用对应的API接口,按格式传参,通过各个模型分析开源信息得到目标人物的画像。
Description
技术领域
本申请涉及机器学习、大数据分析领域,尤其涉及一种基于机器学习勾勒人物画像的方法、设备、存储介质。
背景技术
软件开发的领域中,人工智能这个领域越来越热,越来越多的公司在人工智能方面大量的投入人力物力去研究提升。人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大。
企业通过投放广告实现营销,但是,如果没有精准的将广告投放到有需求的人群,不仅会使营销效果达不到预期,而且还会消耗企业的大量成本。
为了能够更方便、深刻的了解用户需要,便需要通过大数据技术分析用户的日常,使广告更加精准有效地投放,在方便用户的同时也能够给品牌或者企业带来更高的投资回报率。
发明内容
本申请提供了一种基于机器学习勾勒人物画像的方法、设备、存储介质,解决了如何实现精准推送,满足用户个性化需求的技术问题。
一种基于机器学习勾勒人物画像的方法,包括:
获取用户兴趣爱好样本数据,根据所述兴趣爱好数据训练得到兴趣爱好模型;
获取用户习惯样本数据,根据所述习惯样本数据训练得到行为习惯模型;
获取用户作息习惯样本数据,根据所述作息习惯样本数据训练得到作息习惯模型;
获取用户行动轨迹样本数据,根据所述行动轨迹样本数据训练得到行动轨迹模型;
采集目标人物的开源信息,将所述开源信息存储到搜索引擎Elasticsearch中;
根据所述兴趣爱好模型、所述行为习惯模型、所述作息习惯模型、所述行动轨迹模型生成API接口;
通过调用对应的API接口,按格式传参,通过各个模型分析所述开源信息得到目标人物的画像。
在本申请的一种实施例中,所述获取用户兴趣爱好样本数据,根据所述兴趣爱好数据训练得到兴趣爱好模型,具体包括:获取社交平台上的基础数据,作为训练样本集,对所述基础数据中的文案进行语义分析;根据所述语义分析结果标记对应的兴趣爱好标签;将标记好兴趣爱好标签的训练样本集输入到所述兴趣爱好模型进行训练,得到第一代兴趣爱好模型;将检测数据集输入所述第一代兴趣爱好模型中,输出兴趣爱好标签;基于工作人员设置,删除所述检测数据集中输出结果不准确的数据;将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代兴趣爱好模型进行训练,得到第二代兴趣爱好模型;多次将检测数据集转换为训练样本集后对兴趣爱好模型进行训练,以使所述兴趣爱好模型判断逐渐精确。
在本申请的一种实施例中,所述获取用户习惯样本数据,根据所述习惯样本数据训练得到行为习惯模型,具体包括:获取社交平台上的基础数据,作为训练样本集,对所述基础数据中的文案进行语义分析;根据所述语义分析结果标记对应的行为习惯标签;将标记好行为习惯标签的训练样本集输入到所述行为习惯模型进行训练,得到第一代行为习惯模型;将检测数据集输入所述第一代行为习惯模型中,输出时间标签和对应所述时间标签的行为标签;基于工作人员设置,删除所述检测数据集中输出结果不准确的数据;将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代行为习惯模型进行训练,得到第二代行为习惯模型;多次将检测数据集转换为训练样本集后对行为习惯模型进行训练,以使所述行为习惯模型判断逐渐精确。
在本申请的一种实施例中,所述获取用户作息习惯样本数据,根据所述作息习惯样本数据训练得到作息习惯模型,具体包括:获取社交平台上的基础数据,作为训练样本集,对所述基础数据中的文案进行语义分析;根据所述语义分析结果标记对应的作息习惯标签;将标记好作息习惯标签的训练样本集输入到所述作息习惯模型进行训练,得到第一代作息习惯模型;将检测数据集输入所述第一代作息习惯模型中,输出时间标签和对应所述时间标签的作息习惯;基于工作人员设置,删除所述检测数据集中输出结果不准确的数据;将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代作息习惯模型进行训练,得到第二代作息习惯模型;多次将检测数据集转换为训练样本集后对作息习惯模型进行训练,以使所述作息习惯模型判断逐渐精确。
在本申请的一种实施例中,所述获取用户行动轨迹样本数据,根据所述行动轨迹样本数据训练得到行动轨迹模型,具体包括:获取社交平台上的基础数据,作为训练样本集,对所述基础数据中的文案进行语义分析;根据所述语义分析结果标记对应的行动轨迹标签;将标记好行动轨迹标签的训练样本集输入到所述行动轨迹模型进行训练,得到第一代行动轨迹模型;将检测数据集输入所述第一代行动轨迹模型中,输出时间标签和对应所述时间标签的行动轨迹标签;基于工作人员设置,删除所述检测数据集中输出结果不准确的数据;将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代行动轨迹模型进行训练,得到第二代行动轨迹模型;多次将检测数据集转换为训练样本集后对行动轨迹模型进行训练,以使所述行动轨迹模型判断逐渐精确。
在本申请的一种实施例中,所述方法还包括:获取用户在社交平台发布的动态中的图片信息;对所述图片进行场景识别,判断所述图片中的场景是否为标志物、车票、机票;若为标志物,查询所述标志物对应的标签,根据所述标签确定所述用户的行动地点;若为车票,识别所述车票中的起点和终点,确定所述用户的行动轨迹。
在本申请的一种实施例中,所述方法还包括:获取用户的发布动态的文案时间以及文案内容,对所述文案内容进行语义分析;确定语义和时间所占的权重,根据所述动态发布的时间和所述语义分析结果确定一条动态的得分;确定得分最高的动态对应的发布的时间作为作息时间。
在本申请的一种实施例中,所述方法还包括:在获得各个模型的样本数据后,对所述样本数据进行预处理,包括:通过筛选去掉只有唯一值的特征,去掉缺失值超过90%的特征;对布尔型的值进行编码形成0或1;对数值类型的值进行归一化处理;对字符串类型进行独热one-hot编码。
一种基于机器学习勾勒人物画像的设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取用户兴趣爱好样本数据,根据所述兴趣爱好数据训练得到兴趣爱好模型;
获取用户习惯样本数据,根据所述习惯样本数据训练得到行为习惯模型;
获取用户作息习惯样本数据,根据所述作息习惯样本数据训练得到作息习惯模型;
获取用户行动轨迹样本数据,根据所述行动轨迹样本数据训练得到行动轨迹模型;
采集目标人物的开源信息,将所述开源信息存储到搜索引擎Elasticsearch中;
根据所述兴趣爱好模型、所述行为习惯模型、所述作息习惯模型、所述行动轨迹模型生成API接口;
通过调用对应的API接口,按格式传参,通过各个模型分析所述开源信息得到目标人物的画像。
一种非易失性存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
获取用户兴趣爱好样本数据,根据所述兴趣爱好数据训练得到兴趣爱好模型;
获取用户习惯样本数据,根据所述习惯样本数据训练得到行为习惯模型;
获取用户作息习惯样本数据,根据所述作息习惯样本数据训练得到作息习惯模型;
获取用户行动轨迹样本数据,根据所述行动轨迹样本数据训练得到行动轨迹模型;
采集目标人物的开源信息,将所述开源信息存储到搜索引擎Elasticsearch中;
根据所述兴趣爱好模型、所述行为习惯模型、所述作息习惯模型、所述行动轨迹模型生成API接口;
通过调用对应的API接口,按格式传参,通过各个模型分析所述开源信息得到目标人物的画像。
本申请提供了一种基于机器学习勾勒人物画像的方法、设备、存储介质,至少包括以下有益效果:通过对各个模型进行训练,使其能够针对目标人物或用户,AI智能分析其兴趣爱好、行为习惯、作息习惯、行动轨迹等,完成对该目标人物的画像,能够更精确地使商家或企业向用户实现精准推送。通将采用各个模型独立部署模式,能够实现快速对接,每个模型具有独立的API接口,使用起来极为方便。通过并列建立各个模型,使系统具备高扩展性,当实现新增业务时,只需直接增加新的预测模型即可,对现有系统功能影响较少,能够使系统处理更大规模的业务。通过并列建立各个模型,使服务相对独立,可以快速进行水平部署,做负载及备份。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种基于机器学习勾勒人物画像的方法步骤示意图;
图2为本申请实施例提供的一种基于机器学习勾勒人物画像的设备组成结构图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例对本申请进行清楚、完整的描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
软件开发的领域中,人工智能AI这个领域越来越热,越来越多的公司在AI方面大量的投入人力物力去研究提升。通过大数据分析出每个人的兴趣爱好、行为习惯等,从而达到这些企业可以做到精准投送的目的。本申请目的在于通过大数据样本进行模型训练,得到训练模型。针对目标人物或客户,AI分析其兴趣爱好、行为习惯、作息习惯、行动轨迹等,完成对该目标的人物画像。下面进行具体说明。
图1为本申请实施例提供的一种基于机器学习勾勒人物画像的方法步骤示意图,可以包括以下步骤:
在本申请的一种实施例中,在获得各个模型的样本数据后,对样本数据进行预处理,样本数据为用户在各个社交平台(比如微信、微博、推特、脸书等)发布的动态,例如用户在周一早8点发布动态为“今天是周一,满血复活,又有力气去搬砖了。”。周二的早晨8点的时候发了:“这个交通状况真的堪忧,又堵车了,上班又得迟到了。”周四下午6点发了:“下班了,今天打卡健身房,跑步10公里。”这些都可以作为基础数据输入模型训练。
通过筛选去掉只有唯一值的特征;例如在同一社交平台获取用户发布的动态,那么便可将社交平台这个特征删除。
去掉缺失值超过90%的特征,例如;对布尔型的值进行编码形成0或1,布尔型的值只有两个:false(假)和true(真),且false的序号为0,true的序号是1(或者是非0),例如将只有是、否两种的结果的特征进行布尔型编码是编码成1,否编码为0.
对数值类型的值进行归一化处理;数据归一化(标准化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据归一化处理后,各指标处于同一数量级,适合进行综合对比评价。通过对数值进行归一化处理,可以提升模型的收敛速度和提升模型的精度。
对字符串类型进行独热one-hot编码。one-hot编码解决了分类器不好处理属性数据的问题,让特征之间的距离计算更加合理。也能在一定程度上也起到了扩充特征的作用,比如性别本身是一个特征,经过one hot编码以后,就变成了男或女两个特征。将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。
S101:获取用户兴趣爱好样本数据,根据兴趣爱好数据训练得到兴趣爱好模型。
在本申请的一种实施例中,获取社交平台上的关于用户兴趣爱好的基础数据,比如关于打篮球、羽毛球等兴趣爱好的文章、动态等,作为训练样本集,然后对该文章或动态中的基础数据中的文案进行自然语言处理,经过语义分析得到分析结果;一开始使用的训练样本边界清晰,根据语义分析结果很容易由数据标注人员标记对应的兴趣爱好标签,比如篮球、羽毛球、游泳等。将标记好兴趣爱好标签的训练样本集输入到兴趣爱好模型进行训练,得到第一代兴趣爱好模型。
通过在社交平台采集用户文章、动态、朋友圈等数据,作为检测数据集,将检测数据集输入第一代兴趣爱好模型中,输出兴趣爱好标签。基于工作人员设置,删除检测数据集中输出结果不准确的数据,例如用户文章中明确表示爱好游泳,但输出的兴趣爱好标签却为打篮球,这便说明预测结果有误。将去除不准确的数据后的检测数据集再次作为训练样本集输入第一代兴趣爱好模型进行训练,得到第二代兴趣爱好模型;多次将剔除不准确结果的检测数据集转换为训练样本集后再次对兴趣爱好模型进行训练,可以使兴趣爱好模型判断逐渐精确。
S102:获取用户习惯样本数据,根据习惯样本数据训练得到行为习惯模型。
在本申请的一种实施例中,获取社交平台上的关于用户行为习惯的基础数据,比如关于行为习惯的文章、动态等,作为训练样本集,对基础数据中的文案进行自然语言处理,经过语义分析得到分析结果;一开始使用的训练样本边界清晰,根据语义分析结果很容易由数据标注人员标记对应的行为习惯标签,比如发推文、上学、上班、吃早餐、开车、骑车、健身、去运动等,并且根据用户发布朋友圈、文章等动态的时间自动标注上时间标签。将标记好行为习惯标签的训练样本集输入到行为习惯模型进行训练,得到第一代行为习惯模型。
通过在社交平台采集用户文章、动态、朋友圈等数据,作为检测数据集,将检测数据集输入第一代行为习惯模型中,输出时间标签和对应时间标签的行为标签,例如,预测到用户的行为是:周一7-8点吃早餐、8-9点通勤、19-21点健身,周二7-8点吃早餐、8-9点通勤、19-21点健身;……;周六9-11点做家务等。基于工作人员设置,删除检测数据集中输出结果不准确的数据,例如根据动态能够确定用户周一7点吃早餐,输出结果为周一7点上班,便说明预测结果有误。将去除不准确的数据后的检测数据集作为训练样本集输入第一代行为习惯模型进行训练,得到第二代行为习惯模型;多次将检测数据集转换为训练样本集后对行为习惯模型进行训练,以使行为习惯模型判断逐渐精确。
S103:获取用户作息习惯样本数据,根据作息习惯样本数据训练得到作息习惯模型。
在本申请的一种实施例中,获取社交平台上的关于用户作息习惯的基础数据,比如关于作息习惯的文章、动态等,作为训练样本集,对基础数据中的文案进行自然语言处理,经过语义分析得到分析结果;一开始使用的训练样本边界清晰,根据语义分析结果很容易由数据标注人员标记对应的作息习惯标签,比如睡觉、起床、午休、小憩等,并且根据用户发布朋友圈、文章等动态的时间自动标注上时间标签。将标记好作息习惯标签的训练样本集输入到作息习惯模型进行训练,得到第一代作息习惯模型。
通过在社交平台采集用户文章、动态、朋友圈等数据,作为检测数据集,将检测数据集输入第一代作息习惯模型中,输出时间标签和对应时间标签的作息标签,例如,预测到用户的作息是:周一6:00起床、13:00午休、22:00睡觉,周二6:00起床、13:00午休、22:00睡觉;……;周六8:00起床、23:00睡觉等。基于工作人员设置,删除检测数据集中输出结果不准确的数据,例如根据一条动态数据能够确定用户周一6:00起床,但输出结果却为周一6:00健身,则预测结果不准确。将去除不准确的数据后的检测数据集作为训练样本集输入第一代作息习惯模型进行训练,得到第二代作息习惯模型;多次将检测数据集转换为训练样本集后对作息习惯模型进行训练,以使作息习惯模型判断逐渐精确。
在本申请的一种实施例中,获取用户的发布动态的文案时间以及文案内容,对文案内容进行语义分析;确定语义和时间所占的权重,根据动态发布的时间和语义分析结果确定一条动态的得分;确定得分最高的动态对应的发布的时间作为作息时间。
例如,当明星账号出现不仅本人使用,明星背后的公司团队也在用的情况时,往往会在明星发布晚安的动态后,再通过公司发布广告动态,比如明星用户在22:00发了个“晚安,我去睡了”的动态,但是运营团队在23:00的时候使用该账号发了代言广告。再例如,用户的账号出现问题,再发布作息动态后,账号被盗,发布了乱七八糟的广告。为了能够更加准确预测用户的作息,这时便不能只通过检测文章发布的时间来确定用户作息,还要通过语义来确定。当获取到一条作息动态时,确定其语义是否符合作息习惯的标签,然后根据该条动态发布的时间判断是否符合休息时间段,根据时间和语义所占的权重计算该条动态的得分,根据得分判断是否可以根据该条动态确定作息时间,时间和语义所占权重可以根据实际情况进行调节。
S104:获取用户行动轨迹样本数据,根据行动轨迹样本数据训练得到行动轨迹模型。
在本申请的一种实施例中,获取社交平台上的关于用户行动轨迹基础数据,比如关于行为轨迹的文章、动态、照片、定位等,作为训练样本集,对基础数据中的文案进行自然语言处理,经过语义分析得到分析结果;一开始使用的训练样本边界清晰,根据语义分析结果很容易由数据标注人员标记对应的行为轨迹标签,比如动态包含的文案中包含我要去、我去了、今日抵达等词语,以及城市名称、景区名称、家(可以是小区的具体名称)、公司(可以为公司名称)、学校(可以是学校名称)等;也可以通过对图片中的标志性建筑物或标志物进行识别,从而确定位置;也可以直接通过用户发布的定位信息获取用户的位置信息;将标记好行动轨迹标签的训练样本集输入到行动轨迹模型进行训练,得到第一代行动轨迹模型。
通过在社交平台采集用户文章、动态、朋友圈、照片、定位等数据,作为检测数据集,将检测数据集输入第一代行动轨迹模型中,输出时间标签和对应时间标签的行动轨迹标签,例如,预测到用户的行动轨迹为周一早8-9点从家到公司,周一晚22点-周二5点从上海到北京等。基于工作人员设置,删除检测数据集中输出结果不准确的数据,例如,根据用户动态,“我即将去往上海路”,并附加了一个青岛的定位,但是预测结果为用户在上海,则预测结果不准确。将去除不准确的数据后的检测数据集作为训练样本集输入第一代行动轨迹模型进行训练,得到第二代行动轨迹模型;多次将检测数据集转换为训练样本集后对行动轨迹模型进行训练,以使行动轨迹模型判断逐渐精确。
在本申请的一种实施例中,获取用户在社交平台发布的动态中的图片信息;对图片进行场景识别,判断图片中的场景是否为标志物、车票、机票;若为标志物,查询标志物对应的标签,根据标签确定用户的行动地点;例如,图片中为上海的东方明珠,可根据地标判断用户在上海。若为车票,识别车票中的起点和终点,确定用户的行动轨迹。
S105:采集目标人物的开源信息,将开源信息存储到搜索引擎Elasticsearch中。
ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。
S106:根据兴趣爱好模型、行为习惯模型、作息习惯模型、行动轨迹模型生成API接口。
API就是操作系统留给应用程序的一个调用接口,应用程序通过调用操作系统的API而使操作系统去执行应用程序的命令。
S107:通过调用对应的API接口,按格式传参,通过各个模型分析开源信息得到目标人物的画像。
具体地,通过启动服务(支持Windows、Linux操作系统),目前服务是用Java语言去编写的服务端代码,在服务器端启动jar包,待成功后可根据相应的接口文档,调用响应接口即可获得分析结果。
以上为本申请实施例提供的一种基于机器学习勾勒人物画像的方法,基于同样的发明思路,本申请实施例还提供了相应的一种基于机器学习勾勒人物画像的设备,如图2所示。
本实施例提供了一种基于机器学习勾勒人物画像的设备,包括:
至少一个处理器;以及,
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
获取用户兴趣爱好样本数据,根据兴趣爱好数据训练得到兴趣爱好模型;
获取用户习惯样本数据,根据习惯样本数据训练得到行为习惯模型;
获取用户作息习惯样本数据,根据作息习惯样本数据训练得到作息习惯模型;
获取用户行动轨迹样本数据,根据行动轨迹样本数据训练得到行动轨迹模型;
采集目标人物的开源信息,将开源信息存储到搜索引擎Elasticsearch中;
根据兴趣爱好模型、行为习惯模型、作息习惯模型、行动轨迹模型生成API接口;
通过调用对应的API接口,按格式传参,通过各个模型分析开源信息得到目标人物的画像。
基于同样的思路,本申请的一些实施例还提供了上述方法对应的介质。
本申请的一些实施例提供的一种基于机器学习勾勒人物画像的存储介质,存储有计算机可执行指令,计算机可执行指令设置为:
获取用户兴趣爱好样本数据,根据兴趣爱好数据训练得到兴趣爱好模型;
获取用户习惯样本数据,根据习惯样本数据训练得到行为习惯模型;
获取用户作息习惯样本数据,根据作息习惯样本数据训练得到作息习惯模型;
获取用户行动轨迹样本数据,根据行动轨迹样本数据训练得到行动轨迹模型;
采集目标人物的开源信息,将开源信息存储到搜索引擎Elasticsearch中;
根据兴趣爱好模型、行为习惯模型、作息习惯模型、行动轨迹模型生成API接口;
通过调用对应的API接口,按格式传参,通过各个模型分析开源信息得到目标人物的画像。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于方法和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的方法和介质与方法是一一对应的,因此,方法和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述方法和介质的有益技术效果。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程方法商品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程方法商品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程方法商品或者方法中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种基于机器学习勾勒人物画像的方法,其特征在于,包括:
获取用户兴趣爱好样本数据,根据所述兴趣爱好数据训练得到兴趣爱好模型;
获取用户习惯样本数据,根据所述习惯样本数据训练得到行为习惯模型;
获取用户作息习惯样本数据,根据所述作息习惯样本数据训练得到作息习惯模型;
获取用户行动轨迹样本数据,根据所述行动轨迹样本数据训练得到行动轨迹模型;
采集目标人物的开源信息,将所述开源信息存储到搜索引擎Elasticsearch中;
根据所述兴趣爱好模型、所述行为习惯模型、所述作息习惯模型、所述行动轨迹模型生成API接口;
通过调用对应的API接口,按格式传参,通过各个模型分析所述开源信息得到目标人物的画像。
2.根据权利要求1所述的方法,其特征在于,所述获取用户兴趣爱好样本数据,根据所述兴趣爱好数据训练得到兴趣爱好模型,具体包括:
获取社交平台上的基础数据,作为训练样本集,对所述基础数据中的文案进行语义分析;
根据所述语义分析结果标记对应的兴趣爱好标签;
将标记好兴趣爱好标签的训练样本集输入到所述兴趣爱好模型进行训练,得到第一代兴趣爱好模型;
将检测数据集输入所述第一代兴趣爱好模型中,输出兴趣爱好标签;
基于工作人员设置,删除所述检测数据集中输出结果不准确的数据;
将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代兴趣爱好模型进行训练,得到第二代兴趣爱好模型;
多次将检测数据集转换为训练样本集后对兴趣爱好模型进行训练,以使所述兴趣爱好模型判断逐渐精确。
3.根据权利要求1所述的方法,其特征在于,所述获取用户习惯样本数据,根据所述习惯样本数据训练得到行为习惯模型,具体包括:
获取社交平台上的基础数据,作为训练样本集,对所述基础数据中的文案进行语义分析;
根据所述语义分析结果标记对应的行为习惯标签;
将标记好行为习惯标签的训练样本集输入到所述行为习惯模型进行训练,得到第一代行为习惯模型;
将检测数据集输入所述第一代行为习惯模型中,输出时间标签和对应所述时间标签的行为标签;
基于工作人员设置,删除所述检测数据集中输出结果不准确的数据;
将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代行为习惯模型进行训练,得到第二代行为习惯模型;
多次将检测数据集转换为训练样本集后对行为习惯模型进行训练,以使所述行为习惯模型判断逐渐精确。
4.根据权利要求1所述的方法,其特征在于,所述获取用户作息习惯样本数据,根据所述作息习惯样本数据训练得到作息习惯模型,具体包括:
获取社交平台上的基础数据,作为训练样本集,对所述基础数据中的文案进行语义分析;
根据所述语义分析结果标记对应的作息习惯标签;
将标记好作息习惯标签的训练样本集输入到所述作息习惯模型进行训练,得到第一代作息习惯模型;
将检测数据集输入所述第一代作息习惯模型中,输出时间标签和对应所述时间标签的作息习惯;
基于工作人员设置,删除所述检测数据集中输出结果不准确的数据;
将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代作息习惯模型进行训练,得到第二代作息习惯模型;
多次将检测数据集转换为训练样本集后对作息习惯模型进行训练,以使所述作息习惯模型判断逐渐精确。
5.根据权利要求1所述的方法,其特征在于,所述获取用户行动轨迹样本数据,根据所述行动轨迹样本数据训练得到行动轨迹模型,具体包括:
获取社交平台上的基础数据,作为训练样本集,对所述基础数据中的文案进行语义分析;
根据所述语义分析结果标记对应的行动轨迹标签;
将标记好行动轨迹标签的训练样本集输入到所述行动轨迹模型进行训练,得到第一代行动轨迹模型;
将检测数据集输入所述第一代行动轨迹模型中,输出时间标签和对应所述时间标签的行动轨迹标签;
基于工作人员设置,删除所述检测数据集中输出结果不准确的数据;
将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代行动轨迹模型进行训练,得到第二代行动轨迹模型;
多次将检测数据集转换为训练样本集后对行动轨迹模型进行训练,以使所述行动轨迹模型判断逐渐精确。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取用户在社交平台发布的动态中的图片信息;
对所述图片进行场景识别,判断所述图片中的场景是否为标志物、车票、机票;
若为标志物,查询所述标志物对应的标签,根据所述标签确定所述用户的行动地点;
若为车票,识别所述车票中的起点和终点,确定所述用户的行动轨迹。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取用户的发布动态的文案时间以及文案内容,对所述文案内容进行语义分析;
确定语义和时间所占的权重,根据所述动态发布的时间和所述语义分析结果确定一条动态的得分;
确定得分最高的动态对应的发布的时间作为作息时间。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在获得各个模型的样本数据后,对所述样本数据进行预处理,包括:
通过筛选去掉只有唯一值的特征,去掉缺失值超过90%的特征;
对布尔型的值进行编码形成0或1;
对数值类型的值进行归一化处理;
对字符串类型进行独热one-hot编码。
9.一种基于机器学习勾勒人物画像的设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取用户兴趣爱好样本数据,根据所述兴趣爱好数据训练得到兴趣爱好模型;
获取用户习惯样本数据,根据所述习惯样本数据训练得到行为习惯模型;
获取用户作息习惯样本数据,根据所述作息习惯样本数据训练得到作息习惯模型;
获取用户行动轨迹样本数据,根据所述行动轨迹样本数据训练得到行动轨迹模型;
采集目标人物的开源信息,将所述开源信息存储到搜索引擎Elasticsearch中;
根据所述兴趣爱好模型、所述行为习惯模型、所述作息习惯模型、所述行动轨迹模型生成API接口;
通过调用对应的API接口,按格式传参,通过各个模型分析所述开源信息得到目标人物的画像。
10.一种非易失性存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:
获取用户兴趣爱好样本数据,根据所述兴趣爱好数据训练得到兴趣爱好模型;
获取用户习惯样本数据,根据所述习惯样本数据训练得到行为习惯模型;
获取用户作息习惯样本数据,根据所述作息习惯样本数据训练得到作息习惯模型;
获取用户行动轨迹样本数据,根据所述行动轨迹样本数据训练得到行动轨迹模型;
采集目标人物的开源信息,将所述开源信息存储到搜索引擎Elasticsearch中;
根据所述兴趣爱好模型、所述行为习惯模型、所述作息习惯模型、所述行动轨迹模型生成API接口;
通过调用对应的API接口,按格式传参,通过各个模型分析所述开源信息得到目标人物的画像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210210394.8A CN114595387B (zh) | 2022-03-03 | 2022-03-03 | 一种基于机器学习勾勒人物画像的方法、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210210394.8A CN114595387B (zh) | 2022-03-03 | 2022-03-03 | 一种基于机器学习勾勒人物画像的方法、设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114595387A true CN114595387A (zh) | 2022-06-07 |
CN114595387B CN114595387B (zh) | 2023-09-29 |
Family
ID=81815728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210210394.8A Active CN114595387B (zh) | 2022-03-03 | 2022-03-03 | 一种基于机器学习勾勒人物画像的方法、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114595387B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012020979A2 (ko) * | 2010-08-11 | 2012-02-16 | Cho Hong Rai | 실시간으로 예매 상태 정보를 제공하는 방법 및 시스템 |
WO2018145447A1 (zh) * | 2017-02-07 | 2018-08-16 | 中兴通讯股份有限公司 | 一种终端工作控制方法、装置及终端 |
CN108877801A (zh) * | 2018-06-14 | 2018-11-23 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别系统的多轮对话语义理解子系统 |
US20190311114A1 (en) * | 2018-04-09 | 2019-10-10 | Zhongan Information Technology Service Co., Ltd. | Man-machine identification method and device for captcha |
KR102052624B1 (ko) * | 2018-11-09 | 2019-12-05 | 주식회사 루닛 | 기계 학습 방법 및 장치 |
CN111858901A (zh) * | 2019-04-30 | 2020-10-30 | 北京智慧星光信息技术有限公司 | 一种基于语义相似的文本推荐方法及系统 |
CN112000894A (zh) * | 2020-10-28 | 2020-11-27 | 北京妙医佳健康科技集团有限公司 | 一种健康管理信息推送方法、装置、设备及存储介质 |
CN112001739A (zh) * | 2019-05-27 | 2020-11-27 | 广东小天才科技有限公司 | 一种生成用户学习画像的方法和系统 |
CN112328849A (zh) * | 2020-11-02 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 用户画像的构建方法、基于用户画像的对话方法及装置 |
CN112560054A (zh) * | 2020-12-14 | 2021-03-26 | 珠海格力电器股份有限公司 | 一种用户数据处理方法、装置、电子设备及存储介质 |
CN112667714A (zh) * | 2021-03-17 | 2021-04-16 | 腾讯科技(深圳)有限公司 | 基于深度学习的用户画像优化方法、装置及存储介质 |
-
2022
- 2022-03-03 CN CN202210210394.8A patent/CN114595387B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012020979A2 (ko) * | 2010-08-11 | 2012-02-16 | Cho Hong Rai | 실시간으로 예매 상태 정보를 제공하는 방법 및 시스템 |
WO2018145447A1 (zh) * | 2017-02-07 | 2018-08-16 | 中兴通讯股份有限公司 | 一种终端工作控制方法、装置及终端 |
US20190311114A1 (en) * | 2018-04-09 | 2019-10-10 | Zhongan Information Technology Service Co., Ltd. | Man-machine identification method and device for captcha |
CN108877801A (zh) * | 2018-06-14 | 2018-11-23 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别系统的多轮对话语义理解子系统 |
KR102052624B1 (ko) * | 2018-11-09 | 2019-12-05 | 주식회사 루닛 | 기계 학습 방법 및 장치 |
CN111858901A (zh) * | 2019-04-30 | 2020-10-30 | 北京智慧星光信息技术有限公司 | 一种基于语义相似的文本推荐方法及系统 |
CN112001739A (zh) * | 2019-05-27 | 2020-11-27 | 广东小天才科技有限公司 | 一种生成用户学习画像的方法和系统 |
CN112000894A (zh) * | 2020-10-28 | 2020-11-27 | 北京妙医佳健康科技集团有限公司 | 一种健康管理信息推送方法、装置、设备及存储介质 |
CN112328849A (zh) * | 2020-11-02 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 用户画像的构建方法、基于用户画像的对话方法及装置 |
CN112560054A (zh) * | 2020-12-14 | 2021-03-26 | 珠海格力电器股份有限公司 | 一种用户数据处理方法、装置、电子设备及存储介质 |
CN112667714A (zh) * | 2021-03-17 | 2021-04-16 | 腾讯科技(深圳)有限公司 | 基于深度学习的用户画像优化方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
寇丽莉;郭才;: "大学生日常生活行为特征――以西安市为例", 太原师范学院学报(自然科学版), no. 01 * |
Also Published As
Publication number | Publication date |
---|---|
CN114595387B (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Quercia et al. | The digital life of walkable streets | |
JP5248915B2 (ja) | Gps追跡及び周知な近傍目的地からのユーザの行動趣向の学習 | |
CN110457696A (zh) | 一种面向档案数据的人才与政策智能匹配系统和方法 | |
CN112131411A (zh) | 一种多媒体资源推荐方法、装置、电子设备及存储介质 | |
CN104142995B (zh) | 基于视觉属性的社会事件识别方法 | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
US11615485B2 (en) | System and method for predicting engagement on social media | |
CN112182398B (zh) | 考虑用户的长期偏好与短期偏好的景点推荐方法和系统 | |
CN108829652A (zh) | 一种基于众包的图片标注系统 | |
CN113010702A (zh) | 多媒体信息的互动处理方法、装置、电子设备及存储介质 | |
CN110472057B (zh) | 话题标签的生成方法及装置 | |
CN103886020A (zh) | 一种房地产信息快速搜索方法 | |
CN112001739A (zh) | 一种生成用户学习画像的方法和系统 | |
Aryal et al. | MoocRec: Learning styles-oriented MOOC recommender and search engine | |
CN108764203A (zh) | 一种面向城市规划的行人量化分析及展示系统 | |
CN115659008A (zh) | 大数据信息反馈的信息推送系统、方法、电子设备及介质 | |
CN115526590A (zh) | 一种结合专家知识和算法的高效人岗匹配与复推方法 | |
CN116738066A (zh) | 乡村旅游服务推荐方法、装置、电子设备及存储介质 | |
CN112330426A (zh) | 一种产品推荐方法、装置及存储介质 | |
CN112989811A (zh) | 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法 | |
CN114595387A (zh) | 一种基于机器学习勾勒人物画像的方法、设备、存储介质 | |
Zhu et al. | Transportation modes behaviour analysis based on raw GPS dataset | |
CN112257517B (zh) | 一种基于景点聚类和群体情感识别的旅游景点推荐系统 | |
Esuli et al. | Traj2user: exploiting embeddings for computing similarity of users mobile behavior | |
Zhang et al. | Sentiment analysis of sina Weibo users under the impact of super typhoon lekima using natural language processing tools: A multi-tags case study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |