CN114595387B - 一种基于机器学习勾勒人物画像的方法、设备、存储介质 - Google Patents

一种基于机器学习勾勒人物画像的方法、设备、存储介质 Download PDF

Info

Publication number
CN114595387B
CN114595387B CN202210210394.8A CN202210210394A CN114595387B CN 114595387 B CN114595387 B CN 114595387B CN 202210210394 A CN202210210394 A CN 202210210394A CN 114595387 B CN114595387 B CN 114595387B
Authority
CN
China
Prior art keywords
model
habit
training
user
work
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210210394.8A
Other languages
English (en)
Other versions
CN114595387A (zh
Inventor
赵志庆
侯玉柱
王巍
董席峰
丁英莲
靳学庚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rongxing Technology Co ltd
Original Assignee
Rongxing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rongxing Technology Co ltd filed Critical Rongxing Technology Co ltd
Priority to CN202210210394.8A priority Critical patent/CN114595387B/zh
Publication of CN114595387A publication Critical patent/CN114595387A/zh
Application granted granted Critical
Publication of CN114595387B publication Critical patent/CN114595387B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请公开了一种基于机器学习勾勒人物画像的方法、设备、存储介质,该方法包括:获取用户兴趣爱好样本数据,根据兴趣爱好数据训练得到兴趣爱好模型;获取用户习惯样本数据,根据习惯样本数据训练得到行为习惯模型;获取用户作息习惯样本数据,根据作息习惯样本数据训练得到作息习惯模型;获取用户行动轨迹样本数据,根据行动轨迹样本数据训练得到行动轨迹模型;采集目标人物的开源信息,将开源信息存储到搜索引擎Elasticsearch中;根据兴趣爱好模型、行为习惯模型、作息习惯模型、行动轨迹模型生成API接口;通过调用对应的API接口,按格式传参,通过各个模型分析开源信息得到目标人物的画像。

Description

一种基于机器学习勾勒人物画像的方法、设备、存储介质
技术领域
本申请涉及机器学习、大数据分析领域,尤其涉及一种基于机器学习勾勒人物画像的方法、设备、存储介质。
背景技术
软件开发的领域中,人工智能这个领域越来越热,越来越多的公司在人工智能方面大量的投入人力物力去研究提升。人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大。
企业通过投放广告实现营销,但是,如果没有精准的将广告投放到有需求的人群,不仅会使营销效果达不到预期,而且还会消耗企业的大量成本。
为了能够更方便、深刻的了解用户需要,便需要通过大数据技术分析用户的日常,使广告更加精准有效地投放,在方便用户的同时也能够给品牌或者企业带来更高的投资回报率。
发明内容
本申请提供了一种基于机器学习勾勒人物画像的方法、设备、存储介质,解决了如何实现精准推送,满足用户个性化需求的技术问题。
一种基于机器学习勾勒人物画像的方法,包括:
获取用户兴趣爱好样本数据,根据所述兴趣爱好数据训练得到兴趣爱好模型;
获取用户习惯样本数据,根据所述习惯样本数据训练得到行为习惯模型;
获取用户作息习惯样本数据,根据所述作息习惯样本数据训练得到作息习惯模型;
获取用户行动轨迹样本数据,根据所述行动轨迹样本数据训练得到行动轨迹模型;
采集目标人物的开源信息,将所述开源信息存储到搜索引擎Elasticsearch中;
根据所述兴趣爱好模型、所述行为习惯模型、所述作息习惯模型、所述行动轨迹模型生成API接口;
通过调用对应的API接口,按格式传参,通过各个模型分析所述开源信息得到目标人物的画像。
在本申请的一种实施例中,所述获取用户兴趣爱好样本数据,根据所述兴趣爱好数据训练得到兴趣爱好模型,具体包括:获取社交平台上的基础数据,作为训练样本集,对所述基础数据中的文案进行语义分析;根据所述语义分析结果标记对应的兴趣爱好标签;将标记好兴趣爱好标签的训练样本集输入到所述兴趣爱好模型进行训练,得到第一代兴趣爱好模型;将检测数据集输入所述第一代兴趣爱好模型中,输出兴趣爱好标签;基于工作人员设置,删除所述检测数据集中输出结果不准确的数据;将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代兴趣爱好模型进行训练,得到第二代兴趣爱好模型;多次将检测数据集转换为训练样本集后对兴趣爱好模型进行训练,以使所述兴趣爱好模型判断逐渐精确。
在本申请的一种实施例中,所述获取用户习惯样本数据,根据所述习惯样本数据训练得到行为习惯模型,具体包括:获取社交平台上的基础数据,作为训练样本集,对所述基础数据中的文案进行语义分析;根据所述语义分析结果标记对应的行为习惯标签;将标记好行为习惯标签的训练样本集输入到所述行为习惯模型进行训练,得到第一代行为习惯模型;将检测数据集输入所述第一代行为习惯模型中,输出时间标签和对应所述时间标签的行为标签;基于工作人员设置,删除所述检测数据集中输出结果不准确的数据;将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代行为习惯模型进行训练,得到第二代行为习惯模型;多次将检测数据集转换为训练样本集后对行为习惯模型进行训练,以使所述行为习惯模型判断逐渐精确。
在本申请的一种实施例中,所述获取用户作息习惯样本数据,根据所述作息习惯样本数据训练得到作息习惯模型,具体包括:获取社交平台上的基础数据,作为训练样本集,对所述基础数据中的文案进行语义分析;根据所述语义分析结果标记对应的作息习惯标签;将标记好作息习惯标签的训练样本集输入到所述作息习惯模型进行训练,得到第一代作息习惯模型;将检测数据集输入所述第一代作息习惯模型中,输出时间标签和对应所述时间标签的作息习惯;基于工作人员设置,删除所述检测数据集中输出结果不准确的数据;将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代作息习惯模型进行训练,得到第二代作息习惯模型;多次将检测数据集转换为训练样本集后对作息习惯模型进行训练,以使所述作息习惯模型判断逐渐精确。
在本申请的一种实施例中,所述获取用户行动轨迹样本数据,根据所述行动轨迹样本数据训练得到行动轨迹模型,具体包括:获取社交平台上的基础数据,作为训练样本集,对所述基础数据中的文案进行语义分析;根据所述语义分析结果标记对应的行动轨迹标签;将标记好行动轨迹标签的训练样本集输入到所述行动轨迹模型进行训练,得到第一代行动轨迹模型;将检测数据集输入所述第一代行动轨迹模型中,输出时间标签和对应所述时间标签的行动轨迹标签;基于工作人员设置,删除所述检测数据集中输出结果不准确的数据;将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代行动轨迹模型进行训练,得到第二代行动轨迹模型;多次将检测数据集转换为训练样本集后对行动轨迹模型进行训练,以使所述行动轨迹模型判断逐渐精确。
在本申请的一种实施例中,所述方法还包括:获取用户在社交平台发布的动态中的图片信息;对所述图片进行场景识别,判断所述图片中的场景是否为标志物、车票、机票;若为标志物,查询所述标志物对应的标签,根据所述标签确定所述用户的行动地点;若为车票,识别所述车票中的起点和终点,确定所述用户的行动轨迹。
在本申请的一种实施例中,所述方法还包括:获取用户的发布动态的文案时间以及文案内容,对所述文案内容进行语义分析;确定语义和时间所占的权重,根据所述动态发布的时间和所述语义分析结果确定一条动态的得分;确定得分最高的动态对应的发布的时间作为作息时间。
在本申请的一种实施例中,所述方法还包括:在获得各个模型的样本数据后,对所述样本数据进行预处理,包括:通过筛选去掉只有唯一值的特征,去掉缺失值超过90%的特征;对布尔型的值进行编码形成0或1;对数值类型的值进行归一化处理;对字符串类型进行独热one-hot编码。
一种基于机器学习勾勒人物画像的设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取用户兴趣爱好样本数据,根据所述兴趣爱好数据训练得到兴趣爱好模型;
获取用户习惯样本数据,根据所述习惯样本数据训练得到行为习惯模型;
获取用户作息习惯样本数据,根据所述作息习惯样本数据训练得到作息习惯模型;
获取用户行动轨迹样本数据,根据所述行动轨迹样本数据训练得到行动轨迹模型;
采集目标人物的开源信息,将所述开源信息存储到搜索引擎Elasticsearch中;
根据所述兴趣爱好模型、所述行为习惯模型、所述作息习惯模型、所述行动轨迹模型生成API接口;
通过调用对应的API接口,按格式传参,通过各个模型分析所述开源信息得到目标人物的画像。
一种非易失性存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
获取用户兴趣爱好样本数据,根据所述兴趣爱好数据训练得到兴趣爱好模型;
获取用户习惯样本数据,根据所述习惯样本数据训练得到行为习惯模型;
获取用户作息习惯样本数据,根据所述作息习惯样本数据训练得到作息习惯模型;
获取用户行动轨迹样本数据,根据所述行动轨迹样本数据训练得到行动轨迹模型;
采集目标人物的开源信息,将所述开源信息存储到搜索引擎Elasticsearch中;
根据所述兴趣爱好模型、所述行为习惯模型、所述作息习惯模型、所述行动轨迹模型生成API接口;
通过调用对应的API接口,按格式传参,通过各个模型分析所述开源信息得到目标人物的画像。
本申请提供了一种基于机器学习勾勒人物画像的方法、设备、存储介质,至少包括以下有益效果:通过对各个模型进行训练,使其能够针对目标人物或用户,AI智能分析其兴趣爱好、行为习惯、作息习惯、行动轨迹等,完成对该目标人物的画像,能够更精确地使商家或企业向用户实现精准推送。通将采用各个模型独立部署模式,能够实现快速对接,每个模型具有独立的API接口,使用起来极为方便。通过并列建立各个模型,使系统具备高扩展性,当实现新增业务时,只需直接增加新的预测模型即可,对现有系统功能影响较少,能够使系统处理更大规模的业务。通过并列建立各个模型,使服务相对独立,可以快速进行水平部署,做负载及备份。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种基于机器学习勾勒人物画像的方法步骤示意图;
图2为本申请实施例提供的一种基于机器学习勾勒人物画像的设备组成结构图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例对本申请进行清楚、完整的描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
软件开发的领域中,人工智能AI这个领域越来越热,越来越多的公司在AI方面大量的投入人力物力去研究提升。通过大数据分析出每个人的兴趣爱好、行为习惯等,从而达到这些企业可以做到精准投送的目的。本申请目的在于通过大数据样本进行模型训练,得到训练模型。针对目标人物或客户,AI分析其兴趣爱好、行为习惯、作息习惯、行动轨迹等,完成对该目标的人物画像。下面进行具体说明。
图1为本申请实施例提供的一种基于机器学习勾勒人物画像的方法步骤示意图,可以包括以下步骤:
在本申请的一种实施例中,在获得各个模型的样本数据后,对样本数据进行预处理,样本数据为用户在各个社交平台(比如微信、微博、推特、脸书等)发布的动态,例如用户在周一早8点发布动态为“今天是周一,满血复活,又有力气去搬砖了。”。周二的早晨8点的时候发了:“这个交通状况真的堪忧,又堵车了,上班又得迟到了。”周四下午6点发了:“下班了,今天打卡健身房,跑步10公里。”这些都可以作为基础数据输入模型训练。
通过筛选去掉只有唯一值的特征;例如在同一社交平台获取用户发布的动态,那么便可将社交平台这个特征删除。
去掉缺失值超过90%的特征,例如;对布尔型的值进行编码形成0或1,布尔型的值只有两个:false(假)和true(真),且false的序号为0,true的序号是1(或者是非0),例如将只有是、否两种的结果的特征进行布尔型编码是编码成1,否编码为0.
对数值类型的值进行归一化处理;数据归一化(标准化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据归一化处理后,各指标处于同一数量级,适合进行综合对比评价。通过对数值进行归一化处理,可以提升模型的收敛速度和提升模型的精度。
对字符串类型进行独热one-hot编码。one-hot编码解决了分类器不好处理属性数据的问题,让特征之间的距离计算更加合理。也能在一定程度上也起到了扩充特征的作用,比如性别本身是一个特征,经过one hot编码以后,就变成了男或女两个特征。将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。
S101:获取用户兴趣爱好样本数据,根据兴趣爱好数据训练得到兴趣爱好模型。
在本申请的一种实施例中,获取社交平台上的关于用户兴趣爱好的基础数据,比如关于打篮球、羽毛球等兴趣爱好的文章、动态等,作为训练样本集,然后对该文章或动态中的基础数据中的文案进行自然语言处理,经过语义分析得到分析结果;一开始使用的训练样本边界清晰,根据语义分析结果很容易由数据标注人员标记对应的兴趣爱好标签,比如篮球、羽毛球、游泳等。将标记好兴趣爱好标签的训练样本集输入到兴趣爱好模型进行训练,得到第一代兴趣爱好模型。
通过在社交平台采集用户文章、动态、朋友圈等数据,作为检测数据集,将检测数据集输入第一代兴趣爱好模型中,输出兴趣爱好标签。基于工作人员设置,删除检测数据集中输出结果不准确的数据,例如用户文章中明确表示爱好游泳,但输出的兴趣爱好标签却为打篮球,这便说明预测结果有误。将去除不准确的数据后的检测数据集再次作为训练样本集输入第一代兴趣爱好模型进行训练,得到第二代兴趣爱好模型;多次将剔除不准确结果的检测数据集转换为训练样本集后再次对兴趣爱好模型进行训练,可以使兴趣爱好模型判断逐渐精确。
S102:获取用户习惯样本数据,根据习惯样本数据训练得到行为习惯模型。
在本申请的一种实施例中,获取社交平台上的关于用户行为习惯的基础数据,比如关于行为习惯的文章、动态等,作为训练样本集,对基础数据中的文案进行自然语言处理,经过语义分析得到分析结果;一开始使用的训练样本边界清晰,根据语义分析结果很容易由数据标注人员标记对应的行为习惯标签,比如发推文、上学、上班、吃早餐、开车、骑车、健身、去运动等,并且根据用户发布朋友圈、文章等动态的时间自动标注上时间标签。将标记好行为习惯标签的训练样本集输入到行为习惯模型进行训练,得到第一代行为习惯模型。
通过在社交平台采集用户文章、动态、朋友圈等数据,作为检测数据集,将检测数据集输入第一代行为习惯模型中,输出时间标签和对应时间标签的行为标签,例如,预测到用户的行为是:周一7-8点吃早餐、8-9点通勤、19-21点健身,周二7-8点吃早餐、8-9点通勤、19-21点健身;……;周六9-11点做家务等。基于工作人员设置,删除检测数据集中输出结果不准确的数据,例如根据动态能够确定用户周一7点吃早餐,输出结果为周一7点上班,便说明预测结果有误。将去除不准确的数据后的检测数据集作为训练样本集输入第一代行为习惯模型进行训练,得到第二代行为习惯模型;多次将检测数据集转换为训练样本集后对行为习惯模型进行训练,以使行为习惯模型判断逐渐精确。
S103:获取用户作息习惯样本数据,根据作息习惯样本数据训练得到作息习惯模型。
在本申请的一种实施例中,获取社交平台上的关于用户作息习惯的基础数据,比如关于作息习惯的文章、动态等,作为训练样本集,对基础数据中的文案进行自然语言处理,经过语义分析得到分析结果;一开始使用的训练样本边界清晰,根据语义分析结果很容易由数据标注人员标记对应的作息习惯标签,比如睡觉、起床、午休、小憩等,并且根据用户发布朋友圈、文章等动态的时间自动标注上时间标签。将标记好作息习惯标签的训练样本集输入到作息习惯模型进行训练,得到第一代作息习惯模型。
通过在社交平台采集用户文章、动态、朋友圈等数据,作为检测数据集,将检测数据集输入第一代作息习惯模型中,输出时间标签和对应时间标签的作息标签,例如,预测到用户的作息是:周一6:00起床、13:00午休、22:00睡觉,周二6:00起床、13:00午休、22:00睡觉;……;周六8:00起床、23:00睡觉等。基于工作人员设置,删除检测数据集中输出结果不准确的数据,例如根据一条动态数据能够确定用户周一6:00起床,但输出结果却为周一6:00健身,则预测结果不准确。将去除不准确的数据后的检测数据集作为训练样本集输入第一代作息习惯模型进行训练,得到第二代作息习惯模型;多次将检测数据集转换为训练样本集后对作息习惯模型进行训练,以使作息习惯模型判断逐渐精确。
在本申请的一种实施例中,获取用户的发布动态的文案时间以及文案内容,对文案内容进行语义分析;确定语义和时间所占的权重,根据动态发布的时间和语义分析结果确定一条动态的得分;确定得分最高的动态对应的发布的时间作为作息时间。
例如,当明星账号出现不仅本人使用,明星背后的公司团队也在用的情况时,往往会在明星发布晚安的动态后,再通过公司发布广告动态,比如明星用户在22:00发了个“晚安,我去睡了”的动态,但是运营团队在23:00的时候使用该账号发了代言广告。再例如,用户的账号出现问题,再发布作息动态后,账号被盗,发布了乱七八糟的广告。为了能够更加准确预测用户的作息,这时便不能只通过检测文章发布的时间来确定用户作息,还要通过语义来确定。当获取到一条作息动态时,确定其语义是否符合作息习惯的标签,然后根据该条动态发布的时间判断是否符合休息时间段,根据时间和语义所占的权重计算该条动态的得分,根据得分判断是否可以根据该条动态确定作息时间,时间和语义所占权重可以根据实际情况进行调节。
S104:获取用户行动轨迹样本数据,根据行动轨迹样本数据训练得到行动轨迹模型。
在本申请的一种实施例中,获取社交平台上的关于用户行动轨迹基础数据,比如关于行为轨迹的文章、动态、照片、定位等,作为训练样本集,对基础数据中的文案进行自然语言处理,经过语义分析得到分析结果;一开始使用的训练样本边界清晰,根据语义分析结果很容易由数据标注人员标记对应的行为轨迹标签,比如动态包含的文案中包含我要去、我去了、今日抵达等词语,以及城市名称、景区名称、家(可以是小区的具体名称)、公司(可以为公司名称)、学校(可以是学校名称)等;也可以通过对图片中的标志性建筑物或标志物进行识别,从而确定位置;也可以直接通过用户发布的定位信息获取用户的位置信息;将标记好行动轨迹标签的训练样本集输入到行动轨迹模型进行训练,得到第一代行动轨迹模型。
通过在社交平台采集用户文章、动态、朋友圈、照片、定位等数据,作为检测数据集,将检测数据集输入第一代行动轨迹模型中,输出时间标签和对应时间标签的行动轨迹标签,例如,预测到用户的行动轨迹为周一早8-9点从家到公司,周一晚22点-周二5点从上海到北京等。基于工作人员设置,删除检测数据集中输出结果不准确的数据,例如,根据用户动态,“我即将去往上海路”,并附加了一个青岛的定位,但是预测结果为用户在上海,则预测结果不准确。将去除不准确的数据后的检测数据集作为训练样本集输入第一代行动轨迹模型进行训练,得到第二代行动轨迹模型;多次将检测数据集转换为训练样本集后对行动轨迹模型进行训练,以使行动轨迹模型判断逐渐精确。
在本申请的一种实施例中,获取用户在社交平台发布的动态中的图片信息;对图片进行场景识别,判断图片中的场景是否为标志物、车票、机票;若为标志物,查询标志物对应的标签,根据标签确定用户的行动地点;例如,图片中为上海的东方明珠,可根据地标判断用户在上海。若为车票,识别车票中的起点和终点,确定用户的行动轨迹。
S105:采集目标人物的开源信息,将开源信息存储到搜索引擎Elasticsearch中。
ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。
S106:根据兴趣爱好模型、行为习惯模型、作息习惯模型、行动轨迹模型生成API接口。
API就是操作系统留给应用程序的一个调用接口,应用程序通过调用操作系统的API而使操作系统去执行应用程序的命令。
S107:通过调用对应的API接口,按格式传参,通过各个模型分析开源信息得到目标人物的画像。
具体地,通过启动服务(支持Windows、Linux操作系统),目前服务是用Java语言去编写的服务端代码,在服务器端启动jar包,待成功后可根据相应的接口文档,调用响应接口即可获得分析结果。
以上为本申请实施例提供的一种基于机器学习勾勒人物画像的方法,基于同样的发明思路,本申请实施例还提供了相应的一种基于机器学习勾勒人物画像的设备,如图2所示。
本实施例提供了一种基于机器学习勾勒人物画像的设备,包括:
至少一个处理器;以及,
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
获取用户兴趣爱好样本数据,根据兴趣爱好数据训练得到兴趣爱好模型;
获取用户习惯样本数据,根据习惯样本数据训练得到行为习惯模型;
获取用户作息习惯样本数据,根据作息习惯样本数据训练得到作息习惯模型;
获取用户行动轨迹样本数据,根据行动轨迹样本数据训练得到行动轨迹模型;
采集目标人物的开源信息,将开源信息存储到搜索引擎Elasticsearch中;
根据兴趣爱好模型、行为习惯模型、作息习惯模型、行动轨迹模型生成API接口;
通过调用对应的API接口,按格式传参,通过各个模型分析开源信息得到目标人物的画像。
基于同样的思路,本申请的一些实施例还提供了上述方法对应的介质。
本申请的一些实施例提供的一种基于机器学习勾勒人物画像的存储介质,存储有计算机可执行指令,计算机可执行指令设置为:
获取用户兴趣爱好样本数据,根据兴趣爱好数据训练得到兴趣爱好模型;
获取用户习惯样本数据,根据习惯样本数据训练得到行为习惯模型;
获取用户作息习惯样本数据,根据作息习惯样本数据训练得到作息习惯模型;
获取用户行动轨迹样本数据,根据行动轨迹样本数据训练得到行动轨迹模型;
采集目标人物的开源信息,将开源信息存储到搜索引擎Elasticsearch中;
根据兴趣爱好模型、行为习惯模型、作息习惯模型、行动轨迹模型生成API接口;
通过调用对应的API接口,按格式传参,通过各个模型分析开源信息得到目标人物的画像。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于方法和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的方法和介质与方法是一一对应的,因此,方法和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述方法和介质的有益技术效果。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程方法商品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程方法商品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程方法商品或者方法中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (8)

1.一种基于机器学习勾勒人物画像的方法,其特征在于,包括:
获取用户兴趣爱好样本数据,根据所述兴趣爱好数据训练得到兴趣爱好模型;
获取用户习惯样本数据,根据所述习惯样本数据训练得到行为习惯模型;
获取用户作息习惯样本数据,根据所述作息习惯样本数据训练得到作息习惯模型;
获取用户行动轨迹样本数据,根据所述行动轨迹样本数据训练得到行动轨迹模型;
采集目标人物的开源信息,将所述开源信息存储到搜索引擎Elasticsearch中;
根据所述兴趣爱好模型、所述行为习惯模型、所述作息习惯模型、所述行动轨迹模型生成API接口;
通过调用对应的API接口,按格式传参,通过各个模型分析所述开源信息得到目标人物的画像;
获取用户在社交平台发布的动态中的图片信息;
对所述图片进行场景识别,判断所述图片中的场景是否为标志物、车票、机票;
若为标志物,查询所述标志物对应的标签,根据所述标签确定所述用户的行动地点;
若为车票,识别所述车票中的起点和终点,确定所述用户的行动轨迹;
获取用户的发布动态的文案时间以及文案内容,对所述文案内容进行语义分析;
确定语义和时间所占的权重,根据所述动态发布的时间和所述语义分析结果确定一条动态的得分;
确定得分最高的动态对应的发布的时间作为作息时间。
2.根据权利要求1所述的方法,其特征在于,所述获取用户兴趣爱好样本数据,根据所述兴趣爱好数据训练得到兴趣爱好模型,具体包括:
获取社交平台上的基础数据,作为训练样本集,对所述基础数据中的文案进行语义分析;
根据所述语义分析结果标记对应的兴趣爱好标签;
将标记好兴趣爱好标签的训练样本集输入到所述兴趣爱好模型进行训练,得到第一代兴趣爱好模型;
将检测数据集输入所述第一代兴趣爱好模型中,输出兴趣爱好标签;
基于工作人员设置,删除所述检测数据集中输出结果不准确的数据;
将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代兴趣爱好模型进行训练,得到第二代兴趣爱好模型;
多次将检测数据集转换为训练样本集后对兴趣爱好模型进行训练,以使所述兴趣爱好模型判断逐渐精确。
3.根据权利要求1所述的方法,其特征在于,所述获取用户习惯样本数据,根据所述习惯样本数据训练得到行为习惯模型,具体包括:
获取社交平台上的基础数据,作为训练样本集,对所述基础数据中的文案进行语义分析;
根据所述语义分析结果标记对应的行为习惯标签;
将标记好行为习惯标签的训练样本集输入到所述行为习惯模型进行训练,得到第一代行为习惯模型;
将检测数据集输入所述第一代行为习惯模型中,输出时间标签和对应所述时间标签的行为标签;
基于工作人员设置,删除所述检测数据集中输出结果不准确的数据;
将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代行为习惯模型进行训练,得到第二代行为习惯模型;
多次将检测数据集转换为训练样本集后对行为习惯模型进行训练,以使所述行为习惯模型判断逐渐精确。
4.根据权利要求1所述的方法,其特征在于,所述获取用户作息习惯样本数据,根据所述作息习惯样本数据训练得到作息习惯模型,具体包括:
获取社交平台上的基础数据,作为训练样本集,对所述基础数据中的文案进行语义分析;
根据所述语义分析结果标记对应的作息习惯标签;
将标记好作息习惯标签的训练样本集输入到所述作息习惯模型进行训练,得到第一代作息习惯模型;
将检测数据集输入所述第一代作息习惯模型中,输出时间标签和对应所述时间标签的作息习惯;
基于工作人员设置,删除所述检测数据集中输出结果不准确的数据;
将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代作息习惯模型进行训练,得到第二代作息习惯模型;
多次将检测数据集转换为训练样本集后对作息习惯模型进行训练,以使所述作息习惯模型判断逐渐精确。
5.根据权利要求1所述的方法,其特征在于,所述获取用户行动轨迹样本数据,根据所述行动轨迹样本数据训练得到行动轨迹模型,具体包括:
获取社交平台上的基础数据,作为训练样本集,对所述基础数据中的文案进行语义分析;
根据所述语义分析结果标记对应的行动轨迹标签;
将标记好行动轨迹标签的训练样本集输入到所述行动轨迹模型进行训练,得到第一代行动轨迹模型;
将检测数据集输入所述第一代行动轨迹模型中,输出时间标签和对应所述时间标签的行动轨迹标签;
基于工作人员设置,删除所述检测数据集中输出结果不准确的数据;
将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代行动轨迹模型进行训练,得到第二代行动轨迹模型;
多次将检测数据集转换为训练样本集后对行动轨迹模型进行训练,以使所述行动轨迹模型判断逐渐精确。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在获得各个模型的样本数据后,对所述样本数据进行预处理,包括:
通过筛选去掉只有唯一值的特征,去掉缺失值超过90%的特征;
对布尔型的值进行编码形成0或1;
对数值类型的值进行归一化处理;
对字符串类型进行独热one-hot编码。
7.一种基于机器学习勾勒人物画像的设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取用户兴趣爱好样本数据,根据所述兴趣爱好数据训练得到兴趣爱好模型;
获取用户习惯样本数据,根据所述习惯样本数据训练得到行为习惯模型;
获取用户作息习惯样本数据,根据所述作息习惯样本数据训练得到作息习惯模型;
获取用户行动轨迹样本数据,根据所述行动轨迹样本数据训练得到行动轨迹模型;
采集目标人物的开源信息,将所述开源信息存储到搜索引擎Elasticsearch中;
根据所述兴趣爱好模型、所述行为习惯模型、所述作息习惯模型、所述行动轨迹模型生成API接口;
通过调用对应的API接口,按格式传参,通过各个模型分析所述开源信息得到目标人物的画像;
获取用户在社交平台发布的动态中的图片信息;
对所述图片进行场景识别,判断所述图片中的场景是否为标志物、车票、机票;
若为标志物,查询所述标志物对应的标签,根据所述标签确定所述用户的行动地点;
若为车票,识别所述车票中的起点和终点,确定所述用户的行动轨迹;
获取用户的发布动态的文案时间以及文案内容,对所述文案内容进行语义分析;
确定语义和时间所占的权重,根据所述动态发布的时间和所述语义分析结果确定一条动态的得分;
确定得分最高的动态对应的发布的时间作为作息时间。
8.一种非易失性存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:
获取用户兴趣爱好样本数据,根据所述兴趣爱好数据训练得到兴趣爱好模型;
获取用户习惯样本数据,根据所述习惯样本数据训练得到行为习惯模型;
获取用户作息习惯样本数据,根据所述作息习惯样本数据训练得到作息习惯模型;
获取用户行动轨迹样本数据,根据所述行动轨迹样本数据训练得到行动轨迹模型;
采集目标人物的开源信息,将所述开源信息存储到搜索引擎Elasticsearch中;
根据所述兴趣爱好模型、所述行为习惯模型、所述作息习惯模型、所述行动轨迹模型生成API接口;
通过调用对应的API接口,按格式传参,通过各个模型分析所述开源信息得到目标人物的画像;
获取用户在社交平台发布的动态中的图片信息;
对所述图片进行场景识别,判断所述图片中的场景是否为标志物、车票、机票;
若为标志物,查询所述标志物对应的标签,根据所述标签确定所述用户的行动地点;
若为车票,识别所述车票中的起点和终点,确定所述用户的行动轨迹;
获取用户的发布动态的文案时间以及文案内容,对所述文案内容进行语义分析;
确定语义和时间所占的权重,根据所述动态发布的时间和所述语义分析结果确定一条动态的得分;
确定得分最高的动态对应的发布的时间作为作息时间。
CN202210210394.8A 2022-03-03 2022-03-03 一种基于机器学习勾勒人物画像的方法、设备、存储介质 Active CN114595387B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210210394.8A CN114595387B (zh) 2022-03-03 2022-03-03 一种基于机器学习勾勒人物画像的方法、设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210210394.8A CN114595387B (zh) 2022-03-03 2022-03-03 一种基于机器学习勾勒人物画像的方法、设备、存储介质

Publications (2)

Publication Number Publication Date
CN114595387A CN114595387A (zh) 2022-06-07
CN114595387B true CN114595387B (zh) 2023-09-29

Family

ID=81815728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210210394.8A Active CN114595387B (zh) 2022-03-03 2022-03-03 一种基于机器学习勾勒人物画像的方法、设备、存储介质

Country Status (1)

Country Link
CN (1) CN114595387B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012020979A2 (ko) * 2010-08-11 2012-02-16 Cho Hong Rai 실시간으로 예매 상태 정보를 제공하는 방법 및 시스템
WO2018145447A1 (zh) * 2017-02-07 2018-08-16 中兴通讯股份有限公司 一种终端工作控制方法、装置及终端
CN108877801A (zh) * 2018-06-14 2018-11-23 南京云思创智信息科技有限公司 基于多模态情绪识别系统的多轮对话语义理解子系统
KR102052624B1 (ko) * 2018-11-09 2019-12-05 주식회사 루닛 기계 학습 방법 및 장치
CN111858901A (zh) * 2019-04-30 2020-10-30 北京智慧星光信息技术有限公司 一种基于语义相似的文本推荐方法及系统
CN112000894A (zh) * 2020-10-28 2020-11-27 北京妙医佳健康科技集团有限公司 一种健康管理信息推送方法、装置、设备及存储介质
CN112001739A (zh) * 2019-05-27 2020-11-27 广东小天才科技有限公司 一种生成用户学习画像的方法和系统
CN112328849A (zh) * 2020-11-02 2021-02-05 腾讯科技(深圳)有限公司 用户画像的构建方法、基于用户画像的对话方法及装置
CN112560054A (zh) * 2020-12-14 2021-03-26 珠海格力电器股份有限公司 一种用户数据处理方法、装置、电子设备及存储介质
CN112667714A (zh) * 2021-03-17 2021-04-16 腾讯科技(深圳)有限公司 基于深度学习的用户画像优化方法、装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190311114A1 (en) * 2018-04-09 2019-10-10 Zhongan Information Technology Service Co., Ltd. Man-machine identification method and device for captcha

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012020979A2 (ko) * 2010-08-11 2012-02-16 Cho Hong Rai 실시간으로 예매 상태 정보를 제공하는 방법 및 시스템
WO2018145447A1 (zh) * 2017-02-07 2018-08-16 中兴通讯股份有限公司 一种终端工作控制方法、装置及终端
CN108877801A (zh) * 2018-06-14 2018-11-23 南京云思创智信息科技有限公司 基于多模态情绪识别系统的多轮对话语义理解子系统
KR102052624B1 (ko) * 2018-11-09 2019-12-05 주식회사 루닛 기계 학습 방법 및 장치
CN111858901A (zh) * 2019-04-30 2020-10-30 北京智慧星光信息技术有限公司 一种基于语义相似的文本推荐方法及系统
CN112001739A (zh) * 2019-05-27 2020-11-27 广东小天才科技有限公司 一种生成用户学习画像的方法和系统
CN112000894A (zh) * 2020-10-28 2020-11-27 北京妙医佳健康科技集团有限公司 一种健康管理信息推送方法、装置、设备及存储介质
CN112328849A (zh) * 2020-11-02 2021-02-05 腾讯科技(深圳)有限公司 用户画像的构建方法、基于用户画像的对话方法及装置
CN112560054A (zh) * 2020-12-14 2021-03-26 珠海格力电器股份有限公司 一种用户数据处理方法、装置、电子设备及存储介质
CN112667714A (zh) * 2021-03-17 2021-04-16 腾讯科技(深圳)有限公司 基于深度学习的用户画像优化方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
大学生日常生活行为特征――以西安市为例;寇丽莉;郭才;;太原师范学院学报(自然科学版)(第01期);全文 *

Also Published As

Publication number Publication date
CN114595387A (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
Zhu et al. Mobile app classification with enriched contextual information
CN112329467B (zh) 地址识别方法、装置、电子设备以及存储介质
Bauder Using GPS supported speed analysis to determine spatial visitor behaviour
Kovacs-Gyori et al. # London2012: Towards citizen-contributed urban planning through sentiment analysis of twitter data
CN104142995B (zh) 基于视觉属性的社会事件识别方法
CN112182398B (zh) 考虑用户的长期偏好与短期偏好的景点推荐方法和系统
CN108764203A (zh) 一种面向城市规划的行人量化分析及展示系统
Soares et al. A combined solution for real-time travel mode detection and trip purpose prediction
CN115002200A (zh) 基于用户画像的消息推送方法、装置、设备及存储介质
CN114648392A (zh) 基于用户画像的产品推荐方法、装置、电子设备及介质
CN110597945B (zh) 城市地铁站域的认知场所特征识别方法及系统
CN114595387B (zh) 一种基于机器学习勾勒人物画像的方法、设备、存储介质
Tamaki Likes on image posts in social networking services: Impact of travel episode
da Penha Natal et al. Activity recognition model based on GPS data, points of interest and user profile
KR102004949B1 (ko) 인공 지능 기반의 광고 방법 및 이러한 방법을 수행하는 장치
RU2658876C1 (ru) Способ и сервер для обработки данных датчика беспроводного устройства для создания вектора объекта, связанного с физическим положением
Esuli et al. Traj2user: exploiting embeddings for computing similarity of users mobile behavior
CN114299196A (zh) 海报自动生成方法及系统、存储介质、终端设备
Huang Destination marketing: Approaches to improve productivity in an era of technology disruption
Jethale et al. Monument Informatica: A Tour based Guide system using Real Time Monument Recognition
Koblet et al. Extracting perceived landscape properties from text sources
Wu et al. Social media-based analysis of bus service satisfaction
KR20190017606A (ko) 온라인 소셜 네트워크 서비스 데이터로부터 공간 기반 사회적 행위를 추출하는 방법 및 시스템
Kweldju Comparing Signage in Geographic Space: Raising Students Readiness for the Disruptive Age
JP7240358B2 (ja) 情報処理システム、情報処理方法、情報処理プログラム、およびサーバ

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant