CN116010700A - 一种基于知识图谱的用户画像方法 - Google Patents
一种基于知识图谱的用户画像方法 Download PDFInfo
- Publication number
- CN116010700A CN116010700A CN202310031149.5A CN202310031149A CN116010700A CN 116010700 A CN116010700 A CN 116010700A CN 202310031149 A CN202310031149 A CN 202310031149A CN 116010700 A CN116010700 A CN 116010700A
- Authority
- CN
- China
- Prior art keywords
- label
- tag
- information
- user
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理领域,尤其涉及一种基于知识图谱的用户画像方法,该方法包括:根据行为数据信息对行为对象进行分类和特征提取以得到行为对象标签,根据基本信息的子信息确定属性标签;根据行为对象标签和属性标签对用户标签确定显性标签,并根据行为对象标签和属性标签对用户标签进行扩展以得到隐性标签,并构建用户画像进行显示;判断用户画像中的所述隐性标签是否符合调整条件以对所述隐性标签进行调整,判断是否对所述显性标签进行调整以确定显性标签的留存时长。本申请通过对标签进行扩展,使用户画像更加丰富和准确,并通过对预设周期内用户的数据对显性标签和隐性标签进行调整,提高不同用户的标签的准确性。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种基于知识图谱的用户画像方法。
背景技术
知识图谱,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及他们之间的联系。
中国专利申请公开号:CN108694223B的专利公开了一种用户画像库的构建方法,该方法包括:获取针对视频对象的用户浏览记录信息;根据所述用户浏览记录信息确定所述用户浏览记录信息所对应的视频对象;提取所述视频对象的标签信息;将所述标签信息导入知识图谱库进行关联操作,获取所述标签信息与关联到的特征信息之间的第一对应关系和所述特征信息与对应的分类信息之间的第二对应关系;将所述第一对应关系和所述第二对应关系导入用户画像库;根据所述第一对应关系提取所述知识图谱库中相邻所述特征信息之间的第三对应关系;将所述第三对应关系导入所述用户画像库;根据所述第三对应关系对所述特征信息进行分类得到多个分类集合;按照第一预设规则对各个所述分类集合添加对应的权重标签以供在进行视频对象推荐时,根据所述权重标签包括的权重值的大小将所述分类集合中所述特征信息对应的视频对象进行推荐。
现有技术通过根据获取用户浏览记录信息确定对应的视频对象,并提取所述视频对象的标签信息,根据标签信息与知识图谱的关联构建具有信息关联与信息分类体系的用户画像库,但由于数据量的增大,并不能构建全面准确的标签。
发明内容
为此,本发明提供一种基于知识图谱的用户画像方法,可以解决不能构建全面准确的标签的问题。
为实现上述目的,本发明提供一种基于知识图谱的用户画像方法,该方法包括:
获取用户的基本信息和行为数据信息;
根据所述行为数据信息对行为对象进行分类和特征提取以分别得到第一特征和第二特征,并将第一特征和第二特征进行组合以得到行为对象标签,根据所述基本信息的子信息确定属性标签;
根据所述行为对象标签和属性标签对用户标签确定显性标签,并根据所述行为对象标签和属性标签对用户标签进行扩展以得到隐性标签,根据所述显性标签和隐性标签确定目标用户标签;
根据所述目标用户标签构建用户画像并进行显示;
获取第一预设周期时间内的用户的目标行为数据信息,根据目标行为数据信息判断所述用户画像中的所述隐性标签是否符合调整条件,并根据判定结果对所述用户画像中的所述隐性标签进行调整,获取第二预设周期时间内的用户画像对应的用户的行为状态信息和行为触发等级信息,根据所述行为状态信息判定是否对所述显性标签进行调整,并根据所述行为触发等级信息和是否对所述显性标签进行调整的判定结果确定显性标签的留存时长。
进一步地,在根据所述行为数据信息对所述行为对象进行分类时,获取行为对象在行为数据信息中的分区类型,将所述分区类型作为第一特征,并对行为对象进行特征提取以得到若干子特征;
对若干所述子特征中重复的子特征进行剔除,获取剩余子特征中每个子特征的词义分词,将剩余的子特征的词义分词进行比较,统计每两个子特征中语义分词的总数量和重合数量,计算每两个子特征的特征相似度,设定特征相似度=重合数量/总数量,并将特征相似度与预设特征相似度进行比较;
若特征相似度大于等于预设特征相似度,则判定两个子特征相似,并将其中一个子特征进行剔除;
若特征相似度小于预设特征相似度,则判定两个子特征不相似,不对两个子特征进行剔除;
将根据所述特征相似度进行剔除后剩余的子特征作为第二特征。
进一步地,根据行为对象的显示信息,将任意形式的显示信息转化为文字信息,并将所述文字信息进行分词处理以得到若干分词,将若干分词进行对比,并统计分词总数量和每个分词的重复数量,根据所述分词总数量和每个分词重复数量计算每个分词的重复率,设定重复率=重复数量/分词总数量,将重复率与预设重复率进行比较;
若重复率大于等于预设重复率,则判定重复分词符合特征提取标准,将该重复分词作为所述行为对象的子特征;
若重复率小于预设重复率,则判定重复分词不符合特征提取标准。
进一步地,在根据所述基本信息确定所述属性标签时,判断所述基本信息中的子信息是否符合分级标准,将符合分级标准的子信息根据预设分级条件确定所述子信息的等级,并将确定的等级和预设等级标签进行匹配以得到对应的等级标签,将不符合分级标准的子信息与预设信息标签进行匹配以得到对应的信息标签,将所述等级标签和信息标签进行组合以得到所述属性标签。
进一步地,在根据所述行为对象标签和属性标签对用户标签进行扩展时,将行为对象标签和属性标签进行任意组合,将标签组合输入至关联模型进行标签关联以得到隐性标签,所述行为对象标签和属性标签为显性标签,并将所述显性标签和隐性标签组合为所述目标用户标签。
进一步地,在根据所述目标用户标签构建用户画像时,将目标用户标签中的所述显性标签根据第一预设比例进行显示,将目标用户标签中的所述隐性标签根据第二预设比例进行显示,其中,第一预设比例大于第二预设比例。
进一步地,在判断所述用户画像中的所述隐性标签是否符合调整条件时,根据所述目标行为数据信息中的目标行为对象的目标显示信息判断目标显示信息中是否包含所述隐性标签,将目标显示信息进行文字信息转化和分词处理以得到目标分词,将隐性标签与目标分词进行匹配;
若匹配成功,则判定所述用户画像中的所述隐性标签符合调整条件;
若匹配失败,则判定所述用户画像中的所述隐性标签不符合调整条件。
进一步地,在对所述用户画像中的所述隐性标签进行调整时,统计不同隐性标签被判定符合调整条件的判定次数和目标分词总数,根据所述判定次数与所述目标分词总数计算判定比率,设定判定比率=判定次数/目标分词总数,将判定比率与预设判定比率进行比较;
若判定比率大于等于预设判定比率,则判定对所述用户画像中的所述隐性标签进行调整,将该隐性标签确定为显性标签;
若判定比率小于预设判定比率,则判定不对所述用户画像中的所述隐性标签进行调整。
进一步地,在根据所述行为状态信息判定是否对所述显性标签进行调整时,根据行为状态信息中在状态的数量及每次时长计算在状态的总时长,并计算总时长在所述第二预设周期时间中的每日占比,设定每日占比=总时长/24/第二预设周期时间,将每日占比与预设每日占比进行比较;
若每日占比大于等于预设每日占比,则判定对所述显性标签进行调整;
若每日占比小于预设每日占比,则判定不对所述显性标签进行调整。
进一步地,根据所述行为触发等级信息和是否对所述显性标签进行调整的判定结果对显性标签的留存时长进行调整以得到目标留存时长,所述行为触发等级为第一等级、第二等级或第三等级,根据用户所在等级选择调节系数对标准留存时长进行调整,其中,
若所述行为触发等级为第一等级,则选取第一调整系数对所述标准留存时长进行调整,以得到对应显性标签的目标留存时长,设定目标留存时长=标准留存时长×第一调整系数;
若所述行为触发等级为第二等级,则选取第二调整系数对所述标准留存时长进行调整以得到对应显性标签的目标留存时长,设定目标留存时长=标准留存时长×第二调整系数;
若所述行为触发等级为第三等级,则选取第三调整系数对所述标准留存时长进行调整以得到对应显性标签的目标留存时长,设定目标留存时长=标准留存时长×第三调整系数;
其中,第二等级大于第三等级且小于第一等级,第二调整系数大于第三调整系数且小于第一调整系数,且第一调整系数小于1和第三调整系数大于0。
与现有技术相比,本发明的有益效果在于,通过得到行为对象标签和确定属性标签,实现了对用户的初级标签的确定;接着根据行为对象标签和属性标签确定显性标签并对两者进行扩展以得到隐性标签,实现了对初级标签的扩展,以使用户画像更加丰富和准确;根据目标用户标签构建用户画像并进行显示,实现显示用户标签信息;最后根据周期时间内的目标行为数据信息判断所述用户画像中的隐性标签是否符合调整条件,并根据判定结果对所述用户画像中的所述隐性标签进行调整,实现了对隐性标签的确认,确认的隐性标签将升级为显性标签,使用户画像中的标签更加丰富和准确,通过根据所述行为状态信息判定是否对所述显性标签进行调整,并根据行为触发等级信息和是否对所述显性标签进行调整的判定结果确定显性标签的留存时长,将在潜在流失的用户显性标签的留存时长进行降低,构建不同用户的标签,提高不同用户的标签的准确性。
尤其,通过根据获取的所述行为数据信息对行为对象进行分类和特征提取以得到行为对象标签,对特征提取得到的若干子特征进行剔除,对剩余子特征中每个子特征的特征相似度进行比较以确定第二特征,进而实现对用户标签的行为对象标签的确定,进而实现了对用户的初级标签的确定,提高用户标签的准确性。
尤其,通过根据判断所述基本信息中的子信息是否符合分级标准以确定所述属性标签,进而得到目标用户标签,实现了对初级标签的扩展,使用户画像更加丰富和准确。
尤其,通过根据所述目标用户标签构建用户画像并进行显示,实现对不同标签的显示,不同标签的显示效果不同,实现对用户画像的构建。
尤其,在判断所述用户画像中的所述隐性标签是否符合调整条件时,根据所述目标行为数据信息中的目标行为对象的目标显示信息判断目标显示信息中是否包含所述隐性标签,将目标显示信息进行文字信息转化和分词处理以得到目标分词,将隐性标签与目标分词进行匹配,根据匹配结果判断隐性标签是否符合调整条件,进而实现对隐性标签进行调整,进而实现对隐性标签的确认,确认的隐性标签将升级为显性标签,使用户画像中的标签更加丰富和准确。
尤其,在对所述用户画像中的所述隐性标签进行调整时,统计不同隐性标签被判定符合调整条件的判定次数和目标分词总数,根据所述判定次数与所述目标分词总数计算判定比率,将判定比率与预设判定比率进行比较以二次确定是否对隐性标签进行调整,确认调整的隐性标签升级为显性标签,由于隐性标签为估测出的,通过确认使与用户存在隐性关联的标签升级为显性标签,使用户画像中的标签更加丰富和准确。
尤其,在根据所述行为状态信息判定是否对所述显性标签进行调整时,根据行为状态信息中在状态的数量及每次时长计算在状态的总时长,并计算总时长在所述第二预设周期时间中的每日占比,将每日占比与预设每日占比进行比较以初次确定是否对显性标签进行调整,将在潜在流失的用户显性标签进行调整,构建不同用户的标签,提高不同用户的标签的准确性。
尤其,根据所述行为触发等级信息和是否对所述显性标签进行调整的判定结果对显性标签的留存时长进行调整以得到目标留存时长,根据行为触发等级信息以二次确定是否对显性标签进行调整,对该用户的显性标签的留存时长进行不同调整,根据潜在流失的用户的消费水平对显性标签留存时长进行不同降低,构建不同用户的标签,提高不同用户的标签的准确性。
附图说明
图1为本发明实施例提供的基于知识图谱的用户画像方法的流程示意图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,本发明实施例提供的一种基于知识图谱的用户画像方法包括:
步骤S110,获取用户的基本信息和行为数据信息;
步骤S120,根据所述行为数据信息对行为对象进行分类和特征提取以分别得到第一特征和第二特征,并将第一特征和第二特征进行组合以得到行为对象标签,根据所述基本信息的子信息确定属性标签;
步骤S130,根据所述行为对象标签和属性标签对用户标签确定显性标签,并根据所述行为对象标签和属性标签对用户标签进行扩展以得到隐性标签,根据所述显性标签和隐性标签确定目标用户标签;
步骤S140,根据所述目标用户标签构建用户画像并进行显示;
步骤S150,获取第一预设周期时间内的用户的目标行为数据信息,根据目标行为数据信息判断所述用户画像中的所述隐性标签是否符合调整条件,并根据判定结果对所述用户画像中的所述隐性标签进行调整,获取第二预设周期时间内的用户画像对应的用户的行为状态信息和行为触发等级信息,根据所述行为状态信息判定是否对所述显性标签进行调整,并根据所述行为触发等级信息和是否对所述显性标签进行调整的判定结果确定显性标签的留存时长。
具体而言,本申请可以用于对网站或移动应用软件的用户构建用户画像,所述行为数据信息为用户浏览信息,所述行为对象为用户浏览的页面或区域,所述行为状态为用户上线状态,所述行为触发等级为用户的消费等级或会员等级,所述第一预设周期与第二预设周期可以相等也可以不相等。
具体而言,本发明实施例通过根据获取的所述行为数据信息对行为对象进行分类和特征提取以得到行为对象标签,根据所述基本信息的子信息确定属性标签,实现了对用户的初级标签的确定;接着根据所述行为对象标签和属性标签确定显性标签并对两者进行扩展以得到隐性标签,实现了对初级标签的扩展,以使用户画像更加丰富和准确;根据所述目标用户标签构建用户画像并进行显示,实现显示用户标签信息;最后根据周期时间内的目标行为数据信息判断所述用户画像中的所述隐性标签是否符合调整条件,并根据判定结果对所述用户画像中的所述隐性标签进行调整,实现了对隐性标签的确认,确认的隐性标签将升级为显性标签,使用户画像中的标签更加丰富和准确,通过获取周期时间内的用户画像对应的用户的行为状态信息和行为触发等级信息,根据所述行为状态信息判定是否对所述显性标签进行调整,并根据所述行为触发等级信息和是否对所述显性标签进行调整的判定结果确定显性标签的留存时长,将在潜在流失的用户显性标签的留存时长进行降低,构建不同用户的标签,提高不同用户的标签的准确性。
具体而言,在根据所述行为数据信息对所述行为对象进行分类时,获取行为对象在行为数据信息中的分区类型,将所述分区类型作为第一特征,并对行为对象进行特征提取以得到若干子特征;
对若干所述子特征中重复的子特征进行剔除,获取剩余子特征中每个子特征的词义分词,将剩余的子特征的词义分词进行比较,统计每两个子特征中语义分词的总数量和重合数量,计算每两个子特征的特征相似度,设定特征相似度=重合数量/总数量,并将特征相似度与预设特征相似度进行比较;
若特征相似度大于等于预设特征相似度,则判定两个子特征相似,并将其中一个子特征进行剔除;
若特征相似度小于预设特征相似度,则判定两个子特征不相似,不对两个子特征进行剔除;
将根据所述特征相似度进行剔除后剩余的子特征作为第二特征。
具体而言,本发明实施例通过根据获取的所述行为数据信息对行为对象进行分类和特征提取以得到行为对象标签,对特征提取得到的若干子特征进行剔除,对剩余子特征中每个子特征的特征相似度进行比较以确定第二特征,进而实现对用户标签的行为对象标签的确定,进而实现了对用户的初级标签的确定,提高用户标签的准确性。
具体而言,在对所述行为对象进行特征提取时,根据行为对象的显示信息,将任意形式的显示信息转化为文字信息,并将所述文字信息进行分词处理以得到若干分词,将若干分词进行对比,并统计分词总数量和每个分词的重复数量,根据所述分词总数量和每个分词重复数量计算每个分词的重复率,设定重复率=重复数量/分词总数量,将重复率与预设重复率进行比较;
若重复率大于等于预设重复率,则判定重复分词符合特征提取标准,将该重复分词作为所述行为对象的子特征;
若重复率小于预设重复率,则判定重复分词不符合特征提取标准。
具体而言,所述显示信息为用户浏览页面的显示内容,可以为图片、图像或文字,在将显示内容进行转化时可以运用图像识别等技术将图像或图片进行识别,将识别的内容转化为文字信息。
具体而言,在根据所述基本信息确定所述属性标签时,判断所述基本信息中的子信息是否符合分级标准,将符合分级标准的子信息根据预设分级条件确定所述子信息的等级,并将确定的等级和预设等级标签进行匹配以得到对应的等级标签,将不符合分级标准的子信息与预设信息标签进行匹配以得到对应的信息标签,将所述等级标签和信息标签进行组合以得到所述属性标签。
具体而言,所述基本信息包含的若干子信息可以为年龄、性别、地域和简介等,其中,在判断子信息是否符合标准为判断子信息是否可以分级,例如,年龄和地域可以分等级,表示其符合分级标准,若子信息不能分等级,表示其不符合分级标准,所述预设分级条件可以为年龄分级:20-30岁所在等级为第一等级,其对应的等级标签为年轻人,或年龄对应的年份所在等级,其对应的等级标签为九零后或零零后等,区域分级:区域的所在市或县所在等级,其对应的等级标签为一线、二线或三线。
具体而言,本发明实施例通过根据判断所述基本信息中的子信息是否符合分级标准以确定所述属性标签,进而得到目标用户标签,实现了对初级标签的扩展,使用户画像更加丰富和准确。
具体而言,在根据所述行为对象标签和属性标签对用户标签进行扩展时,将行为对象标签和属性标签进行任意组合,将标签组合输入至关联模型进行标签关联以得到隐性标签,所述行为对象标签和属性标签为显性标签,并将所述显性标签和隐性标签组合为所述目标用户标签。
具体而言,所述关联模型为通过人工标注的关联标签形成训练集及测试集训练得到。
具体而言,在根据所述目标用户标签构建用户画像时,将目标用户标签中的所述显性标签根据第一预设比例进行显示,将目标用户标签中的所述隐性标签根据第二预设比例进行显示,其中,第一预设比例大于第二预设比例。
具体而言,本发明实施例通过根据所述目标用户标签构建用户画像并进行显示,实现对不同标签的显示,不同标签的显示效果不同,实现对用户画像的构建。
具体而言,在判断所述用户画像中的所述隐性标签是否符合调整条件时,根据所述目标行为数据信息中的目标行为对象的目标显示信息判断目标显示信息中是否包含所述隐性标签,将目标显示信息进行文字信息转化和分词处理以得到目标分词,将隐性标签与目标分词进行匹配;
若匹配成功,则判定所述用户画像中的所述隐性标签符合调整条件;
若匹配失败,则判定所述用户画像中的所述隐性标签不符合调整条件。
具体而言,所述隐性标签中包含若干标签,在与目标分词匹配时对每一个标签分别进行匹配。
具体而言,本发明实施例在判断所述用户画像中的所述隐性标签是否符合调整条件时,根据所述目标行为数据信息中的目标行为对象的目标显示信息判断目标显示信息中是否包含所述隐性标签,将目标显示信息进行文字信息转化和分词处理以得到目标分词,将隐性标签与目标分词进行匹配,根据匹配结果判断隐性标签是否符合调整条件,进而实现对隐性标签进行调整,进而实现对隐性标签的确认,确认的隐性标签将升级为显性标签,使用户画像中的标签更加丰富和准确。
具体而言,在对所述用户画像中的所述隐性标签进行调整时,统计不同隐性标签被判定符合调整条件的判定次数和目标分词总数,根据所述判定次数与所述目标分词总数计算判定比率,设定判定比率=判定次数/目标分词总数,将判定比率与预设判定比率进行比较;
若判定比率大于等于预设判定比率,则判定对所述用户画像中的所述隐性标签进行调整,将该隐性标签确定为显性标签;
若判定比率小于预设判定比率,则判定不对所述用户画像中的所述隐性标签进行调整。
具体而言,本发明实施例在对所述用户画像中的所述隐性标签进行调整时,统计不同隐性标签被判定符合调整条件的判定次数和目标分词总数,根据所述判定次数与所述目标分词总数计算判定比率,将判定比率与预设判定比率进行比较以二次确定是否对隐性标签进行调整,确认调整的隐性标签升级为显性标签,由于隐性标签为估测出的,通过确认使与用户存在隐性关联的标签升级为显性标签,使用户画像中的标签更加丰富和准确。
具体而言,在根据所述行为状态信息判定是否对所述显性标签进行调整时,根据行为状态信息中在状态的数量及每次时长计算在状态的总时长,并计算总时长在所述第二预设周期时间中的每日占比,设定每日占比=总时长/24/第二预设周期时间,将每日占比与预设每日占比进行比较;
若每日占比大于等于预设每日占比,则判定对所述显性标签进行调整;
若每日占比小于预设每日占比,则判定不对所述显性标签进行调整。
具体而言,所述总时长的单位为小时,24为24小时,所述第二周期时间的单位为天,若总时长为分钟数或秒数,则24可以替换为1440或86400,可根据需要自行将其进行设定。
具体而言,本发明实施例在根据所述行为状态信息判定是否对所述显性标签进行调整时,根据行为状态信息中在状态的数量及每次时长计算在状态的总时长,并计算总时长在所述第二预设周期时间中的每日占比,将每日占比与预设每日占比进行比较以初次确定是否对显性标签进行调整,将在潜在流失的用户显性标签进行调整,构建不同用户的标签,提高不同用户标签的准确性。
具体而言,根据所述行为触发等级信息和是否对所述显性标签进行调整的判定结果对显性标签的留存时长进行调整以得到目标留存时长,所述行为触发等级为第一等级、第二等级或第三等级,根据用户所在等级选择调节系数对标准留存时长进行调整,其中,
若所述行为触发等级为第一等级,则选取第一调整系数对所述标准留存时长进行调整,以得到对应显性标签的目标留存时长,设定目标留存时长=标准留存时长×第一调整系数;
若所述行为触发等级为第二等级,则选取第二调整系数对所述标准留存时长进行调整以得到对应显性标签的目标留存时长,设定目标留存时长=标准留存时长×第二调整系数;
若所述行为触发等级为第三等级,则选取第三调整系数对所述标准留存时长进行调整以得到对应显性标签的目标留存时长,设定目标留存时长=标准留存时长×第三调整系数;
其中,第二等级大于第三等级且小于第一等级,第二调整系数大于第三调整系数且小于第一调整系数,且第一调整系数小于1和第三调整系数大于0。
具体而言,留存时长表示显性标签在用户画像中的保存时间。
具体而言,本发明实施例根据所述行为触发等级信息和是否对所述显性标签进行调整的判定结果对显性标签的留存时长进行调整以得到目标留存时长,根据行为触发等级信息以二次确定是否对显性标签进行调整,对该用户的显性标签的留存时长进行不同调整,根据潜在流失的用户的消费水平对显性标签留存时长进行不同降低,构建不同用户的标签,提高不同用户的标签的准确性。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于知识图谱的用户画像方法,其特征在于,包括:
获取用户的基本信息和行为数据信息;
根据所述行为数据信息对行为对象进行分类和特征提取以分别得到第一特征和第二特征,并将第一特征和第二特征进行组合以得到行为对象标签,根据所述基本信息的子信息确定属性标签;
根据所述行为对象标签和属性标签对用户标签确定显性标签,并根据所述行为对象标签和属性标签对用户标签进行扩展以得到隐性标签,根据所述显性标签和隐性标签确定目标用户标签;
根据所述目标用户标签构建用户画像并进行显示;
获取第一预设周期时间内的用户的目标行为数据信息,根据目标行为数据信息判断所述用户画像中的所述隐性标签是否符合调整条件,并根据判定结果对所述用户画像中的所述隐性标签进行调整,获取第二预设周期时间内的用户画像对应的用户的行为状态信息和行为触发等级信息,根据所述行为状态信息判定是否对所述显性标签进行调整,并根据所述行为触发等级信息和是否对所述显性标签进行调整的判定结果确定显性标签的留存时长。
2.根据权利要求1所述的基于知识图谱的用户画像方法,其特征在于,在根据所述行为数据信息对所述行为对象进行分类时,获取行为对象在行为数据信息中的分区类型,将所述分区类型作为第一特征,并对行为对象进行特征提取以得到若干子特征;
对若干所述子特征中重复的子特征进行剔除,获取剩余子特征中每个子特征的词义分词,将剩余的子特征的词义分词进行比较,统计每两个子特征中语义分词的总数量和重合数量,计算每两个子特征的特征相似度,设定特征相似度=重合数量/总数量,并将特征相似度与预设特征相似度进行比较;
若特征相似度大于等于预设特征相似度,则判定两个子特征相似,并将其中一个子特征进行剔除;
若特征相似度小于预设特征相似度,则判定两个子特征不相似,不对两个子特征进行剔除;
将根据所述特征相似度进行剔除后剩余的子特征作为第二特征。
3.根据权利要求2所述的基于知识图谱的用户画像方法,其特征在于,在对所述行为对象进行特征提取时,根据行为对象的显示信息,将任意形式的显示信息转化为文字信息,并将所述文字信息进行分词处理以得到若干分词,将若干分词进行对比,并统计分词总数量和每个分词的重复数量,根据所述分词总数量和每个分词重复数量计算每个分词的重复率,设定重复率=重复数量/分词总数量,将重复率与预设重复率进行比较;
若重复率大于等于预设重复率,则判定重复分词符合特征提取标准,将该重复分词作为所述行为对象的子特征;
若重复率小于预设重复率,则判定重复分词不符合特征提取标准。
4.根据权利要求3所述的基于知识图谱的用户画像方法,其特征在于,在根据所述基本信息确定所述属性标签时,判断所述基本信息中的子信息是否符合分级标准,将符合分级标准的子信息根据预设分级条件确定所述子信息的等级,并将确定的等级和预设等级标签进行匹配以得到对应的等级标签,将不符合分级标准的子信息与预设信息标签进行匹配以得到对应的信息标签,将所述等级标签和信息标签进行组合以得到所述属性标签。
5.根据权利要求4所述的基于知识图谱的用户画像方法,其特征在于,在根据所述行为对象标签和属性标签对用户标签进行扩展时,将行为对象标签和属性标签进行任意组合,将标签组合输入至关联模型进行标签关联以得到隐性标签,所述行为对象标签和属性标签为显性标签,并将所述显性标签和隐性标签组合为所述目标用户标签。
6.根据权利要求5所述的基于知识图谱的用户画像方法,其特征在于,在根据所述目标用户标签构建用户画像时,将目标用户标签中的所述显性标签根据第一预设比例进行显示,将目标用户标签中的所述隐性标签根据第二预设比例进行显示,其中,第一预设比例大于第二预设比例。
7.根据权利要求6所述的基于知识图谱的用户画像方法,其特征在于,在判断所述用户画像中的所述隐性标签是否符合调整条件时,根据所述目标行为数据信息中的目标行为对象的目标显示信息判断目标显示信息中是否包含所述隐性标签,将目标显示信息进行文字信息转化和分词处理以得到目标分词,将隐性标签与目标分词进行匹配;
若匹配成功,则判定所述用户画像中的所述隐性标签符合调整条件;
若匹配失败,则判定所述用户画像中的所述隐性标签不符合调整条件。
8.根据权利要求7所述的基于知识图谱的用户画像方法,其特征在于,在对所述用户画像中的所述隐性标签进行调整时,统计不同隐性标签被判定符合调整条件的判定次数和目标分词总数,根据所述判定次数与所述目标分词总数计算判定比率,设定判定比率=判定次数/目标分词总数,将判定比率与预设判定比率进行比较;
若判定比率大于等于预设判定比率,则判定对所述用户画像中的所述隐性标签进行调整,将该隐性标签确定为显性标签;
若判定比率小于预设判定比率,则判定不对所述用户画像中的所述隐性标签进行调整。
9.根据权利要求8所述的基于知识图谱的用户画像方法,其特征在于,在根据所述行为状态信息判定是否对所述显性标签进行调整时,根据行为状态信息中在状态的数量及每次时长计算在状态的总时长,并计算总时长在所述第二预设周期时间中的每日占比,设定每日占比=总时长/24/第二预设周期时间,将每日占比与预设每日占比进行比较;
若每日占比大于等于预设每日占比,则判定对所述显性标签进行调整;
若每日占比小于预设每日占比,则判定不对所述显性标签进行调整。
10.根据权利要求9所述的基于知识图谱的用户画像方法,其特征在于,根据所述行为触发等级信息和判定对所述显性标签进行调整的结果对显性标签的留存时长进行调整以得到目标留存时长,所述行为触发等级为第一等级、第二等级或第三等级,根据用户所在等级选择调节系数对标准留存时长进行调整,其中,
若所述行为触发等级为第一等级,则选取第一调整系数对所述标准留存时长进行调整,以得到对应显性标签的目标留存时长,设定目标留存时长=标准留存时长×第一调整系数;
若所述行为触发等级为第二等级,则选取第二调整系数对所述标准留存时长进行调整以得到对应显性标签的目标留存时长,设定目标留存时长=标准留存时长×第二调整系数;
若所述行为触发等级为第三等级,则选取第三调整系数对所述标准留存时长进行调整以得到对应显性标签的目标留存时长,设定目标留存时长=标准留存时长×第三调整系数;
其中,第二等级大于第三等级且小于第一等级,第二调整系数大于第三调整系数且小于第一调整系数,且第一调整系数小于1和第三调整系数大于0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310031149.5A CN116010700B (zh) | 2023-01-10 | 2023-01-10 | 一种基于知识图谱的用户画像方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310031149.5A CN116010700B (zh) | 2023-01-10 | 2023-01-10 | 一种基于知识图谱的用户画像方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116010700A true CN116010700A (zh) | 2023-04-25 |
CN116010700B CN116010700B (zh) | 2023-09-26 |
Family
ID=86037082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310031149.5A Active CN116010700B (zh) | 2023-01-10 | 2023-01-10 | 一种基于知识图谱的用户画像方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116010700B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116523545A (zh) * | 2023-06-28 | 2023-08-01 | 大汉电子商务有限公司 | 基于大数据的异常订单画像构建方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090164416A1 (en) * | 2007-12-10 | 2009-06-25 | Aumni Data Inc. | Adaptive data classification for data mining |
US20130218835A1 (en) * | 2012-03-25 | 2013-08-22 | Think Computer Corporation | Method and System for Storing, Categorizing and Distributing Information Concerning Relationships Between Data |
CN112905892A (zh) * | 2021-03-08 | 2021-06-04 | 陈国荣 | 应用于用户画像挖掘的大数据处理方法及大数据服务器 |
CN113377275A (zh) * | 2021-07-14 | 2021-09-10 | 亿览在线网络技术(北京)有限公司 | 一种基于标签的界面呈现方法 |
CN113902526A (zh) * | 2021-10-19 | 2022-01-07 | 平安科技(深圳)有限公司 | 基于人工智能的产品推荐方法、装置和计算机设备及介质 |
-
2023
- 2023-01-10 CN CN202310031149.5A patent/CN116010700B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090164416A1 (en) * | 2007-12-10 | 2009-06-25 | Aumni Data Inc. | Adaptive data classification for data mining |
US20130218835A1 (en) * | 2012-03-25 | 2013-08-22 | Think Computer Corporation | Method and System for Storing, Categorizing and Distributing Information Concerning Relationships Between Data |
CN112905892A (zh) * | 2021-03-08 | 2021-06-04 | 陈国荣 | 应用于用户画像挖掘的大数据处理方法及大数据服务器 |
CN113377275A (zh) * | 2021-07-14 | 2021-09-10 | 亿览在线网络技术(北京)有限公司 | 一种基于标签的界面呈现方法 |
CN113902526A (zh) * | 2021-10-19 | 2022-01-07 | 平安科技(深圳)有限公司 | 基于人工智能的产品推荐方法、装置和计算机设备及介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116523545A (zh) * | 2023-06-28 | 2023-08-01 | 大汉电子商务有限公司 | 基于大数据的异常订单画像构建方法 |
CN116523545B (zh) * | 2023-06-28 | 2023-09-15 | 大汉电子商务有限公司 | 基于大数据的用户画像构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116010700B (zh) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271512B (zh) | 舆情评论信息的情感分析方法、装置及存储介质 | |
CN110852793A (zh) | 文案推荐方法及装置、电子设备 | |
CN109168047B (zh) | 视频推荐方法、装置、服务器及存储介质 | |
CN110096681B (zh) | 合同条款分析方法、装置、设备及可读存储介质 | |
US10489637B2 (en) | Method and device for obtaining similar face images and face image information | |
CN108959329B (zh) | 一种文本分类方法、装置、介质及设备 | |
CN108536868B (zh) | 社交网络上短文本数据的数据处理方法及装置 | |
CN108804577B (zh) | 一种资讯标签兴趣度的预估方法 | |
CN116010700B (zh) | 一种基于知识图谱的用户画像方法 | |
CN111310011A (zh) | 一种信息推送方法、装置、电子设备及存储介质 | |
CN104077417A (zh) | 社交网络中的人物标签推荐方法和系统 | |
CN107944032B (zh) | 用于生成信息的方法和装置 | |
EP3608802A1 (en) | Model variable candidate generation device and method | |
CN114065750A (zh) | 商品信息匹配、发布方法及其装置、设备、介质、产品 | |
CN112508638A (zh) | 数据处理的方法、装置及计算机设备 | |
CN114880478A (zh) | 基于主题信息增强的弱监督方面类别检测方法 | |
CN112989824A (zh) | 信息推送方法及装置、电子设备及存储介质 | |
CN109558531A (zh) | 新闻信息推送方法、装置以及计算机设备 | |
CN110958472A (zh) | 视频点击量评级预测方法、装置、电子设备及存储介质 | |
CN113392920B (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
JP2021018466A (ja) | ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラム | |
CN106484913A (zh) | 一种目标图片确定的方法以及服务器 | |
CN112465565A (zh) | 一种基于机器学习的用户画像预测的方法及装置 | |
CN116362841A (zh) | 金融产品的推荐方法、装置、计算机设备及可读存储介质 | |
CN115965439A (zh) | 数据召回方法、数据召回装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |