CN110059177B - 一种基于用户画像的活动推荐方法及装置 - Google Patents
一种基于用户画像的活动推荐方法及装置 Download PDFInfo
- Publication number
- CN110059177B CN110059177B CN201910333305.7A CN201910333305A CN110059177B CN 110059177 B CN110059177 B CN 110059177B CN 201910333305 A CN201910333305 A CN 201910333305A CN 110059177 B CN110059177 B CN 110059177B
- Authority
- CN
- China
- Prior art keywords
- word segmentation
- user
- matching
- activity
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于用户画像的活动推荐方法,该方法包括:对文化行业进行分类,形成分类分词模型,并进行存储;对历史用户进行统计分析,形成具有多个级别的用户画像,形成所有用户的标签设定,并进行存储;对新数据信息进行预处理后,得到多个分词标签,并将所述分词标签进行临时存储;将所述分词标签与所述分类分词模型中的元素进行匹配,得到所述分类分词模型中的对应分类;对得到的所述分类模型中的对应分类与所述用户画像中的标签进行匹配,从而确定可参见所述新发布活动的用户群,并对所述新活动进行推送。本发明通过分析使用用户的属性特征和行为习惯,利用多叉树形成了用户画像,提高针对个人的文化活动内容推荐的精准度。
Description
技术领域
本发明涉及活动推荐方法及系统,具体涉及一种基于用户画像的活动推荐方法及装置。
背景技术
普通百姓预约和参加文化活动,都是在各种文化活动机构比如文化馆、图书馆等的网站平台进行自行搜索,效率低下;再此基础上,有人推出了用户推荐的专题功能,然而这种推荐大多数是后台编辑人员根据自己的喜好和认知进行的,精准度不高,用户采用率不高。
发明内容
发明目的:为了克服现有技术的不足,本发明提供一种基于用户画像的活动推荐方法,该方法可以解决现有技术中广告式推荐导致的精准率不高和效率低的问题,本发明还提供一种基于用户画像的活动推荐装置。
技术方案:本发明所述的基于用户画像的活动推荐方法,该方法包括:
(1)对文化行业进行分类,形成分类分词模型,并进行存储;
(2)对历史用户进行统计分析,形成具有多个级别的用户画像,形成所有用户的标签设定,并存储到临时集合中;
(3)对新数据信息进行预处理后,得到多个分词标签,并将所述分词标签进行临时存储;
(4)将所述分词标签与所述分类分词模型中的元素进行匹配,得到所述分类分词模型中的对应分类;
(5)对得到的所述分类模型中的对应分类与所述用户画像中的标签进行匹配,从而确定可参见所述新发布活动的用户群,并对所述新活动进行推送。
优选的,步骤(1)中,所述分类分词模型包括地区集合、文化团体名称集合、艺术家名字集、文化品牌集合、专有名词集合、活动类别集合以及艺术形式集合。
优选的,所述用户画像为包括深度为n的多叉树,所述多叉树的每个节点根据节点信息(父节点ID,节点ID,节点名称)进行存储,并采用深度优先进行遍历查找。
优选的,所述步骤(4)中,将所述目标词组与所述分类分词模型中的节点信息进行匹配包括:
首先,分别读取每个分词标签,分别查找地区集合、文化团体名称集合、艺术家名字集、文化品牌集合、专有名词集合、活动类别集合以及艺术形式集合中的所有元素,若存在与所述分词标签相同的元素,则存储该元素以及该元素对应的集合分类名称,若不存在与所述分词标签相同的元素,则判断是否为时间属性或地名属性的标签,若是时间属性或者地名属性,则存储该标签,否则不存储;其次,将所有分词标签查找后存储的所有元素记为匹配标签G[g1,g2,...,gu],u为最后一个分词标签存储后的元素的数量。
优选的,所述步骤(5)中,对得到的所述分类模型中的对应分类与所述用户画像中的标签进行匹配,包括将所述匹配标签中的每个元素与所述多叉树中的节点信息进行模糊匹配,若存在两个及以上的匹配标签与节点信息匹配成功,则所述用户为被推送用户。
另一方面,本发明还提供一种基于用户画像的活动推荐方法实现的装置,所述装置包括用户智能终端设备和服务器,所述服务器还包括第一存储模块、第一处理模块、第二存储模块、第二处理模块、第三存储模块、第三处理模块、第一匹配模块和第二匹配模块,所述第一处理模块用于对文化行业进行分类,形成分类分词模型,并存储到第一存储模块,所述第二处理模块所用于对历史用户进行统计分析,形成具有多个级别的用户画像,形成所有用户的标签设定,并存储到第二存储模块中;所述第三处理模块用于对新数据信息进行预处理后,得到多个分词标签,并将所述分词标签作为叶节点,以字典树的形式存储到第三存储模块中;第一匹配模块用于将所述分词标签与所述分类分词模型中的元素进行匹配,得到所述分类分词模型中的对应分类;第二匹配模块用于对得到的所述分类模型中的对应分类与所述用户画像中的标签进行匹配,从而确定可参见所述新发布活动的用户群,并对所述新活动推送到用户智能终端设备上。
优选的,所述分类分词模型包括地区集合、文化团体名称集合、艺术家名字集、文化品牌集合、专有名词集合、活动类别集合以及艺术形式集合。
优选的,所述用户画像为包括深度为n的多叉树,所述多叉树的每个节点根据节点信息(父节点ID,节点ID,节点名称)进行存储,并采用深度优先进行遍历查找。
优选的,所述第一匹配模块中,将所述目标词组与所述分类分词模型中的节点信息进行匹配包括:
元素存储单元,分别读取每个分词标签,分别查找地区集合、文化团体名称集合、艺术家名字集、文化品牌集合、专有名词集合、活动类别集合以及艺术形式集合中的所有元素,若存在与所述分词标签相同的元素,则存储该元素以及该元素对应的集合分类名称,若不存在与所述分词标签相同的元素,则判断是否为时间属性或地名属性的标签,若是时间属性或者地名属性,则存储该标签,否则不存储;将所有分词标签查找后存储的所有元素记为匹配标签G[g1,g2,...,gu],u为最后一个分词标签存储后的元素的数量。
优选的,所述第二匹配模块包括模糊匹配单元,所述模糊匹配单元用于将所述匹配标签中的每个元素与所述多叉树中的节点信息进行模糊匹配,若存在两个及以上的匹配标签与节点信息匹配成功,则所述用户为被推送用户。
有益效果:本发明与现有技术相比,其显著优点是:1、本发明通过分析使用用户的属性特征和行为习惯,利用多叉树形成了用户画像,提高针对个人的文化活动内容推荐的精准度;2、通过新发布活动的分词标签与分类分词模型进行精准匹配,将发布活动的信息映射到大数据库形成的分类分词模型中,使得新发布数据信息更加准确的匹配到用户画像中,从而提高活动被推送的用户的精准度,进而提高了推送效率。
附图说明
图1为本发明一实施例所述的方法流程图;
图2为本发明一实施例所述的用户画像分类示意图;
图3为本发明其中一实施例所述的装置结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
实施例1
本发明提供一种于用户画像的活动推荐方法,如图1所示,该方法包括:
S1对文化行业进行分类,形成分类分词模型,并进行存储;
依托文化云大数据系统,对接相关文化活动系统和外部数据收集整理,对接的数据系统包括公共文化云平台,图书馆文化云平台,文公共文化数字化服务平台等省市级文化活动平台,外部数据包括THUOCL:清华大学开放中文词库、搜狗分类词库等。
设定文化行业分类分词模型,并将相关集合存储到数据库:根据本行业的特性定义了以下6大类,主要包括国家地区,比如中国、江苏省、南京市、江宁区,专业文化团体/艺术家,比如爱乐乐团、潘志涛。文化品牌,比如精彩非遗、五星工程奖、太湖风韵、专有名词,比如十九大、非遗、国庆节。活动类型,比如美术、摄影、书法、曲艺、音乐、舞蹈。艺术形式,比如中国画、油画、版画、民族舞、踢踏舞等。在其中一个实施例中,专业文化团体和艺术家也可分开存储,即定义7大类进行存储。
S2对历史用户进行统计分析,形成具有多个级别的用户画像,形成所有用户的标签设定,并进行存储;
根据用户的居住地、性别、年龄,预约参加的活动等数据进行统计分析,用户画像体系和标签分类分成四个级别,每个用户拥有包括深度为5的五叉树,所述五叉树的每个节点根据节点信息(父节点ID,节点ID,节点名称)进行存储,并采用深度优先进行遍历查找,如图2所示;
在其中一种实施例中,父节点为(0,1,“用户画像”),第一级子节点包括{(1,2,“人口属性”),(1,3,“用户分类”),(1,4,“活动分类”),(1,5,“内容标签”),(1,6,“行为标签”)},同样的,人口属性对应的第二级子节点为{(2,21,“基础信息”),(2,22,“位置信息”)},用户分类对应的第二级子节点为{(3,31,“用户价值”),(3,32,“人群属性”)},活动分类对应的第二级子节点为{(4,41,“活动形式”)},内容标签对应的第二级子节点为{(5,51,“艺术形式”),(5,52,“目标对象”)},行为标签对应的第二级子节点为{(6,61,“上网习惯”),(6,62,“互动行为”),(6,63,“预约行为”)},相应的,第二级子节点基础信息对应的子节点为{(21,211,“年龄”),(21,212,“性别”)},位置信息对应的子节点为{(22,221,“家庭住址”)},用户价值对应的子节点为{31,311,“用户活跃度”},人群属性对应的子节点为{(32,321,“年龄段”),(32,322,“职业”)},活动形式对应的子节点为{(41,411,“活动类别”),(41,412,“场地环境”)},艺术形式直接对应第四级子节点{(51,5111,“古琴”),(51,5112,“国画”)…},目标对象直接对应第四级子节点{(52,5211,“宝应县文化馆”),(52,5212,“江宁区文化馆”)…},上网习惯对应的第三级子节点{(61,611,“上网时间段”),(61,612,“常用终端类型”)},互动行为对应的第三级子节点{(62,621,“评论次数”)},预约行为对应的第三级子节点{(63,631,“预约签到”)}。
为了更加完整的说明本发明所述的多叉树,以其中一个用户的特性和习惯作为第四子节点的名称,记为年龄对应的第四级子节点{(211,2111,“57”)},性别对应的第四级子节点{(212,2121,“女”)},家庭住址对应的第四级子节点{(221,2221,“苏州市古城区秦南璐四十一号”)},用户活跃度对应的第四级子节点{(311,3111,“95次”)},年龄段对应的第四级子节点{(321,3211,“50~60”)},职业对应的第四级子节点{(322,3221,“职工”)},活动类别对应的第四级子节点{(411,4111,“培训”)},场地环境对应的第四级子节点{(412,4121,“室内”)},上网时间段对应的第四级子节点{(611,6111,“8-21”)},常用终端对应的第四级子节点{(612,6121,“手机”)},评论次数对应的第四级子节点{(621,6211,“20”)},预约签到对应的第四级子节点{(631,6311,“预约”),(631,6311,“直接前往”)},在查找时,采用深度优先的方式对上述五叉树的节点信息进行搜索。
上述五叉树尽量覆盖所有用户,但又不交叉,根据这样的原则对系统中所有的用户进行标签设定,根据标签的内容把每个用户归纳到相应分组,实现初步的用户画像,随着用户参与程度增加收集到数据更多,用户画像会越来越精准。
S3对新数据信息进行预处理后,得到多个分词标签,并将所述分词标签采用临时集合进行存储;
如新发布活动名称为:“精彩非遗--分享·传承”系列活动之静听松风——古琴江苏四大流派雅集,活动时间:19:00~21:00,活动地址:南京市建邺区文化馆小剧场。
利用结巴分词得到后得到:精彩非遗–分享·传承系统活动之静听松风–古琴江苏四大流派雅集,活动时间:19:00~21:00,活动地址:南京市建邺区文化馆小剧场。
对无含义的标点符号、代词和重复的词语进行处理后得到:精彩非遗分享传承系列活动静听松风古琴江苏四大流派雅集时间19:00~21:00地址南京市建邺区文化馆小剧场。将所述分词标签临时存储到一个集合中,匹配后可释放该集合。
S4将所述分词标签与所述分类分词模型中的元素进行匹配,得到所述分类分词模型中的对应分类;
首先,分别读取每个分词标签,分别查找地区集合、文化团体名称集合、艺术家名字集、文化品牌集合、专有名词集合、活动类别集合以及艺术形式集合中的所有元素,若存在与所述分词标签相同的元素,则存储该元素以及该元素对应的集合分类名称,若不存在与所述分词标签相同的元素,则判断是否为时间属性或地名属性的标签,若是时间属性或者地名属性,则存储该标签,否则不存储;其次,将所有分词标签查找后存储的所有元素记为匹配标签G[g1,g2,...,gu],u为最后一个分词标签存储后的元素的数量。
如:将S3中的分词标签“精彩非遗”与分类分词模型的元素进行匹配,与“文化品牌”中的元素“精彩非遗”匹配,则存储“精彩非遗”和“文化品牌”,标签“分享传承系列活动静听松风”与分类分词模型中的元素匹配后,既没有可匹配元素也不是时间或者地址的标签,因此不进行存储,丢弃。分词标签“古琴”可与分类分词模型中的艺术形式集合进行精准匹配,则存储“古琴”和“艺术形式”。分词标签“19:00~21:00”和“南京市建邺区文化馆小剧场”分别为时间和地址标签,进行存储,匹配后最终得到的分词标签为“精彩非遗,文化品牌,古琴,艺术形式,19:00~21:00,南京市建邺区文化馆小剧场”。则匹配标签G[精彩非遗,文化品牌,古琴,艺术形式,19:00~21:00,南京市建邺区文化馆小剧场],在其中一个实施例中,可将匹配后的分词标签采用字典树的形式进行存储也可采用其他数据库可读取的存储方式。
S5对得到的所述分类模型中的对应分类与所述用户画像中的标签进行匹配,从而确定可参见所述新发布活动的用户群,并对所述新发布的活动进行推送。将所述匹配标签中的每个元素与所述多叉树中的节点信息进行模糊匹配,若存在两个及以上的匹配标签与节点信息匹配成功,则所述用户为被推送用户。
活动审核通过之后,将根据本活动生成的所有标签去系统的用户数据库中搜索匹配用户画像信息包含上述标签信息相同的用户列表,例如上述活动凡是之前系统中家住建邺区的45岁以上的用户,或者曾经参与过“精彩非遗”活动或者参与过音乐类活动的用户,都将成为这个活动的精准推送对象群。如上文所述作为第四子节点的名称的用户特性和习惯进行匹配,该用户的上网时间段和文艺形式匹配成功,同样的,可以匹配成功的所有用户,将成为这个活动的精准推送对象群。
本方法的数据整理过程:计算的框架选用专为大规模数据处理而设计的快速通用的计算引擎Spark以及Apache公司的Hadoop,采用spark的jdbc连接传统数据库MYSQL进行数据的cache缓存处理。通过采用Hadoop的数据仓库工具hive编写UDF根据业务逻辑拼接数据抽取ETL,使用户对应上不同的用户标签数据,生成相应的源表数据,以便于后续用户画像系统,通过不同的规则进行标签宽表的生成。对于单个用户的实时的查询本方法通过对spark数据梳理后的标签宽表进行数据格式转换(json格式)导入mongodb,前台应用可通过连接mongodb进行数据转换,从而进行单个标签的展现。
本方法可提供两种方式让用户快速获取该新发布活动:(1)用户主动访问网站时在猜您喜欢模块就会优先看到推荐给自己的活动;(2)采用微信/短信主动推送的方式让用户在第一时间获得活动信息。
实施例2
如图3所示,本发明还提供一种基于用户画像的活动推荐方法实现的装置,所述装置包括用户智能终端设备和服务器,所述服务器还包括第一存储模块、第一处理模块、第二存储模块、第二处理模块、第三存储模块、第三处理模块、第一匹配模块和第二匹配模块,所述第一处理模块用于对文化行业进行分类,形成分类分词模型,并存储到第一存储模块,所述第二处理模块所用于对历史用户进行统计分析,形成具有多个级别的用户画像,形成所有用户的标签设定,并存储到第二存储模块中;所述第三处理模块用于对新数据信息进行预处理后,得到多个分词标签,并将所述分词标签作为叶节点,以字典树的形式存储到第三存储模块中;第一匹配模块用于将所述分词标签与所述分类分词模型中的元素进行匹配,得到所述分类分词模型中的对应分类;第二匹配模块用于对得到的所述分类模型中的对应分类与所述用户画像中的标签进行匹配,从而确定可参见所述新发布活动的用户群,并对所述新活动推送到用户智能终端设备上。
具体的,首先依托文化云大数据系统,对接相关文化活动系统和外部数据收集整理,对接的数据系统包括公共文化云平台,图书馆文化云平台,文公共文化数字化服务平台等省市级文化活动平台,外部数据通过ETL工具抽取了包括THUOCL:清华大学开放中文词库、搜狗分类词库等。
设定文化行业分类分词模型,并将相关集合存储到数据库:根据本行业的特性定义了以下6大类,主要包括国家地区,比如中国、江苏省、南京市、江宁区,专业文化团体/艺术家,比如爱乐乐团、潘志涛。文化品牌,比如精彩非遗、五星工程奖、太湖风韵、专有名词,比如十九大、非遗、国庆节。活动类型,比如美术、摄影、书法、曲艺、音乐、舞蹈。艺术形式,比如中国画、油画、版画、民族舞、踢踏舞等。在其中一个实施例中,专业文化团体和艺术家也可分开存储,即定义7大类进行存储。
根据用户的居住地、性别、年龄,预约参加的活动等数据进行统计分析,用户画像体系和标签分类分成四个级别,每个用户拥有包括深度为5的五叉树,所述五叉树的每个节点根据节点信息(父节点ID,节点ID,节点名称)进行存储,并采用深度优先进遍历查找;
在其中一种实施例中,父节点为(0,1,“用户画像”),第一级子节点包括{(1,2,“人口属性”),(1,3,“用户分类”),(1,4,“活动分类”),(1,5,“内容标签”),(1,6,“行为标签”)},同样的,人口属性对应的第二级子节点为{(2,21,“基础信息”),(2,22,“位置信息”)},用户分类对应的第二级子节点为{(3,31,“用户价值”),(3,32,“人群属性”)},活动分类对应的第二级子节点为{(4,41,“活动形式”)},内容标签对应的第二级子节点为{(5,51,“艺术形式”),(5,52,“目标对象”)},行为标签对应的第二级子节点为{(6,61,“上网习惯”),(6,62,“互动行为”),(6,63,“预约行为”)},相应的,第二级子节点基础信息对应的子节点为{(21,211,“年龄”),(21,212,“性别”)},位置信息对应的子节点为{(22,221,“家庭住址”)},用户价值对应的子节点为{31,311,“用户活跃度”},人群属性对应的子节点为{(32,321,“年龄段”),(32,322,“职业”)},活动形式对应的子节点为{(41,411,“活动类别”),(41,412,“场地环境”)},艺术形式直接对应第四级子节点{(51,5111,“古琴”),(51,5112,“国画”)…},目标对象直接对应第四级子节点{(52,5211,“宝应县文化馆”),(52,5212,“江宁区文化馆”)…},上网习惯对应的第三级子节点{(61,611,“上网时间段”),(61,612,“常用终端类型”)},互动行为对应的第三级子节点{(62,621,“评论次数”)},预约行为对应的第三级子节点{(63,631,“预约签到”)}。
为了更加完整的说明本发明所述的多叉树,以其中一个用户的特性和习惯作为第四子节点的名称,记为年龄对应的第四级子节点{(211,2111,“57”)},性别对应的第四级子节点{(212,2121,“女”)},家庭住址对应的第四级子节点{(221,2221,“苏州市古城区秦南璐四十一号”)},用户活跃度对应的第四级子节点{(311,3111,“95次”)},年龄段对应的第四级子节点{(321,3211,“50~60”)},职业对应的第四级子节点{(322,3221,“职工”)},活动类别对应的第四级子节点{(411,4111,“培训”)},场地环境对应的第四级子节点{(412,4121,“室内”)},上网时间段对应的第四级子节点{(611,6111,“8-21”)},常用终端对应的第四级子节点{(612,6121,“手机”)},评论次数对应的第四级子节点{(621,6211,“20”)},预约签到对应的第四级子节点{(631,6311,“预约”),(631,6311,“直接前往”)},在查找时,采用深度优先的方式对上述五叉树的节点信息进行搜索。
上述五叉树尽量覆盖所有用户,但又不交叉,根据这样的原则对系统中所有的用户进行标签设定,根据标签的内容把每个用户归纳到相应分组,实现初步的用户画像,随着用户参与程度增加收集到数据更多,用户画像会越来越精准。
如新发布活动名称为:“精彩非遗--分享·传承”系列活动之静听松风——古琴江苏四大流派雅集,活动时间:19:00~21:00,活动地址:南京市建邺区文化馆小剧场。
利用结巴分词得到后得到:精彩非遗–分享·传承系统活动之静听松风–古琴江苏四大流派雅集,活动时间:19:00~21:00,活动地址:南京市建邺区文化馆小剧场。
对无含义的标点符号、代词和重复的词语进行处理后得到:精彩非遗分享传承系列活动静听松风古琴江苏四大流派雅集时间19:00~21:00地址南京市建邺区文化馆小剧场。将所述分词标签临时存储到一个集合中,匹配后可释放该集合。
元素存储单元,分别读取每个分词标签,分别查找地区集合、文化团体名称集合、艺术家名字集、文化品牌集合、专有名词集合、活动类别集合以及艺术形式集合中的所有元素,若存在与所述分词标签相同的元素,则存储该元素以及该元素对应的集合分类名称,若不存在与所述分词标签相同的元素,则判断是否为时间属性或地名属性的标签,若是时间属性或者地名属性,则存储该标签,否则不存储;将所有分词标签查找后存储的所有元素记为匹配标签G[g1,g2,...,gu],u为最后一个分词标签存储后的元素的数量。
如:将分词标签“精彩非遗”与分类分词模型的元素进行匹配,与“文化品牌”中的元素“精彩非遗”匹配,则存储“精彩非遗”和“文化品牌”,标签“分享传承系列活动静听松风”与分类分词模型中的元素匹配后,既没有可匹配元素也不是时间或者地址的标签,因此不进行存储,丢弃。分词标签“古琴”可与分类分词模型中的艺术形式集合进行精准匹配,则存储“古琴”和“艺术形式”。分词标签“19:00~21:00”和“南京市建邺区文化馆小剧场”分别为时间和地址标签,进行存储,匹配后最终得到的分词标签为“精彩非遗,文化品牌,古琴,艺术形式,19:00~21:00,南京市建邺区文化馆小剧场”。则匹配标签G[精彩非遗,文化品牌,古琴,艺术形式,19:00~21:00,南京市建邺区文化馆小剧场],在其中一个实施例中,可将匹配后的分词标签采用字典树的形式进行存储也可采用其他数据库可读取的存储方式。
优选的,所述第二匹配模块包括模糊匹配单元,所述模糊匹配单元用于将所述匹配标签中的每个元素与所述多叉树中的节点信息进行模糊匹配,若存在两个及以上的匹配标签与节点信息匹配成功,则所述用户为被推送用户。
活动审核通过之后,将根据本活动生成的所有标签去系统的用户数据库中搜索匹配用户画像信息包含上述标签信息相同的用户列表,例如上述活动凡是之前系统中家住建邺区的45岁以上的用户,或者曾经参与过“精彩非遗”活动或者参与过音乐类活动的用户,都将成为这个活动的精准推送对象群。如上文所述作为第四子节点的名称的用户特性和习惯进行匹配,该用户的上网时间段和文艺形式匹配成功,同样的,可以匹配成功的所有用户,将成为这个活动的精准推送对象群。
本方法可提供两种方式让用户快速获取该新发布活动:(1)用户主动访问网站时在猜您喜欢模块就会优先看到推荐给自己的活动;(2)采用微信/短信主动推送的方式让用户在第一时间获得活动信息。
本发明所述的第一存储模块、第二存储模块以及第三存储模块,没有顺序之分,只是用于存储不同数据,该存储模块可为数据库或其他存储数据的工具。
与未现有技术相比对比,本方法明显减少了后台编辑人员的人为参与度:按原方案后台编辑人员需要在发布活动时添加4-5个左右的关键词,而且需要发布人员对活动内容有较高的理解度,按每个词2个字计算,一个活动发布这里花费的工作大约是1.5分钟,平台一年发布的活动大约在8000场,使用新方案累计节约12000分钟;
原有方案而且受限于版面推荐的数量,全平台只有很少的活动(小于10%)被推荐给所有用户,采用本方法,根据用户特征和行为,形成“千人千面”,系统发布的较大多数活动(90%以上)都会推送给特定的用户群体,每个用户接收到的信息不再雷同,并且自动生成相关推送内容,用户第一时间获取,而不会因为搜索深度或者用户未及时访问网站而错过自己喜欢的活动,所以新的算法充分考虑到实际情况推荐的活动被采纳的几率提高,从而提高了平台利用率。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (2)
1.一种基于用户画像的活动推荐方法,其特征在于,该方法包括:
(1)对文化行业进行分类,形成分类分词模型,并进行存储;
(2)对历史用户进行统计分析,形成具有多个级别的用户画像,形成所有用户的标签设定,并进行存储;
(3)对新发布活动进行预处理后,得到多个分词标签,并将所述分词标签进行临时存储;
(4)将所述分词标签与所述分类分词模型中的元素进行匹配,得到所述分类分词模型中的对应分类;
(5)对得到的所述分类分词模型中的对应分类与所述用户画像中的标签进行匹配,从而确定可参加所述新发布活动的用户群,并对所述新发布活动进行推送;
步骤(1)中,所述分类分词模型包括地区集合、文化团体名称集合、艺术家名字集、文化品牌集合、专有名词集合、活动类别集合以及艺术形式集合;
所述用户画像为包括深度为n的多叉树,所述多叉树的每个节点根据节点信息进行存储,并采用深度优先进行遍历查找,所述节点信息由父节点ID、节点ID、节点名称构成;
所述步骤(4)中,将所述分词标签与所述分类分词模型中的元素进行匹配包括:
首先,分别读取每个分词标签,分别查找地区集合、文化团体名称集合、艺术家名字集、文化品牌集合、专有名词集合、活动类别集合以及艺术形式集合中的所有元素,若存在与所述分词标签相同的元素,则存储该元素以及该元素对应的集合分类名称,若不存在与所述分词标签相同的元素,则判断所述分词标签是否为时间属性或地名属性的标签,若是时间属性或者地名属性的标签,则存储该标签,否则不存储;其次,将所有分词标签查找后存储的所有元素记为匹配标签,u为最后一个分词标签存储后的元素的数量;
所述步骤(5)中,对得到的所述分类分词模型中的对应分类与所述用户画像中的标签进行匹配,包括将所述匹配标签中的每个元素与所述多叉树中的节点信息进行模糊匹配,若存在两个及以上的匹配标签与节点信息匹配成功,则所述用户为被推送用户。
2.一种根据权利要求1所述的基于用户画像的活动推荐方法实现的装置,其特征在于,所述装置包括用户智能终端设备和服务器,所述服务器还包括第一存储模块、第一处理模块、第二存储模块、第二处理模块、第三存储模块、第三处理模块、第一匹配模块和第二匹配模块,所述第一处理模块用于对文化行业进行分类,形成分类分词模型,并存储到第一存储模块,所述第二处理模块所用于对历史用户进行统计分析,形成具有多个级别的用户画像,形成所有用户的标签设定,并存储到第二存储模块中;所述第三处理模块用于对新发布活动进行预处理后,得到多个分词标签,并将所述分词标签存储到第三存储模块中;第一匹配模块用于将所述分词标签与所述分类分词模型中的元素进行匹配,得到所述分类分词模型中的对应分类;第二匹配模块用于对得到的所述分类分词模型中的对应分类与所述用户画像中的标签进行匹配,从而确定可参加所述新发布活动的用户群,并对所述新发布活动推送到用户智能终端设备上;
所述分类分词模型包括地区集合、文化团体名称集合、艺术家名字集、文化品牌集合、专有名词集合、活动类别集合以及艺术形式集合;
所述用户画像为包括深度为n的多叉树,所述多叉树的每个节点根据节点信息进行存储,并采用深度优先进行遍历查找,所述节点信息由父节点ID、节点ID、节点名称构成;
所述第一匹配模块中,将所述分词标签与所述分类分词模型中的元素进行匹配包括:
元素存储单元,分别读取每个分词标签,分别查找地区集合、文化团体名称集合、艺术家名字集、文化品牌集合、专有名词集合、活动类别集合以及艺术形式集合中的所有元素,若存在与所述分词标签相同的元素,则存储该元素以及该元素对应的集合分类名称,若不存在与所述分词标签相同的元素,则判断所述分词标签是否为时间属性或地名属性的标签,若是时间属性或者地名属性的标签,则存储该标签,否则不存储;其次,将所有分词标签查找后存储的所有元素记为匹配标签,u为最后一个分词标签存储后的元素的数量;
所述第二匹配模块包括模糊匹配单元,所述模糊匹配单元用于将所述匹配标签中的每个元素与所述多叉树中的节点信息进行模糊匹配,若存在两个及以上的匹配标签与节点信息匹配成功,则所述用户为被推送用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910333305.7A CN110059177B (zh) | 2019-04-24 | 2019-04-24 | 一种基于用户画像的活动推荐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910333305.7A CN110059177B (zh) | 2019-04-24 | 2019-04-24 | 一种基于用户画像的活动推荐方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110059177A CN110059177A (zh) | 2019-07-26 |
CN110059177B true CN110059177B (zh) | 2023-09-26 |
Family
ID=67320496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910333305.7A Active CN110059177B (zh) | 2019-04-24 | 2019-04-24 | 一种基于用户画像的活动推荐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110059177B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110430283A (zh) * | 2019-08-20 | 2019-11-08 | 杭州市电力设计院有限公司余杭分公司 | 一种输电网规划的服务推送方法及相关设备 |
CN112825076B (zh) * | 2019-11-20 | 2024-03-01 | 北京搜狗科技发展有限公司 | 一种信息推荐方法、装置和电子设备 |
CN114902702B (zh) * | 2020-02-20 | 2024-02-06 | 深圳市欢太科技有限公司 | 短信推送方法、装置、服务器及存储介质 |
CN111339741B (zh) * | 2020-02-26 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 账户申请方法、装置、计算机可读存储介质及电子设备 |
CN112256667B (zh) * | 2020-09-16 | 2024-03-22 | 珠海市新德汇信息技术有限公司 | 多生物特征归一方法 |
CN115062056B (zh) * | 2022-08-18 | 2022-10-25 | 中航信移动科技有限公司 | 一种用于民航数据的用户查找方法、电子设备及存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007024736A2 (en) * | 2005-08-19 | 2007-03-01 | Biap Systems, Inc. | System and method for recommending items of interest to a user |
WO2013152254A1 (en) * | 2012-04-06 | 2013-10-10 | Drexel University | System and method for suggesting the viewing of cultural items based on social tagging and metadata applications |
CN105869001A (zh) * | 2015-01-19 | 2016-08-17 | 苏宁云商集团股份有限公司 | 个性化商品推荐引流方法和系统 |
CN106202534A (zh) * | 2016-07-25 | 2016-12-07 | 十九楼网络股份有限公司 | 一种基于社区用户行为的内容推荐方法及系统 |
CN106375797A (zh) * | 2016-09-27 | 2017-02-01 | 北京赢点科技有限公司 | 媒体节目和活动推荐系统及方法 |
KR20170086751A (ko) * | 2016-01-18 | 2017-07-27 | 대진대학교 산학협력단 | 이질성 카테고리의 유사도 분석을 이용한 컨텐츠 추천 장치 및 방법 |
WO2017193749A1 (zh) * | 2016-05-12 | 2017-11-16 | 阿里巴巴集团控股有限公司 | 一种确定用户行为偏好的方法、推荐信息的展示方法和装置 |
CN107578292A (zh) * | 2017-09-19 | 2018-01-12 | 上海财经大学 | 一种用户画像构建系统 |
CN108038237A (zh) * | 2017-12-27 | 2018-05-15 | 广州市云润大数据服务有限公司 | 一种信息推荐方法与系统 |
CN108062366A (zh) * | 2017-12-07 | 2018-05-22 | 中国科学院自动化研究所 | 公共文化信息推荐系统 |
CN108133035A (zh) * | 2018-01-09 | 2018-06-08 | 上海创图网络科技股份有限公司 | 一种基于大数据的文化云平台的活动管理方法及装置 |
CN108960975A (zh) * | 2018-06-15 | 2018-12-07 | 广州麦优网络科技有限公司 | 基于用户画像的个性化精准营销方法、服务器及存储介质 |
CN109359244A (zh) * | 2018-10-30 | 2019-02-19 | 中国科学院计算技术研究所 | 一种个性化信息推荐方法和装置 |
CN109543111A (zh) * | 2018-11-28 | 2019-03-29 | 广州虎牙信息科技有限公司 | 推荐信息筛选方法、装置、存储介质及服务器 |
CN109558520A (zh) * | 2018-11-28 | 2019-04-02 | 平安科技(深圳)有限公司 | 一种基于用户画像的数据处理方法和装置 |
-
2019
- 2019-04-24 CN CN201910333305.7A patent/CN110059177B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007024736A2 (en) * | 2005-08-19 | 2007-03-01 | Biap Systems, Inc. | System and method for recommending items of interest to a user |
WO2013152254A1 (en) * | 2012-04-06 | 2013-10-10 | Drexel University | System and method for suggesting the viewing of cultural items based on social tagging and metadata applications |
CN105869001A (zh) * | 2015-01-19 | 2016-08-17 | 苏宁云商集团股份有限公司 | 个性化商品推荐引流方法和系统 |
KR20170086751A (ko) * | 2016-01-18 | 2017-07-27 | 대진대학교 산학협력단 | 이질성 카테고리의 유사도 분석을 이용한 컨텐츠 추천 장치 및 방법 |
WO2017193749A1 (zh) * | 2016-05-12 | 2017-11-16 | 阿里巴巴集团控股有限公司 | 一种确定用户行为偏好的方法、推荐信息的展示方法和装置 |
CN107368488A (zh) * | 2016-05-12 | 2017-11-21 | 阿里巴巴集团控股有限公司 | 一种确定用户行为偏好的方法、推荐信息的展示方法和装置 |
CN106202534A (zh) * | 2016-07-25 | 2016-12-07 | 十九楼网络股份有限公司 | 一种基于社区用户行为的内容推荐方法及系统 |
CN106375797A (zh) * | 2016-09-27 | 2017-02-01 | 北京赢点科技有限公司 | 媒体节目和活动推荐系统及方法 |
CN107578292A (zh) * | 2017-09-19 | 2018-01-12 | 上海财经大学 | 一种用户画像构建系统 |
CN108062366A (zh) * | 2017-12-07 | 2018-05-22 | 中国科学院自动化研究所 | 公共文化信息推荐系统 |
CN108038237A (zh) * | 2017-12-27 | 2018-05-15 | 广州市云润大数据服务有限公司 | 一种信息推荐方法与系统 |
CN108133035A (zh) * | 2018-01-09 | 2018-06-08 | 上海创图网络科技股份有限公司 | 一种基于大数据的文化云平台的活动管理方法及装置 |
CN108960975A (zh) * | 2018-06-15 | 2018-12-07 | 广州麦优网络科技有限公司 | 基于用户画像的个性化精准营销方法、服务器及存储介质 |
CN109359244A (zh) * | 2018-10-30 | 2019-02-19 | 中国科学院计算技术研究所 | 一种个性化信息推荐方法和装置 |
CN109543111A (zh) * | 2018-11-28 | 2019-03-29 | 广州虎牙信息科技有限公司 | 推荐信息筛选方法、装置、存储介质及服务器 |
CN109558520A (zh) * | 2018-11-28 | 2019-04-02 | 平安科技(深圳)有限公司 | 一种基于用户画像的数据处理方法和装置 |
Non-Patent Citations (1)
Title |
---|
基于用户兴趣的电子商务广告 推荐模型研究与应用;冯娟娟;中国优秀硕士论文电子期刊网;1-71 * |
Also Published As
Publication number | Publication date |
---|---|
CN110059177A (zh) | 2019-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059177B (zh) | 一种基于用户画像的活动推荐方法及装置 | |
CN107633044B (zh) | 一种基于热点事件的舆情知识图谱构建方法 | |
CN110807091B (zh) | 一种酒店智能问答推荐与决策支持分析方法及系统 | |
CN107180045B (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
CN111680173A (zh) | 统一检索跨媒体信息的cmr模型 | |
CN112131472B (zh) | 信息推荐方法、装置、电子设备和存储介质 | |
WO2022134794A1 (zh) | 新闻事件的舆情处理方法及装置、存储介质、计算机设备 | |
CN110781670B (zh) | 基于百科知识库和词向量的中文地名语义消歧方法 | |
Van Hooland et al. | Evaluating the success of vocabulary reconciliation for cultural heritage collections | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN109033277A (zh) | 基于机器学习的类脑系统、方法、设备及存储介质 | |
Samoilenko et al. | Analysing timelines of national histories across Wikipedia editions: A comparative computational approach | |
JP2010211793A (ja) | 自動オントロジーのためのドメインコーパス及び辞書の生成 | |
CN110321549B (zh) | 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法 | |
CN112100506B (zh) | 信息推送方法、系统、设备及存储介质 | |
Bykau et al. | Fine-grained controversy detection in Wikipedia | |
CN114254129A (zh) | 更新知识图谱的方法、装置和可读存储介质 | |
CN114077705A (zh) | 一种对社交平台上的媒体账号进行画像的方法和系统 | |
CN115309885A (zh) | 一种用于科技服务的知识图谱构建、检索和可视化方法及系统 | |
Bogárdi-Mészöly et al. | Tag and topic recommendation systems | |
CN111858962A (zh) | 数据处理方法、装置及计算机可读存储介质 | |
CN106844743B (zh) | 维吾尔语文本的情感分类方法及装置 | |
CN116151235A (zh) | 文章生成方法、文章生成模型训练方法及相关设备 | |
Gupta et al. | Search bot: Search intention based filtering using decision tree based technique | |
CN112182204A (zh) | 构建中文命名实体标注的语料库的方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |