CN108062375B - 一种用户画像的处理方法、装置、终端和存储介质 - Google Patents

一种用户画像的处理方法、装置、终端和存储介质 Download PDF

Info

Publication number
CN108062375B
CN108062375B CN201711320283.8A CN201711320283A CN108062375B CN 108062375 B CN108062375 B CN 108062375B CN 201711320283 A CN201711320283 A CN 201711320283A CN 108062375 B CN108062375 B CN 108062375B
Authority
CN
China
Prior art keywords
user
determining
information
label
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711320283.8A
Other languages
English (en)
Other versions
CN108062375A (zh
Inventor
刘沪生
王佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN201711320283.8A priority Critical patent/CN108062375B/zh
Publication of CN108062375A publication Critical patent/CN108062375A/zh
Application granted granted Critical
Publication of CN108062375B publication Critical patent/CN108062375B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种用户画像的处理方法、装置、服务器和存储介质。其中,用户画像的处理方法包括:获取用户历史信息;将用户历史信息基于语言模型转换为用户对应的语义向量,作为用户的用户画像。本发明实施例以语义向量的方式表达用户画像,表达准确,且数据形式统一,方便在各种应用场景下引入语义向量来进行计算,从而考虑用户画像的因素,达到了表意准确、简洁,且易于应用的效果。

Description

一种用户画像的处理方法、装置、终端和存储介质
技术领域
本发明实施例涉及大数据处理技术,尤其涉及一种用户画像的处理方法、装置、终端和存储介质。
背景技术
用户画像,是一种用于勾画目标用户特点的手段,其可以表现为针对用户的描述性标签属性,从而利用这些标签属性对用户多方面的真实个人特征进行勾勒。进而可以利用用户画像挖掘用户需求,分析用户偏好,并通过匹配用户画像提供给用户更高效和更有针对性的信息输送,以及更贴近个人习惯的用户体验。
现有的获取用户画像的方法有多种,可以从与用户关联的各种信息中提取描述该用户的标签属性,进而得到用户画像。但是,用户标签属性的种类、来源和数据形式等因素过于复杂,例如,有静态信息,如姓名、性别,也有动态信息,如所在地域、购买习惯等。有的用文字表达,有的用数值来表达。标签属性越多,则对用户特点的刻画越准确,但如何有效整合利用用户画像中各个标签属性就变的更复杂了。复杂表达方式的用户画像,在各种应用场景下存在不便利用的缺陷。
发明内容
本发明实施例提供一种用户画像的处理方法、装置、终端和存储介质,以获取简单表达的用户画像,能够方便在各种应用场景进行利用。
第一方面,本发明实施例提供了一种用户画像的处理方法,该方法包括:
获取用户历史信息;
将所述用户历史信息基于语言模型转换为用户对应的语义向量,作为用户的用户画像。
第二方面,本发明实施例还提供了一种用户画像的处理装置,该装置包括:
历史信息获取模块,用于获取用户历史信息;
用户画像确定模块,用于将所述用户历史信息基于语言模型转换为用户对应的语义向量,作为用户的用户画像。
第三方面,本发明实施例还提供了一种服务器,该服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的用户画像的处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的用户画像的处理方法。
本发明实施例通过获取用户历史信息,并将用户历史信息基于语言模型转换为用户对应的语义向量,作为用户的用户画像。以语义向量的方式表达用户画像,表达准确,且数据形式统一,方便在各种应用场景下引入语义向量来进行计算,从而考虑用户画像的因素,达到了表意准确、简洁,且易于应用的效果。
附图说明
下面将通过参照附图详细描述本发明的示例性实施例,使本领域的普通技术人员更清楚本发明的上述及其他特征和优点,附图中:
图1是本发明实施例一中的用户画像的处理方法的流程图;
图2是本发明实施例二中的用户画像的处理方法的流程图;
图3是本发明实施例三中的用户画像的处理方法的流程图;
图4是本发明实施例四中的用户画像的处理方法的流程图;
图5是本发明实施例五中的用户画像的处理装置的结构示意图;
图6是本发明实施例六中的服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的用户画像的处理方法的流程图,本实施例可适用于需要精确获取用户偏好以及个人习惯等数据的情况,该方法可以由用户画像的处理装置来执行,该装置可以采用软件和/或硬件的方式实现,该装置一般可集成于服务器中,便于对海量数据进行处理。如图1所示,该方法具体包括:
S110、获取用户历史信息。
其中,用户历史信息通常可以反映出用户的个人习惯以及其对相应事物的喜好程度等的个性化信息,其可以反映用户的各类标签信息,其中,用户的标签信息可以包括“NBA”、“购物”、“建筑”、“美食”、“武侠剧”以及“旅游”等。用户历史信息可以从用户所使用的各类应用程序中获取,其中,各类应用程序可以包括购物类、社交类、美食类、新闻类、地图类以及搜索引擎类等应用程序。例如,在购物类应用程序中,用户历史信息可以是用户所购买、搜索以及浏览过的各类产品;在新闻类应用程序中,用户历史信息可以是用户有点击的各个新闻文档等。
由于用户行为日志中记录了用户在当前时刻之前的历史行为,因此,在本实施例中,可以借助终端中的各类应用程序或者某个特定的应用程序中的用户行为日志来获取用户历史信息,该获取到的用户历史信息可以是当前时刻之前的所有用户历史信息,也可以是预设时间段内的用户历史信息,其中,终端可以包括手机、平板电脑以及计算机等,预设时间段可以是几天、几周或者几个月,具体不做限定,以能够获取到足够的用户历史信息为最佳。
S120、将用户历史信息基于语言模型转换为用户对应的语义向量,作为用户的用户画像。
本实施例中,在获取到用户历史信息后,可以将用户历史信息作为语言文本来对待,从而利用语言模型对用户历史信息进行处理,得到作为语言文本形式的用户历史信息的语义向量,并将得到的用户对应的语义向量作为用户画像。其中,语言模型是能够建立文本和文本语义之间的一种技术手段,将用户历史信息作为文本输入语言模型,可以得到用户对应的语义向量。用户对应的语义向量是用户历史信息所包含语义的向量表达,其可以包括用户历史信息中的各类语义信息,例如该语义向量可以是各类标签信息的向量表达,其可以是多维空间向量,其中,每一个维度对应一个用户的标签属性。
本实施例提供的用户画像的处理方法,通过获取用户历史信息,并将用户历史信息基于语言模型转换为用户对应的语义向量,作为用户的用户画像。以语义向量的方式表达用户画像,表达准确,且数据形式统一,方便在各种应用场景下引入语义向量来进行计算,从而考虑用户画像的因素,达到了表意准确、简洁,且易于应用的效果。
实施例二
本实施例在上述各实施例的基础上,提供了“将用户历史信息基于语言模型转换为用户对应的语义向量,作为用户的用户画像”操作的一种优选实施方式。图2是本发明实施例二提供的用户画像的处理方法的流程图,如图2所示,该方法包括:
S210、获取用户历史信息。
S220、根据用户历史信息确定用户的至少两个标签,并映射为标签词汇,各标签词汇组合成为标签文本。
标签可以反映用户与其它用户的特性和共性,其具有关联性和文本性。通过标签可以将个人关注点的变化充分体现出来,可以更容易地发掘用户的偏好和习惯。多个标签就能一定程度的代表该用户的特点。
本实施例中,可以利用标签将用户历史信息转换为可应用于语言模型的标签文本。用户历史信息中可以确定出各类标签,可以通过对用户历史信息进行切词,并利用语义分析或者词频分析等手段,确定用户标签,由于用户历史信息众多,其确定的用户标签也可以很多。在获取到各个标签后,可以按照特定的规则将获取到的各个标签映射为标签词汇,其中,特定的规则需要将各种标签一一对应的映射为标签词汇,可以是中文,优选是英文,从而方便以统一规则格式的文本来输入至语言模型中。在将所有的标签都映射为标签词汇之后,将获取到的各个标签词汇组合成标签文本。
S230、根据标签文本,基于语言模型确定标签文本中的标签词汇的词向量;
S240、根据各词向量确定标签文本对应的文本的语义向量,作为用户的用户画像。
本实施例中,将包括各个标签词汇的标签文本输入到语言模型中,语言模型可以将各个标签词汇转换成相对应的向量的形式,并根据各个词向量间的相对相似度和语义相似度确定标签文本对应的文本的语义向量,作为用户的用户画像。
本实施例中,语言模型优选可以是隐含狄利克雷分布模型(Latent DirichletAllocation,LDA),LDA模型通常用于从一个文档集合中自动发现专题论题,利用训练好的LDA模型可以推断文档的主题以及各主题对应的权重,其中,各主题和相对应的权重以语义向量的形式表达。例如,一篇文档主要涉及苹果电脑,在文档的结尾处也提到了汽车,则利用LDA模型可以得到苹果电脑和汽车所对应的词向量以及语义向量,其中语义向量为二维空间向量。在得到的二维空间向量中,其中一个维度表示主题电脑,另一维度表示主题汽车,而每个维度上的维度值则表示每个主题所对应的权重值,由于在该文档中,电脑的权重值大于汽车的权重值,因此,在二维空间向量表示中,电脑对应的维度值大于汽车对应的维度值。
本实施例提供的用户画像的处理方法,巧妙的将用户历史信息中的标签转化成词汇、文档,使获取语言模型输入数据的方式变得简单,达到了简单、快速且准确地获取用户画像的效果。
在上述各实施例的基础上,进一步的,根据用户历史信息确定用户的至少两个标签,并映射为标签词汇,各标签词汇组合成为标签文本优选可以包括:
从用户的至少两篇历史浏览文章中提取关注点;
将每篇文章的每个关注点分别映射为一个字母,将各个字母组合形成单词,从而作为每篇文章对应的标签词汇;
将用户的至少两篇历史浏览文章对应的标签词汇组合形成标签文本。
本实施例中,用户历史信息可以包括用户的历史浏览文章,具体的,可以利用用户行为日志获取用户在预设时间段内的文档点击列表进而获取历史浏览文章,其中,预设时间段优选可以是两周,这样既能够保证足够的用户历史信息,又可以避免较大的数据处理量。
在获取到用户在近两周时间内的历史浏览文章后,对于每篇文章,可以利用分词等手段提取出其中所包括的描述点和兴趣点作为用户的关注点。关注点可以是文章中出现次数达到设定值,或者是命中了预设了关注点词库的词汇,也可以是结合考虑出现次数和命中词库来确定关注点。在提取到所有的关注点后,可以将每个关注点分别映射为一个字母,并将各个字母组合形成一个单词,作为每篇文章所对应的标签词汇。
在此需要说明的是,在将各字母组合形成一个单词时,无需考虑各字母在单词中的顺序。
在获取到每篇文章对应的标签词汇后,可以将每篇文章对应的标签词汇组合形成标签文本,在组合形成文本的过程中,同样需要注意的是,可以无需考虑各个单词是否有重复,也可以无需考虑各个单词之间的顺序。
本实施例中,在得到标签文本后,可以利用标签文本以及LDA模型获取用户的用户画像。具体的,将标签文本输入到LDA模型中,可以得到标签文本对应的多维空间向量,其中,多维空间向量的每一个维度都表示用户的一个兴趣点,其相对应的维度值则表示该兴趣点所占的权重,达到了利用数字化的符号简单直接地表示用户画像的效果。
此外,对于每个用户,利用上述各实施例提供的用户画像的处理方法都可以获取到相应的用户画像,即每个用户的用户画像都是多维向量空间中的一个多维空间向量。将各个用户的用户画像置于同一个多维向量空间中,在能够利用数字化符号简单高效的表示用户画像的同时,还可以利用用户画像方便直接的获取用户之间的关系。
实施例三
用户画像作为刻画用户特征的标签集合,其应用领域十分广泛。本实施例在上述各实施例的基础上,提供了用户画像的处理方法在基于地域进行信息推荐领域的具体应用实例,图3是本发明实施例三提供的用户画像的处理方法的流程图,如图3所示,该方法包括:
S310、获取用户历史信息。
S320、将用户历史信息基于语言模型转换为用户对应的语义向量,作为用户的用户画像。
S330、根据用户画像确定用户之间的兴趣相似度,从而形成用户群组。
本实施例中,用户画像包括用户的各个兴趣点,由于每个用户画像都遵循统一的语法格式,因此,对于每个兴趣点,可以利用相似度计算方法确定各用户之间的兴趣相似度,并利用兴趣相似度确定每个兴趣点所对应的用户都有哪些,进而将这些用户进行聚类,形成与兴趣点相对应的用户群组。具体的,若兴趣相似度高于兴趣相似度阈值,则确定相关用户属于同一个用户群组。
S340、根据用户的地域信息,以及用户画像和/或所述用户群组,为用户提供推荐信息。
现有的信息推荐应用,一般都会基于用户的地域信息,向用户推荐其常驻地或旅游地的相关新闻资讯,例如在北京居住的人,每天都会接收到关于北京近期发生的事情或者一些政策性的新闻推送;并且这种基于地域信息的推荐策略,对于有位置变化的用户,不管其是出差还是旅游,都一律将其视为旅游用户,不管其是否需要,都为其推送美食和旅游的攻略。上述基于地域信息的信息推送方式和策略,没有针对用户的个人特点为其推送感兴趣的资讯,导致用户体验相对较差。
基于此,本实施例中,在考虑用户地域信息的同时,也考虑到用户的个性化特点以及用户间的协同过滤作用,将用户画像和/或用户群组与地域信息相结合,为用户提供推荐信息。其中,利用用户画像可以获知每个用户的兴趣点都包括什么,以使信息推荐应用能够基于用户的兴趣点为用户进行信息推送;例如,用户的主要兴趣点为建筑,则在用户的常驻地或旅游地,建筑方面的推送信息应该多于其他方面的推送信息。而利用用户群组,可以找到与当前用户的兴趣点最为相似的其他用户,此时,可以将其它用户点击率较高的信息推送给当前用户。
本实施例提供的用户画像的处理方法,通过获取用户历史信息,将用户历史信息基于语言模型转换为用户对应的语义向量,作为用户的用户画像,根据用户画像确定用户之间的兴趣相似度,从而形成用户群组,根据用户的地域信息,以及用户画像和/或所述用户群组,为用户提供推荐信息,解决了现有地域性推荐技术只能推送与地域相关的信息的问题,达到了能够针对用户的个性化特点以及用户间的协同过滤进行信息推送,以及增加用户体验和用户感知度的效果。
实施例四
本实施例在上述各实施例的基础上,提供了确定用户群组和确定推荐信息的一种优选实施方式,图4是本发明实施例四提供的用户画像的处理方法的流程图,如图4所示,该方法包括:
S410、获取用户历史信息。
S420、将用户历史信息基于语言模型转换为用户对应的语义向量,作为用户的用户画像。
S430、根据各个用户的语义向量,将语义向量中设定位元素的数值大于设定权重阈值的用户,聚类为一个用户群组。
本实施例中,各个用户的语义向量可以是多维向量空间中的一个多维空间向量,其中,每个维度对应用户的一个兴趣点,每个维度值则对应相应兴趣点的权重。对于设定的兴趣点,可以将该兴趣点的权重大于预设权重阈值的所有用户划分为一组,聚类为一个用户群组。
S440、对于任一用户群组,计算各用户的语义向量之间的余弦距离,作为用户群组中用户之间的相似度。
本实施例中,每个兴趣点对应一个用户群组,由于用户的兴趣点可以有多个,因此相应的用户群组也可以有多个。对于每个用户群组,可以利用余弦相似度计算用户群组内每个用户对应的语义向量之间的余弦距离,并将该余弦距离作为用户群组中各用户之间的相似度。其中,余弦距离越大,则用户之间的相似度越小。
S450、根据用户画像中的兴趣点,从用户所在地域的特色信息中确定推荐信息,并提供给用户;和/或
获取用户群组中与当前用户关联且处于相同地域的其他用户,并获取其他用户的历史关注信息,根据历史关注信息确定当前用户的推荐信息,并提供给所述当前用户。
历史关注信息可能是其他用户曾经点击浏览过,或分享过的信息。
根据用户画像和根据用户群组确定推荐信息的方案可以独立实施,也可以结合实施,其实施的先后顺序不限,基于两种方式确定的推荐信息,可以同时推送,也可以排序后再推送。
本实施例中,若在用户的用户画像中,建筑的权重大于其他兴趣点的权重,则表明该用户对建筑比较感兴趣。对于该用户,日常推送信息中关于当地建筑的信息所占的权重应该高于其他信息所占的权重。如果检测到用户的地域信息发生改变,例如用户从北京到天津出差或旅游,则推送信息应该以天津的建筑信息为主,例如可以是与宫北大街、宫南大街、天津文庙、天津大后宫和大悲禅院等大众景点以及一些小众但经典的西洋古典建筑群等相关的信息,其次也可以推送一些关于天津的美食、文化等信息,例如可以是与狗不理包子、天津大麻花和地标性的天津之眼等相关的信息。此外,当用户去到河南时,如果确定用户对美酒比较感兴趣,则可以相应的推荐豫坡酒和棠河酒等极具地方特色的美酒,而不是只推荐河南烩面;如果确定用户对烹饪比较感兴趣,则可以相应的推荐小磨香油、十三香等极具地方特色的烹饪作料。
本实施例中,除了利用用户画像确定推送信息外,还可以利用用户群组来确定。具体的,可以将用户的兴趣点设定为建筑,同时设定一个权重阈值。获取该用户所在地域范围内其他用户的用户画像,将其他用户的用户画像中的建筑权重与预设权重阈值进行比较,若高于预设权重阈值,则将相对应的其他用户与该用户划分为一组。在确定分组后,利用余弦相似度计算该分组中该用户的用户画像与其他各用户的用户画像的相似度,若相似度高于预设相似度阈值,则确定相对应的其他用户与该用户相关联。确定了相关联的其他用户后,获取其他用户的历史关注信息,并将获取到的历史关注信息推送给该用户。仍以用户从北京到天津出差或旅游为例,对于天津当地喜欢建筑的用户群而言,与天津小众但经典的西洋古典建筑群有关的推送信息的点击率比较高,将这些与小众但经典的西洋古典建筑群有关的信息推送给用户,无疑会提高用户的惊喜感和新颖感。
本实施例中,除了单独利用用户画像确定推送信息或者单独利用用户群组来确定推送信息外,还可以将用户画像与用户群组相结合,共同确定推送信息,以使推送信息更加符合用户的需求。
本实施例提供的用户画像的处理方法,在上述各实施例的基础上,通过利用语义向量中设定位元素的数值大于设定权重阈值来确定用户群组,并利用余弦距离计算用户群组中各用户之间的相似度,解决了现有地域性推荐技术只能推送与地域相关的信息的问题,在达到能够针对用户的个性化特点以及用户间的协同过滤进行信息推送,增加用户体验和用户感知度的效果的同时,降低了用户间协同过滤的复杂度,同时还提高了其可信度。
在上述各实施例的基础上,进一步的,根据用户的地域信息,以及用户画像和/或用户群组,为用户提供推荐信息,优选可以包括:
确定用户改变地域的原因;
根据用户改变地域的原因,以及用户的用户画像和/或用户群组,确定用户的推荐信息。
本实施例中,用户改变地域的原因可以是旅游,也可以是出差,对于处于旅游状态的用户,其时间充裕,并且所到地点更换频繁,且主要与娱乐为目的,因此,可以为其推荐一些与娱乐相关的信息;而对于处于出差状态的用户,其可能只有晚上有时间,并且其所到地点可能主要与其出差项目相关,因此可以为其推荐一些其感兴趣的且相对专业化的信息。
本实施例中,在根据用户改变地域的原因,结合用户群组确定用户的推荐信息时,可以将与当前用户所在地域相同,且改变地域原因相同的其他用户作为其关联用户。
进一步的,确定用户改变地域的原因优选可以包括:
根据用户的移动位置,确定用户的停留建筑点,并根据停留建筑点所属类别确定改变地域的原因;和/或
根据用户的联网方式确定用户处于室内或室外,并根据用户处于室内或室外的时间分布情况确定改变地域的原因。
本实施例中,处于旅游状态的用户,其停留的建筑点可以是一些娱乐场所,如公园、游乐场等,也可以是所在地的著名建筑点,如天津之眼、古文化街等;而处于出差状态的用户,其停留的建筑点很可能是会议中心、某大厦、某写字楼等。根据上述特点,可以利用用户所停留的建筑点所属类别来确定其改变地域的原因。
本实施例中,处于旅游状态的用户,不管其处于室内还是室外,其联网方式一般都是移动3G或4G网络,并且其处于室内室外的时间分布相对均匀,一天内可以多次进出多个建筑点;而处于出差状态的用户,其联网方式一般都是WiFi,并且其可能一天都处于在室内开会的状态,其处于室内室外的时间分布不均匀。根据上述特点,可以利用用户联网方式以及用户处于室内或室外的时间分布来确定其改变地域的原因。
此外还可以利用用户所停留的建筑点所属类别与利用用户联网方式以及用户处于室内或室外的时间分布相结合的方式,确定当前用户改变地域的原因,以保证所确定的用户改变地域的原因更加准确。
实施例五
图5是本发明实施例五中的用户画像的处理装置的结构示意图。如图5所示,用户画像的处理装置包括:
历史信息获取模块510,用于获取用户历史信息;
用户画像确定模块520,用于将用户历史信息基于语言模型转换为用户对应的语义向量,作为用户的用户画像。
本实施例提供的用户画像的处理装置,通过获取用户历史信息,并将用户历史信息基于语言模型转换为用户对应的语义向量,作为用户的用户画像。以语义向量的方式表达用户画像,表达准确,且数据形式统一,方便在各种应用场景下引入语义向量来进行计算,从而考虑用户画像的因素,达到了表意准确、简洁,且易于应用的效果。
进一步的,用户画像确定模块520具体可以包括:
标签文本确定子模块,用于根据用户历史信息确定用户的至少两个标签,并映射为标签词汇,各标签词汇组合成为标签文本;
词向量确定子模块,用于根据标签文本,基于语言模型确定标签文本中的标签词汇的词向量;
用户画像确定子模块,用于根据各词向量确定标签文本对应的文本的语义向量,作为用户的用户画像。
进一步的,标签文本确定子模块具体可以包括:
关注点提取单元,用于从用户的至少两篇历史浏览文章中提取关注点;
标签词汇形成单元,用于将每篇文章的每个关注点分别映射为一个字母,将各个字母组合形成单词,从而作为每篇文章对应的标签词汇;
标签文本形成单元,用于将用户的至少两篇历史浏览文章对应的标签词汇组合形成标签文本。
进一步的,该装置还可以包括:语言模型为隐含狄利克雷分布模型。
进一步的,该装置还可以包括:
用户群组形成模块,用于在确定用户的用户画像之后,根据用户画像确定用户之间的兴趣相似度,从而形成用户群组;
推荐信息提供模块,用于根据用户的地域信息,以及用户画像和/或用户群组,为用户提供推荐信息。
进一步的,用户群组生成模块具体可以用于:
根据各个用户的语义向量,将语义向量中设定位元素的数值大于设定权重阈值的用户,聚类为一个用户群组;
对于任一用户群组,计算各用户的语义向量之间的余弦距离,作为用户群组中用户之间的相似度。
进一步的,推荐信息提供模块具体可以用于:
根据用户画像中的兴趣点,从用户所在地域的特色信息中确定推荐信息,并提供给用户;和/或
获取用户群组中与当前用户关联且处于相同地域的其他用户,并获取其他用户的历史关注信息,根据历史关注信息确定当前用户的推荐信息,并提供给当前用户。
进一步的,推荐信息提供模块具体可以包括:
地域改变原因确定子模块,用于确定用户改变地域的原因;
推荐信息提供子模块,用于根据用户改变地域的原因,以及用户的用户画像和/或用户群组,确定用户的推荐信息。
进一步的,地域改变原因确定子模块具体可以用于:
根据用户的移动位置,确定用户的停留建筑点,并根据停留建筑点所属类别确定改变地域的原因;和/或
根据用户的联网方式确定用户处于室内或室外,并根据用户处于室内或室外的时间分布情况确定改变地域的原因。
本发明实施例所提供的用户画像的处理装置可执行本发明任意实施例所提供的用户画像的处理方法,具备执行方法相应的功能模块和有益效果。
实施例六
图6为本发明实施例六提供的服务器的结构示意图。图6示出了适于用来实现本发明实施方式的示例性服务器612的框图。图6显示的服务器612仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,服务器612以通用计算设备的形式表现。服务器612的组件可以包括但不限于:一个或者多个处理器616,系统存储器628,连接不同系统组件(包括系统存储器628和处理器616)的总线618。
总线618表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务器612典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器612访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器628可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)630和/或高速缓存存储器632。服务器612可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储装置634可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线618相连。系统存储器628可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块642的程序/实用工具640,可以存储在例如系统存储器628中,这样的程序模块642包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块642通常执行本发明所描述的实施例中的功能和/或方法。
服务器612也可以与一个或多个外部设备614(例如键盘、指向设备、显示器624等)通信,还可与一个或者多个使得用户能与该服务器612交互的设备通信,和/或与使得该服务器612能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口622进行。并且,服务器612还可以通过网络适配器620与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器620通过总线618与服务器612的其它模块通信。应当明白,尽管图中未示出,可以结合服务器612使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储装置等。
处理器616通过运行存储在系统存储器628中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的用户画像的处理方法。
实施例七
本发明实施例七提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的用户画像的处理方法,包括:
获取用户历史信息;
将用户历史信息基于语言模型转换为用户对应的语义向量,作为用户的用户画像。
当然,本发明实施例所提供的计算机可读存储介质,其上存储的计算机程序不限于执行如上所述的方法操作,还可以执行本发明任意实施例所提供的用户画像的处理方法中的相关操作。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种用户画像的处理方法,其特征在于,包括:
获取用户历史信息;其中,用户历史信息可以从用户所使用的各类应用程序中获取;其中,应用程序包括购物类、社交类、美食类、新闻类、地图类以及搜索引擎类;
根据所述用户历史信息确定所述用户的至少两个标签,并映射为标签词汇,各所述标签词汇组合成为标签文本;
根据所述标签文本,基于语言模型确定所述标签文本中的标签词汇的词向量;
根据各所述词向量确定所述标签文本对应的文本的语义向量,作为所述用户的用户画像;
其中,根据所述用户历史信息确定所述用户的至少两个标签,并映射为标签词汇,各所述标签词汇组合成为标签文本包括:
从所述用户的至少两篇历史浏览文章中提取关注点;其中,采用分词手段提取文章中描述点和兴趣点作为用户的关注点;
将每篇文章的每个关注点分别映射为一个字母,将各个字母组合形成单词,从而作为每篇所述文章对应的标签词汇;
将所述用户的至少两篇历史浏览文章对应的标签词汇组合形成标签文本;
在确定用户的用户画像之后,还包括:
根据用户画像确定用户之间的兴趣相似度,从而形成用户群组;
根据所述用户的地域信息,以及所述用户画像和所述用户群组,为所述用户提供推荐信息。
2.根据权利要求1所述的方法,其特征在于,所述语言模型为隐含狄利克雷分布模型。
3.根据权利要求1所述的方法,其特征在于,根据用户画像确定用户之间的兴趣相似度,从而形成用户群组包括:
根据各个用户的语义向量,将语义向量中设定位元素的数值大于设定权重阈值的用户,聚类为一个用户群组;
对于任一用户群组,计算各用户的语义向量之间的余弦距离,作为用户群组中用户之间的相似度。
4.根据权利要求1所述的方法,其特征在于,根据所述用户的地域信息,以及所述用户画像和所述用户群组,为所述用户提供推荐信息包括:
根据所述用户画像中的兴趣点,从用户所在地域的特色信息中确定推荐信息,并提供给所述用户;和获取所述用户群组中与当前用户关联且处于相同地域的其他用户,并获取其他用户的历史关注信息,根据所述历史关注信息确定当前用户的推荐信息,并提供给所述当前用户。
5.根据权利要求1所述的方法,其特征在于,根据所述用户的地域信息,以及所述用户画像和所述用户群组,为所述用户提供推荐信息包括:
确定用户改变地域的原因;
根据用户改变地域的原因,以及所述用户的用户画像和用户群组,确定所述用户的推荐信息。
6.根据权利要求5所述的方法,其特征在于,确定用户改变地域的原因包括:
根据所述用户的移动位置,确定所述用户的停留建筑点,并根据所述停留建筑点所属类别确定改变地域的原因;和/或
根据所述用户的联网方式确定所述用户处于室内或室外,并根据所述用户处于室内或室外的时间分布情况确定改变地域的原因。
7.一种用户画像的处理装置,其特征在于,包括:
历史信息获取模块,用于获取用户历史信息;其中,用户历史信息可以从用户所使用的各类应用程序中获取;其中,应用程序包括购物类、社交类、美食类、新闻类、地图类以及搜索引擎类;
标签文本确定模块,用于根据所述用户历史信息确定所述用户的至少两个标签,并映射为标签词汇,各所述标签词汇组合成为标签文本;
词向量确定模块,用于根据所述标签文本,基于语言模型确定所述标签文本中的标签词汇的词向量;
用户画像确定模块,用于根据各所述词向量确定所述标签文本对应的文本的语义向量,作为所述用户的用户画像;
其中,所述标签文本确定模块具体包括:
关注点提取子模块,用于从所述用户的至少两篇历史浏览文章中提取关注点;其中,采用分词手段提取文章中描述点和兴趣点作为用户的关注点;
标签词汇形成子模块,用于将每篇文章的每个关注点分别映射为一个字母,将各个字母组合形成单词,从而作为每篇所述文章对应的标签词汇;
标签文本形成子模块,用于将所述用户的至少两篇历史浏览文章对应的标签词汇组合形成标签文本;
用户群组形成模块,用于在确定用户的用户画像之后,根据用户画像确定用户之间的兴趣相似度,从而形成用户群组;
推荐信息提供模块,用于根据所述用户的地域信息,以及所述用户画像和所述用户群组,为所述用户提供推荐信息。
8.一种服务器,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的用户画像的处理方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的用户画像的处理方法。
CN201711320283.8A 2017-12-12 2017-12-12 一种用户画像的处理方法、装置、终端和存储介质 Active CN108062375B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711320283.8A CN108062375B (zh) 2017-12-12 2017-12-12 一种用户画像的处理方法、装置、终端和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711320283.8A CN108062375B (zh) 2017-12-12 2017-12-12 一种用户画像的处理方法、装置、终端和存储介质

Publications (2)

Publication Number Publication Date
CN108062375A CN108062375A (zh) 2018-05-22
CN108062375B true CN108062375B (zh) 2021-12-10

Family

ID=62138453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711320283.8A Active CN108062375B (zh) 2017-12-12 2017-12-12 一种用户画像的处理方法、装置、终端和存储介质

Country Status (1)

Country Link
CN (1) CN108062375B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674288A (zh) * 2018-06-12 2020-01-10 蓝盾信息安全技术有限公司 一种应用于网络安全领域的用户画像方法
CN108810577B (zh) * 2018-06-15 2021-02-09 深圳市茁壮网络股份有限公司 一种用户画像的构建方法、装置及电子设备
CN108846097B (zh) * 2018-06-15 2021-01-29 北京搜狐新媒体信息技术有限公司 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
CN109213771A (zh) * 2018-06-28 2019-01-15 深圳市彬讯科技有限公司 更新画像标签的方法和装置
CN110866040B (zh) * 2018-08-27 2024-05-17 京东科技控股股份有限公司 用户画像生成方法、装置和系统
CN110879853B (zh) * 2018-09-06 2023-05-26 腾讯科技(深圳)有限公司 信息向量化方法与计算机可读存储介质
CN109359180B (zh) * 2018-09-20 2021-03-02 腾讯科技(深圳)有限公司 用户画像生成方法、装置、电子设备及计算机可读介质
CN111178925B (zh) * 2018-11-09 2023-07-25 百度在线网络技术(北京)有限公司 用户画像的属性预测方法、装置、服务器和计算机可读介质
CN111292733A (zh) * 2018-12-06 2020-06-16 阿里巴巴集团控股有限公司 一种语音交互方法和装置
CN111400609B (zh) * 2018-12-27 2024-02-13 广州市百果园网络科技有限公司 用户推荐方法、装置、存储介质及服务器
CN109710753B (zh) * 2018-12-29 2021-08-03 北京金山安全软件有限公司 基于个性化主题的快捷信息生成方法、装置和电子设备
CN109903082B (zh) * 2019-01-24 2022-10-28 平安科技(深圳)有限公司 基于用户画像的聚类方法、电子装置及存储介质
CN109783615B (zh) * 2019-01-25 2023-08-11 宋来伟 基于词语对狄利克雷过程的用户画像方法和系统
CN111814475A (zh) * 2019-04-09 2020-10-23 Oppo广东移动通信有限公司 用户画像构建方法、装置、存储介质和电子设备
CN110164415B (zh) * 2019-04-29 2024-06-14 腾讯科技(深圳)有限公司 一种基于语音识别的推荐方法、装置及介质
CN111861526B (zh) * 2019-04-30 2024-05-21 京东城市(南京)科技有限公司 一种分析对象来源的方法和装置
CN110245964A (zh) * 2019-06-14 2019-09-17 北京市商汤科技开发有限公司 信息推送方法和装置以及存储介质
CN110598123B (zh) * 2019-08-14 2023-12-29 平安科技(深圳)有限公司 基于画像相似性的信息检索推荐方法、装置及存储介质
CN110688406A (zh) * 2019-09-06 2020-01-14 平安医疗健康管理股份有限公司 数据处理方法、装置、计算机设备和存储介质
CN111538751B (zh) * 2020-03-23 2021-05-04 重庆特斯联智慧科技股份有限公司 物联网数据的标签化用户画像生成系统及方法
CN111260493A (zh) * 2020-04-27 2020-06-09 深圳市爱聊科技有限公司 基于亲密度的用户交友分组方法、电子装置及存储介质
CN111741104B (zh) * 2020-06-18 2021-10-08 腾讯科技(深圳)有限公司 应答消息的确定方法、配置方法、装置、设备及存储介质
CN111901618B (zh) * 2020-07-21 2023-02-24 北京百度网讯科技有限公司 直播间的用户交流方法、装置、设备以及存储介质
CN112115233B (zh) * 2020-09-27 2024-03-26 北京百度网讯科技有限公司 关系网络生成方法、装置、电子设备及存储介质
CN112016769B (zh) * 2020-10-19 2022-04-08 北京梦天门科技股份有限公司 管理相对人风险预测以及信息推荐方法及装置
CN113806662A (zh) * 2021-09-23 2021-12-17 深圳市易平方网络科技有限公司 一种运营数据推送控制方法、装置、终端设备及存储介质
CN114398560B (zh) * 2022-03-24 2022-05-27 深圳市秦丝科技有限公司 基于web平台的营销界面设置方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423442A (zh) * 2017-08-07 2017-12-01 火烈鸟网络(广州)股份有限公司 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备
CN107451217A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 资讯推荐方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130204833A1 (en) * 2012-02-02 2013-08-08 Bo PANG Personalized recommendation of user comments
WO2017028821A1 (zh) * 2015-08-20 2017-02-23 北京嘀嘀无限科技发展有限公司 根据历史订单预测当前订单信息的方法及系统
CN107305667A (zh) * 2016-04-18 2017-10-31 滴滴(中国)科技有限公司 基于出行习惯的用户画像获取方法及装置
CN105354293A (zh) * 2015-11-02 2016-02-24 海信集团有限公司 一种移动终端上进行播放对象推送的辅助实现方法及装置
US20170140003A1 (en) * 2015-11-12 2017-05-18 Le Holdings (Beijing) Co., Ltd. Method for creating individual user profile, electronic device, and non-transitory computer-readable storage medium
US9817814B2 (en) * 2015-12-31 2017-11-14 Accenture Global Solutions Limited Input entity identification from natural language text information
CN105787071A (zh) * 2016-03-02 2016-07-20 浪潮通信信息系统有限公司 一种基于信息化标签进行手机用户行为画像的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451217A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 资讯推荐方法及装置
CN107423442A (zh) * 2017-08-07 2017-12-01 火烈鸟网络(广州)股份有限公司 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Onur Kuru 等.CharNER: Character-Level Named Entity Recognition.《Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers》.2016,911–921. *
熊奕昕.基于Labeled-LDA的财经新闻分类系统的设计与实现.《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》.2017,(第01期),I138-859. *
赵博轩 等.利用拼音特征的深度学习文本分类模型.《高技术通讯》.2017,第27卷(第07期),596-603. *

Also Published As

Publication number Publication date
CN108062375A (zh) 2018-05-22

Similar Documents

Publication Publication Date Title
CN108062375B (zh) 一种用户画像的处理方法、装置、终端和存储介质
US11907240B2 (en) Method and system for presenting a search result in a search result card
CN107609152B (zh) 用于扩展查询式的方法和装置
US20180285700A1 (en) Training Image-Recognition Systems Using a Joint Embedding Model on Online Social Networks
US9830404B2 (en) Analyzing language dependency structures
US10083379B2 (en) Training image-recognition systems based on search queries on online social networks
AU2014399168B2 (en) Automated click type selection for content performance optimization
US8306977B1 (en) Method and system for tagging of content
Qian et al. Social media based event summarization by user–text–image co-clustering
US9646062B2 (en) News results through query expansion
US10592565B2 (en) Method and apparatus for providing recommended information
WO2020238502A1 (zh) 物品推荐方法及装置、电子设备及存储介质
US11055312B1 (en) Selecting content using entity properties
US9767417B1 (en) Category predictions for user behavior
US8838435B2 (en) Communication processing
US9767204B1 (en) Category predictions identifying a search frequency
WO2021164131A1 (zh) 地图展示方法、系统、计算机设备和存储介质
CN113688310B (zh) 一种内容推荐方法、装置、设备及存储介质
CN110737774A (zh) 图书知识图谱的构建、图书推荐方法、装置、设备及介质
CN113806588A (zh) 搜索视频的方法和装置
US20240143684A1 (en) Information presentation method and apparatus, and device and medium
KR101873339B1 (ko) 관심사 및 콘텐츠를 제공하는 방법 및 시스템
US10474670B1 (en) Category predictions with browse node probabilities
US20200043074A1 (en) Apparatus and method of recommending items based on areas
US10282736B2 (en) Dynamic modification of a parameter of an image based on user interest

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant