CN108335165B - 兴趣标签确定方法和装置 - Google Patents

兴趣标签确定方法和装置 Download PDF

Info

Publication number
CN108335165B
CN108335165B CN201710074401.5A CN201710074401A CN108335165B CN 108335165 B CN108335165 B CN 108335165B CN 201710074401 A CN201710074401 A CN 201710074401A CN 108335165 B CN108335165 B CN 108335165B
Authority
CN
China
Prior art keywords
group
topic
user
identifier
interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710074401.5A
Other languages
English (en)
Other versions
CN108335165A (zh
Inventor
孔行
叶浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710074401.5A priority Critical patent/CN108335165B/zh
Priority to PCT/CN2018/074564 priority patent/WO2018145591A1/zh
Publication of CN108335165A publication Critical patent/CN108335165A/zh
Priority to US16/452,914 priority patent/US11226991B2/en
Application granted granted Critical
Publication of CN108335165B publication Critical patent/CN108335165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Algebra (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种兴趣标签确定方法和装置,该方法包括:获取群组标识和对应的群组名称,获取与群组标识对应的各用户标识及各用户标识的第一用户内容;第一用户内容包括对与用户标识对应的所有群组标识的群组名称进行拼接获得的内容,对与群组标识对应的所有用户标识的第一用户内容进行拼接,获得群组标识的第一群组内容,根据预先训练确定的主题标识和主题‑词语分布结果,计算第一群组内容在各主题标识下的概率,根据第一群组内容在各主题标识下的概率、根据预先训练确定的主题标识与兴趣标签之间的关联关系,确定群组标识的兴趣标签。基于群组的兴趣标签能够为群组的用户精确的进行信息推广。

Description

兴趣标签确定方法和装置
技术领域
本发明涉及互联网技术领域,特别是涉及一种兴趣标签确定方法和装置。
背景技术
了解用户的兴趣对于信息提供商而言,非常重要。在了解用户的兴趣后,为用户设置兴趣标签,可以向用户精确地提供信息服务。例如,向用户提供推荐的商品信息等。
一些即时通讯工具提供群组功能,在创建群组时随机会为群组分配一个群组ID,不需要创建人选择兴趣、爱好等标签即可创建成功。一些群组的创建者设置了这些标签,而由于标签可以随机设置为数字、人名、地名等不具有实际意义的词,这就导致关于群组的有效信息量少,难以通过群组名称和兴趣爱好标签直接推断群组成员共同的兴趣、爱好,进而无法精确地对用户进行信息推广。
发明内容
基于此,有必要提供一种兴趣标签确定方法和装置,能够确定群组的兴趣标签,进而基于群组的兴趣标签为群组的用户精确的进行信息推广。
为达到上述目的,本发明实施例采用以下技术方案:
一种兴趣标签确定方法,包括:
获取群组标识和对应的群组名称;
获取与所述群组标识对应的各用户标识及各用户标识的第一用户内容;所述第一用户内容包括对与所述用户标识对应的所有群组标识的群组名称进行拼接获得的内容;
对与所述群组标识对应的所有用户标识的第一用户内容进行拼接,获得所述群组标识的第一群组内容;
根据预先训练确定的主题标识和主题-词语分布结果,计算所述第一群组内容在各主题标识下的概率;
根据所述第一群组内容在各主题标识下的概率、根据预先训练确定的主题标识与兴趣标签之间的关联关系,确定所述群组标识的兴趣标签。
一种兴趣标签确定装置,包括:群组获取模块、用户获取模块、群组拼接模块、计算模块和标签确定模块;
所述群组获取模块,用于获取群组标识和对应的群组名称;
所述用户获取模块,用于获取与所述群组标识对应的各用户标识及各用户标识的第一用户内容;所述第一用户内容包括对与所述用户标识对应的所有群组标识的群组名称进行拼接获得的内容;
所述群组拼接模块,用于对与所述群组标识对应的所有用户标识的第一用户内容进行拼接,获得所述群组标识的第一群组内容;
所述计算模块,用于根据预先训练确定的主题标识和主题-词语分布结果,计算所述第一群组内容在各主题标识下的概率;
所述标签确定模块,用于根据所述第一群组内容在各主题标识下的概率、根据预先训练确定的主题标识与兴趣标签之间的关联关系,确定所述群组标识的兴趣标签。
上述的兴趣标签确定方法和装置,通过对用户标识对应的所有群组标识的群组名称进行拼接得到用户标识对应的第一用户内容,通过对与群组标识对应的所有用户标识的第一用户内容进行拼接得到第一群组内容,根据预先训练确定的主题标识和主题-词语分布结果,计算第一群组内容在各主题标识下的概率,计算得到的概率、预先训练确定的主题标识与兴趣标签之间的关联关系,确定所述群组标识的兴趣标签。由于第一群组内容是对该群组中每个成员所加入的所有群组的群组名称拼接而成的,从而扩大用于表示群组内容的信息含量,并且,基于预先训练确定的主题标识和主题-词语分布结果、主题标识和兴趣标签之间的关联关系,能够准确地确定群组标识的兴趣标签,进一步的,基于群组的兴趣标签为群组的用户精确的进行信息推广。
附图说明
图1为一个实施例方案的应用环境示意图;
图2为一个实施例的服务器内部结构示意图;
图3为一个实施例的兴趣标签确定方法的流程图;
图4为一个实施例的主题标识和主题-词语分布结果、主题标识与兴趣标签之间的关联关系的确定的步骤的流程图;
图5为另一个实施例的兴趣标签确定方法的流程图;
图6为一个实施例的兴趣标签确定装置的结构框图;
图7为另一个实施例的兴趣标签确定装置的结构框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
图1为一个实施例提供的兴趣标签确定方法的应用环境示意图,如图1所示,该应用环境包括服务器10和用户终端20。服务器10和用户终端20通过网络连接。用户通过用户终端20申请在服务器10上加入某群组,服务器10建立群组的群组标识和用户的用户标识的对应关系。服务器10根据群组中每个成员的第一用户内容拼接得到该群组标识对应的第一群组内容,第一用户内容包括对与用户标识对应的所有群组标识的群组名称进行拼接获得的内容。服务器10根据预先训练确定的主题标识和主题-词语分布结果,计算第一群组内容在各主题标识下的概率,根据第一群组内容在各主题标识下的概率、根据预先训练确定的主题标识与兴趣标签之间的关联关系,确定群组标识的兴趣标签。服务器10根据群组的标签为群组中的每个用户添加兴趣标签。服务器10可根据用户的兴趣标识为用户推荐相关的服务信息,并通过网络发送至用户标识对应的用户终端20。
图2为一个实施例中服务器的内部结构示意图。如图2所示,服务器包括通过系统总线连接的处理器、存储介质、内存和网络接口。其中,服务器的存储介质存储有操作系统,还包括兴趣标签确定装置,该兴趣标签确定装置用于实现兴趣标签确定方法。该处理器用于提供计算和控制能力,支撑整个服务器的运行。服务器中的内存为存储介质中的兴趣标签确定装置运行提供环境,网络接口与用户终端进行网络通信,如接收用户终端向服务器发送的群组加入请求,向用户终端推荐与兴趣标签对应的服务信息等。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供一种兴趣标签确定方法,如图3所示,该方法包括以下步骤:
S102:获取群组标识和对应的群组名称。
群组标识用于区分不同的群组,群组标识可以为群组ID。群组名称为创建者或群组管理员为群组设置用于表征群组成员关系或群组用途的名称,群组的群组ID和群组名称对应。未设置有群组名称的群组,对应的群组名称为无,或其默认的群组名称可能为群组ID。
触发获取群组标识和对应的群组名称的方式可以为当检测到新的群组成立时,或当检测到群组中加入新的成员或有成员退群时,也可为当检测到达到设定的兴趣标签更新的时间时。在具体的实施方式中,系统设定定时自动更新群组的兴趣标签,例如每月自动更新。当检测到达至自动更新的时间时,获取群组标识和对应的群组名称。
S104:获取与群组标识对应的各用户标识及各用户标识的第一用户内容,第一用户内容包括对与用户标识对应的所有群组标识的群组名称进行拼接获得的内容。
群组的群组标识与群组内组员的用户标识对应,用户标识可以为用户ID。群组标识对应的各用户标识包括一个群组中加入了该群组的每一个组员的用户标识。各用户标识具有对应的第一用户内容。第一用户内容包括对用户标识对应的所有群组标识的群组名称进行拼接获得的内容。本实施例中,用户标识对应的所有群组标识的群组名称包括用户加入的所有群组的群组名称。例如,在群组1中,包括用户1至用户N,其中用户1加入群组1、群组2和群组3,则用户1的第一用户内容为对用户1加的所有群组(群组1、群组2和群组3)的群组名称进行拼接获得的内容。假如用户1加入了多个与乒乓球的兴趣群,则这些群组中必定含有实际含义的群组名称,因此,拼接得到的第一用户内容在某种意义上可以表示用户1的兴趣。
S106:对与群组标识对应的所有用户标识的第一用户内容进行拼接,获得群组标识的第一群组内容。
以上面的群组1为例,群组1对应的第一群组内容为对群组1的用户1至用户N的第一用户内容进行拼接获得的内容。群组标识的第一群组内容可以用来表示群组的兴趣。例如,群组1为一个乒乓球爱好群,则群中的成员大多数肯定都是爱好乒乓球的用户。在这些爱好乒乓球的用户中,必定大部分用户的第一用户内容的文本含有与乒乓球相关的词汇,因此拼接群组1中所有成员的第一用户内容得到的第一群组内容中,与乒乓球相关的词汇且所占比例较大。
S108:根据预先训练确定的主题标识和主题-词语分布结果,计算第一群组内容在各主题标识下的概率。
主题标识可以为主题的ID。通过预先训练,得到主题标识和主题分布结果。具体的训练方式可采用主题模型进行训练。主题-词语分布结果即每个词语在每个主题下分布的概率,通过预先训练确定的主题标识和主题-词语分布结果,计算第一群组内容在各主题标识下的概率。
S110:根据第一群组内容在各主题标识下的概率、根据预先训练确定的主题标识与兴趣标签之间的关联关系,确定群组标识的兴趣标签。
预先训练确定的还包括主题标识与兴趣标签之前的关联关系。根据第一群组内容在各主题标识下的概率,主题标识与兴趣标签之间的关系,能够确定与第一群组内容对应的群组标识的兴趣标签。
在一个具体的实施方式中,根据第一群组内容在各主题标识下的概率,将概率最高的主题标识对应的兴趣标签,作为与第一群组内容对应的群组标识的兴趣标签。可以理解的是,群组标识的兴趣标签可以作为群组中每个成员的兴趣标签。
上述的兴趣标签确定方法,通过对用户标识对应的所有群组标识的群组名称进行拼接得到用户标识对应的第一用户内容,通过对与群组标识对应的所有用户标识的第一用户内容进行拼接得到第一群组内容,根据预先训练确定的主题标识和主题-词语分布结果,计算第一群组内容在各主题标识下的概率,计算得到的概率、预先训练确定的主题标识与兴趣标签之间的关联关系,确定所述群组标识的兴趣标签。由于第一群组内容是对该群组中每个成员所加入的所有群组的群组名称拼接而成的,从而扩大用于表示群组内容的信息含量,并且,基于预先训练确定的主题标识和主题-词语分布结果、主题标识和兴趣标签之间的关联关系,能够准确地确定群组标识的兴趣标签,进一步的,基于群组的兴趣标签为群组的用户精确的进行信息推广。
在一个实施例中,还包括:主题标识和主题-词语分布结果、主题标识与兴趣标签之间的关联关系的确定的步骤,该步骤为对已有的群组内容进行主题模型训练的过程,如图4所示,该步骤包括:
S202:获取满足预设条件的各群组标识及对应的群组名称。
本实施例中,预设条件为群组成员大于5人且设置有群组名称。从系统中筛选出满足预设条件的各群组标识,并获取对应的群组名称。
S204:获取与各群组标识对应的每个用户标识的第二用户内容,第二用户内容包括对与用户标识对应的所有群组标识的群组名称拼接获得的内容。
用户标识的第二用户内容包括对用户加入的所有群组的群组名称进行拼接获得的内容。
S206:对与各群组标识对应的所有用户标识的第二用户内容进行拼接,得到各群组标识的第二群组内容。
各群组标识的第二群组内容包括对该群的所有成员的第二用户内容进行拼接获得的内容。
S208:确定目标主题数量。
目标主题数量是指主题模型需要训练得到的主题数量。在本实施例中,可采用LDA(Latent Dirichlet Allocation)文档主题生成模型进行训练。确定目标主题数量的步骤包括:获取预设置的主题数量;根据主题数量和所有的第二群组内容的词语数量计算每个主题数量对应的困惑度值;将最小困惑度值对应的主题数量确定为目标主题数量。
在一个实施例中,在步骤S208之前,还包括步骤:对所有的第二群组内容进行预处理。预处理包括对所有的第二群组内容进行分词、去除停用词处理,只保留实义词,将预处理后得到的所有第二群组内容的实义词作为训练集。
在一个具体的实施例中,在使用LDA对所有的第二群组内容进行训练时,预设置主题数量,分别为1000、2000和3000。
分别计算每个预设置的主题数量对应的困惑度值。
困惑度值的计算公式如下:
Figure 216046DEST_PATH_IMAGE001
其中,N为所有训练集中的实义词的数量,
Figure 726661DEST_PATH_IMAGE002
Figure 975240DEST_PATH_IMAGE003
表示主题-文档分布,
Figure 714657DEST_PATH_IMAGE004
表示主题-词语分布。
将最小困惑度值对应的预设主题数量确定为目标主题数量。本实施例中,当预设主题数量为2000时,困惑度值最小,本实施例中确定的目标主题数量为2000。
S210:采用主题模型对各第二群组内容进行分析,获得与主题数量对应的各主题标识下的主题-词语分布结果;主题-词语分布结果包括各词语在各主题下的分布概率。
本实施例中采用LDA模型对所有的第二群组内容进行分析,获取2000个主题标识下的主题-词语分布结果,主题-词语分布结果包括各词语在各主题下的分布概率。本实施例中采用了LDA模型进行主题分析,得到主题和每个主题的主题-词语分布结果,在其它的实施例中,也可以采用其它主题分析模型实现。
S212:根据主题-词语分布结果确定与兴趣相关的主题标识、主题标识与兴趣标签之间的关联关系及主题-词语分布结果。
采用LDA模型对所有的第二群组内容进行分析,得到的2000个主题标识,即主题ID,以及每个主题标识下词语分布的概率。主题ID不具有实际意义,但是根据每个主题标识下的分布概率最大的词语能够确定每个主题的真正含义。在本实施例中,人工根据每个主题标识下的分布概率最大的前N个词语对每个主题标识设置标签,但每个主题的标签并不一定与兴趣相关,通过筛选最终得到206个与兴趣相关的主题标识,标注主题标识的兴趣标签,并获取与兴趣相关的主题的每个主题标识对应的主题词语分布结果。
本实施例通过对各满足条件的群组的群组内容进行训练,由于群组内容由每个群组的所有用户的用户内容拼接而成,而用户内容由用户所加入的所有群的群组名称拼接而成,通过人工标注和筛选,从中选出与兴趣相关的主题为其标注兴趣标签,因而,根据主题-词语分布结果确定与兴趣相关的主题标识、主题标识与兴趣标签之间的关联关系及主题-词语分布结果对群组标识的主题推断具有实际的参考意义。
在另一个实施例中,步骤S108包括以下步骤1至步骤2:
步骤1:根据主题标识和主题-词语分布结果,采样得到第一群组内容中每个词语所属的主题标识。
步骤2:统计每个主题标识下每个词语出现的次数得到第一群组内容在各主题标识下的概率。
根据预先训练确定的主题标识和主题-词语分布结果,计算第一群组内容在各主题标识下的概率的步骤S108,为利用主题模型的训练结果,对第一群组内容的主题进行推断的过程,具体地,采用以下公式进行计算:
Figure 263450DEST_PATH_IMAGE006
其中,
Figure 679388DEST_PATH_IMAGE007
表示除当前词t(第一群组内容m’中第n’个词)以外第一群组内容m’ 中在主题k下词t出现的次数;
Figure 415263DEST_PATH_IMAGE008
表示除当前词t外新该当m’中在主题k下词t出现的 次数;
Figure 348584DEST_PATH_IMAGE009
为第一群组内容m’k个主题的分布,
Figure DEST_PATH_IMAGE010
为LDA模型的参数。
在另一个实施例中,步骤S110包括以下步骤1至步骤2:
步骤1:提取M个最大概率对应的主题标识,并获取与M个最大概率对应的主题标识关联的兴趣标签。
步骤2:建立M个兴趣标签与群组标识的对应关系,将M个兴趣标签确定为群组标识的兴趣标签。
群组的兴趣标签与对应的第一群组内容在各主题标识下的概率有关,可以对应概率最高的主题标识的兴趣标签,也可以对应概率最高的前M个主题标识的兴趣标签。在具体的实施例中,在计算得到第一群组内容在各主题标识下的概率后,提取M个最大概率对应的主题标识,并获取与M个最大概率对应的主题标识关联的兴趣标签,建立这M个兴趣标签与群组标识的对应关系,将M个兴趣标签确定为群组标识的兴趣标签。M的数量可根据需要进行设定,即一个群组可能具有多个兴趣标签。
在另一个实施例中,如图5所示,兴趣标签确定方法,在步骤S110之后,还包括步骤:
S112:获取与用户标识对应的所有群组标识及群组标识的兴趣标签。
S114:为用户标识设置兴趣标签;用户标识的兴趣标签包括与用户标识对应的所有的群组标识的兴趣标签。
采用上述的兴趣标签确定方法,为群组设置了兴趣标签,可以理解为,处于同一个群组的用户具有同样的兴趣标签,根据用户标签对应的群组标签,可以为每一个用户设置兴趣标签。具体的,根据用户标识、用户标识和群组标识的对应关系、群组标识和兴趣标签的对应关系,获取与用户标识对应的所有群组标识及群组标识的兴趣标签。用户的兴趣包括用户标识对应的所有群组标识的兴趣标签。
采用上述的兴趣标签确定方法,能够为群组和用户设置兴趣标签,进而为用户进行精确地进行信息推广提供指导,例如,根据用户的兴趣标签为用户推荐与兴趣标签对应的广告信息等。
在一个实施例中,提供一种兴趣标签确定装置,如图6所示,包括:群组获取模块401、用户获取模块402、群组拼接模块403、计算模块404和标签确定模块405。
群组获取模块401,用于获取群组标识和对应的群组名称。
用户获取模块402,用于获取与群组标识对应的各用户标识及各用户标识的第一用户内容;第一用户内容包括对与用户标识对应的所有群组标识的群组名称进行拼接获得的内容。
群组拼接模块403,用于对与群组标识对应的所有用户标识的第一用户内容进行拼接,获得群组标识的第一群组内容。
计算模块404,用于根据预先训练确定的主题标识和主题-词语分布结果,计算第一群组内容在各主题标识下的概率。
标签确定模块405,用于根据第一群组内容在各主题标识下的概率、根据预先训练确定的主题标识与兴趣标签之间的关联关系,确定群组标识的兴趣标签。
上述的兴趣标签确定装置,通过对用户标识对应的所有群组标识的群组名称进行拼接得到用户标识对应的第一用户内容,通过对与群组标识对应的所有用户标识的第一用户内容进行拼接得到第一群组内容,根据预先训练确定的主题标识和主题-词语分布结果,计算第一群组内容在各主题标识下的概率,计算得到的概率、预先训练确定的主题标识与兴趣标签之间的关联关系,确定所述群组标识的兴趣标签。由于第一群组内容是对该群组中每个成员所加入的所有群组的群组名称拼接而成的,从而扩大用于表示群组内容的信息含量,并且,基于预先训练确定的主题标识和主题-词语分布结果、主题标识和兴趣标签之间的关联关系,能够准确地确定群组标识的兴趣标签,进一步的,基于群组的兴趣标签为群组的用户精确的进行信息推广。
在一个实施例中,如图7所示,兴趣标签确定装置还包括主题数量确定模块406、分析模块407和关联模块408。
群组获取模块401,还用于获取满足预设条件的各群组标识及对应的群组名称。
用户获取模块402,还用于获取与各群组标识对应的每个用户标识的第二用户内容;第二用户内容包括对与用户标识对应的所有群组标识的群组名称拼接获得的内容。
群组拼接模块403,还用于对与各群组标识对应的所有用户标识的第二用户内容进行拼接,得到各群组标识的第二群组内容。
主题数量确定模块406,用于确定目标主题数量。
分析模块407,用于采用主题模型对各第二群组内容进行分析,获得与目标主题数量对应的各主题标识下的主题-词语分布结果;主题-词语分布结果包括各词语在各主题下的分布概率。
关联模块408,用于根据主题-词语分布结果确定与兴趣相关的主题标识、主题标识与兴趣标签之间的关联关系及主题-词语分布结果。
在另一个实施例中,计算模块404包括采样计算模块和统计模块。
采样计算模块,用于根据主题标识和主题-词语分布结果,采样得到第一群组内容中每个词语所属的主题标识。
统计模块,用于统计每个主题标识下每个词语出现的次数得到第一群组内容在各主题标识下的概率。
在另一个实施例中,标签确定模块405包括提取模块和群组标签确定模块。
提取模块,用于提取M个最大概率对应的主题标识,并获取与M个最大概率对应的主题标识关联的兴趣标签。
群组标签确定模块,用于建立M个兴趣标签与群组标识的对应关系,将M个兴趣标签确定为群组标识的兴趣标签。
在另一个实施例中,标签确定模块405,还用于获取与用户标识对应的所有群组标识及群组标识的兴趣并为用户标识设置兴趣标签;用户标识的兴趣标签包括与用户标识对应的所有的群组标识的兴趣标签。
采用上述的兴趣标签确定装置,能够为群组和用户设置兴趣标签,进而为用户进行精确地进行信息推广提供指导,例如,根据用户的兴趣标签为用户推荐与兴趣标签对应的广告信息等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性的计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种兴趣标签确定方法,其特征在于,包括:
获取群组标识和对应的群组名称;
获取与所述群组标识对应的各用户标识及各用户标识的第一用户内容;所述第一用户内容包括对与所述用户标识对应的所有群组标识的群组名称进行拼接获得的内容;
对与所述群组标识对应的所有用户标识的第一用户内容进行拼接,获得所述群组标识的第一群组内容;
根据预先训练确定的主题标识和主题-词语分布结果,计算所述第一群组内容在各主题标识下的概率;
根据所述第一群组内容在各主题标识下的概率、根据预先训练确定的主题标识与兴趣标签之间的关联关系,确定所述群组标识的兴趣标签;
所述主题标识和主题-词语分布结果、所述主题标识与兴趣标签之间的关联关系的确定方式包括:
获取满足预设条件的各群组标识及对应的群组名称;
获取与各群组标识对应的每个用户标识的第二用户内容;所述第二用户内容包括对与所述用户标识对应的所有群组标识的群组名称拼接获得的内容;
对与各群组标识对应的所有用户标识的所述第二用户内容进行拼接,得到各群组标识的第二群组内容;
确定目标主题数量;
采用主题模型对各所述第二群组内容进行分析,获得与所述目标主题数量对应的各主题标识下的主题-词语分布结果;所述主题-词语分布结果包括各词语在各主题下的分布概率;
根据所述主题-词语分布结果中每个主题标识下的分布概率最大的前N个词语对每个主题标识设置标签,并从中确定与兴趣相关的主题标识、主题标识与兴趣标签之间的关联关系及主题-词语分布结果。
2.根据权利要求1所述的方法,其特征在于,根据预先训练确定的主题标识和主题-词语分布结果,计算所述第一群组内容在各主题标识下的概率的方式包括:
根据所述主题标识和主题-词语分布结果,采样得到所述第一群组内容中每个词语所属的主题标识;
统计每个主题标识下每个词语出现的次数得到所述第一群组内容在各主题标识下的概率。
3.根据权利要求1所述的方法,其特征在于,根据所述第一群组内容在各主题标识下的概率、根据所述预先训练确定的主题标识与兴趣标签之间的关联关系,确定所述群组标识的兴趣标签的方式包括:
根据第一群组内容在各主题标识下的概率,提取概率最大的前M个概率对应的主题标识,并获取与概率最大的前M个概率对应的主题标识关联的兴趣标签;
建立M个所述兴趣标签与所述群组标识的对应关系,将M个所述兴趣标签确定为所述群组标识的兴趣标签。
4.根据权利要求1所述的方法,其特征在于,在确定所述群组标识的兴趣标签之后,还包括步骤:
获取与用户标识对应的所有群组标识及群组标识的兴趣标签;
为所述用户标识设置兴趣标签;所述用户标识的兴趣标签包括与所述用户标识对应的所有的群组标识的兴趣标签。
5.一种兴趣标签确定装置,其特征在于,包括:群组获取模块、用户获取模块、群组拼接模块、计算模块和标签确定模块;
所述群组获取模块,用于获取群组标识和对应的群组名称;
所述用户获取模块,用于获取与所述群组标识对应的各用户标识及各用户标识的第一用户内容;所述第一用户内容包括对与所述用户标识对应的所有群组标识的群组名称进行拼接获得的内容;
所述群组拼接模块,用于对与所述群组标识对应的所有用户标识的第一用户内容进行拼接,获得所述群组标识的第一群组内容;
所述计算模块,用于根据预先训练确定的主题标识和主题-词语分布结果,计算所述第一群组内容在各主题标识下的概率;
所述标签确定模块,用于根据所述第一群组内容在各主题标识下的概率、根据预先训练确定的主题标识与兴趣标签之间的关联关系,确定所述群组标识的兴趣标签;
还包括主题数量确定模块、分析模块和关联模块;
所述群组获取模块,还用于获取满足预设条件的各群组标识及对应的群组名称;
所述用户获取模块,还用于获取与各群组标识对应的每个用户标识的第二用户内容;所述第二用户内容包括对与所述用户标识对应的所有群组标识的群组名称拼接获得的内容;
所述群组拼接模块,还用于对与各群组标识对应的所有用户标识的所述第二用户内容进行拼接,得到各群组标识的第二群组内容;
所述主题数量确定模块,用于确定目标主题数量;
所述分析模块,用于采用主题模型对各所述第二群组内容进行分析,获得与所述目标主题数量对应的各主题标识下的主题-词语分布结果;所述主题-词语分布结果包括各词语在各主题下的分布概率;
所述关联模块,用于根据所述主题-词语分布结果中每个主题标识下的分布概率最大的前N个词语对每个主题标识设置标签,并从中确定与兴趣相关的主题标识、主题标识与兴趣标签之间的关联关系及主题-词语分布结果。
6.根据权利要求5所述的装置,其特征在于,所述计算模块包括采样计算模块和统计模块;
所述采样计算模块,用于根据所述主题标识和主题-词语分布结果,采样得到所述第一群组内容中每个词语所属的主题标识;
所述统计模块,用于统计每个主题标识下每个词语出现的次数得到所述第一群组内容在各主题标识下的概率。
7.根据权利要求5所述的装置,其特征在于,所述标签确定模块包括提取模块和群组标签确定模块;
所述提取模块,用于根据第一群组内容在各主题标识下的概率,提取概率最大的前M个概率对应的主题标识,并获取与概率最大的前M个概率对应的主题标识关联的兴趣标签;
所述群组标签确定模块,用于建立M个所述兴趣标签与所述群组标识的对应关系,将M个所述兴趣标签确定为所述群组标识的兴趣标签。
8.根据权利要求5所述的装置,其特征在于,所述标签确定模块,还用于获取与用户标识对应的所有群组标识及群组标识的兴趣标签并为所述用户标识设置兴趣标签;所述用户标识的兴趣标签包括与所述用户标识对应的所有的群组标识的兴趣标签。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
CN201710074401.5A 2017-02-10 2017-02-10 兴趣标签确定方法和装置 Active CN108335165B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201710074401.5A CN108335165B (zh) 2017-02-10 2017-02-10 兴趣标签确定方法和装置
PCT/CN2018/074564 WO2018145591A1 (zh) 2017-02-10 2018-01-30 兴趣标签确定方法、计算机设备和存储介质
US16/452,914 US11226991B2 (en) 2017-02-10 2019-06-26 Interest tag determining method, computer device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710074401.5A CN108335165B (zh) 2017-02-10 2017-02-10 兴趣标签确定方法和装置

Publications (2)

Publication Number Publication Date
CN108335165A CN108335165A (zh) 2018-07-27
CN108335165B true CN108335165B (zh) 2021-12-14

Family

ID=62922077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710074401.5A Active CN108335165B (zh) 2017-02-10 2017-02-10 兴趣标签确定方法和装置

Country Status (3)

Country Link
US (1) US11226991B2 (zh)
CN (1) CN108335165B (zh)
WO (1) WO2018145591A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108335165B (zh) 2017-02-10 2021-12-14 腾讯科技(深圳)有限公司 兴趣标签确定方法和装置
EP3776199B1 (en) * 2018-03-28 2023-07-05 Telefonaktiebolaget Lm Ericsson (Publ) Methods and apparatus for multi-provider virtual network services
CN109446515A (zh) * 2018-09-25 2019-03-08 平安科技(深圳)有限公司 群组信息分析方法、电子装置及计算机可读存储介质
CN111125506B (zh) * 2018-11-01 2023-06-23 百度在线网络技术(北京)有限公司 兴趣圈主题确定方法、装置、服务器和介质
CN110708238B (zh) * 2019-11-22 2021-08-03 京东数字科技控股有限公司 用于处理信息的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035995A (zh) * 2014-06-11 2014-09-10 小米科技有限责任公司 群标签生成方法及装置
CN104915359A (zh) * 2014-03-14 2015-09-16 华为技术有限公司 主题标签推荐方法及装置
CN105512245A (zh) * 2015-11-30 2016-04-20 青岛智能产业技术研究院 一种基于回归模型建立企业画像的方法
CN105573995A (zh) * 2014-10-09 2016-05-11 中国银联股份有限公司 一种兴趣识别方法、设备以及数据分析方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8055664B2 (en) * 2007-05-01 2011-11-08 Google Inc. Inferring user interests
CN102984049B (zh) * 2012-11-26 2017-03-29 北京奇虎科技有限公司 根据主题进行用户群划分和信息传递的客户端及方法
CN104038517A (zh) * 2013-03-05 2014-09-10 腾讯科技(深圳)有限公司 基于群组关系的信息推送方法以及服务器
US10817884B2 (en) * 2014-05-08 2020-10-27 Google Llc Building topic-oriented audiences
US9819618B2 (en) * 2014-06-18 2017-11-14 Microsoft Technology Licensing, Llc Ranking relevant discussion groups
US10242019B1 (en) * 2014-12-19 2019-03-26 Experian Information Solutions, Inc. User behavior segmentation using latent topic detection
CN106228453A (zh) * 2016-08-08 2016-12-14 联动优势科技有限公司 一种获得用户职业信息的方法和装置
US10614505B2 (en) * 2016-10-27 2020-04-07 Nec Corporation Clustering system, method, and program, and recommendation system
CN108335165B (zh) 2017-02-10 2021-12-14 腾讯科技(深圳)有限公司 兴趣标签确定方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915359A (zh) * 2014-03-14 2015-09-16 华为技术有限公司 主题标签推荐方法及装置
CN104035995A (zh) * 2014-06-11 2014-09-10 小米科技有限责任公司 群标签生成方法及装置
CN105573995A (zh) * 2014-10-09 2016-05-11 中国银联股份有限公司 一种兴趣识别方法、设备以及数据分析方法
CN105512245A (zh) * 2015-11-30 2016-04-20 青岛智能产业技术研究院 一种基于回归模型建立企业画像的方法

Also Published As

Publication number Publication date
US20190317950A1 (en) 2019-10-17
US11226991B2 (en) 2022-01-18
WO2018145591A1 (zh) 2018-08-16
CN108335165A (zh) 2018-07-27

Similar Documents

Publication Publication Date Title
CN108335165B (zh) 兴趣标签确定方法和装置
JP6438135B2 (ja) ソーシャルプラットフォームに基づくデータマイニング方法及び装置
WO2019076191A1 (zh) 关键词提取方法和装置、存储介质及电子装置
CN104991899B (zh) 用户属性的识别方法及装置
CN103546446B (zh) 一种钓鱼网站的检测方法、装置和终端
US11475055B2 (en) Artificial intelligence based method and apparatus for determining regional information
CN105491444B (zh) 一种数据识别处理方法以及装置
CN110648172B (zh) 一种融合多种移动设备的身份识别方法和系统
CN108305180B (zh) 一种好友推荐方法及装置
CN105095415A (zh) 网络情绪的确定方法和装置
CN110990541A (zh) 一种实现问答的方法及装置
CN104951434A (zh) 品牌情绪的确定方法和装置
CN105138572B (zh) 获取用户标签的关联度权值的方法和装置
CN114245185A (zh) 视频推荐方法、模型训练方法、装置、电子设备及介质
CN112948526A (zh) 用户画像的生成方法及装置、电子设备、存储介质
CN112818234A (zh) 一种网络舆情信息分析处理方法及系统
CN109635214B (zh) 一种学习资源的推送方法及电子设备
CN109033078B (zh) 语句类别识别方法及装置、存储介质、处理器
CN110929519B (zh) 实体属性抽取方法及装置
CN104580100A (zh) 一种恶意消息的识别方法及装置、服务器
CN116431912A (zh) 用户画像推送方法及装置
CN110020035B (zh) 数据识别方法和装置、存储介质及电子装置
CN114840659A (zh) 信息推荐方法、装置、电子设备及存储介质
CN110825954A (zh) 关键词推荐方法、装置和电子设备
CN114501163B (zh) 视频处理方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant