CN111553145B - 主题生成方法、装置和电子设备 - Google Patents

主题生成方法、装置和电子设备 Download PDF

Info

Publication number
CN111553145B
CN111553145B CN202010661067.5A CN202010661067A CN111553145B CN 111553145 B CN111553145 B CN 111553145B CN 202010661067 A CN202010661067 A CN 202010661067A CN 111553145 B CN111553145 B CN 111553145B
Authority
CN
China
Prior art keywords
labels
crowd
distribution characteristics
label
tags
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010661067.5A
Other languages
English (en)
Other versions
CN111553145A (zh
Inventor
赵琴琴
郭晓波
李有儒
林文芳
刘忠义
蔡明宸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010661067.5A priority Critical patent/CN111553145B/zh
Publication of CN111553145A publication Critical patent/CN111553145A/zh
Application granted granted Critical
Publication of CN111553145B publication Critical patent/CN111553145B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书提出了一种主题生成方法、装置和电子设备。其中,所述方法包括:确定标签集合,所述标签集合中包含多个标签;确定所述多个标签分别对应的人群分布特征;将所述多个标签分别对应的人群分布特征输入到深度网络模型中,以基于所述深度网络模型中的监督信息对所述多个标签对应的人群分布特征进行更新;根据不同标签之间人群分布特征的相似度,从所述多个标签中选取标签并基于所选取标签生成主题。通过本发明实施例方案能够能够确保所生成的主题符合人群分布逻辑,且可解释性较强。

Description

主题生成方法、装置和电子设备
技术领域
本说明书涉及互联网技术领域,尤其涉及一种主题生成方法、装置和电子设备。
背景技术
在推荐系统中,为了促进商家产品、服务的业务转化,可以在产品、服务的展示页面、推广消息中设置一定的主题。主题作为一种聚合产品、服务信息的有效方式,可以快速增加用户对产品、服务的认知,便于用户做出决策,因此为产品、服务设置主题被越来越多地应用于推荐领域。
相关技术中,主题一般由多个标签组成。理论上可以将任意N个标签组合为一个主题。但通过此种方式产生的主题可能会没有实际意义或者不符合常规逻辑。比如将 “消费档次很高”和“大学生”两个标签组合得到的主题“消费档次很高的大学生”。因为在大多数情况下,大学生的收入水平比较有限,甚至没有收入,因此将“消费档次很高”和“大学生”组合在一起没有太大意义。另一种生成主题的方式还可以是,根据用户的历史行为数据,通过统计共现的方式生成主题。但这种方式也会存在因为数据不置信或者阈值设计不合理,导致产出的主题没有意义的现象。因此如何确保所生成的主题符合逻辑,具有意义成为一个需要解决的问题。
发明内容
本说明书实施例提供了一种主题生成方法、装置和电子设备,基于该方案能够确保所生成的主题符合人群分布逻辑,且可解释性较强。
第一方面,本说明书实施例提供了一种主题生成方法,包括:
确定标签集合,所述标签集合中包含多个标签;
确定所述多个标签分别对应的人群分布特征;
将所述多个标签分别对应的人群分布特征输入到深度网络模型中,以基于所述深度网络模型中的监督信息对所述多个标签对应的人群分布特征进行更新;
根据不同标签之间人群分布特征的相似度,从所述多个标签中选取标签并基于所选取标签生成主题。
上述实施例中,在生成产品、服务的主题时,首先确定可供选择的标签。可以理解,对于每个标签其代表一定的人群,因此可以根据标签对应的人群获取标签的人群特征表示,即确定每个标签对应的人群分布特征;将各个标签对应的人群分布特征输入到深度网络模型中,以通过深度网络模型中的监督信息对多个标签的人群分布特征进行更新。之后,根据不同标签之间人群分布特征的相似度,从多个标签中选取标签生成主题。例如,可以将具有高相似度人群分布特征的标签组合为主题。即,将所代表人群具有高相似度的标签组合为主题。可见,本方案通过人群分布特征表示各个标签,并根据人群分布特征之间的相似度选取用于生成主题的标签,从而使得所生成主题符合人群分布逻辑。而且从人群语义角度选择标签生成主题,使得所生成主题的可解释性更对更强。
其中一种可能的实现方式中,确定所述多个标签分别对应的人群分布特征,包括:
确定所述多个标签分别对应的人群数据;
根据对所述多个标签所对应人群数据的分布统计,确定所述多个标签分别对应的人群分布特征;或者,
根据所述多个标签对应的人群数据之间的行为共现关系或者社交关系,建立人与人之间的关系图;将所述人与人之间的关系图输入到图网络模型中,基于图网络模型学习每个人的单人特征;通过对每个标签所对应人群的单人特征的各个维度对应相加、取平均值或者取最大值,得到所述多个标签对应的人群分布特征。
其中一种可能的实现方式中,所述监督信息为门店约束信息;基于所述深度网络模型中的监督信息对所述多个标签对应的人群分布特征进行更新,包括:
基于门店约束信息判断所述多个标签中的任意N个标签是否出现在同一门店中;其中,所述N大于或者等于2;
通过深度神经网络对出现在同一门店的N个标签的人群分布特征进行更新,以提高出现在同一门店的N个标签之间人群分布特征的相似度。
其中一种可能的实现方式中,所述方法还包括:
通过深度神经网络对没有出现在同一门店的N个标签的人群分布特征进行更新,以降低没有出现在同一门店的N个标签之间人群分布特征的相似度。
其中一种可能的实现方式中,所述标签对应的人群分布特征中包含多个特征要素;对N个标签的人群分布特征进行更新,包括:
对N个标签的人群分布特征的各特征要素的权重进行更新。
其中一种可能的实现方式中,根据不同标签之间人群分布特征的相似度,从所述多个标签中选取标签并基于所选取标签生成主题,包括:
对所述标签集合中的各个标签进行组合,得到多个标签组合;其中每个标签组合中至少包含两个标签;
根据标签组合中所包含标签之间的人群分布特征的相似度,将相似度高于设定阈值的标签组合确定为生成的主题。
其中一种可能的实现方式中,基于所选取标签生成主题,包括:
根据所选取标签以及所选取标签对应的人群分布特征生成主题。
第二方面,本说明书实施例提供了一种主题生成装置,包括:
确定模块,用于确定标签集合,所述标签集合中包含多个标签;以及确定所述多个标签分别对应的人群分布特征;
特征更新模块,用于将所述多个标签分别对应的人群分布特征输入到深度网络模型中,以基于所述深度网络模型中的监督信息对所述多个标签对应的人群分布特征进行更新;
主题生成模块,用于根据不同标签之间人群分布特征的相似度,从所述多个标签中选取标签并基于所选取标签生成主题。
其中一种可能的实现方式中,所述确定模块,具体用于确定所述多个标签分别对应的人群数据;根据对所述多个标签所对应人群数据的分布统计,确定所述多个标签分别对应的人群分布特征;或者,根据所述多个标签对应的人群数据之间的行为共现关系或者社交关系,建立人与人之间的关系图;将所述人与人之间的关系图输入到图网络模型中,基于图网络模型学习每个人的单人特征;通过对每个标签所对应人群的单人特征的各个维度对应相加、取平均值或者取最大值,得到所述多个标签对应的人群分布特征。
其中一种可能的实现方式中,所述监督信息为门店约束信息;
所述特征更新模块,具体用于基于门店约束信息判断所述多个标签中的任意N个标签是否出现在同一门店中;其中,所述N大于或者等于2;通过深度神经网络对出现在同一门店的N个标签的人群分布特征进行更新,以提高出现在同一门店的N个标签之间人群分布特征的相似度。
其中一种可能的实现方式中,所述特征更新模块,还用于通过深度神经网络对没有出现在同一门店的N个标签的人群分布特征进行更新,以降低没有出现在同一门店的N个标签之间人群分布特征的相似度。
其中一种可能的实现方式中,所述标签对应的人群分布特征中包含多个特征要素;
所述特征更新模块,具体用于对N个标签的人群分布特征的各特征要素的权重进行更新。
其中一种可能的实现方式中,所述主题生成模块,具体用于对所述标签集合中的各个标签进行组合,得到多个标签组合;其中每个标签组合中至少包含两个标签;根据标签组合中所包含标签之间的人群分布特征的相似度,将相似度高于设定阈值的标签组合确定为生成的主题。
其中一种可能的实现方式中,所述主题生成模块,具体用于根据所选取标签以及所选取标签对应的人群分布特征生成主题。
第三方面,本说明书实施例提供一种电子设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面提供的方法。
第四方面,本说明书实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面提供的方法。
应当理解的是,本说明书的第二~第四方面与本说明书的第一方面的技术方案一致,各方面及对应的可行实施方式所取得的有益效果相似,不再赘述。
附图说明
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书主题生成方法一个实施例的流程图;
图2为本说明书主题生成方法另一个实施例的流程图;
图3为本说明书主题生成方法的一个计算模型示意图;
图4为本说明书主题生成装置一个实施例的结构示意图;
图5为本说明书电子设备一个实施例的结构示意图。
具体实施方式
为了更好的理解本说明书的技术方案,下面结合附图对本说明书实施例进行详细描述。
应当明确,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本说明书保护的范围。
在本说明书实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
在产品、服务的推荐场景中,为了吸引潜在用户的注意力,可以为待推广的产品或者服务设置主题。主题通常由多个标签组成。其中,标签是用于描述产品、服务的词汇。具体的,从产品、服务本身的角度,标签可以包含品牌词、产品词、属性词等;从潜在用户角度,标签可以包含人口属性、消费属性、偏好属性等;从时间和空间角度,标签可以包含某个时间段、某个地点等。主题就是由用于描述产品、服务的标签组合而成。
其中,标签能够组合在一起作为主题的本质原因是组合中每个标签背后对应的人群是高度重合的。比如“国贸”和“咖啡”两个标签,其背后对应的人群基本上是收入较高、追求较高生活品质的白领一族。基于此,本说明书方法在生成产品、服务的主题时,首先确定可供选择的标签,之后根据标签代表的人群确定每个标签的人群分布特征,进一步可以根据不同标签之间人群分布特征的相似度选择标签生成主题。利用本说明书实施例方法能够确保所生成主题符合人群分布逻辑,而且从人群语义角度选择标签生成主题,使得主题的可解释性相对更强。
图1为本说明书主题生成方法一个实施例的流程图。图1所示方法的执行主体可以为推荐系统中的处理设备。如图1所示,该方法的处理步骤包括:
步骤S101:确定标签集合,所述标签集合中包含多个标签。
本实施例中,在生成产品、服务的主题时,首先确定可供选择的标签。即确定标签集合,标签集合中所包含的多个标签即为可供选择的标签。
其中,确定标签集合的方式可以是:根据待推广产品、服务的特征,确定可供选择的标签。例如,“支持自动美颜的相机”。和/或,根据潜在用户的属性确定可供选择的标签。例如,“年轻人喜欢的”。当然,确定标签集合的方式可以有多种,本说明书实施例对此不作限定。
步骤S102:确定所述多个标签分别对应的人群分布特征。
本实施例中,确定标签集合中各个标签的人群分布特征可以包括:首先确定各个标签分别对应的人群数据;之后可以根据对各个标签所对应人群数据的分布统计,确定各个标签分别对应的人群分布特征。
其中,确定各个标签分别对应的人群数据可以是将推荐系统中的用户流量数据作为人群数据,根据人群数据确定各个标签分别对应的人群数据。
根据标签所对应人群数据的分布统计,确定该标签的人群分布特征可以是:确定多个特征要素,其中,所述特征要素例如可以是性别、年龄、收入水平、职业等;基于人群数据从所述多个特征要素角度统计该标签的人群分布特征。对于某一标签,基于其所对应的人群数据,其人群分布特征的一个示例可以是:性别:30%男,70%女;年龄:25%为25-30岁,60%为31-40岁,15%为41-50岁等。基于上述统计方法可以确定各个标签的人群分布特征。
本实施例中,除了可以采用分布统计方式获得各个标签对应的人群分布特征之外,还可以采用图网络模型获取各个标签对应的人群分布特征。具体的,根据所述多个标签对应的人群数据之间的行为共现关系或者社交关系,建立人与人之间的关系图;将所述人与人之间的关系图输入到图网络模型中,基于图网络模型学习每个人的单人特征;通过对每个标签所对应人群的单人特征的各个维度对应相加、取平均值或者取最大值,得到所述多个标签对应的人群分布特征。其中,在采用图网络模型获取各个标签对应的人群分布特征的方式中,图网络模型可以根据输入的人与人之间的关系图获取每个人的单人特征,其中每个单人特征可以用嵌入(Embedding)特征表示。之后对于每个标签,可以通过对该标签所对应人群的单人特征的各个维度对应相加求和、取平均值或者取最大值等方式得到该标签的人群分布特征。或者,还可以通过多层感知器(Multilayer Perceptron ,MLP)计算模型或者连锁(concatenate)计算模型等得到每个标签的人群特征分布。
步骤S103:将所述多个标签分别对应的人群分布特征输入到深度网络模型中,以基于所述深度网络模型中的监督信息对所述多个标签对应的人群分布特征进行更新。
其中,所述监督信息可以为限定标签能够组合的约束信息。在一个具体示例中,所述监督信息可以为门店约束信息,基于门店约束信息可以筛选允许出现在同一门店的标签组合。具体的,当将多个标签对应的人群分布特征输入到深度网络模型中,基于深度网络模型中的监督信息对多个标签的人群分布特征进行更新可以是:基于门店约束信息判断该多个标签中的任意N个标签是否出现在同一门店中,其中,N大于或者等于2;通过深度神经网络对出现在同一门店的N个标签的人群分布特征进行更新,以提高出现在同一门店的N个标签之间人群分布特征的相似度。进一步,该实施例中还可以通过深度神经网络对没有出现在同一门店的N个标签的人群分布特征进行更新,以降低没有出现在同一门店的N个标签之间人群分布特征的相似度。通过本发明实施例方法对标签对应的人群分布特征更新之后,能够使满足监督信息约束的标签之间相似度提高,不满足监督信息约束的标签之间相似度降低,从而更有利于确定用于生成主题的标签。
步骤S104:根据不同标签之间人群分布特征的相似度,从所述多个标签中选取标签并基于所选取标签生成主题。
本实施例中,在对各个标签所对应的人群分布特征更新之后,可以利用更新后的人群分布特征计算不同标签之间人群分布特征的相似度,由此基于不同标签之间人群分布特征的相似度选取标签生成主题。
其中,计算不同标签之间人群分布特征的相似度可以是:对标签集合中的各个标签进行组合,其中,每个标签组合中至少包含两个标签。计算每个标签组合包含的标签之间人群分布特征的相似度。获取每个组合中标签之间分布特征的相似度之后,可以将相似度高于设定阈值的标签组合确定为生成的主题。在一个具体示例中,标签“CBD”与标签“咖啡”作为一个组合,标签“CBD”对应的人群分布特征为A,标签“咖啡”对应的人群分布特征为B,如果人群分布特征A和人群分布特征B之间的相似度大于设定阈值,则标签“CBD”和标签“咖啡”可以组合为需要生成的主题。
本说明书实施例中,将标签集合中的各个标签进行组合的方式可以是对标签集合中的各个标签进行随机组合并穷尽所有可能的方式,以此获取尽量多的标签组合。
本说明书实施例中,每个标签对应的人群分布特征中均包含多个特征要素。步骤S103中基于深度网络模型对各个标签的人群分布特征进行更新具体可以是:对标签的人群分布特征的各特征要素的权重进行更新。其中,对于出现在同一门店的N个标签,可以通过调整N个标签的各特征要素的权重提高该N个标签之间的相似度。在一个示例中,标签A和标签B是出现在同一个门店的标签,标签A包含特征要素a1,b1,c1,d1;标签B包含特征要素a1,b1,c1,d1,标签A和标签B的特征要素a1,b1,c1,d1的权重不同。例如,a1可以为性别要素,标签A的性别要素的数据特征分布为30%男,70%女;标签B的性别要素的数据特征分布为40%男,60%女,则可以将标签A和/或标签B的性别特征要素的男女比例调整为更相似的值,如将标签A的性别要素调整为35%男,65%女,则会提高标签A和标签B之间人群分布特征的相似度。对于特征要素b1,c1,d1的调整方式可以参见a1的调整方式,不再赘述。对于没有出现在同一门店的N个标签,可以通过深度神经网络调整N个标签的各特征要素的权重以达到降低该N个标签之间相似度的目的。
本实施例方案中,通过人群分布特征表示各个标签,并根据人群分布特征之间的相似度选取用于生成主题的标签,从而使得所生成主题符合人群分布逻辑。而且本方案从人群语义角度选择标签生成主题,使得所生成主题的可解释性更对更强。
图2为本说明书主题生成方法另一个实施例的流程图。如图2所示,该方法的处理步骤包括:
步骤S201:确定人群数据,其中所述人群数据可以是与待推广的产品、服务具有相连的人群数据。例如,所述人群数据可以是购买过类似产品,消费水平、收入水平在一定范围,具有一定偏好属性的人群数据;如果待推广的是某个门店服务,所述人群数据还可以是与门店所处于的商圈和服务定位有一定关联的人群。
步骤S202,确定标签集合,在所述标签集合中包括多个标签。例如,对于一个餐饮类产品的推广,其可选的标签可以包括位置标签、门店类目标签、产品标签、功能标签等。在一个示例中,如图3所示,对于餐饮类产品的标签集合例如可以是: CBD、咖啡、情侣约会、批发市场、快餐、火锅等。
步骤S203:基于人群数据确定标签集合中各个标签的人群分布特征。对于不同的标签,其对应的人群可能是相同人群,对于对应相同或者相似人群的标签,其人群分布特征之间的相似度也更高。
步骤S204:将标签和标签对应的人群分布特征输入到深度网络计算模型中,利用深度网络模型中的门店约束信息对所述多个标签对应的人群分布特征进行更新。
步骤S205:利用更新后的人群分布特征计算标签之间人群分布特征的相似度。具体的,可以计算多个标签两两之间人群分布特征的相似度。
步骤S206:将人群分布特征的相似度高于设定阈值的标签组合确定为生成的主题。
本实施例中,如图3所示,可以将标签所对应的人群分布特征表示为嵌入(Embedding)格式,之后将嵌入格式的人群分布特征输入到深度网络计算模型中。
在所述网络计算模型中输入标签和标签对应的人群分布特征之后,如图3所示,深度网络计算模型基于门店约束因素从输入的各个标签中确定出现在同一门店的标签。例如,“批发市场”标签和“CBD”标签在实际中很难在同一门店出现,因此可以排除此类组合。又例如“CBD”标签和“咖啡”标签能够出现在同一门店中,则可以将“CBD”标签和“咖啡”标签作为一个标签组合。进一步,通过门店约束因素确定出的标签组合的数量可以为多个。例如“CBD”标签和“咖啡”标签组合,“咖啡”标签和“情侣约会”标签组合等。
基于门店约束因素确定标签组合之后,深度网络计算模型可以进一步调整标签集合中各标签对应的人群分布特征。对于出现在同一门店的标签组合中的标签,可以通过更新各标签所对应人群分布特征的特征要素的权重,提高同一标签组合中各标签人群分布特征的相似度。对于没有出现在同一门店的标签组合中的标签,可以通过更新标签所对应人群分布特征的特征要素的权重,降低没有出现在同一门店的的标签之间的相似度。
深度网络计算模型更新标签集合中各标签的人群分布特征之后,深度网络计算模型可以输出更新后的各标签人群分布特征。另外,在可能的设计中,还可以设置深度网络计算模型具有生成主题的计算功能,即深度网络计算模型在更新各标签的人群分布特征特征之后,深度网络计算模型进一步计算各个标签之间的相似度,其中可以将相似度高于预定阈值的标签组合输出,以为最终确定主题提供依据;或者,可以将相似度高于阈值的标签组合直接确定为主题进行输出。
本实施例中,基于所选取的标签生成主题时,可以将所选取的标签以及所选取标签对应的人群分布特征生成主题。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
图4为本说明书主题生成装置一个实施例的结构示意图。如图4所示,上述主题生成装置可以包括:
确定模块41,用于确定标签集合,所述标签集合中包含多个标签;以及确定所述多个标签分别对应的人群分布特征;
特征更新模块42,用于将所述多个标签分别对应的人群分布特征输入到深度网络模型中,以基于所述深度网络模型中的监督信息对所述多个标签对应的人群分布特征进行更新;
主题生成模块43,用于根据不同标签之间人群分布特征的相似度,从所述多个标签中选取标签并基于所选取标签生成主题。
图4所示实施例提供的主题生成装置可用于执行本说明书图1所示方法实施例的技术方案,其实现原理和技术效果可以进一步参考方法实施例中的相关描述。
在图4所示的实施例中,所述确定模块41,具体用于确定所述多个标签分别对应的人群数据;根据对所述多个标签所对应人群数据的分布统计,确定所述多个标签分别对应的人群分布特征;或者,根据所述多个标签对应的人群数据之间的行为共现关系或者社交关系,建立人与人之间的关系图;将所述人与人之间的关系图输入到图网络模型中,基于图网络模型学习每个人的单人特征;分别对所述多个标签所对应人群的单人特征进行拼接,得到所述多个标签对应的人群分布特征。
本实施例中,所述监督信息为门店约束信息;特征更新模块42,具体用于基于门店约束信息判断所述多个标签中的任意N个标签是否出现在同一门店中;其中,所述N大于或者等于2;通过深度神经网络对出现在同一门店的N个标签的人群分布特征进行更新,以提高出现在同一门店的N个标签之间人群分布特征的相似度。
本实施例中,特征更新模块42,还用于通过深度神经网络对没有出现在同一门店的N个标签的人群分布特征进行更新,以降低没有出现在同一门店的N个标签之间人群分布特征的相似度。
本实施例中,所述标签对应的人群分布特征中包含多个特征要素;特征更新模块42,具体用于对N个标签的人群分布特征的各特征要素的权重进行更新。
本实施例中,主题生成模块43,具体用于对所述标签集合中的各个标签进行组合,得到多个标签组合;其中每个标签组合中至少包含两个标签;根据标签组合中所包含标签之间的人群分布特征的相似度,将相似度高于设定阈值的标签组合确定为生成的主题。
本实施例中,主题生成模块43,具体用于根据所选取标签以及所选取标签对应的人群分布特征生成主题。
图4所示实施例提供的主题生成装置可用于执行本申请图1~图3所示方法实施例的技术方案,其实现原理和技术效果可以进一步参考方法实施例中的相关描述。
图5为本说明书电子设备一个实施例的结构示意图,如图5所示,上述电子设备可以包括至少一个处理器;以及与上述处理器通信连接的至少一个存储器,其中:存储器存储有可被处理器执行的程序指令,上述处理器调用上述程序指令能够执行本说明书图1~图3所示实施例提供的主题生成方法。
其中,上述电子设备可以为推荐系统中用于执行本说明书实施例主题生成方法的处理设备,其可以为推荐系统的本地设备也可以为云端设备。本说明书实施例对上述电子设备的具体形式不作限定。
图5示出了适于用来实现本说明书实施方式的示例性电子设备的框图。图5显示的电子设备仅仅是一个示例,不应对本说明书实施例的功能和使用范围带来任何限制。
如图5所示,电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于:一个或者多个处理器510,通信接口520,存储器530,以及连接不同系统组件(包括存储器530和处理器510)的通信总线540。
通信总线540表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
电子设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器530可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)和/或高速缓存存储器。电子设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。存储器530可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本说明书各实施例的功能。
具有一组(至少一个)程序模块的程序/实用工具,可以存储在存储器530中,这样的程序模块包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块通常执行本说明书所描述的实施例中的功能和/或方法。
处理器510通过运行存储在存储器530中的程序,从而执行各种功能应用以及数据处理,例如实现本说明书图1~图3所示实施例提供的主题生成方法。
本说明书实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行本说明书图1~图3所示实施例提供的主题生成方法。
上述非暂态计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory;以下简称:ROM)、可擦式可编程只读存储器(Erasable ProgrammableRead Only Memory;以下简称:EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本说明书的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本说明书的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本说明书的实施例所属技术领域的技术人员所理解。
需要说明的是,本说明书实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer;以下简称:PC)、个人数字助理(Personal Digital Assistant;以下简称:PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。
在本说明书所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本说明书各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本说明书各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (12)

1.一种主题生成方法,其特征在于,所述主题由多个标签组成,所述方法包括:
确定标签集合,所述标签集合中包含多个标签;
确定所述多个标签分别对应的人群分布特征;
将所述多个标签分别对应的人群分布特征输入到深度网络模型中,以基于所述深度网络模型中的监督信息对所述多个标签对应的人群分布特征进行更新;
对所述标签集合中的各个标签进行组合,得到多个标签组合;其中每个标签组合中至少包含两个标签;
根据标签组合中所包含标签之间的人群分布特征的相似度,将相似度高于设定阈值的标签组合确定为生成的主题。
2.根据权利要求1所述的方法,其特征在于,确定所述多个标签分别对应的人群分布特征,包括:
确定所述多个标签分别对应的人群数据;
根据对所述多个标签所对应人群数据的分布统计,确定所述多个标签分别对应的人群分布特征;或者,
根据所述多个标签对应的人群数据之间的行为共现关系或者社交关系,建立人与人之间的关系图;将所述人与人之间的关系图输入到图网络模型中,基于图网络模型学习每个人的单人特征;通过对每个标签所对应人群的单人特征的各个维度对应相加、取平均值或者取最大值,得到所述多个标签对应的人群分布特征。
3.根据权利要求1所述的方法,其特征在于,所述监督信息为门店约束信息;基于所述深度网络模型中的监督信息对所述多个标签对应的人群分布特征进行更新,包括:
基于门店约束信息判断所述多个标签中的任意N个标签是否出现在同一门店中;其中,所述N大于或者等于2;
对出现在同一门店的N个标签的人群分布特征进行更新,以提高出现在同一门店的N个标签之间人群分布特征的相似度。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对没有出现在同一门店的N个标签的人群分布特征进行更新,以降低没有出现在同一门店的N个标签之间人群分布特征的相似度。
5.根据权利要求3或4所述的方法,其特征在于,所述标签对应的人群分布特征中包含多个特征要素;对N个标签的人群分布特征进行更新,包括:
对N个标签的人群分布特征的各特征要素的权重进行更新。
6.一种主题生成装置,其特征在于,所述主题由多个标签组成,所述装置包括:
确定模块,用于确定标签集合,所述标签集合中包含多个标签;以及确定所述多个标签分别对应的人群分布特征;
特征更新模块,用于将所述多个标签分别对应的人群分布特征输入到深度网络模型中,以基于所述深度网络模型中的监督信息对所述多个标签对应的人群分布特征进行更新;
主题生成模块,用于对所述标签集合中的各个标签进行组合,得到多个标签组合;其中每个标签组合中至少包含两个标签;
根据标签组合中所包含标签之间的人群分布特征的相似度,将相似度高于设定阈值的标签组合确定为生成的主题。
7.根据权利要求6所述的装置,其特征在于,
所述确定模块,具体用于确定所述多个标签分别对应的人群数据;根据对所述多个标签所对应人群数据的分布统计,确定所述多个标签分别对应的人群分布特征;或者,根据所述多个标签对应的人群数据之间的行为共现关系或者社交关系,建立人与人之间的关系图;将所述人与人之间的关系图输入到图网络模型中,基于图网络模型学习每个人的单人特征;通过对每个标签所对应人群的单人特征的各个维度对应相加、取平均值或者取最大值,得到所述多个标签对应的人群分布特征。
8.根据权利要求6所述的装置,其特征在于,所述监督信息为门店约束信息;
所述特征更新模块,具体用于基于门店约束信息判断所述多个标签中的任意N个标签是否出现在同一门店中;其中,所述N大于或者等于2;对出现在同一门店的N个标签的人群分布特征进行更新,以提高出现在同一门店的N个标签之间人群分布特征的相似度。
9.根据权利要求8所述的装置,其特征在于,
所述特征更新模块,还用于对没有出现在同一门店的N个标签的人群分布特征进行更新,以降低没有出现在同一门店的N个标签之间人群分布特征的相似度。
10.根据权利要求8或9所述的装置,其特征在于,所述标签对应的人群分布特征中包含多个特征要素;
所述特征更新模块,具体用于对N个标签的人群分布特征的各特征要素的权重进行更新。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至5任一所述的方法。
12.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至5任一所述的方法。
CN202010661067.5A 2020-07-10 2020-07-10 主题生成方法、装置和电子设备 Active CN111553145B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010661067.5A CN111553145B (zh) 2020-07-10 2020-07-10 主题生成方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010661067.5A CN111553145B (zh) 2020-07-10 2020-07-10 主题生成方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN111553145A CN111553145A (zh) 2020-08-18
CN111553145B true CN111553145B (zh) 2020-10-16

Family

ID=72005413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010661067.5A Active CN111553145B (zh) 2020-07-10 2020-07-10 主题生成方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN111553145B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662960A (zh) * 2012-03-08 2012-09-12 浙江大学 在线监督式主题建模及其演变分析的方法
EP3144860A2 (en) * 2015-09-17 2017-03-22 Panasonic Intellectual Property Management Co., Ltd. Subject estimation system for estimating subject of dialog
CN108280180A (zh) * 2018-01-23 2018-07-13 北京航空航天大学 一种基于主题模型的半监督哈希算法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577549B (zh) * 2013-10-16 2017-02-15 复旦大学 一种基于微博标签的人群画像系统和方法
CN111507087B (zh) * 2018-05-31 2022-08-26 腾讯科技(深圳)有限公司 消息摘要的生成方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662960A (zh) * 2012-03-08 2012-09-12 浙江大学 在线监督式主题建模及其演变分析的方法
EP3144860A2 (en) * 2015-09-17 2017-03-22 Panasonic Intellectual Property Management Co., Ltd. Subject estimation system for estimating subject of dialog
CN108280180A (zh) * 2018-01-23 2018-07-13 北京航空航天大学 一种基于主题模型的半监督哈希算法

Also Published As

Publication number Publication date
CN111553145A (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
US11804216B2 (en) Generating training datasets for a supervised learning topic model from outputs of a discovery topic model
CN107507036A (zh) 一种数据预测的方法及终端
US20150150033A1 (en) System and method for building and tracking audience segments
CN107948437B (zh) 熄屏显示方法和装置
US20170063775A1 (en) Automated message introspection and optimization using cognitive services
CN112241327A (zh) 分享信息处理方法、装置、存储介质与电子设备
CN104933204A (zh) 智能网络应答的方法和装置
CN113434755A (zh) 页面的生成方法、装置、电子设备及存储介质
CN108681871B (zh) 一种提示信息的方法、终端设备及计算机可读存储介质
CN111651700A (zh) 消息展示方法、装置、电子设备及存储介质
CN113779186A (zh) 一种文本生成方法和装置
CN112767045B (zh) 流失用户的挽回方法、装置和电子设备
CN111553145B (zh) 主题生成方法、装置和电子设备
CN114119123A (zh) 信息推送的方法和装置
US11916853B2 (en) Group type identification method and apparatus, computer device, and medium
CN113934612A (zh) 用户画像更新方法、装置、存储介质及电子设备
US20190114673A1 (en) Digital experience targeting using bayesian approach
KR20160107605A (ko) 가계부 서비스 제공 장치 및 방법
CN115187364A (zh) 银行分布式场景下保证金风险监控的方法及装置
CN112446738A (zh) 广告数据处理方法、装置、介质以及电子设备
US10607612B2 (en) Hierarchical intimacy for cognitive assistants
CN116911304B (zh) 一种文本推荐方法及装置
KR102424242B1 (ko) 기계 학습을 통한 메뉴의 가치 판단 방법
CN114049225B (zh) 一种智能推荐保险产品的方法、系统和电子设备
CN110992067B (zh) 消息推送方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant