CN113449754A - 标签的匹配模型训练和展示方法、装置、设备及介质 - Google Patents

标签的匹配模型训练和展示方法、装置、设备及介质 Download PDF

Info

Publication number
CN113449754A
CN113449754A CN202010224589.9A CN202010224589A CN113449754A CN 113449754 A CN113449754 A CN 113449754A CN 202010224589 A CN202010224589 A CN 202010224589A CN 113449754 A CN113449754 A CN 113449754A
Authority
CN
China
Prior art keywords
label
user
tag
display
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010224589.9A
Other languages
English (en)
Other versions
CN113449754B (zh
Inventor
张义元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN202010224589.9A priority Critical patent/CN113449754B/zh
Publication of CN113449754A publication Critical patent/CN113449754A/zh
Application granted granted Critical
Publication of CN113449754B publication Critical patent/CN113449754B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了一种标签的匹配模型训练和展示方法、装置、设备及介质,涉及计算机领域,具体涉及电子地图的大数据处理领域。具体实现方案为:获取标签特征;获取用户特征和所述标签特征之间的匹配度,将所述用户特征、标签特征和所述匹配度作为样本对集;将所述样本对集输入至标签匹配模型进行训练,其中,所述标签匹配模型用于确定用户特征和标签特征之间的匹配程度。本申请实施例的技术方案,解决了现有技术中POI展示标签时,往往冗余标签较多,无法体现个性化的展示需求,实现了优化标签与展示需求的匹配度,体现个性化展示需求的效果。

Description

标签的匹配模型训练和展示方法、装置、设备及介质
技术领域
本申请实施例涉及计算机技术领域,具体涉及电子地图的大数据处理技术。
背景技术
兴趣点(Point of Interest,简称POI)是地图的重要组成元素之一,在地理信息系统中,一个POI可以是一栋房子、一个商铺、一个景点、一座学校等。在经典电子地图中,POI信息的表达要素主要包括图标(Icon)、名称注记、以及标签,而比较常用的表达形式是以图标+名字注记的方式来展示POI。
POI的标签,展示的是当前POI的一些实时性信息或者特色信息,通过“打标签”这种“信息前置”的方式,显示POI在当前时间段内或者当前位置附近有关键信息,是底图中除了名字注记外对POI的另一种重要描述。
现有技术中在为POI展示标签时,往往冗余标签较多,无法体现个性化的展示需求。
发明内容
本申请实施例提供了一种标签的匹配模型训练和展示方法、装置、设备及介质,可以优化标签与展示需求的匹配度,体现个性化的展示需求。
第一方面,本申请实施例公开了一种标签匹配模型的训练方法,该方法包括:
获取标签特征;
获取用户特征和所述标签特征之间的匹配度,将所述用户特征、标签特征和所述匹配度作为样本对集;
将所述样本对集输入至标签匹配模型进行训练,其中,所述标签匹配模型用于确定用户特征和标签特征之间的匹配程度。
上述申请中的一个实施例具有如下优点或有益效果:通过将获取到的用户特征、标签特征以及标签特征与用户特征之间的匹配度作为样本对训练标签匹配模型,以基于标签匹配模型可以确定与用户特征相匹配的标签,优化了标签与展示需求之间的匹配度,也满足了用户个性化展示需求的技术效果。
另外,根据本申请上述实施例的一种标签匹配模型的训练方法,还可以具有如下附加的技术特征:
可选的,获取用户特征和所述标签特征之间的匹配度包括:
获取所述标签特征的关键度;
获取所述标签特征与用户特征之间的关联度;
根据所述关键度和关联度确定所述标签特征与所述用户特征之间的匹配度。
上述申请中的一个实施例具有如下优点或有益效果:通过获取标签特征的关键度,以及标签特征和用户特征之间的关联度,来确定标签特征和用户特征之间的匹配度,以实现得到训练标签匹配模型的样本对集,从而达到训练标签匹配模型的效果。
可选的,获取所述标签特征的关键度包括:
获取所述标签特征所属标签,在多个展示群体中的展示频次;
针对每个展示群体,确定所述标签在该展示群体的展示频次,以及相对于其他展示群体的展示逆频数;
针对每个展示群体,计算所述标签的展示频次和展示逆频数之积,作为所述标签在每个展示群体中的关键度;
将所述标签在每个展示群体中的关键度进行加权求和,作为所述标签的标签特征的关键度;
其中,展示群体为设定行政区划单位的地理范围。
上述申请中的一个实施例具有如下优点或有益效果:通过计算与各个标签特征对应的关键度,可以准确的计算样本对中用户特征与标签特征之间的匹配度,从而实现获取训练标签匹配模型的样本对集的效果。
可选的,获取所述标签特征与用户特征之间的关联度包括:
获取各兴趣点的用户浏览量;
根据兴趣点与标签的对应关系,以及各兴趣点的用户浏览量,确定标签的用户浏览量;
针对每个标签的用户浏览量,对各个用户浏览记录中的用户特征进行聚类,并确定每类用户特征的用户浏览量;
将标签的每类用户特征的用户浏览量作为所述标签的标签特征与用户特征之间的关联度。
上述申请中的一个实施例具有如下优点或有益效果:通过确定各个标签特征与用户特征之间的匹配度,可以准确的计算样本对中的匹配度,从而实现获取训练标签匹配模型的样本对集的效果。
可选的,确定每类用户特征的用户浏览量之后,还包括:
对标签的标签特征进行聚类处理。
上述申请中的一个实施例具有如下优点或有益效果:通过对标签特征进行聚类处理,既可以提高数据的处理效果,也可以提高样本对的数量,进而根据样本对集实现对标签匹配模型进行训练的效果。
可选的,根据所述关键度和关联度确定所述标签特征与所述用户特征之间的匹配度包括:
将所述关键度和所述关联度相乘,将乘积结果作为所述标签特征与所述用户特征之间的匹配度。
上述申请中的一个实施例具有如下优点或有益效果:通过匹配度的具体计算方式,可以得到样本对中的匹配度,从而实现对标签匹配模型进行训练的技术效果。
可选的,根据所述关键度和关联度确定所述标签特征与所述用户特征之间的匹配度之后,还包括:
对所述匹配度进行数据平滑处理;
对平滑处理后的匹配度,在设定取值区间内进行归一化处理。
上述申请中的一个实施例具有如下优点或有益效果:在得到匹配度后,可以对所有匹配度进行平滑处理,使其符合高斯分布,可以提高标签匹配模型的训练结果。
可选的,将所述样本对集输入至标签匹配模型进行训练包括:
将所述样本集中的用户特征输入所述标签匹配模型中的用户向量子模型,以生成用户特征向量;
将所述样本集中的标签特征输入所述标签匹配模型中的标签向量子模型,以生成标签特征向量;
计算所述用户特征向量和标签特征向量之间的距离值;
采用损失函数,计算所述距离值与所述样本对集中的匹配度之间的损失关系;
根据所述损失关系调整所述标签匹配模型中的模型参数,以进行模型优化,直至所述损失关系满足模型收敛要求。
上述申请中的一个实施例具有如下优点或有益效果:基于标签匹配模型中的用户向量子模型和标签向量子模型,对样本对集中的用户特征和标签特征进行处理,可以得到用户特征向量和标签特征向量之间的距离值,基于标签匹配模型中预设的损失函数,可以对距离值以匹配度进行处理,以调整标签匹配模型中的模型参数,得到标签匹配模型。
可选的,所述用户特征包括多个特征向量,将所述样本集中的用户特征输入所述标签匹配模型中的用户向量子模型,以生成用户特征向量,包括:
将用户特征的多个特征向量通过所述用户向量子模型的全连接层进行处理,并进行全连接相加,生成所述用户特征向量。
上述申请中的一个实施例具有如下优点或有益效果:通过对用户特征的多个向量进行处理,可以得到与用户相对应的用户特征向量,以便基于用户特征向量确定与用户相对应的各个标签的距离值,进而根据距离值调整标签匹配模型中的模型参数,以得到标签匹配模型。
可选的,所述标签特征包括标签标识、标签类别和标签名称,将所述样本集中的标签特征输入所述标签匹配模型中的标签向量子模型,以生成标签特征向量包括:
将所述标签名称通过所述标签匹配模型的卷积池化处理,得到标签名称特征;
将所述标签标识、标签类别和所述标签名称特征进行全连接相加,生成所述标签特征向量。
上述申请中的一个实施例具有如下优点或有益效果:通过对标签特征进行处理,可以得到与标签特征对应的标签特征向量,以便基于标签特征向量确定与用户特征的距离值,进而根据距离值调整标签匹配模型中的模型参数,以得到标签匹配模型。
可选的,所述标签特征的类别包括至少两级;
所述用户特征包括下述至少一种:年龄段、性别、是否有车、以及家庭成员组成。
第二方面,本申请实施例还公开了一种标签的展示方法,该方法包括:获取在客户端的展示界面中进行标签展示的标签展示请求;
根据所述标签展示请求确定所述展示界面中的至少一个兴趣点以及每个兴趣点的至少一个标签,作为候选标签;
根据所述标签展示请求确定所述客户端所属用户的用户特征;
根据所述候选标签的标签特征和所述用户特征确定匹配度,其中,所述匹配度采用如实施例任一所述的标签匹配模型的训练方法所训练确定的标签匹配模型预测而定;
根据确定的匹配度从所述候选标签中筛选确定目标标签;
将所述目标标签响应所述标签展示请求,在所述展示界面中进行展示。
上述申请中的一个实施例具有如下优点或有益效果:实现了展示的标签与用户特征相匹配,提高了用户的个性化展示需求,以及标签与用户之间的匹配度的技术效果。
第三方面,本申请实施例还提供了一种标签匹配模型的训练装置,该装置包括:
标签特征获取模块,用于获取标签特征;
样本对集确定模块,用于获取用户特征和所述标签特征之间的匹配度,将所述用户特征、标签特征和所述匹配度作为样本对集;
模型训练模块,用于将所述样本对集输入至标签匹配模型进行训练,其中,所述标签匹配模型用于确定用户特征和标签特征之间的匹配程度。
第四方面,本申请实施例还提供了一种标签的展示装置,该装置包括:
标签展示请求获取模块,用于获取在客户端的展示界面中进行标签展示的标签展示请求;
候选标签确定模块,用于根据所述标签展示请求确定所述展示界面中的至少一个兴趣点以及每个兴趣点的至少一个标签,作为候选标签;
用户特征确定模块,用于根据所述标签展示请求确定所述客户端所属用户的用户特征;
匹配度确定模块,用于根据所述候选标签的标签特征和所述用户特征确定匹配度,其中,所述匹配度采用权利要求14所述的标签匹配模型的训练装置所训练确定的标签匹配模型预测而定;
目标标签确定模块,用于根据确定的匹配度从所述候选标签中筛选确定目标标签;
目标标签展示模块,用于将所述目标标签响应所述标签展示请求,在所述展示界面中进行展示。
第五方面,本申请实施例还提供了一种电子设备,该电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如实施例任一实施例所述的标签匹配模型的训练方法和/或执行标签的展示方法。
第六方面,本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如实施例中任一实施例所述的标签匹配模型的训练方法和/或执行如实施例所述的标签的展示方法。
根据本申请实施例的技术方案,通过获取标签特征;获取用户特征和标签特征之间的匹配度,将用户特征、标签特征和匹配度作为样本对集;将样本对集输入至标签匹配模型进行训练,其中,标签匹配模型用于确定用户特征和标签特征之间的匹配程度,解决了现有技术中不同用户在相同的场景下展示界面展示的标签相同,不能为用户提供个性化的展示标签,实现了基于用户特征和标签特征来训练标签匹配模型,使基于标签匹配模型可以预测与每个用户特征相关联的标签,优化了标签与用户需求的匹配度,提高了用户体验的技术效果。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请实施例一公开的标签匹配模型的训练方法的流程示意图;
图2是本申请实施例二公开的标签匹配模型的训练方法的流程示意图;
图3是本申请实施例三公开的标签匹配模型的训练方法的流程示意图;
图4是本申请实施例公开的获取样本对集的示意图;
图5是本申请实施例公开的基于样本对集训练标签匹配模型的示意图;
图6是本申请实施例四公开的标签的展示方法的流程示意图;
图7是本申请实施例四公开的个性化标签的预测过程示意图;
图8是本申请实施例五公开的标签匹配模型的训练装置结构示意图;
图9是本申请实施例六公开的标签展示装置的结构示意图;
图10是实现本申请实施例七的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
实施例一
图1是本申请实施例一公开的标签匹配模型的训练方法的流程示意图,本实施例可适用于根据获取到的样本对集对标签匹配模型进行训练,以通过训练得到的标签匹配模型,确定与用户特征相匹配的标签的情形,本实施例方法可以由标签匹配模型的训练装置来执行,该装置可采用软件和/或硬件的方式实现,并可以部署在对数据存在处理功能的电子设备中。如图1所示,该方法包括如下:
S110、获取标签特征。
其中,每个POI可以设置有至少一个标签,每个标签均存在与其相对应的标签特征,可选的,标签特征包括标签标识、标签类别以及标签名称等。标签标识可以是标签的ID。标签类别可以包括至少两级,可选的,标签类别包括两级,分别是第一级为景区,第二级为游乐场、风景区、人文景区。标签名称例如可以是亲子游、网红打卡胜地等。以故宫这一POI为例,其可以具有两个标签,例如“人文景区”、“5A级景区”,这两个标签的类别可能均属于景区。
也就是说,在训练标签匹配模型时,需要先提取各个POI的标签数据,并获取与各个标签数据相对应的标签特征。
考虑到标签匹配模型的准确性,可以尽可能获取多维度描述标签的标签特征,以表明标签的特点,从而用来训练标签匹配模型。
S120、获取用户特征和标签特征之间的匹配度,将用户特征、标签特征和匹配度作为样本对集。
其中,每个用户均存在与其相对应的特征,可选的,性别、职业、所属的年龄段、出行喜好信息以及家庭特征信息,将与用户相对应的特征作为用户特征。由于每个用户的喜好存在一定的差异,相应的,与不同用户特征对应的标签特征也存在一定的差异,因此可以分别确定每个标签特征与用户特征之间的匹配度,即匹配指数,匹配指数越高,说明标签特征与用户特征契合度越高,反之越低。在确定用户特征和标签特征之间的匹配度后,可以将用户特征、标签特征和匹配度作为样本对。样本对为参与训练标签匹配模型的训练数据。
需要说明的是,为了提高标签匹配模型的准确率,可以尽可能多的获取样本对,将所有样本对的集合,作为样本对集,也就是说,样本对集中包括多个样本对。
具体的,在获取到用户特征和标签特征之间的匹配度后,可以将用户特征、标签特征和匹配度作为一组样本对,用于训练标签匹配模型。
S130、将样本对集输入至标签匹配模型进行训练。
其中,标签匹配模型为基于样本对集训练得到的,可以用于确定用户特征和标签特征之间的匹配程度。
具体的,样本对集中包括多个样本对,可以以其中一组样本对为例来介绍标签匹配模型的训练过程。该样本对可以是用户特征A+标签特征A+匹配度A,将用户特征A和标签特征A输入到标签匹配模型中,即将用户特征A和标签特征A作为标签匹配模型的输入参数,来训练标签匹配模型。标签匹配模型可以对用户特征A和标签特征A进行处理,输出用户特征A和标签特征A之间匹配度A’,根据匹配度A和匹配度A’之间的误差,调节标签匹配模型的模型参数,直至模型的训练目标收敛。通过上述方式,基于样本对集对标签匹配模型进行训练,以得到最终可以使用的标签匹配模型。
根据本申请实施例的技术方案,通过获取标签特征;获取用户特征和标签特征之间的匹配度,将用户特征、标签特征和匹配度作为样本对集;将样本对集输入至标签匹配模型进行训练,其中,标签匹配模型用于确定用户特征和标签特征之间的匹配程度,解决了现有技术中不同用户在相同的场景下展示界面展示的标签相同,不能为用户提供个性化的展示标签,实现了基于用户特征和标签特征来训练标签匹配模型,使基于标签匹配模型可以预测与每个用户特征相关联的标签,优化了标签与用户需求的匹配度,提高了用户体验的技术效果。
在上述技术方案的基础上,在训练得到标签匹配模型后,可以基于训练得到的标签匹配模型,分别预测不同用户特征和不同标签特征之间的匹配度,并将匹配度、用户特征和标签特征作为一个整体存储在离线数据库中。这样设置的好处在于,在实际应用的过程中,若要确定与目标用户对应的标签时,可以获取用户特征以及各个标签特征,基于离线数据库中存储的数据,确定标签特征与用户特征之间的匹配度,从而确定与目标用户对应的目标标签并在展示界面中进行展示,降低了在线预测的计算资源。
实施例二
为了清楚的介绍用户特征和标签特征之间匹配度的确定方式,可以将上述实施例中的步骤S120具体化为S220至S240。图2是本申请实施例二所提供的标签匹配模型的训练方法的流程示意图。如图2所示,所述方法包括:
S210、获取标签特征。
S220、获取标签特征的关键度。
其中,关键度可以理解为标签特征相对于其他标签的标签特征的重要程度和区别程度。需要说明的是,在不同的场景中,每个标签特征的重要程度和区别程度不完全相同,如,在游乐场附近,亲子游的重要程度可能高于旅游胜地,因此可以获取各个标签特征在不同地区,或者不同区域的关键度。
在本实施例中,获取标签特征的关键度,可以是:获取标签特征所属标签,在多个展示群体中的展示频次;针对每个展示群体,确定标签在该展示群体的展示频次,以及相对于其他展示群体的展示逆频数;针对每个展示群体,计算标签的展示频次和展示逆频数之积,作为标签在每个展示群体中的关键度;将标签在每个展示群体中的关键度进行加权求和,作为标签的标签特征的关键度。
可选的,展示群体为设定行政区划单位的地理范围,如,可以将每个城市为一个展示群体。在多个展示群体中的展示频次,可以统计每个标签在多个展示群体中的展示频次。某个标签的总展示频次,可以是该标签在所有展示群体中展示频次的累加。标签在每个展示群体中的权重值可以通过该展示群体的重要性级别来确定。例如,若以电子地图的使用频率来考虑,一级城市的权重要高于二级城市,则权重相对更高。
在确定标签特征的关键度时可以从一个展示群体的角度进行确定,也可以综合标签特征在多个展示群体中的展示情况进行确定。
具体的,为了获取各个标签的关键度,可以在获取标签特征后,确定各个标签特征所属标签,并确定各个标签在每个展示群体中的展示频次。针对每个展示群体,可以确定标签在该展示群体中的展示频次,以及标签在其他展示群体中的逆频数。针对一个展示群体,通过展示频次与展示逆频数的乘积,可以确定标签在每个展示群体中的关键度。在得到标签在每个展示群体中的关键度后,计算关键度在每个展示群体中的权重值,通过加权求和,可以得到每个标签特征的关键度。
也就是说,假设共有十个展示群体,以确定其中一个标签特征的关键度为例来介绍。在获取到该标签特征并确定该标签特征所属标签后,统计该标签分别在十个展示群体中的展示频次,对所有展示频次进行累加,得到该标签在所有展示群体中的总展示频次。针对每个展示群体,分别确定该标签在展示群体中的展示频次,以及相对于其他展示群体的逆频数,通过计算展示频次与逆频数的乘积,可以得到该标签在每个展示群体中的关键度。再将多个展示群体中的关键度按照展示群体的权重,进行加权求和,作为标签的标签特征的关键度。
S230、获取标签特征与用户特征之间的关联度。
其中,将标签特征与用户特征之间的相关性可作为关联度。
在本实施例中,确定标签特征与用户特征之间的关联度,具体可以是:获取各兴趣点的用户浏览量;根据兴趣点与标签的对应关系,以及各兴趣点的用户浏览量,确定标签的用户浏览量;针对每个标签的用户浏览量,对各个用户浏览记录中的用户特征进行聚类,并确定每类用户特征的用户浏览量;将标签的每类用户特征的用户浏览量作为标签的标签特征与用户特征之间的关联度。
用户浏览量可以是统计预设时间内几千万用户浏览各兴趣点的浏览量。每个兴趣点包括至少一个标签,因此可以根据兴趣点,确定与兴趣点关联的各个标签。根据兴趣点的用户浏览量,从而确定每个标签的用户浏览量。根据每个标签的用户浏览量,可以对用户浏览记录中的用户特征进行聚类,以得到与每类用户特征对应的用户浏览量。相应的,根据每类用户特征的用户浏览量,可以对标签的标签特征进行聚类处理。将标签的每类用户特征的用户浏览量,作为标签的标签特征与用户特征之间的关联度。用户特征可能包括数十或数百的维度,来作为该用户的用户画像。但是对于该用户在地图POI浏览需求方面,大多数特征元素对此没有影响,不必全部进行区分,可针对POI浏览需求影响较大的几个特征元素进行聚类来区分用户特征。例如,用户特征可聚类后确定为[中年、有车、有孩子、有工作],对标签特征为“亲子游”的用户浏览量为100万,那么可以将100万,作为标签“亲子游”,与用户特征为[中年、有车、有孩子、有工作]的关联度。
在本实施例中,根据用户浏览量和各标签数据,可以反向推导得到用户对标签的浏览量,并可以将此浏览量作为标签特征与用户特征之间的关联度。
S240、根据关键度和关联度确定标签特征与用户特征之间的匹配度,将用户特征、标签特征和匹配度作为样本对集。
可选的,将关键度和关联度相乘,将乘积结果作为标签特征和用户特征之间的匹配度。
在得到用户特征与标签特征之间的匹配度后,可以对匹配度进行平滑处理,对平滑处理后的匹配度,在设定取值区间内进行归一化处理。
其中,平滑处理,可以是对得到的匹配度取对数,在不改变数据相对关系的情况下,对偏差比较大的数据平滑转化,使其更符合高斯分布,采用此方式可能会优化模型的训练结果。设定取值区间可以是[-1,1]。
具体的,通过计算关键度与关联度之间的乘积,可以得到用户特征和标签特征之间的匹配度。为了提高对模型的训练结果,可以对得到的匹配度平滑处理,可选的,取对数运算。在取对数运算完成后,可以将得到的数据归一化到[-1,1]之间。可以将用户特征、标签特征和归一化处理后的匹配度作为训练标签匹配模型的样本对。
采用此种方式确定各个用户特征与各个标签特征之间的匹配度,从而将确定的用户特征、标签特征和匹配度作为样本对集。
需要说明的是,基于步骤S220至S240确定的样本对集的方式,既从样本上获取了数据量的优势,又保留了原有标签的特色和特定维度标签的独立性。
S250、将样本对集输入至标签匹配模型进行训练。
上述步骤S210和步骤S250可以分别按照上述实施例中的步骤S110至步骤S130类似的方式实现,在此不再赘述。
根据本申请实施例的技术方案,通过确定标签特征的关键度、以及标签特征与用户特征之间的关联度,可以建立标签特征与用户特征之间的关系,以得到训练标签匹配模型的样本对集并对模型进行训练,基于训练好的标签匹配模型可以优化标签与展示需求的匹配度,满足了用户的个性化展示需求。
实施例三
在上述技术方案的基础上,在得到样本对集后,可以基于样本对集对标签匹配模型进行训练。对标签匹配模型进行训练的具体方法可参见图3中的步骤S330至S370。图3是本申请实施例三公开的标签匹配模型的训练方法的流程示意图。如图3所示,方法包括:
S310、获取标签特征。
S320、获取用户特征和标签特征之间的匹配度,将用户特征、标签特征和匹配度作为样本对集。
上述步骤S310和步骤S320可以分别按照上述实施例中的步骤S110至步骤S120类似的方式实现,在此不再赘述。
与上述实施例不同的是,S130将样本对集输入至标签匹配模型中进行训练的具体方式,可以参见S330至S370。
S330、将样本对集中的用户特征输入标签匹配模型中的用户向量子模型,以生成用户特征向量。
其中,标签匹配模型中包括用户向量子模型,主要用于对输入的用户特征进行处理,以得到与用户特征对应的用户特征向量。
可选的,用户特征包括多个特征向量,相应的,将用户特征输入至标签匹配模型中的用户向量子模型,以生成用户特征向量,包括:将用户特征的多个特征向量通过用户向量子模型的全连接层进行处理,并进行全连接相加,生成用户特征向量。
可以理解为,在将样本对输入到标签匹配模型中时,标签匹配模型中的用户向量子模型,可以对样本对中的用户特征进行处理,得到与用户特征对应的多个特征向量。多个特征向量通过用户向量子模型的全连接层进行处理,并进行全连接相加,得到与用户特征对应的用户特征向量。
示例性的,可以对用户特征进行抽象处理,将其映射为256维的特征向量,并将该特征向量输入至用户向量子模型中的全连接层进行处理后,进行全连接相加,可以得到预设维数的用户特征向量,如,得到20维的用户特征向量。
S340、将样本对集中的标签特征输入标签匹配模型中的标签向量子模型,以生成标签特征向量。
其中,标签匹配模型中还包括标签向量子模型,主要用于对输入的标签特征进行处理,得到与标签特征对应的标签特征向量。
可选的,标签特征包括标签标识、标签类别和标签名称,相应的,将样本集中的标签特征输入标签匹配模型中的标签向量子模型,以生成标签特征向量,包括:将标签名称通过标签匹配模型的卷积池化处理,得到标签名称特征;将标签标识、标签类别和标签名称特征进行全连接相加,生成标签特征向量。
其中,标签特征中标签的类别至少包括两级,可选的,标签类别中的一级类别可以是景区,二级类别可以是游乐场、风景区、人文景区等。标签标识可以是标签的ID。
具体的,将样本对输入到标签匹配模型中时,标签向量子模型可以对标签名称进行卷积池化处理,得到标签名称特征,同时标签标识、标签类别可以经标签向量子模型的全连接层处理,将处理结果进行全连接相加,得到与标签特征对应的标签特征向量。
需要说明的,用户特征向量和标签特征向量的维数可以相同或不同,如,用户特征向量的维数为20维,那么标签特征向量的维数也可以为20维。
S350、计算用户特征向量和标签特征向量之间的距离值。
可以计算用户特征向量和标签特征向量之间的距离值来表达两个向量之间的关系,例如将计算得到的用户特征向量和标签特征向量之间的余弦相似度值,作为用户特征向量和标签特征向量之间的距离值,可以将此距离值作为标签匹配模型的训练得分。
需要说明的是,在对标签匹配模型训练之前可以将模型中的模型参数设置为初始值,此时标签匹配模型的输出结果与样本对中的匹配度存在一定的差异,可以基于该差异调整标签匹配模型中的模型参数。
S360、采用损失函数,计算距离值与样本对集中的匹配度之间的损失关系。
其中,损失函数为预先设置的,基于损失函数可以确定实际结果和理论结果之间的损失关系,进而根据损失关系可以调整标签匹配模型中的模型参数。理论结果可以理解为将样本对输入标签匹配模型后输出的结果,实际结果可以理解为样本对中的匹配度。
具体的,在将第一组样本对输入至标签匹配模型后,标签匹配模型可以输出一个距离值,采用损失函数计算距离值和第一组样本对的匹配度之间的损失关系,可选的,计算距离值与匹配度的差值的平方,得到距离值与样本对集中匹配度之间的损失关系。
S370、根据损失关系调整标签匹配模型中的模型参数,以进行模型优化,直至损失关系满足模型收敛要求。
也就是说,基于损失函数确定的损失关系可以调整标签匹配模型中的模型参数,以对标签匹配模型进行优化,直至损失关系满足模型收敛的要求,将此时得到的标签匹配模型作为最终使用的标签匹配模型。
也就是说,可以将损失函数的损失关系作为检测损失函数当前是否达到收敛的条件,比如,损失关系是否小于预设损失误差或误差变化趋势是否趋于稳定,或者当前迭代次数是否等于预设次数。若检测到达到收敛条件,比如,损失关系的损失误差小于预设误差或误差变化趋于稳定,表明此时得到的标签匹配模型训练完成,此时可以停止迭代训练。若检测到当前未达到收敛条件,可以进一步获取样本对集对标签匹配模型进行训练,直至损失关系的损失误差在预设范围之内。当损失关系的损失误差达到收敛时,则说明标签匹配模型训练完成。
在本申请本实施例中,对标签匹配模型进行训练可以包括两个过程,分别是获取样本对集和基于样本对集训练标签匹配模型。
图4是根据本申请实施例公开的获取样本对集的示意图。图5是根据本申请实施例公开的基于样本对集训练标签匹配模型的示意图。
如图4所示,获取样本对集包括三部分,第一部分(part1)为获取标签特征,即标签原始数据,并计算与各个标签特征相对应的关键度,即得到与标签特征对应的标签初始分数(label初始分数),其中,计算标签特征的关键度可以参照上述实施例中具体确定方式,在此不再赘述。第二部分(part2)为获取各个兴趣点的用户浏览量,可选的,POI的PV日志,即用户浏览量,并基于各个兴趣点的用户浏览量,确定各标签的用户浏览量,即label PV数据。第三部分(part3)为根据每个标签的用户浏览量,用户画像特征,即用户特征,以及标签特征,确定标签特征与用户特征之间的关联度。基于第一部分、第二部分以及第三部分对数据进行处理,可以得到样本对,样本对的格式可以是用户+标签+分数,即用户特征+标签特征+匹配度。
需要说明的是,用户特征中可以包括用户的年龄(age)、出行喜好征,如汽车(car)或者公交车(bus),家庭(life),以及职业(job);标签特征中包括:标签标识,即ID特征(label ID),标签类别(showtag),以及标签名称(name)。在得到样本对集后,可以基于样本对集训练标签匹配模型。
如图5所示,可以将用户特征和标签特征输入至标签匹配模型中,标签匹配模型中的用户向量子模型可以用户特征进行处理,即对年龄出行爱好、家庭以及职业进行处理,得到与各个特征对应的特征向量。将用户特征的多个特征向量通过用户向量子模型的全连接处理后并全连接相加,可以得到与用户特征对应的用户特征向量。在用户向量子模型对用户特征处理的过程中,标签匹配模型中的标签向量子模型可以对标签标识、标签类别,以及标签名称进行处理,得到与标签特征对应的标签标识特征、标签类别特征以及标签名称特征,对得到的特征进行全连接相加,得到与标签特征对应的标签特征向量。计算标签特征向量与用户特征向量之间的余弦相似度,得到标签匹配模型的输出分数。基于标签匹配模型的输出分数和样本对中的匹配度,可以利用梯度下降(SGD)优化器,不断迭代预先设置的损失函数,将损失函数收敛时得到的模型作为标签匹配模型。
根据本申请实施例的技术方案,通过获取标签特征;获取用户特征和标签特征之间的匹配度,将用户特征、标签特征和匹配度作为样本对集;将样本对集输入至标签匹配模型进行训练,其中,标签匹配模型用于确定用户特征和标签特征之间的匹配程度,解决了现有技术中不同用户在相同的场景下展示界面展示的标签相同,不能为用户提供个性化的展示标签,实现了基于用户特征和标签特征来训练标签匹配模型,使基于标签匹配模型可以预测与每个用户特征相关联的标签,优化了标签与用户需求的匹配度,提高了用户体验的技术效果。
实施例四
图6是本申请实施例四公开的标签的展示方法的流程示意图,本实施例可适用于在接收到客户端发送的标签展示请求时,确定与用户特征相对应的目标标签,并将目标标签进行展示的情形,本实施例方法可以由标签展示装置来执行,该装置可采用软件和/或硬件的方式实现,并可以部署在对数据存在处理功能的电子设备中。该方法包括:
S610、获取在客户端的展示界面中进行标签展示的标签展示请求。
其中,标签展示请求可以理解为展示与兴趣点关联度高的标签的请求。可以将用户触发客户端的操作、或者检测到用户触发某个搜索控件作为生成标签展示请求的触发条件。
具体的,当检测到用户触发客户端进入客户端首页,或者触发搜索控件时,客户端可以生成标签展示请求,与客户端对应的服务器可以获取客户端展示界面中进行标签展示的标签展示请求。
S620、根据标签展示请求确定展示界面中的至少一个兴趣点以及每个兴趣点的至少一个标签,作为候选标签。
需要说明的是,客户端可以安装在移动终端上,移动终端上设置有定位功能,当用户触发客户端时,可以获取用户的当前位置信息,从而确定用户周边的各个兴趣点。展示界面可以是包括电子地图的界面。
具体的,可以根据标签展示请求确定用户当前所处的位置,并获取预设范围内的各个兴趣点。每个兴趣点包括至少一个标签,并将此时确定的各个标签,作为候选标签。
S630、根据标签展示请求确定客户端所属用户的用户特征。
具体的,在接收到标签展示请求时,可以获取客户端所属用户的用户特征,可选的,用户特征可以是用户年龄、出行兴趣爱好、工作等信息。还可以是基于用户ID从用户画像数据库中确定与用户对应的用户特征。
S640、根据候选标签的标签特征和用户特征确定匹配度。
在本实施例中,在获取到用户特征和候选标签后,可以将用户特征以及候选标签输入至预先训练好的标签匹配模型中,基于预先训练好的标签匹配模型,可以确定各个候选标签与用户特征之间的匹配度,根据匹配度从所有候选标签中确定目标标签。
需要说明的是,考虑到节省在线预测的计算资源,可以在预测各个标签与用户特征之间的匹配度之前,可以先基于训练得到的标签匹配模型离线预测用户特征和标签之间的匹配度,并将预测的结果、用户特征和标签特征存储在离线数据库中。在获取到候选标签和用户特征之后,可以基于与候选标签对应的标签特征和用户特征,在离线数据库中查询各个候选标签的标签特征与用户特征之间的匹配度。
采用本实施例技术方案,不仅节省了在线预测的计算资源,还实现了确定与用户特征匹配度较高的标签,并进行展示,避免了现有技术中标签展示冗余,以及与用户匹配度较低的问题,满足了用户的个性化展示需求。
S650、根据确定的匹配度从候选标签中筛选确定目标标签。
其中,目标标签为从所有候选标签中筛选出与用户匹配度较高的标签。目标标签的数量可以是一个、两个或者多个。
具体的,在确定各个候选标签与用户特征之间的匹配度后,可以将匹配度高于预设值的候选标签作为目标标签;或者,按照匹配度从高往低依次对各个标签进行排序,将排在前十位的候选标签作为目标标签。当然,从候选标签中确定目标标签还可以是其他筛选方式,在此不再一一赘述。
S660、将目标标签响应标签展示请求,在展示界面中进行展示。
具体的,在服务器确定与用户特征相对应的目标标签后,可以将目标标签展示在展示界面上。
作为上述实施例的一优选实施例,图7是根据本申请实施例公开的个性化标签的预测过程示意图。
如图7所示,在确定与用户C相对应的个性化标签时,即若检测到与用户C相对应的客户端发起标签展示请求时,与客户端相对应的服务器,可以获取用户C的用户特征,可选的,用户C的ID、年龄、出行爱好、家庭、以及工作等信息,并确定与用户特征对应的用户特征向量。同时,获取用户的当前位置,并获取当前位置周边的POI,例如,用户周边有n个POI,每个POI中包括至少一个标签,可选的,POI1中包括三个标签,可以分别记为标签A、标签C、以及标签D,POI2中包括两个标签,分别记为标签J和标签M,依次确定各个兴趣点中的标签,POIn中包括包括三个标签,可以分别记为标签P、标签Q、以标签O。可以将各个POI包括的标签作为候选标签。可以将用户特征和候选标签的标签特征输入至训练得到的标签匹配模型中,可以得到用户特征向量和与各个候选标签对应的标签向量,即标签特征向量。可以将与标签A对应的标签特征向量记为标签向量A,与标签C对应的标签特征向量记为标签向量C,按照此种方式对各个标签向量进行标记,得到与各个标签对应的标签特征向量。从离线数据库中,确定与各个候选标签对应的各个标签特征向量,与用户特征向量之间的匹配度,并按照匹配度从高往低的方式获取预设数量的候选标签作为目标标签,并将目标标签展示在显示界面上,如,确定的目标标签为标签(label)A、标签(label)J和标签(label)Q,并将目标标签展示在对应兴趣点处,可以达到辅助定位和使用户快速决策的目的,进而提高了用户体验。
根据本申请实施例的技术方案,通过获取在客户端的展示界面中进行标签展示的标签展示请求;根据标签展示请求确定展示界面中的至少一个兴趣点以及每个兴趣点的至少一个标签,作为候选标签;根据标签展示请求确定客户端所属用户的用户特征;根据候选标签的标签特征和用户特征确定匹配度;根据确定的匹配度从候选标签中筛选确定目标标签,将目标标签响应标签展示请求,在展示界面中进行展示,解决了现有技术中标签展示时仅展示排名靠前的标签,并且所有用户看到的标签内容相同,存在标签与用户匹配度较低,用户体验较差的技术问题,通过对用户特征和各个候选标签的特征进行处理,得到与用户匹配度较高的标签,优化了变标签与展示需求的匹配度,体现了个性化的展示需求,进而提高了用户体验的技术效果。
实施例五
图8是本申请实施例五公开的标签匹配模型的训练装置结构示意图。如图8所示,本申请实施例公开的一种标签匹配模型的训练装置800包括:标签特征获取模块810、样本对集确定模块820以及模型训练模块830。
其中,
标签特征获取模块810,用于获取标签特征;样本对集确定模块820,用于获取用户特征和所述标签特征之间的匹配度,将所述用户特征、标签特征和所述匹配度作为样本对集;模型训练模块830,用于将所述样本对集输入至标签匹配模型进行训练,其中,所述标签匹配模型用于确定用户特征和标签特征之间的匹配程度。
在上述各技术方案的基础上,所述样本对集确定模块包括:
关键度获取单元,用于获取所述标签特征的关键度;
获关联度确定单元,用于取所述标签特征与用户特征之间的关联度;
匹配度确定单元,用于根据所述关键度和关联度确定所述标签特征与所述用户特征之间的匹配度。
在上述各技术方案的基础上,所述关键度获取单元,包括:
标签展示频次确定子单元,用于获取所述标签特征所属标签,在多个展示群体中的展示频次;
逆频数确定子单元,用于针对每个展示群体,确定所述标签在该展示群体的展示频次,以及相对于其他展示群体的展示逆频数;
关键度计算子单元,用于针对每个展示群体,计算所述标签的展示频次和展示逆频数之积,作为所述标签在每个展示群体中的关键度;
关键度确定子单元,用于将所述标签在每个展示群体中的关键度进行加权求和,作为所述标签的标签特征的关键度;
其中,展示群体为设定行政区划单位的地理范围。
在上述各技术方案的基础上,所述关联度确定单元,包括:
兴趣点浏览量确定子单元,用于获取各兴趣点的用户浏览量;
第一用户浏览量确定子单元,用于根据兴趣点与标签的对应关系,以及各兴趣点的用户浏览量,确定标签的用户浏览量;
第二用户浏览量确定子单元,用于针对每个标签的用户浏览量,对各个用户浏览记录中的用户特征进行聚类,并确定每类用户特征的用户浏览量;
关联度确定子单元,用于将标签的每类用户特征的用户浏览量作为所述标签的标签特征与用户特征之间的关联度。
在上述各技术方案的基础上,所述第二用户浏览量确定子单元,还用于:对标签的标签特征进行聚类处理。
在上述技术方案的基础上,所述样本对集确定模块,还用于:
将所述关键度和所述关联度相乘,将乘积结果作为所述标签特征与所述用户特征之间的匹配度。
在上述各技术方案的基础上,所述第二用户浏览量确定子单元,还用于:对所述匹配度进行数据平滑处理;对平滑处理后的匹配度,在设定取值区间内进行归一化处理。
在上述各技术方案的基础上,所述模型训练模块,还用于:将所述样本集中的用户特征输入所述标签匹配模型中的用户向量子模型,以生成用户特征向量;将所述样本集中的标签特征输入所述标签匹配模型中的标签向量子模型,以生成标签特征向量;计算所述用户特征向量和标签特征向量之间的距离值;采用损失函数,计算所述距离值与所述样本对集中的匹配度之间的损失关系;根据所述损失关系调整所述标签匹配模型中的模型参数,以进行模型优化,直至所述损失关系满足模型收敛要求。
在上述各技术方案的基础上,所述模型训练模块,还用于:将用户特征的多个特征向量通过所述用户向量子模型的全连接层进行处理,并进行全连接相加,生成所述用户特征向量。
在上述各技术方案的基础上,所述标签特征包括标签标识、标签类别和标签名称,所述模型训练模块,还用于:将所述标签名称通过所述标签匹配模型的卷积池化处理,得到标签名称特征;将所述标签标识、标签类别和所述标签名称特征进行全连接相加,生成所述标签特征向量。
在上述各技术方案的基础上,所述装置还包括:
所述标签特征的类别包括至少两级;所述用户特征包括下述至少一种:年龄段、性别、是否有车、以及家庭成员组成。
根据本申请实施例的技术方案,通过获取标签特征;获取用户特征和标签特征之间的匹配度,将用户特征、标签特征和匹配度作为样本对集;将样本对集输入至标签匹配模型进行训练,其中,标签匹配模型用于确定用户特征和标签特征之间的匹配程度,解决了现有技术中不同用户在相同的场景下展示界面展示的标签相同,不能为用户提供个性化的展示标签,实现了基于用户特征和标签特征来训练标签匹配模型,使基于标签匹配模型可以预测与每个用户特征相关联的标签,优化了标签与用户需求的匹配度,提高了用户体验的技术效果。
本申请实施例所公开的标签匹配模型的训练装置800可执行本申请实施例所公开的标签匹配模型的训练方法,具备执行方法相应的功能模块和有益效果。本实施例中未详尽描述的内容可以参考本申请任意方法实施例中的描述。
实施例六
图9是本申请实施例六公开的标签的展示装置结构示意图。如图9所示,本申请实施例公开的一种标签的展示装置900包括:标签展示请求获取模块910、候选标签确定模块920、用户特征确定模块930、匹配度确定模块940、目标标签确定模块950以及目标标签展示模块960。其中,
标签展示请求获取模块910,用于获取在客户端的展示界面中进行标签展示的标签展示请求;候选标签确定模块920,用于根据所述标签展示请求确定所述展示界面中的至少一个兴趣点以及每个兴趣点的至少一个标签,作为候选标签;用户特征确定模块930,用于根据所述标签展示请求确定所述客户端所属用户的用户特征;匹配度确定模块940,用于根据所述候选标签的标签特征和所述用户特征确定匹配度,其中,所述匹配度采用所述的标签匹配模型的训练装置所训练确定的标签匹配模型预测而定;目标标签确定模块950,用于根据确定的匹配度从所述候选标签中筛选确定目标标签;目标标签展示模块960,用于将所述目标标签响应所述标签展示请求,在所述展示界面中进行展示。
在上述技术方案的基础上,所述匹配度确定模块还用于:
根据所述候选标签的标签特征和所述用户特征,在离线数据库中查询获取对应的匹配度;其中,所述匹配度采用所述标签匹配模型进行离线预测并存储于所述离线数据库中。
根据本申请实施例的技术方案,通过获取在客户端的展示界面中进行标签展示的标签展示请求;根据标签展示请求确定展示界面中的至少一个兴趣点以及每个兴趣点的至少一个标签,作为候选标签;根据标签展示请求确定客户端所属用户的用户特征;根据候选标签的标签特征和用户特征确定匹配度;根据确定的匹配度从候选标签中筛选确定目标标签,将目标标签响应标签展示请求,在展示界面中进行展示,解决了现有技术中标签展示时仅展示排名靠前的标签,并且所有用户看到的标签内容相同,存在标签与用户匹配度较低,用户体验较差的技术问题,通过对用户特征和各个候选标签的特征进行处理,得到与用户匹配度较高的标签,优化了变标签与展示需求的匹配度,体现了个性化的展示需求,进而提高了用户体验的技术效果。
本申请实施例所公开的标签的展示装置800可执行本申请实施例所公开的标签的展示方法,具备执行方法相应的功能模块和有益效果。本实施例中未详尽描述的内容可以参考本申请任意方法实施例中的描述。
实施例七
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图10,是根据本申请实施例的标签匹配模型的训练和展示的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图10所示,该电子设备包括:一个或多个处理器1001、存储器1002,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器1001为例。
存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的标签的匹配模型训练和展示方法的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的标签的匹配模型训练和展示方法。
存储器1002作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的标签匹配模型的训练方法和/或标签的展示方法对应的程序指令/模块(例如,附图8所示的标签特征获取模块810、样本对集确定模块820和模型训练模块830,或如附图9所示的标签展示请求获取模块910、候选标签确定模块920、用户特征确定模块930、匹配度确定模块940、目标标签确定模块950以及目标标签展示模块960)。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的标签的匹配模型训练和展示方法的方法。
存储器1002可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据标签的匹配模型训练和展示电子设备的使用所创建的数据等。此外,存储器1002可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1002可选包括相对于处理器1001远程设置的存储器,这些远程存储器可以通过网络连接至标签的匹配模型训练和展示的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
标签的匹配模型训练和展示方法的电子设备还可以包括:输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接,图10中以通过总线连接为例。
输入装置1003可接收输入的数字或字符信息,以及产生与标签的匹配模型训练和展示的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
本申请实施例的技术方案,通过获取标签特征;获取用户特征和标签特征之间的匹配度,将用户特征、标签特征和匹配度作为样本对集;将样本对集输入至标签匹配模型进行训练,其中,标签匹配模型用于确定用户特征和标签特征之间的匹配程度,解决了现有技术中在相同的场景下对每个用户展示的标签相同,不能满足用户的个性化需求,即展示的标签与用户之间的匹配度较低,实现了基于用户特征和标签特征来训练标签匹配模型,使基于标签匹配模型可以预测与每个用户特征相关联的标签,即匹配度较高的标签,既优化了标签与用户需求的匹配度,也提高了用户体验的技术效果。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (17)

1.一种标签匹配模型的训练方法,其特征在于,包括:
获取标签特征;
获取用户特征和所述标签特征之间的匹配度,将所述用户特征、标签特征和所述匹配度作为样本对集;
将所述样本对集输入至标签匹配模型进行训练,其中,所述标签匹配模型用于确定用户特征和标签特征之间的匹配程度。
2.根据权利要求1所述的方法,其特征在于,获取用户特征和所述标签特征之间的匹配度包括:
获取所述标签特征的关键度;
获取所述标签特征与用户特征之间的关联度;
根据所述关键度和关联度确定所述标签特征与所述用户特征之间的匹配度。
3.根据权利要求2所述的方法,其特征在于,获取所述标签特征的关键度包括:
获取所述标签特征所属标签,在多个展示群体中的展示频次;
针对每个展示群体,确定所述标签在该展示群体的展示频次,以及相对于其他展示群体的展示逆频数;
针对每个展示群体,计算所述标签的展示频次和展示逆频数之积,作为所述标签在每个展示群体中的关键度;
将所述标签在每个展示群体中的关键度进行加权求和,作为所述标签的标签特征的关键度;
其中,展示群体为设定行政区划单位的地理范围。
4.根据权利要求2所述的方法,其特征在于,获取所述标签特征与用户特征之间的关联度包括:
获取各兴趣点的用户浏览量;
根据兴趣点与标签的对应关系,以及各兴趣点的用户浏览量,确定标签的用户浏览量;
针对每个标签的用户浏览量,对各个用户浏览记录中的用户特征进行聚类,并确定每类用户特征的用户浏览量;
将标签的每类用户特征的用户浏览量作为所述标签的标签特征与用户特征之间的关联度。
5.根据权利要求4所述的方法,其特征在于,确定每类用户特征的用户浏览量之后,还包括:
对标签的标签特征进行聚类处理。
6.根据权利要求2-5任一所述的方法,其特征在于,根据所述关键度和关联度确定所述标签特征与所述用户特征之间的匹配度包括:
将所述关键度和所述关联度相乘,将乘积结果作为所述标签特征与所述用户特征之间的匹配度。
7.根据权利要求2-5任一所述的方法,其特征在于,根据所述关键度和关联度确定所述标签特征与所述用户特征之间的匹配度之后,还包括:
对所述匹配度进行数据平滑处理;
对平滑处理后的匹配度,在设定取值区间内进行归一化处理。
8.根据权利要求1所述的方法,其特征在于,将所述样本对集输入至标签匹配模型进行训练包括:
将所述样本对集中的用户特征输入所述标签匹配模型中的用户向量子模型,以生成用户特征向量;
将所述样本对集中的标签特征输入所述标签匹配模型中的标签向量子模型,以生成标签特征向量;
计算所述用户特征向量和标签特征向量之间的距离值;
采用损失函数,计算所述距离值与所述样本对集中的匹配度之间的损失关系;
根据所述损失关系调整所述标签匹配模型中的模型参数,以进行模型优化,直至所述损失关系满足模型收敛要求。
9.根据权利要求8所述的方法,其特征在于,所述用户特征包括多个特征向量,将所述样本集中的用户特征输入所述标签匹配模型中的用户向量子模型,以生成用户特征向量包括:
将用户特征的多个特征向量通过所述用户向量子模型的全连接层进行处理,并进行全连接相加,生成所述用户特征向量。
10.根据权利要求8所述的方法,其特征在于,所述标签特征包括标签标识、标签类别和标签名称,将所述样本集中的标签特征输入所述标签匹配模型中的标签向量子模型,以生成标签特征向量包括:
将所述标签名称通过所述标签匹配模型的卷积池化处理,得到标签名称特征;
将所述标签标识、标签类别和所述标签名称特征进行全连接相加,生成所述标签特征向量。
11.根据权利要求10所述的方法,其特征在于:
所述标签特征的类别包括至少两级;
所述用户特征包括下述至少一种:年龄段、性别、是否有车、以及家庭成员组成。
12.一种标签的展示方法,其特征在于,包括:
获取在客户端的展示界面中进行标签展示的标签展示请求;
根据所述标签展示请求确定所述展示界面中的至少一个兴趣点以及每个兴趣点的至少一个标签,作为候选标签;
根据所述标签展示请求确定所述客户端所属用户的用户特征;
根据所述候选标签的标签特征和所述用户特征确定匹配度,其中,所述匹配度采用权利要求1-11任一所述的标签匹配模型的训练方法所训练确定的标签匹配模型预测而定;
根据确定的匹配度从所述候选标签中筛选确定目标标签;
将所述目标标签响应所述标签展示请求,在所述展示界面中进行展示。
13.根据权利要求12所述的方法,其特征在于,根据所述候选标签的标签特征和所述用户特征确定匹配度包括:
根据所述候选标签的标签特征和所述用户特征,在离线数据库中查询获取对应的匹配度;
其中,所述匹配度采用所述标签匹配模型进行离线预测并存储于所述离线数据库中。
14.一种标签匹配模型的训练装置,其特征在于,包括:
标签特征获取模块,用于获取标签特征;
样本对集确定模块,用于获取用户特征和所述标签特征之间的匹配度,将所述用户特征、标签特征和所述匹配度作为样本对集;
模型训练模块,用于将所述样本对集输入至标签匹配模型进行训练,其中,所述标签匹配模型用于确定用户特征和标签特征之间的匹配程度。
15.一种标签的展示装置,其特征在于,包括:
标签展示请求获取模块,用于获取在客户端的展示界面中进行标签展示的标签展示请求;
候选标签确定模块,用于根据所述标签展示请求确定所述展示界面中的至少一个兴趣点以及每个兴趣点的至少一个标签,作为候选标签;
用户特征确定模块,用于根据所述标签展示请求确定所述客户端所属用户的用户特征;
匹配度确定模块,用于根据所述候选标签的标签特征和所述用户特征确定匹配度,其中,所述匹配度采用权利要求14所述的标签匹配模型的训练装置所训练确定的标签匹配模型预测而定;
目标标签确定模块,用于根据确定的匹配度从所述候选标签中筛选确定目标标签;
目标标签展示模块,用于将所述目标标签响应所述标签展示请求,在所述展示界面中进行展示。
16.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-11中任一项所述的标签匹配模型的训练方法和/或执行权利要求12-13所述的标签的展示方法。
17.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-11中任一项所述的标签匹配模型的训练方法和/或执行权利要求12-13所述的标签的展示方法。
CN202010224589.9A 2020-03-26 2020-03-26 标签的匹配模型训练和展示方法、装置、设备及介质 Active CN113449754B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010224589.9A CN113449754B (zh) 2020-03-26 2020-03-26 标签的匹配模型训练和展示方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010224589.9A CN113449754B (zh) 2020-03-26 2020-03-26 标签的匹配模型训练和展示方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113449754A true CN113449754A (zh) 2021-09-28
CN113449754B CN113449754B (zh) 2023-09-22

Family

ID=77807217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010224589.9A Active CN113449754B (zh) 2020-03-26 2020-03-26 标签的匹配模型训练和展示方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113449754B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115470332A (zh) * 2022-09-02 2022-12-13 中国气象局机关服务中心 一种基于匹配度进行内容匹配的智能问答系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000123041A (ja) * 1998-10-19 2000-04-28 Nippon Telegr & Teleph Corp <Ntt> 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体
CN103246654A (zh) * 2012-02-03 2013-08-14 腾讯科技(深圳)有限公司 搜索结果的展示处理方法和装置
US20160093106A1 (en) * 2014-09-29 2016-03-31 Sony Computer Entertainment Inc. Schemes for retrieving and associating content items with real-world objects using augmented reality and object recognition
WO2016161961A1 (zh) * 2015-04-09 2016-10-13 乐视控股(北京)有限公司 处理关注信息的方法、终端设备、服务器及系统
WO2017101328A1 (zh) * 2015-12-15 2017-06-22 乐视控股(北京)有限公司 智能电视展示播放内容的方法、装置及系统
WO2017101317A1 (zh) * 2015-12-14 2017-06-22 乐视控股(北京)有限公司 智能推荐的全端显示方法及装置
US9715508B1 (en) * 2016-03-28 2017-07-25 Cogniac, Corp. Dynamic adaptation of feature identification and annotation
CN108228847A (zh) * 2018-01-10 2018-06-29 北京奇艺世纪科技有限公司 用户匹配方法、装置及电子设备
CN109426831A (zh) * 2017-08-30 2019-03-05 腾讯科技(深圳)有限公司 图片相似匹配及模型训练的方法、装置及计算机设备
CN110012356A (zh) * 2019-04-16 2019-07-12 腾讯科技(深圳)有限公司 视频推荐方法、装置和设备及计算机存储介质
CN110175298A (zh) * 2019-04-12 2019-08-27 腾讯科技(深圳)有限公司 用户匹配方法
CN110472163A (zh) * 2019-08-22 2019-11-19 百度在线网络技术(北京)有限公司 地图搜索结果的展现确定方法、装置、电子设备和介质
US20200081908A1 (en) * 2018-09-10 2020-03-12 Baidu Online Network Technology (Beijing) Co., Ltd. Internet text mining-based method and apparatus for judging validity of point of interest

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000123041A (ja) * 1998-10-19 2000-04-28 Nippon Telegr & Teleph Corp <Ntt> 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体
CN103246654A (zh) * 2012-02-03 2013-08-14 腾讯科技(深圳)有限公司 搜索结果的展示处理方法和装置
US20160093106A1 (en) * 2014-09-29 2016-03-31 Sony Computer Entertainment Inc. Schemes for retrieving and associating content items with real-world objects using augmented reality and object recognition
WO2016161961A1 (zh) * 2015-04-09 2016-10-13 乐视控股(北京)有限公司 处理关注信息的方法、终端设备、服务器及系统
WO2017101317A1 (zh) * 2015-12-14 2017-06-22 乐视控股(北京)有限公司 智能推荐的全端显示方法及装置
WO2017101328A1 (zh) * 2015-12-15 2017-06-22 乐视控股(北京)有限公司 智能电视展示播放内容的方法、装置及系统
US9715508B1 (en) * 2016-03-28 2017-07-25 Cogniac, Corp. Dynamic adaptation of feature identification and annotation
CN109426831A (zh) * 2017-08-30 2019-03-05 腾讯科技(深圳)有限公司 图片相似匹配及模型训练的方法、装置及计算机设备
CN108228847A (zh) * 2018-01-10 2018-06-29 北京奇艺世纪科技有限公司 用户匹配方法、装置及电子设备
US20200081908A1 (en) * 2018-09-10 2020-03-12 Baidu Online Network Technology (Beijing) Co., Ltd. Internet text mining-based method and apparatus for judging validity of point of interest
CN110175298A (zh) * 2019-04-12 2019-08-27 腾讯科技(深圳)有限公司 用户匹配方法
CN110012356A (zh) * 2019-04-16 2019-07-12 腾讯科技(深圳)有限公司 视频推荐方法、装置和设备及计算机存储介质
CN110472163A (zh) * 2019-08-22 2019-11-19 百度在线网络技术(北京)有限公司 地图搜索结果的展现确定方法、装置、电子设备和介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115470332A (zh) * 2022-09-02 2022-12-13 中国气象局机关服务中心 一种基于匹配度进行内容匹配的智能问答系统

Also Published As

Publication number Publication date
CN113449754B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
US11397772B2 (en) Information search method, apparatus, and system
CN110726418B (zh) 兴趣点区域确定方法、装置、设备及存储介质
CN109064278B (zh) 目标对象推荐方法及装置、电子设备、存储介质
EP3617952A1 (en) Information search method, apparatus and system
CN110543558B (zh) 问题匹配方法、装置、设备和介质
CN112905897B (zh) 相似用户确定方法、向量转化模型、装置、介质及设备
CN113656582A (zh) 神经网络模型的训练方法、图像检索方法、设备和介质
CN111814077A (zh) 信息点查询方法、装置、设备和介质
CN109034199B (zh) 数据处理方法及装置、存储介质和电子设备
CN110852780A (zh) 数据分析方法、装置、设备和计算机存储介质
CN111737430A (zh) 实体链接方法、装置、设备以及存储介质
JP2021179990A (ja) 地理位置点のソート方法、ソートモデルの訓練方法及び対応装置
CN114417194A (zh) 推荐系统排序方法、参数预测模型训练方法及装置
CN111915608A (zh) 建筑物提取方法、装置、设备和存储介质
JP7298090B2 (ja) 地理位置点の空間関係を抽出する方法及び装置
CN111241838A (zh) 文本实体的语义关系处理方法、装置及设备
CN111241225B (zh) 常驻区域变更的判断方法、装置、设备及存储介质
CN113449754B (zh) 标签的匹配模型训练和展示方法、装置、设备及介质
CN113157829A (zh) 一种兴趣点名称比对方法、装置、电子设备和存储介质
CN111767990A (zh) 神经网络的处理方法和装置
CN111625724A (zh) 信息处理方法、装置、电子设备及存储介质
CN111309872A (zh) 搜索处理方法、装置及设备
CN112182409A (zh) 数据处理方法、装置、设备及计算机存储介质
CN113989562A (zh) 模型训练、图像分类方法和装置
CN112052402A (zh) 信息推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant