CN111310074A - 兴趣点的标签优化方法、装置、电子设备和计算机可读介质 - Google Patents

兴趣点的标签优化方法、装置、电子设备和计算机可读介质 Download PDF

Info

Publication number
CN111310074A
CN111310074A CN202010090134.2A CN202010090134A CN111310074A CN 111310074 A CN111310074 A CN 111310074A CN 202010090134 A CN202010090134 A CN 202010090134A CN 111310074 A CN111310074 A CN 111310074A
Authority
CN
China
Prior art keywords
interest
label
point
feature
interest point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010090134.2A
Other languages
English (en)
Other versions
CN111310074B (zh
Inventor
周景博
胡仁君
姜爱荣
段建国
熊辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010090134.2A priority Critical patent/CN111310074B/zh
Publication of CN111310074A publication Critical patent/CN111310074A/zh
Priority to US17/037,144 priority patent/US20210254992A1/en
Application granted granted Critical
Publication of CN111310074B publication Critical patent/CN111310074B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3679Retrieval, searching and output of POI information, e.g. hotels, restaurants, shops, filling stations, parking facilities
    • G01C21/3682Retrieval, searching and output of POI information, e.g. hotels, restaurants, shops, filling stations, parking facilities output of POI information on a road map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3679Retrieval, searching and output of POI information, e.g. hotels, restaurants, shops, filling stations, parking facilities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种兴趣点的标签优化方法,该方法包括:获取多个兴趣点中各所述兴趣点的第一画像特征数据,以及所述多个兴趣点已标注的多个标签中各所述标签的第二画像特征数据;将各所述兴趣点的第一画像特征数据和各所述标签的第二画像特征数据映射至同一度量空间,得到各所述兴趣点的第一特征向量以及各所述标签的第二特征向量;针对目标兴趣点,根据该目标兴趣点的第一特征向量与至少部分所述标签的第二特征向量之间的向量相似度,对所述目标兴趣点已标注的标签进行优化。本公开还提供了一种兴趣点的标签优化装置、电子设备和计算机可读介质。

Description

兴趣点的标签优化方法、装置、电子设备和计算机可读介质
技术领域
本公开实施例涉及计算机技术技术领域,特别涉及一种兴趣点的标签优化方法、装置、电子设备和计算机可读介质。
背景技术
兴趣点(Point of interest,POI)的标签(Tag)是地图类应用提供服务的重要基础数据。在地图类应用中,兴趣点的标签可以帮助用户快速的找到对应的兴趣点。例如,当用户搜索“酒店”时,所有包含“酒店”的标签的兴趣点都可以返回给用户,以方便用户快速的找到提供相关服务的兴趣点。此外,在兴趣点推荐,基于位置的广告等场景中,兴趣点的标签都具有重要的作用。
目前,常见的为兴趣点标注标签的方式主要包括以下两种。其一,通过用户众包标注的方式,由人工手工标注兴趣点的标签。其二,通过使用自然语言处理的技术,从兴趣点的相关评论中提取出标签来对兴趣点进行标注。
发明内容
本公开实施例提供一种兴趣点的标签优化方法、装置、电子设备和计算机可读介质。
第一方面,本公开实施例提供一种兴趣点的标签优化方法,其中,包括:
获取多个兴趣点中各所述兴趣点的第一画像特征数据,以及所述多个兴趣点已标注的多个标签中各所述标签的第二画像特征数据;
将各所述兴趣点的第一画像特征数据和各所述标签的第二画像特征数据映射至同一度量空间,得到各所述兴趣点的第一特征向量以及各所述标签的第二特征向量;
针对目标兴趣点,根据该目标兴趣点的第一特征向量与至少部分所述标签的第二特征向量之间的向量相似度,对所述目标兴趣点已标注的标签进行优化。
在一些实施例中,所述将各所述兴趣点的第一画像特征数据和各所述标签的第二画像特征数据映射至同一度量空间,得到各所述兴趣点的第一特征向量以及各所述标签的第二特征向量的步骤包括:
基于所述第一画像特征数据和所述第二画像特征数据对孪生神经网络进行训练,得到特征抽取模型,所述特征抽取模型包括:第一特征抽取子模型和第二特征抽取子模型,所述第一特征抽取子模型和所述第二特征抽取子模型分别用于将所述第一画像特征数据和所述第二画像特征数据映射至同一度量空间;
将各所述兴趣点的第一画像特征数据分别输入至所述第一特征抽取子模型,得到各所述兴趣点在所述度量空间内的第一特征向量;
将各所述标签的第二画像特征数据分别输入至所述第二特征抽取子模型,得到各所述标签在所述度量空间内的第二特征向量。
在一些实施例中,所述基于所述第一画像特征数据和所述第二画像特征数据对孪生神经网络进行训练的步骤包括:
建立孪生神经网络,所述孪生神经网络包括参数共享的第一子网模型和第二子网模型,所述第一子网模型和所述第二子网模型分别能够将所述第一画像特征数据和所述第二画像特征数据映射至相同的度量空间;
定义整体损失函数;
利用所述第一画像特征数据、所述第二画像特征数据、所述整体损失函数来对所述第一子网模型和第二子网模型进行训练,完成训练的第一子网模型为所述第一特征抽取子模型,完成训练的第二子网模型为所述第二特征抽取子模型。
在一些实施例中,所述整体损失函数为:
Figure BDA0002383411730000021
L表示所述特征抽取模型的整体损失值,P表示全部所述兴趣点所构成的兴趣点集合,T表示全部所述标签所构成的标签集合,pi表示所述兴趣点集合中第i个兴趣点,
Figure BDA0002383411730000031
表示第i个兴趣点的第一画像特征数据,tj表示所述标签集合中第j个标签,
Figure BDA0002383411730000032
表示第j个标签的第二画像特征数据,
Figure BDA0002383411730000033
为兴趣点标签损失函数;
其中,若标签tj不为兴趣点pi已标注的标签之一,则
Figure BDA0002383411730000034
若标签tj为兴趣点pi已标注的标签之一,则
Figure BDA0002383411730000035
Figure BDA0002383411730000036
表示将第一画像特征数据
Figure BDA0002383411730000037
输入至第一子网模型后得到的特征向量,
Figure BDA0002383411730000038
表示将第二画像特征数据
Figure BDA0002383411730000039
输入至第一子网模型后得到的特征向量,
Figure BDA00023834117300000310
Figure BDA00023834117300000311
表示特征向量
Figure BDA00023834117300000312
和特征向量
Figure BDA00023834117300000313
的余弦相似度,m为预定义的参量。
在一些实施例中,获取多个兴趣点中各所述兴趣点的第一画像特征数据,以及所述多个兴趣点已标注的多个标签中各所述标签的第二画像特征数据的步骤包括:
针对每一个所述兴趣点,确定该兴趣点的历史访问用户和/或历史检索用户,聚合该兴趣点的历史访问用户和/或历史检索用户的用户画像,得到该兴趣点的第一画像特征数据;
对于每一个所述标签,确定属于该标签的兴趣点,基于属于该标签的全部兴趣点的第一画像特征数据,生成该标签的第二画像特征数据。
在一些实施例中,所述基于属于该标签的全部兴趣点的第一画像特征数据,生成该标签的第二画像特征数据的步骤具体包括:
计算属于该标签的全部兴趣点的第一画像特征数据的平均值,作为该标签的第二画像特征数据。
在一些实施例中,所述获取多个兴趣点中各所述兴趣点的第一画像特征数据,以及所述多个兴趣点已标注的多个标签中各所述标签的第二画像特征数据的步骤包括:
针对每一个所述兴趣点,从至预先获取到的知识图谱中抽取出该兴趣点的描述性特征,构成该兴趣点的第一画像特征数据;
针对每一个所述标签,从至预先获取到的知识图谱中抽取出该标签的描述性特征,构成该标签的第二画像特征数据。
在一些实施例中,所述根据该目标兴趣点的第一特征向量与至少部分所述标签的第二特征向量之间的向量相似度,对所述兴趣点已标注的标签进行优化的步骤包括:
计算所述目标兴趣点的第一特征向量与目标标签的第二特征向量之间的向量相似度;
若所述目标兴趣点的第一特征向量与所述目标标签的第二特征向量之间的向量相似度大于第一预设阈值,且所述目标标签不为所述目标兴趣点已标注的标签,则将所述目标标签新增为所述目标兴趣点已标注的标签;
若所述目标兴趣点的第一特征向量与所述目标标签的第二特征向量之间的向量相似度小于第二预设阈值,且所述目标标签为所述目标兴趣点已标注的标签,则将所述目标标签从所述目标兴趣点已标注的标签中删除。
在一些实施例中,所述目标兴趣点为所述多个兴趣点中的每一个兴趣点。
第二方面,本公开实施例还提供了一种兴趣点的标签优化装置,其中,包括:
获取模块,配置为获取多个兴趣点中各所述兴趣点的第一画像特征数据,以及所述多个兴趣点已标注的多个标签中各所述标签的第二画像特征数据;
映射模块,配置为将各所述兴趣点的第一画像特征数据和各所述标签的第二画像特征数据映射至同一度量空间,得到各所述兴趣点的第一特征向量以及各所述标签的第二特征向量;
优化模块,配置为针对目标兴趣点,根据该目标兴趣点的第一特征向量与至少部分所述标签的第二特征向量之间的向量相似度,对所述目标兴趣点已标注的标签进行优化。
第三方面,本公开实施例还提供了一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如前述第一方面中提供的兴趣点的标签优化方法。
第四方面,本公开实施例还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如前述第一方面中提供的兴趣点的标签优化方法。
本公开实施例提供了一种兴趣点的标签优化方法、装置、电子设备和计算机可读介质,通过获取多个兴趣点中各所述兴趣点的第一画像特征数据,以及所述多个兴趣点已标注的多个标签中各所述标签的第二画像特征数据;然后,将各所述兴趣点的第一画像特征数据和各所述标签的第二画像特征数据映射至同一度量空间,得到各所述兴趣点的第一特征向量以及各所述标签的第二特征向量;最后,针对目标兴趣点,根据该目标兴趣点的第一特征向量与至少部分所述标签的第二特征向量之间的向量相似度,对所述目标兴趣点已标注的标签进行优化,可有效提升兴趣点与标签的匹配度。
附图说明
附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开,并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述,以上和其它特征和优点对本领域技术人员将变得更加显而易见,在附图中:
图1为能够应用于本公开实施例所提供的兴趣点的标签优化方法的系统架构图;
图2为本公开实施例的提供的一种兴趣点的标签优化方法的流程图;
图3a为本公开实施例中步骤S1的一种可选实施流程图;
图3b为本公开实施例中步骤S1的另一种可选实施流程图;
图4为本公开实施例中示例A酒店的用户画像聚合统计的示意图;
图5为本公开实施例中实现步骤S2的一种可选实施流程图;
图6为本公开实施例中实现步骤S201的一种可选实施流程图;
图7为本公开实施例提供的一种兴趣点的标签优化装置的结构框图;
图8a为本公开实施例中获取模块的一种结构框图;
图8b为本公开实施例中获取模块的另一种结构框图;
图9为本公开实施例中映射模块的一种结构框图;
图10为本公开实施例中优化模块的一种结构框图;
图11为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图对本发明提供的一种兴趣点的标签优化方法、装置、电子设备和计算机可读介质进行详细描述。
在下文中将参考附图更充分地描述示例实施例,但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之,提供这些实施例的目的在于使本公开透彻和完整,并将使本领域技术人员充分理解本公开的范围。
在不冲突的情况下,本公开各实施例及实施例中的各特征可相互组合。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
图1为能够应用于本公开实施例所提供的兴趣点的标签优化方法的系统架构图,如图1所示,系统架构400中可以包括数据库服务器401、网络402和服务器403。网络402用以在数据库服务器401和服务器403之间提供通信链路的介质。网络402可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
数据库服务器401可以用于存储地图类应用的兴趣点和兴趣点的标签。
服务器403可以是提供各种服务的服务器。例如标签优化服务器。标签优化服务器可以对兴趣点集合和兴趣点集合中的各兴趣点所对应的已标注标签子集等数据进行分析处理,并基于处理结果来优化兴趣点的已标注标签子集。
需要说明的是,服务器403可以是硬件,也可以是软件。当服务器403为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器403为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本公开实施例所提供的兴趣点的标签优化方法一般由服务器403执行,相应地,用于兴趣点的标签优化装置一般设置于服务器403中。
应该理解,图1中的数据库服务器401、网络402和服务器403的数目仅仅是示意性的。根据实现需要,可以具有任意数目的数据库服务器、网络和服务器。需要说明的是,在服务器403中存储有兴趣点集合和兴趣点集合中的兴趣点的已标注标签子集的情况下,系统架构400可以不设置数据库服务器401。
图2为本公开实施例的提供的一种兴趣点的标签优化方法的流程图,如图2所示,该方法包括:
步骤S1、获取多个兴趣点中各兴趣点的第一画像特征数据,以及多个兴趣点已标注的多个标签中各标签的第二画像特征数据。
在本实施例中,用于优化兴趣点标签的方法的执行主体(例如图1所示的服务器103)可以获取兴趣点集合以及兴趣点集合中各兴趣点所对应的已标注标签子集。
其中,兴趣点集合中包括有多个兴趣点,每个兴趣点具有对应已标注标签子集,已标注标签子集包括预先对所对应的兴趣点进行标注的至少一个标签。其中,在地理信息系统中,兴趣点可以包括但不限于用户感兴趣的商铺、公交车站、大厦、地铁站等等。兴趣点所标注的标签可以是兴趣点的信息,包括但不限于兴趣点的类别、属性等信息。需要说明的是,本公开实施例中的用标签对兴趣点进行“标注”具体是指,建立兴趣点与标签的对应关系。例如,可以通过数据表来建立、存储兴趣点于标签的对应关系,本公开的技术方案对建立兴趣点与标签的对应关系的具体方式不作限定。
通常,利用标签对兴趣点进行标注的方式包括但不限于以下两种:
其一,采用人工标注的方式来为兴趣点标注相应的标签。由于人工标注的标签,其与兴趣点的匹配度取决于人工标注的认真程度,不可避免的会引入一些错误标签。
其二,从与兴趣点相关的文本数据中挖掘出标签,并对兴趣点进行标注。然而,在实际应用中发现,除少数头部兴趣点(包括一些排名靠前的兴趣点以及热度较高的兴趣点)之外,大部分的尾部兴趣点没有足够的评论数据,而导致提取出的标签较少甚至无法提取出标签。
在本公开实施例中,对兴趣点集合中全部兴趣点的已标注标签子集求并集,即可得到一个由全部标签所构成的完整标签集合。此时,兴趣点集合包括多个兴趣点,标签集合包括多个标签。
假定,兴趣点集合包括I个兴趣点,标签集合包括J个兴趣点,则兴趣点集合P可以表示为P={p1,p2......pI},第i个兴趣点为pi,1≤i≤I且i为整数;兴趣点集合T可以表示为T={t1,t2......tJ},第j个兴趣点为tj,1≤j≤J且j为整数。
在步骤S1中,可以通过特征工程的方式,为各兴趣点和标签提取出相应的画像特征(Feature)数据。在本公开实施例中,提取画像特征数据方法主要借助于用户行为数据和兴趣点本身的数据。
下面将结合附图来对本公开实施例中获取兴趣点的第一画像特征数据和标签的第二画像特征数据的具体实现方式,进行示例性描述。
图3a为本公开实施例中步骤S1的一种可选实施流程图,如图3a所示,作为一种可选实施方案,步骤S1包括:
步骤S101a、针对每一个兴趣点,从至预先获取到的知识图谱中抽取出该兴趣点的描述性特征,构成该兴趣点的第一画像特征数据。
知识图谱(Knowledge Graph)是一种结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系。图谱一般包含三种元素:实体、关系(Relationship)和属性(Attribute);其中,“关系”也可称为“边关系”,用于是连接不同的实体,指代其所连接的实体之间的联系;“属性”与实体连接,“属性”及其所携带的属性值用于描述对应的实体;知识图谱的基本单元为三元组,三元组有如下两种形式“实体-关系-实体”和“实体-属性-属性值”,知识图谱可以看作是三元组集合。
在本公开实施例中,以获取某一个兴趣点的第一画像特征数据为例,从知识图谱中确定出包含该兴趣点所对应的实体的三元组数据,然后生成该兴趣点的第一画像特征数据。需要说明的是,各兴趣点的第一画像特征数据可以采用具有第一预定义格式的向量来表示。即,各兴趣点的第一画像特征数据的具有相同格式。其中,第一预定义格式可以由人工进行预先自定义。
步骤S102a、针对每一个标签,从至预先获取到的知识图谱中抽取出该标签的描述性特征,构成该标签的第二画像特征数据。
在本公开实施例中,以获取某一个标签的第二画像特征数据为例,从知识图谱中确定出包含该标签所对应的实体的三元组数据,然后生成该标签的第二画像特征数据。需要说明的是,各标签的第二画像特征数据可以采用具有第二预定义格式的向量来表示。即,各兴趣点的第一画像特征数据的具有相同格式。其中,第二预定义格式可以由人工进行预先自定义。
需要说明的是,表征第一画像特征数据的向量的第一预定义格式与表征第二画像特征数据的向量的第二预定义格式,两种向量的维度可以相同(例如,第一画像特征数据为一个100维向量,第二画像特征数据也为100维向量),也可以不同(例如,第一画像特征数据为一个100维向量,第二画像特征数据也为80维向量);两种向量中每一维所代表的属性可以相同,也可以不同。
图3b为本公开实施例中步骤S1的另一种可选实施流程图,如图3b所示,作为一种可选实施方案,步骤S1包括:
步骤S101b、针对每一个兴趣点,确定该兴趣点的历史访问用户和/或历史检索用户,聚合该兴趣点的历史访问用户和/或历史检索用户的用户画像,得到该兴趣点的第一画像特征数据。
在步骤S101b中,将与某一个兴趣点相关的用户(历史访问用户和/或历史检索用户)的用户画像进行聚合统计,得到该兴趣点的第一画像特征数据。
图4为本公开实施例中示例A酒店的用户画像聚合统计的示意图,如图4所示,首先,获取A酒店的历史访问用户和/或历史检索用户,得到A酒店的相关用户集合;然后,对相关用户集合从不同的方面(图4中示例出了按照性别、年龄、婚姻状态)进行统计用户占比,基于统计结果可以得到酒店A的第一画像特征数据。
此时,第一画像特征数据的格式可以为:{女用户占比,男用户占比,小于18岁用户占比,18-24岁用户占,25-34岁用户占比,35-44岁用户占比,45-54岁用户占比,55-64岁用户占比,已婚用户占比,未婚用户占比}。
步骤S102b、对于每一个标签,确定属于该标签的兴趣点,基于属于该标签的全部兴趣点的第一画像特征数据,生成该标签的第二画像特征数据。
在步骤S102b中,作为一种可选实施方案,计算属于该标签的全部兴趣点的第一画像特征数据的平均值,作为该标签的第二画像特征数据。例如,以获取标签为“酒店”的第二画像特征数据为例,则将步骤S101b中已标注有“酒店”标签的全部兴趣点的第一画像特征数据求平均,即可得到标签为“酒店”的第一画像特征数据。当然,在本公开实施例中也可以基于属于标签的全部兴趣点的第一画像特征数据,而采用其他算法(例如,加权求和)来求得标签的第二画像特征数据,此处不再一一举例。
需要说明的是,当标签的第二画像特征数据是基于该标签的全部兴趣点的第一画像特征数据来得到时,则兴趣点的第一画像特征数据与标签的第二画像特征数据可采用相同的数据格式来表示。
步骤S2、将各兴趣点的第一画像特征数据和各标签的第二画像特征数据映射至同一度量空间,得到各兴趣点的第一特征向量以及各标签的第二特征向量。
在步骤S2中,对各兴趣点和各标签进行特征映射(该处理过程可看作是对各兴趣点和各标签进行特征抽取、降维),以得到各兴趣点和各标签在同一度量空间中的特征向量。其中,可采用线性映射算法或非线性映射算法进行处理,本公开的技术方案对所采用的具体映射算法不作限定。
图5为本公开实施例中实现步骤S2的一种可选实施流程图,如图5所示,步骤S2包括:
步骤S201、基于第一画像特征数据和第二画像特征数据对孪生神经网络进行训练,得到特征抽取模型。
其中,特征抽取模型包括:第一特征抽取子模型和第二特征抽取子模型,第一特征抽取子模型和第二特征抽取子模型分别用于将第一画像特征数据和第二画像特征数据映射至同一度量空间。
图6为本公开实施例中实现步骤S201的一种可选实施流程图,如图6所示,步骤S201包括:
步骤S2011、建立孪生神经网络,孪生神经网络包括参数共享的第一子网模型和第二子网模型。
其中,第一子网模型记为F(),第二子网模型记为G(),其中第一子网模型和第二子网模型为孪生神经网络(Siamese Network)中的两个子网模型,该两个子网模型具有孪生关系,可以共享模型参数。第一子网模型F()和第二子网模型G()分别能够将第一画像特征数据
Figure BDA0002383411730000111
和第二画像特征数据
Figure BDA0002383411730000112
映射至相同的度量空间。
步骤S2012、定义整体损失函数。
步骤S2013、利用第一画像特征数据、第二画像特征数据、整体损失函数来对第一子网模型和第二子网模型进行训练。
在一些实施例中,步骤S2012所定义的整体损失函数为:
Figure BDA0002383411730000121
L表示特征抽取模型的整体损失值,P表示全部兴趣点所构成的兴趣点集合,T表示全部标签所构成的标签集合,pi表示兴趣点集合中第i个兴趣点,
Figure BDA0002383411730000122
表示第i个兴趣点的第一画像特征数据,tj表示标签集合中第j个标签,
Figure BDA0002383411730000123
表示第j个标签的第二画像特征数据,
Figure BDA0002383411730000124
为兴趣点标签损失函数。
其中,若标签tj不为兴趣点pi已标注的标签之一,则
Figure BDA0002383411730000125
若标签tj为兴趣点pi已标注的标签之一,则
Figure BDA0002383411730000126
Figure BDA0002383411730000127
表示将第一画像特征数据
Figure BDA0002383411730000128
输入至第一子网模型后得到的特征向量;
Figure BDA0002383411730000129
表示将第二画像特征数据
Figure BDA00023834117300001210
输入至第一子网模型后得到的特征向量;
Figure BDA00023834117300001211
Figure BDA00023834117300001212
表示特征向量
Figure BDA00023834117300001213
和特征向量
Figure BDA00023834117300001214
的余弦相似度;m为预定义的参量,0<m<1,例如m=0.2;max()为求最大值函数。
第一子网模型F()和第二子网模型G()通过最小化整体损失函数的取值L来实现训练、优化。基于给定的样本集和定义的损失函数来训练孪生神经网络的过程属于本领域的常规技术,此处不进行赘述。完成训练的第一子网模型作为第一特征抽取子模型,完成训练的第二子网模型作为第二特征抽取子模型;其中第一特征抽取子模型记为F'(),第二特征抽取子模型记为G'()。
需要说明的是,第一特征抽取子模型F'()输出第一特征向量和第二特征抽取子模型G'()所输出特征向量,两种特征向量的维度(可以由人工预先配置或由模型在训练过程中自适应确定)和每一维特征(在训练过程中自适应确定)均相同。
步骤S202、将各兴趣点的第一画像特征数据分别输入至第一特征抽取子模型,得到各兴趣点在度量空间内的第一特征向量。
其中,第i个兴趣点的第一画像特征数据
Figure BDA0002383411730000131
输入至第一特征抽取子模型F'()后,得到的第一特征向量记为
Figure BDA0002383411730000132
步骤S203、将各标签的第二画像特征数据分别输入至第二特征抽取子模型,得到各标签在度量空间内的第二特征向量。
其中,第j个标签的第二画像特征数据
Figure BDA0002383411730000133
输入至第一特征抽取子模型G'()后,得到的第二特征向量记为
Figure BDA0002383411730000134
步骤S3、针对目标兴趣点,根据该目标兴趣点的第一特征向量与至少部分标签的第二特征向量之间的向量相似度,对目标兴趣点已标注的标签进行优化。
其中,可通过余弦相似度算法、欧几里得距离算法、皮尔森相关系数等能够计算两个向量之间相似度的任意相似度算法,来求得第一特征向量与第二特征向量之间的向量相似度。本公开的计算方案对计算向量像素度的算法不作限定。
在步骤S3中,目标兴趣点为用户希望进行标签优化处理的兴趣点。在一些实施例中,目标兴趣点为兴趣点集合中的每一个兴趣点,即需要对兴趣点集合中的每一个兴趣点均进行优化。
在对目标兴趣点进行标签优化处理过程中,可基于该目标兴趣点与至少一个标签之间的特征向量的向量相似度来进行优化。在一些实施例中,可先计算目标兴趣点的第一特征向量与每一个标签的第二特征向量之间的向量相似度,然后基于计算结果来对该目标兴趣点的已标注标签子集进行优化。
在一些实施例中,在计算出目标兴趣点的第一特征向量与某一个目标标签的第二特征向量之间的向量相似度后,可根据计算结果进行相应处理。其中,可分为三种情况:1)目标标签不为目标兴趣点已标注的标签,且目标兴趣点的第一特征向量与目标标签的第二特征向量之间的向量相似度大于第一预设阈值;2)目标标签为目标兴趣点已标注的标签,且目标兴趣点的第一特征向量与目标标签的第二特征向量之间的向量相似度小于第二预设阈值;3)其他情况。
若计算结果对应情况1),则将目标标签新增为目标兴趣点已标注的标签(即,将目标标签添加至目标标签的已标注标签子集内),从而实现对兴趣点的已标注标签的扩充。若计算结果对应情况2),则将目标标签从目标兴趣点已标注的标签中删除(即,将目标标签的已标注标签子集内的该目标标签删除),从而实现对兴趣点的已标注标签的修正。其中,第二预设阈值小于或等于第一预设阈值。若计算结果为情况3),则不进行处理。
本公开实施例提供了一种兴趣点的标签优化方法,可对兴趣点的已标注标签子集进行优化,兴趣点与已标注标签之间的匹配度。
图7为本公开实施例提供的一种兴趣点的标签优化装置的结构框图,如图7所示,该兴趣点的标签优化装置可用于实现上述实施例提供的标签优化方法。该标签优化装置包括:获取模块1、映射模块2和优化模块3。
其中,获取模块1配置为获取多个兴趣点中各兴趣点的第一画像特征数据,以及多个兴趣点已标注的多个标签中各标签的第二画像特征数据。
映射模块2配置为将各兴趣点的第一画像特征数据和各标签的第二画像特征数据映射至同一度量空间,得到各兴趣点的第一特征向量以及各标签的第二特征向量。
优化模块3配置为针对目标兴趣点,根据该目标兴趣点的第一特征向量与至少部分标签的第二特征向量之间的向量相似度,对目标兴趣点已标注的标签进行优化。
需要说明的是,上述获取模块1、映射模块2和优化模块3可分别用于实现上述实施例中的步骤S1、步骤S2和步骤S3。对于各模块的具体描述,可参见前述实施例中相应内容,此处不再赘述。
图8a为本公开实施例中获取模块1的一种结构框图,如图8a所示,在一些实施例中,获取模块1包括:第一获取单元101a和第二获取单元102a。
其中,第一获取单元101a配置为针对每一个兴趣点,确定该兴趣点的历史访问用户和/或历史检索用户,聚合该兴趣点的历史访问用户和/或历史检索用户的用户画像,得到该兴趣点的第一画像特征数据。
第二获取单元102a配置为对于每一个标签,确定属于该标签的兴趣点,基于属于该标签的全部兴趣点的第一画像特征数据,生成该标签的第二画像特征数据。
在一些实施例中,第二获取单元102a具体用于对于每一个标签,计算属于该标签的全部兴趣点的第一画像特征数据的平均值,作为该标签的第二画像特征数据。
其中,第一获取单元101a和第二获取单元102a分别用于实现上述实施例中的步骤S101a和步骤S102a。
图8b为本公开实施例中获取模块1的另一种结构框图,如图8b所示,在一些实施例中,获取模块1包括:第三获取单元101b和第四获取单元102b。
第三获取单元101b配置为针对每一个兴趣点,从至预先获取到的知识图谱中抽取出该兴趣点的描述性特征,构成该兴趣点的第一画像特征数据。
第三获取单元101b配置为针对每一个标签,从至预先获取到的知识图谱中抽取出该标签的描述性特征,构成该标签的第二画像特征数据。
其中,第三获取单元101b和第四获取单元102b分别用于实现上述实施例中的步骤S101b和步骤S102b。
图9为本公开实施例中映射模块2的一种结构框图,如图9所示,在一些实施例中,映射模块2包括:训练单元201、第一处理单元202和第二处理单元203。
训练单元201配置为基于第一画像特征数据和第二画像特征数据对孪生神经网络进行训练,得到特征抽取模型,特征抽取模型包括:第一特征抽取子模型和第二特征抽取子模型,第一特征抽取子模型和第二特征抽取子模型分别用于将第一画像特征数据和第二画像特征数据映射至同一度量空间。
第一处理单元202配置为将各兴趣点的第一画像特征数据分别输入至第一特征抽取子模型,得到各兴趣点在度量空间内的第一特征向量。
第二处理单元203配置为将各标签的第二画像特征数据分别输入至第二特征抽取子模型,得到各标签在度量空间内的第二特征向量。
在一些实施例中,训练单元201包括:建模子单元(未示出)、定义子单元(未示出)和训练优化子单元(未示出)。
建模子单元配置为建立孪生神经网络,孪生神经网络包括参数共享的第一子网模型和第二子网模型,第一子网模型和第二子网模型分别能够将第一画像特征数据和第二画像特征数据映射至相同的度量空间。
定义子单元配置为定义整体损失函数。
训练优化子单元配置为利用第一画像特征数据、第二画像特征数据、整体损失函数来对第一子网模型和第二子网模型进行训练,完成训练的第一子网模型为第一特征抽取子模型,完成训练的第二子网模型为第二特征抽取子模型。
在一些实施例中,整体损失函数为:
Figure BDA0002383411730000161
L表示特征抽取模型的整体损失值,P表示全部兴趣点所构成的兴趣点集合,T表示全部标签所构成的标签集合,pi表示兴趣点集合中第i个兴趣点,
Figure BDA0002383411730000162
表示第i个兴趣点的第一画像特征数据,tj表示标签集合中第j个标签,
Figure BDA0002383411730000163
表示第j个标签的第二画像特征数据,
Figure BDA0002383411730000164
为兴趣点标签损失函数;
其中,若标签tj不为兴趣点pi已标注的标签之一,则
Figure BDA0002383411730000171
若标签tj为兴趣点pi已标注的标签之一,则
Figure BDA0002383411730000172
Figure BDA0002383411730000173
表示将第一画像特征数据
Figure BDA0002383411730000174
输入至第一子网模型后得到的特征向量,
Figure BDA0002383411730000175
表示将第二画像特征数据
Figure BDA0002383411730000176
输入至第一子网模型后得到的特征向量,
Figure BDA0002383411730000177
Figure BDA0002383411730000178
表示特征向量
Figure BDA0002383411730000179
和特征向量
Figure BDA00023834117300001710
的余弦相似度,m为预定义的参量。
其中,训练单元201、第一处理单元202和第二处理单元203分别用于实现上述实施例中的步骤S201、步骤S202和步骤S203,建模子单元、定义子单元和训练优化子单元分别用于实现上述实施例中的步骤S2011、步骤S2012和步骤S2013。
图10为本公开实施例中优化模块3的一种结构框图,如图10所示,在一些实施例中,优化模块3包括:计算单元301、增添单元302和删除单元303。
其中,计算单元301配置为计算目标兴趣点的第一特征向量与目标标签的第二特征向量之间的向量相似度。
增添单元302配置为当目标兴趣点的第一特征向量与目标标签的第二特征向量之间的向量相似度大于第一预设阈值,且目标标签不为目标兴趣点已标注的标签时,将目标标签新增为目标兴趣点已标注的标签。
删除单元303配置为当目标兴趣点的第一特征向量与目标标签的第二特征向量之间的向量相似度小于第二预设阈值,且目标标签为目标兴趣点已标注的标签时,将目标标签从目标兴趣点已标注的标签中删除;其中,第二预设阈值小于或等于第一预设阈值。
图11为本公开实施例提供的一种电子设备的结构示意图,如图11所示,该电子设备包括:一个或多个处理器501,以及存储器502。其中,存储器502上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述实施例所提供的标签优化方法。
在一些实施例中,电子设备还包括:一个或多个I/O接口503,连接在处理器501与存储器502之间,配置为实现处理器501与存储器502的信息交互。
其中,处理器501为具有数据处理能力的器件,其包括但不限于中央处理器(CPU)等;存储器502为具有数据存储能力的器件,其包括但不限于随机存取存储器(RAM,更具体如SDRAM、DDR等)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、闪存(FLASH);I/O接口(读写接口)503连接在处理器501与存储器502间,能实现处理器501与存储器502的信息交互,其包括但不限于数据总线(Bus)等。
在一些实施例中,处理器501、存储器502和I/O接口503通过总线504相互连接,进而与计算设备800的其他组件连接。
本公开实施例还提供了一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现上述实施例所提供的标签优化方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其它的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其它传输机制之类的调制数据信号中的其它数据,并且可包括任何信息递送介质。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其它实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本公开的范围的情况下,可进行各种形式和细节上的改变。

Claims (12)

1.一种兴趣点的标签优化方法,其中,包括:
获取多个兴趣点中各所述兴趣点的第一画像特征数据,以及所述多个兴趣点已标注的多个标签中各所述标签的第二画像特征数据;
将各所述兴趣点的第一画像特征数据和各所述标签的第二画像特征数据映射至同一度量空间,得到各所述兴趣点的第一特征向量以及各所述标签的第二特征向量;
针对目标兴趣点,根据该目标兴趣点的第一特征向量与至少部分所述标签的第二特征向量之间的向量相似度,对所述目标兴趣点已标注的标签进行优化。
2.根据权利要求1所述的方法,其中,所述将各所述兴趣点的第一画像特征数据和各所述标签的第二画像特征数据映射至同一度量空间,得到各所述兴趣点的第一特征向量以及各所述标签的第二特征向量的步骤包括:
基于所述第一画像特征数据和所述第二画像特征数据对孪生神经网络进行训练,得到特征抽取模型,所述特征抽取模型包括:第一特征抽取子模型和第二特征抽取子模型,所述第一特征抽取子模型和所述第二特征抽取子模型分别用于将所述第一画像特征数据和所述第二画像特征数据映射至同一度量空间;
将各所述兴趣点的第一画像特征数据分别输入至所述第一特征抽取子模型,得到各所述兴趣点在所述度量空间内的第一特征向量;
将各所述标签的第二画像特征数据分别输入至所述第二特征抽取子模型,得到各所述标签在所述度量空间内的第二特征向量。
3.根据权利要求2所述的方法,其中,所述基于所述第一画像特征数据和所述第二画像特征数据对孪生神经网络进行训练的步骤包括:
建立孪生神经网络,所述孪生神经网络包括参数共享的第一子网模型和第二子网模型,所述第一子网模型和所述第二子网模型分别能够将所述第一画像特征数据和所述第二画像特征数据映射至相同的度量空间;
定义整体损失函数;
利用所述第一画像特征数据、所述第二画像特征数据、所述整体损失函数来对所述第一子网模型和第二子网模型进行训练,完成训练的第一子网模型为所述第一特征抽取子模型,完成训练的第二子网模型为所述第二特征抽取子模型。
4.根据权利要求3所述的方法,其中,所述整体损失函数为:
Figure FDA0002383411720000021
L表示所述特征抽取模型的整体损失值,P表示全部所述兴趣点所构成的兴趣点集合,T表示全部所述标签所构成的标签集合,pi表示所述兴趣点集合中第i个兴趣点,
Figure FDA0002383411720000022
表示第i个兴趣点的第一画像特征数据,tj表示所述标签集合中第j个标签,
Figure FDA0002383411720000023
表示第j个标签的第二画像特征数据,
Figure FDA0002383411720000024
为兴趣点标签损失函数;
其中,若标签tj不为兴趣点pi已标注的标签之一,则
Figure FDA0002383411720000025
若标签tj为兴趣点pi已标注的标签之一,则
Figure FDA0002383411720000026
Figure FDA0002383411720000027
表示将第一画像特征数据
Figure FDA0002383411720000028
输入至第一子网模型后得到的特征向量,
Figure FDA0002383411720000029
表示将第二画像特征数据
Figure FDA00023834117200000210
输入至第一子网模型后得到的特征向量,
Figure FDA00023834117200000211
表示特征向量
Figure FDA00023834117200000212
和特征向量
Figure FDA00023834117200000213
的余弦相似度,m为预定义的参量。
5.根据权利要求1所述的方法,其中,获取多个兴趣点中各所述兴趣点的第一画像特征数据,以及所述多个兴趣点已标注的多个标签中各所述标签的第二画像特征数据的步骤包括:
针对每一个所述兴趣点,确定该兴趣点的历史访问用户和/或历史检索用户,聚合该兴趣点的历史访问用户和/或历史检索用户的用户画像,得到该兴趣点的第一画像特征数据;
对于每一个所述标签,确定属于该标签的兴趣点,基于属于该标签的全部兴趣点的第一画像特征数据,生成该标签的第二画像特征数据。
6.根据权利要求5所述的方法,其中,所述基于属于该标签的全部兴趣点的第一画像特征数据,生成该标签的第二画像特征数据的步骤具体包括:
计算属于该标签的全部兴趣点的第一画像特征数据的平均值,作为该标签的第二画像特征数据。
7.根据权利要求1所述的方法,其中,所述获取多个兴趣点中各所述兴趣点的第一画像特征数据,以及所述多个兴趣点已标注的多个标签中各所述标签的第二画像特征数据的步骤包括:
针对每一个所述兴趣点,从至预先获取到的知识图谱中抽取出该兴趣点的描述性特征,构成该兴趣点的第一画像特征数据;
针对每一个所述标签,从至预先获取到的知识图谱中抽取出该标签的描述性特征,构成该标签的第二画像特征数据。
8.根据权利要求1所述的方法,其中,所述根据该目标兴趣点的第一特征向量与至少部分所述标签的第二特征向量之间的向量相似度,对所述兴趣点已标注的标签进行优化的步骤包括:
计算所述目标兴趣点的第一特征向量与目标标签的第二特征向量之间的向量相似度;
若所述目标兴趣点的第一特征向量与所述目标标签的第二特征向量之间的向量相似度大于第一预设阈值,且所述目标标签不为所述目标兴趣点已标注的标签,则将所述目标标签新增为所述目标兴趣点已标注的标签;
若所述目标兴趣点的第一特征向量与所述目标标签的第二特征向量之间的向量相似度小于第二预设阈值,且所述目标标签为所述目标兴趣点已标注的标签,则将所述目标标签从所述目标兴趣点已标注的标签中删除;
所述第二预设阈值小于或等于所述第一预设阈值。
9.根据权利要求1-8中任一所述的方法,其中,所述目标兴趣点为所述多个兴趣点中的每一个兴趣点。
10.一种兴趣点的标签优化装置,其中,包括:
获取模块,配置为获取多个兴趣点中各所述兴趣点的第一画像特征数据,以及所述多个兴趣点已标注的多个标签中各所述标签的第二画像特征数据;
映射模块,配置为将各所述兴趣点的第一画像特征数据和各所述标签的第二画像特征数据映射至同一度量空间,得到各所述兴趣点的第一特征向量以及各所述标签的第二特征向量;
优化模块,配置为针对目标兴趣点,根据该目标兴趣点的第一特征向量与至少部分所述标签的第二特征向量之间的向量相似度,对所述目标兴趣点已标注的标签进行优化。
11.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现权利要求1-9中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现权利要求1-9中任一所述的方法。
CN202010090134.2A 2020-02-13 2020-02-13 兴趣点的标签优化方法、装置、电子设备和计算机可读介质 Active CN111310074B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010090134.2A CN111310074B (zh) 2020-02-13 2020-02-13 兴趣点的标签优化方法、装置、电子设备和计算机可读介质
US17/037,144 US20210254992A1 (en) 2020-02-13 2020-09-29 Method and apparatus for optimizing tag of point of interest, electronic device and computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010090134.2A CN111310074B (zh) 2020-02-13 2020-02-13 兴趣点的标签优化方法、装置、电子设备和计算机可读介质

Publications (2)

Publication Number Publication Date
CN111310074A true CN111310074A (zh) 2020-06-19
CN111310074B CN111310074B (zh) 2023-08-18

Family

ID=71147063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010090134.2A Active CN111310074B (zh) 2020-02-13 2020-02-13 兴趣点的标签优化方法、装置、电子设备和计算机可读介质

Country Status (2)

Country Link
US (1) US20210254992A1 (zh)
CN (1) CN111310074B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967518A (zh) * 2020-08-18 2020-11-20 深圳市欢太科技有限公司 应用标注方法、应用标注装置及终端设备
CN112100522A (zh) * 2020-09-15 2020-12-18 北京百度网讯科技有限公司 用于检索兴趣点的方法、装置、设备及介质
CN112308166A (zh) * 2020-11-09 2021-02-02 建信金融科技有限责任公司 一种处理标签数据的方法和装置
CN112528639A (zh) * 2020-11-30 2021-03-19 腾讯科技(深圳)有限公司 对象识别方法和装置、存储介质及电子设备
CN113326450A (zh) * 2021-05-31 2021-08-31 北京百度网讯科技有限公司 一种兴趣点召回方法、装置、电子设备和存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210109327A (ko) * 2020-02-27 2021-09-06 삼성전자주식회사 인공신경망의 학습 방법 및 장치

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110113040A1 (en) * 2009-11-06 2011-05-12 Nokia Corporation Method and apparatus for preparation of indexing structures for determining similar points-of-interests
US20150186503A1 (en) * 2012-10-12 2015-07-02 Tencent Technology (Shenzhen) Company Limited Method, system, and computer readable medium for interest tag recommendation
WO2018112696A1 (zh) * 2016-12-19 2018-06-28 深圳大学 一种内容推荐方法及内容推荐系统
WO2018157818A1 (zh) * 2017-03-02 2018-09-07 广州市动景计算机科技有限公司 用户偏好的推测方法、装置、终端设备及存储介质
CN109636430A (zh) * 2017-10-09 2019-04-16 北京京东尚科信息技术有限公司 对象识别方法及其系统
CN109753993A (zh) * 2018-12-11 2019-05-14 东软集团股份有限公司 用户画像方法、装置、计算机可读存储介质及电子设备
CN109784367A (zh) * 2018-12-11 2019-05-21 东软集团股份有限公司 用户画像方法、装置、计算机可读存储介质及电子设备
CN109903117A (zh) * 2019-01-04 2019-06-18 苏宁易购集团股份有限公司 一种用于商品推荐的知识图谱处理方法及装置
CN110209908A (zh) * 2019-04-19 2019-09-06 平安科技(深圳)有限公司 基于用户兴趣画像的应用推荐方法、装置、计算机设备及计算机存储介质
CN110309405A (zh) * 2018-03-08 2019-10-08 腾讯科技(深圳)有限公司 一种项目推荐方法、装置及存储介质
CN110781321A (zh) * 2019-08-28 2020-02-11 腾讯科技(深圳)有限公司 一种多媒体内容推荐方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5371572B2 (ja) * 2009-06-22 2013-12-18 Kddi株式会社 類似度算出装置、推薦poi決定装置、poi推薦システム、類似度算出方法およびプログラム
US9123259B2 (en) * 2013-03-14 2015-09-01 Microsoft Technology Licensing, Llc Discovering functional groups of an area
US10296828B2 (en) * 2017-04-05 2019-05-21 Here Global B.V. Learning a similarity measure for vision-based localization on a high definition (HD) map

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110113040A1 (en) * 2009-11-06 2011-05-12 Nokia Corporation Method and apparatus for preparation of indexing structures for determining similar points-of-interests
US20150186503A1 (en) * 2012-10-12 2015-07-02 Tencent Technology (Shenzhen) Company Limited Method, system, and computer readable medium for interest tag recommendation
WO2018112696A1 (zh) * 2016-12-19 2018-06-28 深圳大学 一种内容推荐方法及内容推荐系统
WO2018157818A1 (zh) * 2017-03-02 2018-09-07 广州市动景计算机科技有限公司 用户偏好的推测方法、装置、终端设备及存储介质
CN109636430A (zh) * 2017-10-09 2019-04-16 北京京东尚科信息技术有限公司 对象识别方法及其系统
CN110309405A (zh) * 2018-03-08 2019-10-08 腾讯科技(深圳)有限公司 一种项目推荐方法、装置及存储介质
CN109753993A (zh) * 2018-12-11 2019-05-14 东软集团股份有限公司 用户画像方法、装置、计算机可读存储介质及电子设备
CN109784367A (zh) * 2018-12-11 2019-05-21 东软集团股份有限公司 用户画像方法、装置、计算机可读存储介质及电子设备
CN109903117A (zh) * 2019-01-04 2019-06-18 苏宁易购集团股份有限公司 一种用于商品推荐的知识图谱处理方法及装置
CN110209908A (zh) * 2019-04-19 2019-09-06 平安科技(深圳)有限公司 基于用户兴趣画像的应用推荐方法、装置、计算机设备及计算机存储介质
CN110781321A (zh) * 2019-08-28 2020-02-11 腾讯科技(深圳)有限公司 一种多媒体内容推荐方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
EFSTRATIOS KAKALETSIS: "Label Propagation on Facial Images Using Similarity and Dissimilarity Labeling Constraints" *
王丹: "基于主题模型的用户画像提取算法研究" *
赵淑婷: "基于神经网络的多领域资源推荐算法研究" *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967518A (zh) * 2020-08-18 2020-11-20 深圳市欢太科技有限公司 应用标注方法、应用标注装置及终端设备
CN111967518B (zh) * 2020-08-18 2023-10-13 深圳市欢太科技有限公司 应用标注方法、应用标注装置及终端设备
CN112100522A (zh) * 2020-09-15 2020-12-18 北京百度网讯科技有限公司 用于检索兴趣点的方法、装置、设备及介质
CN112308166A (zh) * 2020-11-09 2021-02-02 建信金融科技有限责任公司 一种处理标签数据的方法和装置
CN112528639A (zh) * 2020-11-30 2021-03-19 腾讯科技(深圳)有限公司 对象识别方法和装置、存储介质及电子设备
CN112528639B (zh) * 2020-11-30 2022-03-18 腾讯科技(深圳)有限公司 对象识别方法和装置、存储介质及电子设备
CN113326450A (zh) * 2021-05-31 2021-08-31 北京百度网讯科技有限公司 一种兴趣点召回方法、装置、电子设备和存储介质
CN113326450B (zh) * 2021-05-31 2024-01-12 北京百度网讯科技有限公司 一种兴趣点召回方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
US20210254992A1 (en) 2021-08-19
CN111310074B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN111310074B (zh) 兴趣点的标签优化方法、装置、电子设备和计算机可读介质
CN111382283B (zh) 资源类别标签标注方法、装置、计算机设备和存储介质
CN107145485B (zh) 用于压缩主题模型的方法和装置
CN111522989B (zh) 用于图像检索的方法、计算设备和计算机存储介质
CN110781407A (zh) 用户标签生成方法、装置及计算机可读存储介质
WO2019019385A1 (zh) 跨平台数据匹配方法、装置、计算机设备和存储介质
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN113657087B (zh) 信息的匹配方法及装置
CN112434194A (zh) 基于知识图谱的相似用户识别方法、装置、设备及介质
CN115129883B (zh) 实体链接方法和装置、存储介质及电子设备
CN112989169A (zh) 目标对象识别方法、信息推荐方法、装置、设备及介质
CN110399564B (zh) 帐号分类方法和装置、存储介质及电子装置
WO2022188646A1 (zh) 图数据处理方法、装置、设备、存储介质及程序产品
CN112818213A (zh) 多媒体业务数据推送方法、装置、设备及存储介质
CN116541592A (zh) 向量生成方法、信息推荐方法、装置、设备及介质
CN111935259B (zh) 目标帐号集合的确定方法和装置、存储介质及电子设备
CN115204436A (zh) 检测业务指标异常原因的方法、装置、设备及介质
CN114443904A (zh) 视频查询方法、装置、计算机设备及计算机可读存储介质
CN114282119A (zh) 一种基于异构信息网络的科技信息资源检索方法及系统
CN113886547A (zh) 基于人工智能的客户实时对话转接方法、装置和电子设备
CN111611981A (zh) 信息识别方法和装置及信息识别神经网络训练方法和装置
Huang et al. A hybrid clustering approach for bag-of-words image categorization
CN113139834A (zh) 信息处理方法、装置、电子设备和存储介质
CN111984812A (zh) 一种特征提取模型生成方法、图像检索方法、装置及设备
CN116257760B (zh) 一种数据划分方法、系统、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant