CN111339425A - 一种对象标记方法、装置、服务器及存储介质 - Google Patents
一种对象标记方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN111339425A CN111339425A CN202010148860.5A CN202010148860A CN111339425A CN 111339425 A CN111339425 A CN 111339425A CN 202010148860 A CN202010148860 A CN 202010148860A CN 111339425 A CN111339425 A CN 111339425A
- Authority
- CN
- China
- Prior art keywords
- objects
- target
- node
- type data
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种对象类型标记方法、装置、服务器及存储介质,该方法包括:获取与对象提供方关联的至少一个对象集合,所述对象集合包括所述对象提供方提供的预聚集的多个对象;根据多个所述对象提供方关联的对象集合,确定目标对象集合中各对象之间的相似度;根据所述目标对象集合中各对象之间的相似度,及所述第一部分的对象的类型数据,确定所述第二部分的对象的类型数据;根据所述第一部分的对象及所述第二部分的对象的类型数据,确定对象与类型的对应关系;根据所述对应关系,为所述对象提供方提供的对象标记类型,提升了对象标记的覆盖率。
Description
技术领域
本发明实施例涉及数据处理技术领域,具体涉及一种对象标记方法、装置、服务器及存储介质。
背景技术
对象标记是指为对象提供方提供的对象标记相应的类型,其在相似对象确定、对象推荐等场景下具有广泛应用。目前主要是通过记录类型对应的关键词,将对象的相关信息与类型对应的关键词进行匹配,以确定对象相匹配的类型,实现为对象标记类型。
然而,各类型对应的关键词难以穷举,这导致一个类型对应的关键词难以覆盖属于该类型的所有对象,因此基于类型对应的关键词进行对象标记,可能存在无法被标记的对象,这无疑存在对象标记的覆盖率较低的问题;因此如何改进对象标记方式,以提升对象标记的覆盖率,成为了本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明实施例提供一种对象标记方法、装置、服务器及存储介质,以提升对象标记的覆盖率。
为实现上述目的,本发明实施例提供如下技术方案:
一种对象标记方法,包括:
获取与对象提供方关联的至少一个对象集合,所述对象集合包括所述对象提供方提供的预聚集的多个对象;
根据多个所述对象提供方关联的对象集合,确定目标对象集合中各对象之间的相似度;所述目标对象集合包括多个所述对象提供方关联的对象集合中的不同对象,且,所述目标对象集合中第一部分的对象已确定类型数据,第二部分的对象未确定类型数据;
根据所述目标对象集合中各对象之间的相似度,及所述第一部分的对象的类型数据,确定所述第二部分的对象的类型数据;
根据所述第一部分的对象及所述第二部分的对象的类型数据,确定对象与类型的对应关系;
根据所述对应关系,为所述对象提供方提供的对象标记类型。
可选的,所述根据多个所述对象提供方关联的对象集合,确定目标对象集合中各对象之间的相似度包括:
针对所述目标对象集合中的任一个对象,根据所述对象所属的对象集合中的上下文,确定所述对象的对象向量;所述上下文为所述对象所属的对象集合中,位于所述对象之前的对象及位于所述对象之后的对象;
根据所述目标对象集合中各对象的对象向量,确定所述目标对象集合中各对象之间的相似度。
可选的,所述根据所述对象所属的对象集合中的上下文,确定所述对象的对象向量包括:
根据所述对象在所属的对象集合中的上下文,确定所述对象的词向量,所述词向量作为所述对象向量;其中,所述对象集合中的一个对象定义为一个词单元,一个所述对象集合定义为一个句单元。
可选的,所述上下文具体为所述对象所属的对象集合中,位于所述对象之前的第一预设数量的对象,及位于所述对象之后的第一预设数量的对象;所述第一预设数量大于或等于,所述多个对象提供方关联的对象集合中的对象数量的最大值。
可选的,所述根据所述目标对象集合中各对象之间的相似度,及所述第一部分的对象的类型数据,确定所述第二部分的对象的类型数据,包括:
以所述目标对象集合中的对象为节点,所述目标对象集合中各对象之间的相似度为节点的连接边的权值,构建标签数据传播图;其中,标签数据传播图中的节点包括所述第一部分对象的第一节点,和所述第二部分对象的第二节点;
根据所述第一部分的对象的类型数据,确定所述标签数据传播图中第一节点的标签数据,其中,一个节点的标签数据包括所述节点的对象的类型分布数据;
根据所述标签数据传播图中各节点之间的连接关系、各节点之间的连接边的权值,及所述第一节点的标签数据,预测所述标签数据传播图中第二节点的标签数据;
根据所述第二节点的标签数据,确定所述第二部分的对象的类型数据。
可选的,所述根据所述标签数据传播图中各节点之间的连接关系、各节点之间的连接边的权值,及所述第一节点的标签数据,预测所述标签数据传播图中第二节点的标签数据,包括:
针对标签数据传播图中的任一第二节点,根据所述标签数据传播图中各节点之间的连接关系,确定所述第二节点的相邻节点及所述相邻节点的标签数据;
根据所述相邻节点的标签数据,及所述相邻节点与所述第二节点的连接边的权值,确定所述第二节点的标签数据;其中,所述相邻节点与所述第二节点的连接边的权值,与所述相邻节点和所述第二节点的标签数据的接近程度为正相关关系。
可选的,所述类型数据包括对应目标类型的目标类型数据和对应非目标类型的非目标类型数据;所述根据所述第一部分的对象及所述第二部分的对象的类型数据,确定对象与类型的对应关系,包括:
基于所述第一部分的对象中目标类型数据对应的对象,及所述第二部分的对象中目标类型数据对应的对象,确定目标类型数据与对象的初始对应关系;
获取针对所述初始对应关系的审核信息,在所述审核信息指示所述初始对应关系审核通过时,将所述初始对应关系作为目标类型数据与对象的目标对应关系。
一种对象标记装置,包括:
对象集合获取单元,用于获取与对象提供方关联的至少一个对象集合,所述对象集合包括所述对象提供方提供的预聚集的多个对象;
相似度确定单元,用于根据多个所述对象提供方关联的对象集合,确定目标对象集合中各对象之间的相似度;所述目标对象集合包括多个所述对象提供方关联的对象集合中的不同对象,且,所述目标对象集合中第一部分的对象已确定类型数据,第二部分的对象未确定类型数据;
第二类型数据确定单元,用于根据所述目标对象集合中各对象之间的相似度,及所述第一部分的对象的类型数据,确定所述第二部分的对象的类型数据;
对应关系确定单元,用于根据所述第一部分的对象及所述第二部分的对象的类型数据,确定对象与类型的对应关系;
标记单元,用于根据所述对应关系,为所述对象提供方提供的对象标记类型。
一种平台服务器,其特征在于,包括至少一个存储器和至少一个处理器;所述存储器存储一条或多条计算机可执行指令,所述处理器调用所述一条或多条计算机可执行指令,以执行以上对象标记方法。
一种存储介质,所述存储介质存储一条或多条计算机可执行指令,所述一条或多条计算机可执行指令用于执行以上对象标记方法。
本发明实施例提供的对象类型标记方法,利用对象提供方关联的对象集合的聚类性质,通过获取与对象提供方关联的至少一个对象集合,进而根据多个所述对象提供方关联的对象集合,确定包括多个所述对象提供方关联的对象集合中的不同对象的目标对象集合中各对象的相似度,并进一步根据所述目标对象集合中各对象的相似度,及已确定的第一部分的对象的类型数据,确定所述第二部分的对象的类型数据,从而确定对象与类型的对应关系,得到属于对应类型的准确对象,进而根据所述对应关系,为所述对象提供方提供的对象标记类型。基于对象提供方提供的数据,利用对象提供方关联的对象集合的聚类性质,得到属于对应类型的准确对象,实现了直接对对象的尽可能穷举,进而为所述对象提供方提供的对象标记类型,提高了对象标记的覆盖率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明实施例提供的一对象标记方法的流程图;
图2是本发明实施例提供的一个商户页面参考图;
图3是本发明实施例提供的对象标记方法的另一可选流程;
图4是本发明实施例提供的对象标记方法的又一可选流程;
图5是本发明实施例提供的标签数据传播图;
图6是本发明实施例提供的预测所述标签数据传播图中第二节点的标签数据的流程;
图7是本发明实施例提供的对象标记方法的再一可选流程;
图8是本发明实施例提供的对象标记方法的再另一可选流程;
图9是本发明实施例提供的对象标记装置的框图;
图10是本发明实施例提供的对象标记装置的另一可选框图;
图11是本发明实施例提供的平台服务器的结构示意图。
具体实施方式
本发明实施例提供的对象标记方法,可利用对象提供方预先划分的对象集合中对象的聚类性质,在多个对象提供方划分的对象集合基础上,确定对象之间的相似度,从而通过对象之间的相似度和已确定类型数据的部分对象,预测另一部分未确定类型数据的对象应属于的类型数据,实现确定对象与类型的对应关系,进而通过对象与类型的对应关系,为对象提供方提供的对象标记类型。基于此,本发明实施例的主要思路是:通过获取与对象提供方关联的至少一个对象集合,所述对象集合包括对象提供方提供的预聚类的多个对象,从而利用对象提供方关联的对象集合中对象预先聚类的性质,确定出多个所述对象提供方关联的对象集合中的不同对象之间的相似度,根据各对象之间的相似度及部分对象已确定的类型数据,确定出未确定类型数据的对象的类型数据,从而得到对象与类型的对应关系,实现了对对应类型的对象的尽可能穷举,进而基于对象与类型的对应关系,对对象提供方提供的对象标记类型,可提高对象标记的覆盖率。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
作为一种可选实现,本发明实施例提供的一种对象标记方法如图1所示,为本发明实施例提供的一种对象标记方法的流程图,所述对象标记方法的流程可以包括:
步骤S10、获取与对象提供方关联的至少一个对象集合,所述对象集合包括所述对象提供方提供的预聚集的多个对象。
对象提供方可以为用户提供多个不同的对象,为满足用户不同的对象选择需求,对象提供方一般会将提供的多个对象预先划分成若干个对象集合,对象提供方划分的一个对象集合可以包括多个对象,一个对象集合中的对象一般是对象提供方认为的在某些属性、性质上相似的对象,从而基于一个对象提供方关联的不同对象集合,用户可方便选择该对象提供方提供的不同属性、性质的对象。可见,针对对象提供方而言,对象提供方关联的一个对象集合中的对象具有聚类的特性。
在一个可选的示例中,对象提供方可为用户提供不同的展示类目,从而便于用户在不同的展示类目下选择对象,从而对象提供方的一个对象集合中的对象,可以认为是对象提供方的一个展示类目下的对象,对象提供方不同的对象集合对应不同的展示类目;可选的,对象提供方可在对象数据库中(如网络侧的存储对象的数据库),存储对象提供方不同展示类目的对象,基于此,本发明实施例所述的获取与对象提供方关联的至少一个对象集合的可选实现可以是:从对象提供方对应的对象数据库中,获取所述对象提供方预先在各展示类目划分的对象集合,其中,一个展示类目的对象集合包括所述对象提供方预先划分到所述展示类目的至少一个对象。
为便于说明,以在线外卖平台场景为例,对象提供方为商户,对象为商户提供的菜品,一个展示类目为商户页面下的一个导航栏,对应一个导航栏下的菜品的集合即为一个对象集合,参考图2所示的一个商户页面11,导航栏12内包括炒菜、凉菜、营养粥等,在对应《营养粥》导航栏下,对应的菜品包括[皮蛋瘦肉粥,慢炖白粥,有机青菜粥,青菜香菇粥],相应的,导航栏《营养粥》下的菜品集合[皮蛋瘦肉粥,慢炖白粥,有机青菜粥,青菜香菇粥]即为一个对象集合。
在本发明实施例中,与对象提供方关联的对象集合可以为一个,也可以为多个,所述获取的与对象提供方关联的对象集合可以获取与对象提供方关联的所有对象集合,也可以根据预设的规则对与对象提供方关联的对象集合进行筛选,选取符合条件的对象集合。
步骤S11、根据多个所述对象提供方关联的对象集合,确定目标对象集合中各对象之间的相似度。
其中,所述目标对象集合包括多个所述对象提供方关联的对象集合中的不同对象,且,所述目标对象集合中第一部分的对象已确定类型数据,第二部分的对象未确定类型数据。
在本发明实施例中,通过目标对象集合中的已确定类型数据的第一对象及不同对象之间的相似度,可实现预测目标对象集合中未确定类型数据的第二对象的类型数据。
在本发明实施例中,对象之间的相似度,用于表示对象之间的相似程度。由于对象提供方关联的对象集合,为对象提供方对多个对象进行预聚集(即预先划分)所得到,因此位于同一对象集合中的对象具有较大的相似度,例如,在商户的一个导航栏下的菜品集合[皮蛋瘦肉粥,慢炖白粥,有机青菜粥,青菜香菇粥]中,皮蛋瘦肉粥,慢炖白粥,有机青菜粥,青菜香菇粥之间较高的相似度,基于此,本发明实施例可在多个对象提供方的情况下,将多个对象提供方关联的对象集合作为整体,针对不同的对象确定出不同对象之间的相似度,其中,为便于说明,本发明实施例将多个所述对象提供方关联的对象集合中不同对象形成的集合作为目标对象集合。
在本发明实施例中,基于多个所述对象提供方关联的对象集合进行,目标对象集合中对象的相似度确定,可用于为后续确定对象与类型的对应关系提供更多的数据基础,使得对象与类型的对应关系具有更高的覆盖率,能够为提高对象标记的覆盖率提供可能。以在线外卖平台场景为例,采样的商户越多,对应的数据范围越广,后续得到的对象与类型的对应关系则越全面,进而根据该对应关系进行对象标记的覆盖率越高。
可以理解的是,在基于多个所述对象提供方关联的对象集合进行对象相似度确定时,可能出现重复的对象或者无效对象而不必计算相似度,在本发明实施例中,将多个所述对象提供方关联的对象集合中,用于确定相似度的不同对象的集合作为目标对象集合。所述目标对象集合中,已确定类型数据的第一部分的对象,用于作为第二部分的对象确定类型数据的依据。需要说明的是,所述已确定类型数据的第一部分的对象的类型越多样化,后续确定的第二部分的对象的类型数据越准确。
在本发明实施例中,所述类型数据为对象的类型的数据信息,一个类型数据可以对应一个类型,也可以对应多个类型。在一个可选的实现中,希望标记的类型可作为目标类型,目标类型之外的类型可作为非目标类型,进而可以设置所述类型数据包括对应目标类型的目标类型数据和对应非目标类型的非目标类型数据。或者,在另一个可选的实现中,可以设置一个类型数据对应一个类型,进而根据具体的对应关系对对象进行类型数据的确定。
示例的,在菜品分类时,可以设置目标类型数据为主食,设置非目标类型数据为非主食的其他类型,对应的,所述非目标类型数据则包括了主食之外的所有类型;或者,可以设置与主食、凉菜、热菜、甜品、饮品等类型一一对应的类型数据,并对菜品进行对应类型的类型数据的确定。
步骤S12、根据所述目标对象集合中各对象之间的相似度,及所述第一部分的对象的类型数据,确定所述第二部分的对象的类型数据。
在本发明实施例中,通过确定所述第二部分的对象的类型数据,实现后续对对象与类型的对应关系的确定。
其中,在确定所述第二部分的对象的类型数据时,可以基于少量对象的类型数据确定大量对象的类型数据,也可以基于大量对象的类型数据确定少量对象的类型数据,即所述第一部分的对象的数量可以小于所述第二部分的对象的数量,也可以不小于所述第二部分的对象的数量。在一个可选的实现中,所述目标对象集合中第一部分的对象的数量,小于所述第二部分的对象的数量,从而基于少量对象的类型数据确定大量对象的类型数据。
步骤S13、根据所述第一部分的对象及所述第二部分的对象的类型数据,确定对象与类型的对应关系。
其中,通过确定所述第二部分的对象的类型数据,实现对对象与类型的对应关系的确定,进而得到属于对应类型的准确对象。
在本发明实施例中,根据对象的类型数据,可以确定具体的对象与类型的对应关系,在一个可选的示例中,所述类型数据划分为目标类型数据和非目标类型数据时,所述对象与类型的对应关系可以为针对该目标类型的对应关系,在另一个可选的示例中,所述类型数据是与各类型一一对应的类型数据时,所述对象与类型的对应关系也可以为针对多个类型下,各类型与对象的对应关系。
示例的,在菜品分类时,当目标类型是主食时,所述对象与类型的对应关系可以为主食对应的对象的对应关系;当类型数据是与主食、凉菜、热菜、甜品、饮品等类型一一对应的类型数据时,则对应可以是这些类型中各类型与对应的对应关系。
步骤S14、根据所述对应关系,为所述对象提供方提供的对象标记类型。
其中,通过所述对应关系,可以确定属于对应类型的对象集合,实现了直接类型对应的对象的尽可能穷举,进而可以提高对象标记的覆盖率。
可以看出,本发明实施例可获取对象提供方关联的至少一个对象集合,一个对象集合包括对象提供方提供的预聚集的多个对象,从而基于对象集合中的对象的聚类性质,在多个所述对象提供方关联的对象集合的情况下,本发明实施例可确定不同对象之间的相似度,该不同对象的集合可作为是目标对象集合;进而,基于目标对象集合中已确定类型数据的第一部分对象,和对象之间的相似度,本发明实施例可预测目标对象集合中未确定类型数据的第二部分对象的类型数据,进而基于第一部分对象的类型数据和第二部分对象的类型数据,确定对象与类型的对应关系,实现对象与对应类型的尽可能穷举;基于所确定的对应关系,本发明实施例可实现提升类型对应的对象的覆盖率,从而通过该对应关系,为所述对象提供方提供的对象标记类型,可以提高对象标记的覆盖率。
在一个可选的实现中,本发明实施例可根据对象所属的对象集合中的上下文,确定目标对象集合中各对象的对象向量,实现确定目标对象集合中各对象之间的相似度。作为一种可选实现,图3示出了本发明实施例提供的对象标记方法的另一可选流程,如图3所示,该流程可以包括:
步骤S20、获取与对象提供方关联的至少一个对象集合,所述对象集合包括所述对象提供方提供的预聚集的多个对象。
步骤S21、针对所述目标对象集合中的任一个对象,根据所述对象所属的对象集合中的上下文,确定所述对象的对象向量;
其中,所述上下文为所述对象所属的对象集合中,位于所述对象之前的对象及位于所述对象之后的对象;
本发明实施例通过确定对象的对象向量,以利用各对象的对象向量,实现对象间相似度的确定。
其中,所述上下文定义了所述对象在所属的对象集合中关联的对象,所述对象与所述上下文中涉及的对象的对象向量相近,以使得这些对象之间具有较高的相似度。
可选的,所述上下文具体为所述对象所属的对象集合中,位于所述对象之前的第一预设数量的对象,及位于所述对象之后的第一预设数量的对象;其中,所述第一预设数量大于或等于,所述多个对象提供方关联的对象集合中的对象数量的最大值,以使一个对象集合中所有的对象均能具有相近的对象向量。
在一个可选的示例中,可以通过计算词向量的方式得到对象的对象向量。具体的,根据所述对象在所属的对象集合中的上下文,确定所述对象的词向量,所述词向量作为所述对象向量;其中,所述对象集合中的一个对象定义为一个词单元,一个所述对象集合定义为一个句单元。
其中,可以采用训练的方式得到所述词向量,例如,可以采用WORD2VEC方式训练得到对象的词向量。在训练过程中,一个对象集合为组合为一个列表,对象集合中的对象则以逗号为分割的字符串表示。例如:对应营养粥的菜品集合可以表示为[皮蛋瘦肉粥,慢炖白粥,有机青菜粥,青菜香菇粥]。
在训练过程中,将对象集合中的一个对象定义为一个词单元,以使词向量与对象向量对应,一个所述对象集合定义为一个句单元,以充分利用对象提供方关联的对象集合中对象的聚类性质。
在本发明实施例中,在确定所述对象的词向量的过程中,还可以对所述对象集合中的对象进行筛选,去除所述对象集合中的无效对象,以提高对词向量的计算效率。所述无效对象可以为对象提供方提供的稀有对象,这种对象由于不具有一定的代表性且容易造成硬件的运算负荷过大而无需进行后续的流程。在一个可选的示例中,可以确定所述多个所述对象提供方关联的对象集合中各对象的重复次数,并将重复次数少于第四预设数量的对象进行去除。
在一个具体的示例中,采用WORD2VEC方式训练得到对象的词向量,其中,训练过程中的参数设定可以如下所示:
输出向量的维度:100;
训练模型:skip-gram;
截断的最小词频:5;
学习率:0.025;
迭代次数:1;
窗口值:50;
其中,输出向量的维度为得到的词向量的维度;训练模型为具体训练时采用的模型,不同的训练模型可以得到不同的训练结果;截断的最小词频为训练模型中对象的最小重复次数(即第四预设数量),如果小于所述最小词频,则会去除对应的对象;学习率为学习速率,用于调整训练模型的收敛速度;迭代次数则是训练模型的迭代的次数,迭代次数越多,训练结果越准确,对应的硬件运算负荷越大;窗口值则是训练过程中定义上下文对象的第一预设数量,由于一个列表的对象都是相关的,但是这些菜品之间却没有上下文的关系,采用较大的窗口值可以将整个列表的菜品都覆盖进去,使一个列表内的对象具有相近的词向量。
步骤S22、根据所述目标对象集合中各对象的对象向量,确定所述目标对象集合中各对象之间的相似度。
可选的,在得到目标对象集合中各对象的对象向量之后,可以通过计算得到目标对象集合中各对象之间的相似度。
具体的,可以确定所述目标对象集合中各对象的对象向量之间的余弦相似度,以所述余弦相似度作为所述目标对象集合中各对象之间的相似度。
步骤S23、根据所述目标对象集合中各对象之间的相似度,及所述第一部分的对象的类型数据,确定所述第二部分的对象的类型数据。
步骤S24、根据所述第一部分的对象及所述第二部分的对象的类型数据,确定对象与类型的对应关系。
步骤S25、根据所述对应关系,为所述对象提供方提供的对象标记类型。
在本发明实施例中,根据对象所属的对象集合中的上下文,采用训练的方式确定目标对象集合中各对象的对象向量,充分利用了对象提供方关联的对象集合的聚类性质,进而可以得到属于对应类型的准确对象,实现了直接对对象的尽可能穷举,进而为所述对象提供方提供的对象标记类型,提高了对象标记的覆盖率。
在一个可选的实现中,在确定所述第二部分的对象的类型数据时,可以采用标签传播算法进行第二部分的对象的类型数据的预测,从而得到所述第二部分的对象的类型数据。作为一种可选实现,图4示出了本发明实施例提供的对象标记方法的又一可选流程,如图4所示,该流程可以包括:
步骤S30、获取与对象提供方关联的至少一个对象集合,所述对象集合包括所述对象提供方提供的预聚集的多个对象。
步骤S31、根据多个所述对象提供方关联的对象集合,确定目标对象集合中各对象之间的相似度。
步骤S32、以所述目标对象集合中的对象为节点,所述目标对象集合中各对象之间的相似度为节点的连接边的权值,构建标签数据传播图。
其中,参考图5,标签数据传播图中的节点包括所述第一部分对象的第一节点A,和所述第二部分对象的第二节点B。
通过构建标签数据传播图,以根据图中的各节点的关系预测第二部分对象的类型数据。
其中,所述标签数据传播图可以为全连接图,也可以为部分连接图,所述全连接图表示所有节点之间均建立连接关系,所述部分连接图则仅建立符合预设条件的连接关系。在一个可选的示例中,为减少运算负荷,可以建立部分连接图,具体的,建立相似度大于或等于预设值的对象之间的连接。或者,计算相似度的倒数并设置对应该相似度的倒数的阈值,在建立部分连接图时,仅建立小于或等于所述阈值的对象之间的连接,在一个例子中,可以设置所述阈值为0.25。
其中,连接边的权值用于表明相邻节点之间的影响度,权值越大,对应的影响度越大。
步骤S33、根据所述第一部分的对象的类型数据,确定所述标签数据传播图中第一节点的标签数据。
其中,一个节点的标签数据包括所述节点的对象的类型分布数据,所述节点的对象的类型分布数据为,所述节点对应不同类型数据的分布概率。
构建所述标签数据传播图后,可以根据第一部分的对象的类型数据,确定对应的第一节点的标签数据。可选的,基于第一部分的对象的类型数据已确定,可以设置第一节点对应的对象的类型数据的概率为1。
步骤S34、根据所述标签数据传播图中各节点之间的连接关系、各节点之间的连接边的权值,及所述第一节点的标签数据,预测所述标签数据传播图中第二节点的标签数据,所述第二节点为所述第二部分的对象的节点。
在本发明实施例中,通过确定第二节点的标签数据,以确定第二部分对象的类型数据。
在所述标签数据传播过程中,各节点之间的连接关系,各节点之间的连接边的权值和第一节点的标签数据,都会影响第二节点的标签数据。其中,在具体的算法执行过程中,每个节点的标签数据按相似度传播给相邻节点,在节点传播的每一步,每个节点根据相邻节点的标签数据来更新自己的标签,连接边的权值越大,对应的相邻节点的影响度越大,节点的标签数据越趋于一致。在本实施例中,可以设置仅对第二节点进行传播,以得到第二节点的标签数据,进而保持已确定的第一节点的标签数据不变,使其像一个源头把标签数据传向未确定标签数据的第二节点。最终,当迭代过程结束时,相似节点的类型数据的概率分布趋于相似,从而完成标签传播过程。
可选的,参考图6示出的本发明实施例提供的预测所述标签数据传播图中第二节点的标签数据的流程,所述流程可以进一步包括:
步骤S341、针对标签数据传播图中的任一第二节点,根据所述标签数据传播图中各节点之间的连接关系,确定所述第二节点的相邻节点及所述相邻节点的标签数据。
在节点传播时,通过确定第二节点的相邻节点及所述相邻节点的标签数据,以进一步根据对应的连接边的权值确定对应所述第二节点的标签数据。
步骤S342、根据所述相邻节点的标签数据,及所述相邻节点与所述第二节点的连接边的权值,确定所述第二节点的标签数据。
其中,所述相邻节点与所述第二节点的连接边的权值,与所述相邻节点和所述第二节点的标签数据的接近程度为正相关关系,以使得相似度大的对象的节点具有接近的标签数据。
在一个可选的示例中,可以综合各所述相邻节点的标签数据,及各所述相邻节点与所述第二节点的连接边的权值,确定所述第二节点的对象的类型分布数据,并将所确定的类型分布数据作为所述第二节点的标签数据。
其中,所确定的类型分布数据表示所述第二节点的对象在各所述相邻节点对应的类型数据的分布概率;第二节点与所述相邻节点的连接边的权值,与第二节点在所述相邻节点对应的类型数据的概率,为正相关关系,也就是说,第二节点与所述相邻节点的连接边的权值越大,与第二节点在所述相邻节点对应的类型数据的概率越大。
步骤S35、根据所述第二节点的标签数据,确定所述第二部分的对象的类型数据。
其中,所述第二节点的标签数据表明了第二节点归属于对应类型数据的概率,根据对应概率,可以确定第二部分对象的类型数据。
在一个可选的示例中,可以根据所述第二节点的标签数据指示的类型分布数据,确定分布概率最大的类型数据为所述第二节点的对象的类型数据。
或者,在其他可选的示例中,还可以根据类型数据的分布概率值对第二部分的对象的类型数据进行确定。具体的,在类型数据包括目标类型数据和非目标类型数据时,可以根据所述第二节点的标签数据,确定在所述目标类型数据的分布概率大于预设概率值的第二节点,将所确定的第二节点的对象的类型数据确定为目标类型数据;为第二部分的对象中类型数据不为目标类型数据的对象,确定非目标类型数据。其中,所述预设概率值的设定,可以根据具体的情况进行设定,在对应目标类型的对象数量较少时,设置较低的预设概率值,可以避免由于对应目标类型的对象数量较少造成的目标类型传播特性不明显的问题。
步骤S36、根据所述第一部分的对象及所述第二部分的对象的类型数据,确定对象与类型的对应关系。
步骤S37、根据所述对应关系,为所述对象提供方提供的对象标记类型。
在本发明实施例中,在确定所述第二部分的对象的类型数据时,采用标签传播算法进行第二部分的对象的类型数据的预测,从而得到所述第二部分的对象的类型数据,进而确定出未确定类型数据的对象的类型数据,从而得到属于对应类型的准确对象,实现了直接对对象的尽可能穷举,提高了对象标记的覆盖率。
在一个可选的实现中,可以通过选取的方式确定目标对象集合中已确定类型数据的第一部分的对象。作为一种可选实现,图7示出了本发明实施例提供的对象标记方法的再一可选流程,如图7所示,该流程可以包括:
步骤S40、获取与对象提供方关联的至少一个对象集合,所述对象集合包括所述对象提供方提供的预聚集的多个对象。
可选的,在本发明实施例中,还可对获取的对象集合中的对象数量提出要求,如要求对象集合中的对象数量达到一定数量,以便后续得到更准确的结果。在一个可选的实现中,可以基于聚类特点的考虑,设置所述对象提供方关联的对象集合中的对象的数量,不小于第二预设数量,或者,还可以同时基于聚类特点和硬件运算负荷的考虑,设置所述对象提供方关联的对象集合中的对象的数量,不小于第二预设数量且不大于第三预设数量,所述第三预设数量大于所述第二预设数量。
步骤S41、根据多个所述对象提供方关联的对象集合,确定目标对象集合中各对象之间的相似度。
步骤S42、获取对象选取信息,所述对象选取信息用于选取所述目标对象集合中的第一部分的对象;
在本发明实施例中,选取第一部分的对象,用于对后续的第二部分的对象的类型数据的确定提供数据基础。其中,所选取的第一部分的对象中的一个对象对应一种类型数据,所述第一部分的对象,包括分别对应所述目标对象集合中的对象的各类型的至少一个对象,以涵盖具有不同聚类特征的对象,提高所述对象标记方法的准确度。
以在线外卖平台场景中的菜品分类为例,若目标对象集合中的菜品对应类型包括主食、凉菜、热菜、甜品和饮品,则选取的第一部分的对象,应包括分别对应主食、凉菜、热菜、甜品和饮品类型的至少一个对象。
步骤S43、为所述第一部分的对象中的对象确定类型数据。
基于选取的第一部分的对象,本发明实施例为第一部分的对象确定类型数据。
可选的,步骤S42和步骤S43选取并为第一部分的对象确定类型数据可以通过人工方式实现,例如服务器基于人工操作,确定人工选取的第一部分的对象和相应类型数据;另一种实现中,步骤S42和步骤S43也可以是采用关键字匹配的方式实现,例如,选取与类型的关键词匹配的第一部分的对象,并为第一部分对象确定相匹配的类型。
步骤S44、根据所述目标对象集合中各对象之间的相似度,及所述第一部分的对象的类型数据,确定所述第二部分的对象的类型数据。
步骤S45、根据所述第一部分的对象及所述第二部分的对象的类型数据,确定对象与类型的对应关系。
步骤S46、根据所述对应关系,为所述对象提供方提供的对象标记类型。
在本发明实施例中,通过选取的方式确定目标对象集合中第一部分的对象,以准确预测第二部分的对象的类型数据,从而得到所述第二部分的对象的类型数据,进而确定出未确定类型数据的对象的类型数据,得到属于对应类型的准确对象,实现了直接对对象的尽可能穷举,提高了对象标记的覆盖率。
在一些需求场景中,例如在线外卖平台中,通常需要对一些小类别的菜品进行类型标记,例如主食、饮料、配菜、配料、水果等,这些小类别的菜品对应的菜品数量较少,直接转化为分类问题会出现严重的类别不均衡的问题,仍以主食为例,在线外卖平台中的对应的菜品数量约为700余个,但在平台中的菜品数量约为2千万,在这种级别下,针对小类别的菜品进行类型标记的错误率极高。
针对这一问题,在一个可选的实现中,可以针对对象范围较小的类型进行单独的标记,具体的,可以设置类型数据包括对应目标类型的目标类型数据和对应非目标类型的非目标类型数据,其中,以需要划分出的类型为目标类型,以目标类型之外的类型划分为非目标类型,且所述目标类型的对象数量,小于所述非目标类型的对象数量。作为一种可选实现,图8示出了本发明实施例提供的对象标记方法的再另一可选流程,如图8所示,该流程可以包括:
步骤S50、获取与对象提供方关联的至少一个对象集合,所述对象集合包括所述对象提供方提供的预聚集的多个对象。
步骤S51、根据多个所述对象提供方关联的对象集合,确定目标对象集合中各对象之间的相似度。
步骤S52、获取对象选取信息,所述对象选取信息用于选取所述目标对象集合中的第一部分的对象。
在本实施例中,为保证选取的准确度,可以采用人工选取的方式选取目标类型的对象,同时,采用关键字匹配的方式选取非目标类型的对象,本实施例在获取对象选取信息后,确定对应的对象为第一部分的对象。
步骤S53、为所述第一部分的对象中的对象确定类型数据。
其中,可以根据对象选取信息,为所述第一部分的对象中的对应的对象确定目标类型数据和非目标类型数据。
步骤S54、根据所述目标对象集合中各对象之间的相似度,及所述第一部分的对象的类型数据,确定所述第二部分的对象的类型数据。
其中,所述确定的过程可以参考前述实施例中的方法,在一种可选的示例中,采用标签数据传播图的方式确定第二部分对象的类型数据中,可以参考步骤S35中的方式确定对应目标类型数据和对应非目标类型数据的对象,可选的,可以选取预设概率值为0.1,将目标类型数据的分布概率大于0.1的第二节点的对象确定为目标类型数据,同时,将第二部分对象中类型数据不为目标类型数据的对应,确定为非目标类型数据。
步骤S55、基于所述第一部分的对象中目标类型数据对应的对象,及所述第二部分的对象中目标类型数据对应的对象,确定目标类型数据与对象的初始对应关系。
在进行目标类型数据的确定过程,首先确定目标类型数据与对象的初始对应关系,并对该初始对应关系进行对应的审核确认,以提高目标类型数据与对象的目标对应关系的准确度。
其中,基于第一部分的对象和第二部分的对象的类型数据,可以得到所述第一部分的对象中目标类型数据对应的对象,及所述第二部分的对象中目标类型数据对应的对象,进而可以确定目标类型数据与对象的初始对应关系。
步骤S56、获取针对所述初始对应关系的审核信息,在所述审核信息指示所述初始对应关系审核通过时,将所述初始对应关系作为目标类型数据与对象的目标对应关系。
在本发明实施例中,通过对该初始对应关系进行对应的审核确认,以提高目标类型数据与对象的目标对应关系的准确度。
其中,所述审核信息可以包括初始对应关系审核通过信息,进而可以将所述初始对应关系作为目标类型数据与对象的目标对应关系。
可选的,在所述审核信息指示所述初始对应关系审核未通过时,所述审核信息还可以进一步包括对应初始对应关系中的错误对象,进而根据所述审核信息,去除所述初始对应关系的错误对象,并将去除错误对象后的初始对应关系作为目标类型数据与对象的目标对应关系。
步骤S57、根据所述目标对应关系,在所述对象提供方提供的对象中,查找与目标类型数据对应的对象,为查找到的对象标记目标类型数据。
在本发明实施例中,在得到所述目标对应关系后,可以通过查找与目标类型数据对应的对象实习对对象的标记,基于目标对应关系具有较高的准确度,从而使得对应的标记过程的准确度也得到提高。
其中,在进行与目标类型数据对应的对象的查找过程中,优选采用完全匹配的方式进行查找,以避免不完全匹配可能造成的查找结果错误。
在本发明实施例中,针对对象范围较小的类型进行单独的标记,具体的,可以设置类型数据包括对应目标类型的目标类型数据和对应非目标类型的非目标类型数据,其中,以需要划分出的类型为目标类型,以目标类型之外的类型划分为非目标类型,进而得到所述第二部分的对象的类型数据,确定出未确定类型数据的对象的类型数据,得到属于对应类型的准确对象,实现直接对对象的尽可能穷举,提高了对象标记的覆盖率。
上文描述了本发明实施例提供的多个实施例方案,各实施例方案介绍的各可选方式可在不冲突的情况下相互结合、交叉引用,从而延伸出多种可能的实施例方案,这些均可认为是本发明实施例披露、公开的实施例方案。
下面对本发明实施例提供的对象标记装置进行介绍,下文描述的对象标记装置可以认为是,平台服务器为实现本发明实施例提供的对象标记方法,所需设置的功能模块。下文描述的数据处理装置的内容,可与上文描述的对象标记方法的内容,相互对应参照。
作为一种可选实现,图9示出了本发明实施例提供的对象标记装置的框图,参照图9,该对象标记装置,包括
对象集合获取单元100,用于获取与对象提供方关联的至少一个对象集合,所述对象集合包括所述对象提供方提供的预聚集的多个对象;
相似度确定单元200,用于根据多个所述对象提供方关联的对象集合,确定目标对象集合中各对象之间的相似度;所述目标对象集合包括多个所述对象提供方关联的对象集合中的不同对象,且,所述目标对象集合中第一部分的对象已确定类型数据,第二部分的对象未确定类型数据;
第二类型数据确定单元300,用于根据所述目标对象集合中各对象之间的相似度,及所述第一部分的对象的类型数据,确定所述第二部分的对象的类型数据;
对应关系确定单元400,用于根据所述第一部分的对象及所述第二部分的对象的类型数据,确定对象与类型的对应关系;
标记单元500,用于根据所述对应关系,为所述对象提供方提供的对象标记类型。
可选的,所述相似度确定单元200,用于根据多个所述对象提供方关联的对象集合,确定目标对象集合中各对象之间的相似度包括:
针对所述目标对象集合中的任一个对象,根据所述对象所属的对象集合中的上下文,确定所述对象的对象向量,以得到所述目标对象集合中各对象的对象向量;所述上下文为所述对象所属的对象集合中,位于所述对象之前的对象及位于所述对象之后的对象;
根据所述目标对象集合中各对象的对象向量,确定所述目标对象集合中各对象之间的相似度。
可选的,所述相似度确定单元200,用于根据所述对象所属的对象集合中的上下文,确定所述对象的对象向量包括:
根据所述对象在所属的对象集合中的上下文,确定所述对象的词向量,所述词向量作为所述对象向量;其中,所述对象集合中的一个对象定义为一个词单元,一个所述对象集合定义为一个句单元。
可选的,所述上下文具体为所述对象所属的对象集合中,位于所述对象之前的第一预设数量的对象,及位于所述对象之后的第一预设数量的对象;所述第一预设数量大于或等于,所述多个对象提供方关联的对象集合中的对象数量的最大值。
可选的,所述对象集合获取单元100,用于获取与对象提供方关联的至少一个对象集合包括:
从对象提供方对应的对象数据库中,获取所述对象提供方预先在各展示类目划分的对象集合,其中,一个展示类目的对象集合包括所述对象提供方预先划分到所述展示类目的至少一个对象。
在一种可选实现中,图10示出了本发明实施例提供的对象标记装置的另一可选框图,结合图9和图10所示,该对象标记装置还可以包括:
选取信息获取单元600,用于获取对象选取信息,所述对象选取信息用于选取所述目标对象集合中的第一部分的对象,其中,所述第一部分的对象中的一个对象对应一种类型数据,所述第一部分的对象,包括对应所述目标对象集合中的对象的各类型数据的至少一个对象;
第一类型数据确定单元700,用于为所述第一部分的对象中的对象确定类型数据。
可选的,所述第二类型数据确定单元300,用于根据所述目标对象集合中各对象之间的相似度,及所述第一部分的对象的类型数据,确定所述第二部分的对象的类型数据,包括:
以所述目标对象集合中的对象为节点,所述目标对象集合中各对象之间的相似度为节点的连接边的权值,构建标签数据传播图;其中,标签数据传播图中的节点包括所述第一部分对象的第一节点,和所述第二部分对象的第二节点;
根据所述第一部分的对象的类型数据,确定所述标签数据传播图中第一节点的标签数据,其中,一个节点的标签数据包括所述节点的对象的类型分布数据;
根据所述标签数据传播图中各节点之间的连接关系、各节点之间的连接边的权值,及所述第一节点的标签数据,预测所述标签数据传播图中第二节点的标签数据,所述第二节点为所述第二部分的对象的节点;
根据所述第二节点的标签数据,确定所述第二部分的对象的类型数据。
可选的,所述第二类型数据确定单元300,用于根据所述标签数据传播图中各节点之间的连接关系,及所述第一节点的标签数据,预测所述标签数据传播图中第二节点的标签数据,包括:
针对标签数据传播图中的任一第二节点,根据所述标签数据传播图中各节点之间的连接关系,确定所述第二节点的相邻节点及所述相邻节点的标签数据;
根据所述相邻节点的标签数据,及所述相邻节点与所述第二节点的连接边的权值,确定所述第二节点的标签数据;其中,所述相邻节点与所述第二节点的连接边的权值,与所述相邻节点和所述第二节点的标签数据的接近程度为正相关关系。
可选的,所述第二类型数据确定单元300,用于根据所述相邻节点的的标签数据,及所述相邻节点与所述第二节点的连接边的权值,确定所述第二节点的标签数据,包括:
综合各所述相邻节点的标签数据,及各所述相邻节点与所述第二节点的连接边的权值,确定所述第二节点的对象的类型分布数据,所确定的类型分布数据作为所述第二节点的标签数据;
其中,所确定的类型分布数据表示所述第二节点的对象在各所述相邻节点对应的类型数据的分布概率;第二节点与所述相邻节点的连接边的权值,与第二节点在所述相邻节点对应的类型数据的概率,为正相关关系。
可选的,所述第二类型数据确定单元300,用于根据所述第二节点的标签数据,确定所述第二部分的对象的类型数据,包括:
根据所述第二节点的标签数据指示的类型分布数据,确定分布概率最大的类型数据为所述第二节点的对象的类型数据。
可选的,所述类型数据包括对应目标类型的目标类型数据和对应非目标类型的非目标类型数据;所述第二类型数据确定单元300,用于根据所述第二节点的标签数据,确定所述第二部分的对象的类型数据,包括:
根据所述第二节点的标签数据,确定在所述目标类型数据的分布概率大于预设概率值的第二节点,将所确定的第二节点的对象的类型数据确定为目标类型数据;
为第二部分的对象中类型数据不为目标类型数据的对象,确定非目标类型数据。
可选的,所述类型数据包括对应目标类型的目标类型数据和对应非目标类型的非目标类型数据;所述对应关系确定单元400,用于根据所述第一部分的对象及所述第二部分的对象的类型数据,确定对象与类型的对应关系,包括:
基于所述第一部分的对象中目标类型数据对应的对象,及所述第二部分的对象中目标类型数据对应的对象,确定目标类型数据与对象的初始对应关系;
获取针对所述初始对应关系的审核信息,在所述审核信息指示所述初始对应关系审核通过时,将所述初始对应关系作为目标类型数据与对象的目标对应关系。
可选的,所述标记单元500,用于根据所述对应关系,为所述对象提供方提供的对象标记类型,包括:
根据所述目标对应关系,在所述对象提供方提供的对象中,查找与目标类型数据对应的对象,为查找到的对象标记目标类型数据。
可选的,所述相似度确定单元200,用于根据所述目标对象集合中各对象的对象向量,确定所述目标对象集合中各对象之间的相似度,包括:
确定所述目标对象集合中各对象的对象向量之间的余弦相似度,以所述余弦相似度作为所述目标对象集合中各对象之间的相似度。
可选的,所述对象集合获取单元100用于获取与对象提供方关联的至少一个对象集合的包括:
获取与对象提供方关联的对象数量不小于第二预设数量的对象集合。
可选的,所述目标对象集合中第一部分的对象的数量,小于所述第二部分的对象的数量。
本发明实施例还提供一种平台服务器,参考图11示出的本发明实施例提供的平台服务器的结构示意图,该平台服务器包括至少一个存储器03,至少一个处理器01,至少一个通信接口02,以及用于实现平台服务器内部通信的通信总线04,其中,存储器03存储一条或多条计算机可执行指令,处理器01调用所述一条或多条计算机可执行指令,以执行本发明实施例提供的对象标记方法。
本发明实施例还提供一种存储介质,该存储介质可以存储一条或多条计算机可执行指令,所述一条或多条计算机可执行指令用于执行本发明实施例提供的对象标记方法。
所述一条或多条计算机可执行指令的功能具体实现和扩展实现可参照前文相应部分描述。
虽然本发明实施例披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
综上说明的技术内容,第1方面,本发明实施例提供一种对象标记方法,包括:
获取与对象提供方关联的至少一个对象集合,所述对象集合包括所述对象提供方提供的预聚集的多个对象;
根据多个所述对象提供方关联的对象集合,确定目标对象集合中各对象之间的相似度;所述目标对象集合包括多个所述对象提供方关联的对象集合中的不同对象,且,所述目标对象集合中第一部分的对象已确定类型数据,第二部分的对象未确定类型数据;
根据所述目标对象集合中各对象之间的相似度,及所述第一部分的对象的类型数据,确定所述第二部分的对象的类型数据;
根据所述第一部分的对象及所述第二部分的对象的类型数据,确定对象与类型的对应关系;
根据所述对应关系,为所述对象提供方提供的对象标记类型。
第2方面,根据第1方面所述的对象标记方法,所述根据多个所述对象提供方关联的对象集合,确定目标对象集合中各对象之间的相似度包括:
针对所述目标对象集合中的任一个对象,根据所述对象所属的对象集合中的上下文,确定所述对象的对象向量;所述上下文为所述对象所属的对象集合中,位于所述对象之前的对象及位于所述对象之后的对象;
根据所述目标对象集合中各对象的对象向量,确定所述目标对象集合中各对象之间的相似度。
第3方面,根据第2方面所述的对象标记方法,所述根据所述对象所属的对象集合中的上下文,确定所述对象的对象向量包括:
根据所述对象在所属的对象集合中的上下文,确定所述对象的词向量,所述词向量作为所述对象向量;其中,所述对象集合中的一个对象定义为一个词单元,一个所述对象集合定义为一个句单元。
第4方面,根据第2或3方面所述的对象标记方法,所述上下文具体为所述对象所属的对象集合中,位于所述对象之前的第一预设数量的对象,及位于所述对象之后的第一预设数量的对象;所述第一预设数量大于或等于,所述多个对象提供方关联的对象集合中的对象数量的最大值。
第5方面,根据第1或2方面所述的对象标记方法,所述获取与对象提供方关联的至少一个对象集合包括:
从对象提供方对应的对象数据库中,获取所述对象提供方预先在各展示类目划分的对象集合,其中,一个展示类目的对象集合包括所述对象提供方预先划分到所述展示类目的至少一个对象。
第6方面,根据第1方面所述的对象标记方法,所述方法还包括:
获取对象选取信息,所述对象选取信息用于选取所述目标对象集合中的第一部分的对象;
为所述第一部分的对象中的对象确定类型数据。
第7方面,根据第1或2方面所述的对象标记方法,所述根据所述目标对象集合中各对象之间的相似度,及所述第一部分的对象的类型数据,确定所述第二部分的对象的类型数据,包括:
以所述目标对象集合中的对象为节点,所述目标对象集合中各对象之间的相似度为节点的连接边的权值,构建标签数据传播图;其中,标签数据传播图中的节点包括所述第一部分对象的第一节点,和所述第二部分对象的第二节点;
根据所述第一部分的对象的类型数据,确定所述标签数据传播图中第一节点的标签数据,其中,一个节点的标签数据包括所述节点的对象的类型分布数据;
根据所述标签数据传播图中各节点之间的连接关系、各节点之间的连接边的权值,及所述第一节点的标签数据,预测所述标签数据传播图中第二节点的标签数据;
根据所述第二节点的标签数据,确定所述第二部分的对象的类型数据。
第8方面,根据第7方面所述的对象标记方法,所述根据所述标签数据传播图中各节点之间的连接关系、各节点之间的连接边的权值,及所述第一节点的标签数据,预测所述标签数据传播图中第二节点的标签数据,包括:
针对标签数据传播图中的任一第二节点,根据所述标签数据传播图中各节点之间的连接关系,确定所述第二节点的相邻节点及所述相邻节点的标签数据;
根据所述相邻节点的标签数据,及所述相邻节点与所述第二节点的连接边的权值,确定所述第二节点的标签数据;其中,所述相邻节点与所述第二节点的连接边的权值,与所述相邻节点和所述第二节点的标签数据的接近程度为正相关关系。
第9方面,根据第8方面所述的对象标记方法,所述根据所述相邻节点的的标签数据,及所述相邻节点与所述第二节点的连接边的权值,确定所述第二节点的标签数据,包括:
综合各所述相邻节点的标签数据,及各所述相邻节点与所述第二节点的连接边的权值,确定所述第二节点的对象的类型分布数据,所确定的类型分布数据作为所述第二节点的标签数据;
其中,所确定的类型分布数据表示所述第二节点的对象在各所述相邻节点对应的类型数据的分布概率;第二节点与所述相邻节点的连接边的权值,与第二节点在所述相邻节点对应的类型数据的概率,为正相关关系。
第10方面,根据第9方面所述的对象标记方法,所述根据所述第二节点的标签数据,确定所述第二部分的对象的类型数据,包括:
根据所述第二节点的标签数据指示的类型分布数据,确定分布概率最大的类型数据为所述第二节点的对象的类型数据。
第11方面,根据第9方面所述的对象标记方法,所述类型数据包括对应目标类型的目标类型数据和对应非目标类型的非目标类型数据;所述根据所述第二节点的标签数据,确定所述第二部分的对象的类型数据,包括:
根据所述第二节点的标签数据,确定在所述目标类型数据的分布概率大于预设概率值的第二节点,将所确定的第二节点的对象的类型数据确定为目标类型数据;
为第二部分的对象中类型数据不为目标类型数据的对象,确定非目标类型数据。
第12方面,根据第1方面所述的对象标记方法,所述类型数据包括对应目标类型的目标类型数据和对应非目标类型的非目标类型数据;所述根据所述第一部分的对象及所述第二部分的对象的类型数据,确定对象与类型的对应关系,包括:
基于所述第一部分的对象中目标类型数据对应的对象,及所述第二部分的对象中目标类型数据对应的对象,确定目标类型数据与对象的初始对应关系;
获取针对所述初始对应关系的审核信息,在所述审核信息指示所述初始对应关系审核通过时,将所述初始对应关系作为目标类型数据与对象的目标对应关系。
第13方面,根据第12方面所述的对象标记方法,所述根据所述对应关系,为所述对象提供方提供的对象标记类型,包括:
根据所述目标对应关系,在所述对象提供方提供的对象中,查找与目标类型数据对应的对象,为查找到的对象标记目标类型数据。
第14方面,根据第2或3方面所述的对象标记方法,所述根据所述目标对象集合中各对象的对象向量,确定所述目标对象集合中各对象之间的相似度,包括:
确定所述目标对象集合中各对象的对象向量之间的余弦相似度,以所述余弦相似度作为所述目标对象集合中各对象之间的相似度。
第15方面,根据第1方面所述的对象标记方法,所述获取与对象提供方关联的至少一个对象集合的包括:
获取与对象提供方关联的对象数量不小于第二预设数量的对象集合。
第16方面,根据第1方面所述的对象标记方法,所述目标对象集合中第一部分的对象的数量,小于所述第二部分的对象的数量。
第17方面,一种对象标记装置,包括:
对象集合获取单元,用于获取与对象提供方关联的至少一个对象集合,所述对象集合包括所述对象提供方提供的预聚集的多个对象;
相似度确定单元,用于根据多个所述对象提供方关联的对象集合,确定目标对象集合中各对象之间的相似度;所述目标对象集合包括多个所述对象提供方关联的对象集合中的不同对象,且,所述目标对象集合中第一部分的对象已确定类型数据,第二部分的对象未确定类型数据;
第二类型数据确定单元,用于根据所述目标对象集合中各对象之间的相似度,及所述第一部分的对象的类型数据,确定所述第二部分的对象的类型数据;
对应关系确定单元,用于根据所述第一部分的对象及所述第二部分的对象的类型数据,确定对象与类型的对应关系;
标记单元,用于根据所述对应关系,为所述对象提供方提供的对象标记类型。
第18方面,根据第17方面所述的对象标记装置,所述相似度确定单元,用于根据多个所述对象提供方关联的对象集合,确定目标对象集合中各对象之间的相似度包括:
针对所述目标对象集合中的任一个对象,根据所述对象所属的对象集合中的上下文,确定所述对象的对象向量;所述上下文为所述对象所属的对象集合中,位于所述对象之前的对象及位于所述对象之后的对象;
根据所述目标对象集合中各对象的对象向量,确定所述目标对象集合中各对象之间的相似度。
第19方面,根据第18方面所述的对象标记装置,所述相似度确定单元,用于根据所述对象所属的对象集合中的上下文,确定所述对象的对象向量包括:
根据所述对象在所属的对象集合中的上下文,确定所述对象的词向量,所述词向量作为所述对象向量;其中,所述对象集合中的一个对象定义为一个词单元,一个所述对象集合定义为一个句单元。
第20方面,根据第18或19方面所述的对象标记装置,所述上下文具体为所述对象所属的对象集合中,位于所述对象之前的第一预设数量的对象,及位于所述对象之后的第一预设数量的对象;所述第一预设数量大于或等于,所述多个对象提供方关联的对象集合中的对象数量的最大值。
第21方面,根据第17或18方面所述的对象标记装置,所述对象集合获取单元,用于获取与对象提供方关联的至少一个对象集合包括:
从对象提供方对应的对象数据库中,获取所述对象提供方预先在各展示类目划分的对象集合,其中,一个展示类目的对象集合包括所述对象提供方预先划分到所述展示类目的至少一个对象。
第22方面,根据第17方面所述的对象标记装置,所述装置还包括:
选取信息获取单元,用于获取对象选取信息,所述对象选取信息用于选取所述目标对象集合中的第一部分的对象;
第一类型数据确定单元,用于为所述第一部分的对象中的对象确定类型数据。
第23方面,根据第17或18方面所述的对象标记装置,所述第二类型数据确定单元,用于根据所述目标对象集合中各对象之间的相似度,及所述第一部分的对象的类型数据,确定所述第二部分的对象的类型数据,包括:
以所述目标对象集合中的对象为节点,所述目标对象集合中各对象之间的相似度为节点的连接边的权值,构建标签数据传播图;其中,标签数据传播图中的节点包括所述第一部分对象的第一节点,和所述第二部分对象的第二节点;
根据所述第一部分的对象的类型数据,确定所述标签数据传播图中第一节点的标签数据,其中,一个节点的标签数据包括所述节点的对象的类型分布数据;
根据所述标签数据传播图中各节点之间的连接关系、各节点之间的连接边的权值,及所述第一节点的标签数据,预测所述标签数据传播图中第二节点的标签数据;
根据所述第二节点的标签数据,确定所述第二部分的对象的类型数据。
第24方面,根据第23方面所述的对象标记装置,所述第二类型数据确定单元,用于根据所述标签数据传播图中各节点之间的连接关系、各节点之间的连接边的权值,及所述第一节点的标签数据,预测所述标签数据传播图中第二节点的标签数据,包括:
针对标签数据传播图中的任一第二节点,根据所述标签数据传播图中各节点之间的连接关系,确定所述第二节点的相邻节点及所述相邻节点的标签数据;
根据所述相邻节点的标签数据,及所述相邻节点与所述第二节点的连接边的权值,确定所述第二节点的标签数据;其中,所述相邻节点与所述第二节点的连接边的权值,与所述相邻节点和所述第二节点的标签数据的接近程度为正相关关系。
第25方面,根据第24方面所述的对象标记装置,所述第二类型数据确定单元,用于根据所述相邻节点的的标签数据,及所述相邻节点与所述第二节点的连接边的权值,确定所述第二节点的标签数据,包括:
综合各所述相邻节点的标签数据,及各所述相邻节点与所述第二节点的连接边的权值,确定所述第二节点的对象的类型分布数据,所确定的类型分布数据作为所述第二节点的标签数据;
其中,所确定的类型分布数据表示所述第二节点的对象在各所述相邻节点对应的类型数据的分布概率;第二节点与所述相邻节点的连接边的权值,与第二节点在所述相邻节点对应的类型数据的概率,为正相关关系。
第26方面,根据第25方面所述的对象标记装置,所述第二类型数据确定单元,用于根据所述第二节点的标签数据,确定所述第二部分的对象的类型数据,包括:
根据所述第二节点的标签数据指示的类型分布数据,确定分布概率最大的类型数据为所述第二节点的对象的类型数据。
第27方面,根据第25方面所述的对象标记装置,所述类型数据包括对应目标类型的目标类型数据和对应非目标类型的非目标类型数据;所述第二类型数据确定单元,用于根据所述第二节点的标签数据,确定所述第二部分的对象的类型数据,包括:
根据所述第二节点的标签数据,确定在所述目标类型数据的分布概率大于预设概率值的第二节点,将所确定的第二节点的对象的类型数据确定为目标类型数据;
为第二部分的对象中类型数据不为目标类型数据的对象,确定非目标类型数据。
第28方面,根据第17方面所述的对象标记装置,所述类型数据包括对应目标类型的目标类型数据和对应非目标类型的非目标类型数据;所述对应关系确定单元,用于根据所述第一部分的对象及所述第二部分的对象的类型数据,确定对象与类型的对应关系,包括:
基于所述第一部分的对象中目标类型数据对应的对象,及所述第二部分的对象中目标类型数据对应的对象,确定目标类型数据与对象的初始对应关系;
获取针对所述初始对应关系的审核信息,在所述审核信息指示所述初始对应关系审核通过时,将所述初始对应关系作为目标类型数据与对象的目标对应关系。
第29方面,根据第28方面所述的对象标记装置,所述标记单元,用于根据所述对应关系,为所述对象提供方提供的对象标记类型,包括:
根据所述目标对应关系,在所述对象提供方提供的对象中,查找与目标类型数据对应的对象,为查找到的对象标记目标类型数据。
第30方面,根据第18或19方面所述的对象标记装置,所述相似度确定单元,用于根据所述目标对象集合中各对象的对象向量,确定所述目标对象集合中各对象之间的相似度,包括:
确定所述目标对象集合中各对象的对象向量之间的余弦相似度,以所述余弦相似度作为所述目标对象集合中各对象之间的相似度。
第31方面,根据第17方面所述的对象标记装置,所述对象集合获取单元用于获取与对象提供方关联的至少一个对象集合的包括:
获取与对象提供方关联的对象数量不小于第二预设数量的对象集合。
第32方面,根据第17方面所述的对象标记装置,所述目标对象集合中第一部分的对象的数量,小于所述第二部分的对象的数量。
第33方面,一种平台服务器,包括至少一个存储器和至少一个处理器;所述存储器存储一条或多条计算机可执行指令,所述处理器调用所述一条或多条计算机可执行指令,以执行第1-16方面任一方面所述的对象标记方法。
第34方面,一种存储介质,所述存储介质存储一条或多条计算机可执行指令,所述一条或多条计算机可执行指令用于执行第1-16方面任一方面所述的对象标记方法。
Claims (10)
1.一种对象标记方法,其特征在于,包括:
获取与对象提供方关联的至少一个对象集合,所述对象集合包括所述对象提供方提供的预聚集的多个对象;
根据多个所述对象提供方关联的对象集合,确定目标对象集合中各对象之间的相似度;所述目标对象集合包括多个所述对象提供方关联的对象集合中的不同对象,且,所述目标对象集合中第一部分的对象已确定类型数据,第二部分的对象未确定类型数据;
根据所述目标对象集合中各对象之间的相似度,及所述第一部分的对象的类型数据,确定所述第二部分的对象的类型数据;
根据所述第一部分的对象及所述第二部分的对象的类型数据,确定对象与类型的对应关系;
根据所述对应关系,为所述对象提供方提供的对象标记类型。
2.根据权利要求1所述的对象标记方法,其特征在于,所述根据多个所述对象提供方关联的对象集合,确定目标对象集合中各对象之间的相似度包括:
针对所述目标对象集合中的任一个对象,根据所述对象所属的对象集合中的上下文,确定所述对象的对象向量;所述上下文为所述对象所属的对象集合中,位于所述对象之前的对象及位于所述对象之后的对象;
根据所述目标对象集合中各对象的对象向量,确定所述目标对象集合中各对象之间的相似度。
3.根据权利要求2所述的对象标记方法,其特征在于,所述根据所述对象所属的对象集合中的上下文,确定所述对象的对象向量包括:
根据所述对象在所属的对象集合中的上下文,确定所述对象的词向量,所述词向量作为所述对象向量;其中,所述对象集合中的一个对象定义为一个词单元,一个所述对象集合定义为一个句单元。
4.根据权利要求2或3所述的对象标记方法,其特征在于,所述上下文具体为所述对象所属的对象集合中,位于所述对象之前的第一预设数量的对象,及位于所述对象之后的第一预设数量的对象;所述第一预设数量大于或等于,所述多个对象提供方关联的对象集合中的对象数量的最大值。
5.根据权利要求1或2所述的对象标记方法,其特征在于,所述根据所述目标对象集合中各对象之间的相似度,及所述第一部分的对象的类型数据,确定所述第二部分的对象的类型数据,包括:
以所述目标对象集合中的对象为节点,所述目标对象集合中各对象之间的相似度为节点的连接边的权值,构建标签数据传播图;其中,标签数据传播图中的节点包括所述第一部分对象的第一节点,和所述第二部分对象的第二节点;
根据所述第一部分的对象的类型数据,确定所述标签数据传播图中第一节点的标签数据,其中,一个节点的标签数据包括所述节点的对象的类型分布数据;
根据所述标签数据传播图中各节点之间的连接关系、各节点之间的连接边的权值,及所述第一节点的标签数据,预测所述标签数据传播图中第二节点的标签数据;
根据所述第二节点的标签数据,确定所述第二部分的对象的类型数据。
6.根据权利要求5所述的对象标记方法,其特征在于,所述根据所述标签数据传播图中各节点之间的连接关系、各节点之间的连接边的权值,及所述第一节点的标签数据,预测所述标签数据传播图中第二节点的标签数据,包括:
针对标签数据传播图中的任一第二节点,根据所述标签数据传播图中各节点之间的连接关系,确定所述第二节点的相邻节点及所述相邻节点的标签数据;
根据所述相邻节点的标签数据,及所述相邻节点与所述第二节点的连接边的权值,确定所述第二节点的标签数据;其中,所述相邻节点与所述第二节点的连接边的权值,与所述相邻节点和所述第二节点的标签数据的接近程度为正相关关系。
7.根据权利要求1所述的对象标记方法,其特征在于,所述类型数据包括对应目标类型的目标类型数据和对应非目标类型的非目标类型数据;所述根据所述第一部分的对象及所述第二部分的对象的类型数据,确定对象与类型的对应关系,包括:
基于所述第一部分的对象中目标类型数据对应的对象,及所述第二部分的对象中目标类型数据对应的对象,确定目标类型数据与对象的初始对应关系;
获取针对所述初始对应关系的审核信息,在所述审核信息指示所述初始对应关系审核通过时,将所述初始对应关系作为目标类型数据与对象的目标对应关系。
8.一种对象标记装置,其特征在于,包括:
对象集合获取单元,用于获取与对象提供方关联的至少一个对象集合,所述对象集合包括所述对象提供方提供的预聚集的多个对象;
相似度确定单元,用于根据多个所述对象提供方关联的对象集合,确定目标对象集合中各对象之间的相似度;所述目标对象集合包括多个所述对象提供方关联的对象集合中的不同对象,且,所述目标对象集合中第一部分的对象已确定类型数据,第二部分的对象未确定类型数据;
第二类型数据确定单元,用于根据所述目标对象集合中各对象之间的相似度,及所述第一部分的对象的类型数据,确定所述第二部分的对象的类型数据;
对应关系确定单元,用于根据所述第一部分的对象及所述第二部分的对象的类型数据,确定对象与类型的对应关系;
标记单元,用于根据所述对应关系,为所述对象提供方提供的对象标记类型。
9.一种平台服务器,其特征在于,包括至少一个存储器和至少一个处理器;所述存储器存储一条或多条计算机可执行指令,所述处理器调用所述一条或多条计算机可执行指令,以执行权利要求1-7任一项所述的对象标记方法。
10.一种存储介质,其特征在于,所述存储介质存储一条或多条计算机可执行指令,所述一条或多条计算机可执行指令用于执行权利要求1-7任一项所述的对象标记方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010148860.5A CN111339425B (zh) | 2020-03-05 | 2020-03-05 | 一种对象标记方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010148860.5A CN111339425B (zh) | 2020-03-05 | 2020-03-05 | 一种对象标记方法、装置、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111339425A true CN111339425A (zh) | 2020-06-26 |
CN111339425B CN111339425B (zh) | 2021-07-23 |
Family
ID=71185867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010148860.5A Active CN111339425B (zh) | 2020-03-05 | 2020-03-05 | 一种对象标记方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339425B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140280178A1 (en) * | 2013-03-15 | 2014-09-18 | Citizennet Inc. | Systems and Methods for Labeling Sets of Objects |
CN105045821A (zh) * | 2015-06-26 | 2015-11-11 | 深圳市金立通信设备有限公司 | 一种信息处理方法及终端 |
CN106452809A (zh) * | 2015-08-04 | 2017-02-22 | 北京奇虎科技有限公司 | 一种数据处理方法和装置 |
CN108319626A (zh) * | 2017-01-18 | 2018-07-24 | 阿里巴巴集团控股有限公司 | 一种基于名称信息的对象分类方法与设备 |
US20190179615A1 (en) * | 2016-10-27 | 2019-06-13 | Tencent Technology (Shenzhen) Company Limited | Community discovery method, device, server and computer storage medium |
CN109903854A (zh) * | 2019-01-25 | 2019-06-18 | 电子科技大学 | 一种基于中医药文献的核心药物识别方法 |
CN110162692A (zh) * | 2018-12-10 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 用户标签确定方法、装置、计算机设备和存储介质 |
CN110209922A (zh) * | 2018-06-12 | 2019-09-06 | 中国科学院自动化研究所 | 对象推荐方法、装置、存储介质及计算机设备 |
CN110413868A (zh) * | 2018-11-06 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 信息推荐方法、装置、系统及存储介质 |
-
2020
- 2020-03-05 CN CN202010148860.5A patent/CN111339425B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140280178A1 (en) * | 2013-03-15 | 2014-09-18 | Citizennet Inc. | Systems and Methods for Labeling Sets of Objects |
CN105045821A (zh) * | 2015-06-26 | 2015-11-11 | 深圳市金立通信设备有限公司 | 一种信息处理方法及终端 |
CN106452809A (zh) * | 2015-08-04 | 2017-02-22 | 北京奇虎科技有限公司 | 一种数据处理方法和装置 |
US20190179615A1 (en) * | 2016-10-27 | 2019-06-13 | Tencent Technology (Shenzhen) Company Limited | Community discovery method, device, server and computer storage medium |
CN108319626A (zh) * | 2017-01-18 | 2018-07-24 | 阿里巴巴集团控股有限公司 | 一种基于名称信息的对象分类方法与设备 |
CN110209922A (zh) * | 2018-06-12 | 2019-09-06 | 中国科学院自动化研究所 | 对象推荐方法、装置、存储介质及计算机设备 |
CN110413868A (zh) * | 2018-11-06 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 信息推荐方法、装置、系统及存储介质 |
CN110162692A (zh) * | 2018-12-10 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 用户标签确定方法、装置、计算机设备和存储介质 |
CN109903854A (zh) * | 2019-01-25 | 2019-06-18 | 电子科技大学 | 一种基于中医药文献的核心药物识别方法 |
Non-Patent Citations (1)
Title |
---|
温雯 等: ""面向专业文献知识实体类型的抽取和标注"", 《中文信息学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN111339425B (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8190556B2 (en) | Intellegent data search engine | |
US20200052973A1 (en) | Cybersecurity Incident Response and Security Operation System Employing Playbook Generation Through Custom Machine Learning | |
CN110909182B (zh) | 多媒体资源搜索方法、装置、计算机设备及存储介质 | |
CN110457581A (zh) | 一种资讯推荐方法、装置、电子设备及存储介质 | |
CN108694647B (zh) | 一种商户推荐理由的挖掘方法及装置,电子设备 | |
CN111400507B (zh) | 实体匹配方法及其装置 | |
US20120209870A1 (en) | Web query classification | |
CN103116588A (zh) | 一种个性化推荐方法及系统 | |
CN106462583A (zh) | 用于快速数据分析的系统和方法 | |
CN110033097B (zh) | 基于多个数据域确定用户与物品的关联关系的方法及装置 | |
WO2019019385A1 (zh) | 跨平台数据匹配方法、装置、计算机设备和存储介质 | |
Ruseckaite et al. | Bayesian D-optimal choice designs for mixtures | |
CN111428007B (zh) | 基于跨平台的同步推送反馈方法 | |
CN116796027A (zh) | 商品图片标签生成方法及其装置、设备、介质、产品 | |
CN111339425B (zh) | 一种对象标记方法、装置、服务器及存储介质 | |
CN103324641A (zh) | 信息记录推荐方法和装置 | |
CN108427730B (zh) | 一种基于随机游走和条件随机场的社会标签推荐方法 | |
CN116362786A (zh) | 一种基于点餐习惯的菜品个性化调味方法及装置 | |
CN115795136A (zh) | 一种数据处理方法、装置及设备 | |
CN110442681A (zh) | 一种机器阅读理解的方法、电子设备及可读存储介质 | |
Trusov et al. | Retailer promotion planning: Improving forecast accuracy and interpretability | |
CN111125541B (zh) | 面向多用户的可持续多云服务组合的获取方法 | |
CN115238134A (zh) | 用于生成图数据结构的图向量表示的方法及装置 | |
CN115391665A (zh) | 视频推荐方法、装置、电子设备及存储介质 | |
CN108170665A (zh) | 基于综合相似度的关键词拓展方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |