CN116204795A - 对象识别方法、装置、电子设备及存储介质 - Google Patents
对象识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116204795A CN116204795A CN202111447385.2A CN202111447385A CN116204795A CN 116204795 A CN116204795 A CN 116204795A CN 202111447385 A CN202111447385 A CN 202111447385A CN 116204795 A CN116204795 A CN 116204795A
- Authority
- CN
- China
- Prior art keywords
- data
- account
- matching
- determining
- matching pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开关于一种对象识别方法、装置、电子设备及存储介质,该方法包括:获取第一目标系统的第一对象群数据集合,并获取第二目标系统的第二对象群数据集合;按照预设对象关联特征,对第一对象数据和第二对象数据进行匹配,将相匹配的第一对象账号和第二对象账号确定为匹配对,并将匹配对加入匹配对候选集;根据第一对象数据和第二对象数据中除预设对象关联特征外的其他属性数据,确定匹配对候选集中为同一对象的目标匹配对。本公开可以对两个目标系统中所有数据进行处理,提高了数据覆盖率,而且提高了识别效率。
Description
技术领域
本公开涉及互联网技术领域,尤其涉及一种对象识别方法、装置、电子设备及存储介质。
背景技术
随着移动通讯技术的成熟化发展,移动智能终端的普及为视频多元化的播放场景奠定基础,短视频类的应用程序得到了快速的发展,因此对短视频数据的处理也越发重要,尤其是对对象数据进行识别处理。为了对同一对象的行为数据进行对比分析,需要识别多个对象账号是否属于同一对象。
相关技术中,在进行对象识别时,一般是通过人工打标方式来识别,但是这种方式识别效率非常低,而且无法在短时间内覆盖所有对象。
发明内容
本公开提供一种对象识别方法、装置、电子设备及存储介质,以至少解决相关技术中识别效率低、覆盖率低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种对象识别方法,包括:
获取第一目标系统的第一对象群数据集合,并获取第二目标系统的第二对象群数据集合,所述第一对象群数据集合包括多个与第一对象账号对应的第一对象数据,所述第二对象群数据集合包括多个与第二对象账号对应的第二对象数据;
按照预设对象关联特征,对所述第一对象数据和第二对象数据进行匹配,确定相匹配的第一对象账号和第二对象账号,将相匹配的第一对象账号和第二对象账号确定为匹配对,并将所述匹配对加入匹配对候选集;
根据所述第一对象数据和第二对象数据中除所述预设对象关联特征外的其他属性数据,确定所述匹配对候选集中为同一对象的目标匹配对。
可选的,在按照预设对象关联特征,对所述第一对象数据和第二对象数据进行匹配之前,还包括:
分别对所述第一对象数据和第二对象数据进行预处理,使得所述第一对象数据和所述第二对象数据的数据格式一致。
可选的,按照预设对象关联特征,对所述第一对象数据和第二对象数据进行匹配,确定相匹配的第一对象账号和第二对象账号,包括下述至少一种:
确定所述第一对象数据和第二对象数据中对象名称的相似度,将对象名称的相似度大于第一相似度阈值的第一对象账号和第二对象账号确定为相匹配的第一对象账号和第二对象账号;
确定所述第一对象数据和第二对象数据中对象描述信息的相似度,将对象描述信息的相似度大于第二相似度阈值的第一对象账号和第二对象账号确定为相匹配的第一对象账号和第二对象账号;
确定第一对象账号对应的第一对象数据和第二对象账号对应的第二对象数据中相同作品的数量,并确定第一对象账号的第一对象作品总数和第二对象账号的第二对象作品总数,将所述相同作品的数量占第一对象作品总数和第二对象作品总数的比例均大于第一比例阈值的第一对象账号和第二对象账号确定为相匹配的第一对象账号和第二对象账号;
确定第一对象账号对应的第一对象数据和第二对象账号对应的第二对象数据中共同关注者的数量,并确定第一对象账号的第一总关注者数量和第二对象账号的第二总关注者数量,将所述共同关注者的数量占第一总关注者数量和第二总关注者数量的比例均大于第二比例阈值的第一对象账号和第二对象账号确定为相匹配的第一对象账号和第二对象账号。
可选的,根据所述第一对象数据和第二对象数据中除所述预设对象关联特征外的其他属性数据,确定所述匹配对候选集中为同一对象的目标匹配对,包括:
根据所述第一对象数据和第二对象数据中除所述预设对象关联特征外的其他属性数据,确定所述匹配对候选集中的匹配对为同一对象的匹配得分;
根据所述匹配得分,确定所述匹配对候选集中为同一对象的目标匹配对。
可选的,根据所述第一对象数据和第二对象数据中除所述预设对象关联特征外的其他属性数据,确定所述匹配对候选集中的匹配对为同一对象的匹配得分,包括:
确定所述第一对象数据和第二对象数据中每个其他属性数据的相似度;
根据所述每个其他属性数据的相似度,确定所述匹配对候选集中的匹配对为同一对象的匹配得分。
可选的,根据所述每个其他属性数据的相似度,确定所述匹配对候选集中的匹配对为同一对象的匹配得分,包括:
将所述每个其他属性数据的相似度作为权重,对每个其他属性数据的预设得分进行加权求和,得到所述匹配对候选集中的匹配对为同一对象的匹配得分;或者
将所述每个其他属性数据的相似度输入二分类模型,得到所述匹配对候选集中的匹配对为同一对象的匹配得分。
可选的,根据所述匹配得分,确定所述匹配对候选集中为同一对象的目标匹配对,包括:
从所述匹配对候选集中确定所述匹配得分大于或等于得分阈值的匹配对;
对所述匹配得分大于或等于得分阈值的匹配对进行去重,得到所述匹配对候选集中为同一对象的目标匹配对。
根据本公开实施例的第二方面,提供一种对象识别装置,包括:
数据获取模块,被配置为执行获取第一目标系统的第一对象群数据集合,并获取第二目标系统的第二对象群数据集合,所述第一对象群数据集合包括多个与第一对象账号对应的第一对象数据,所述第二对象群数据集合包括多个与第二对象账号对应的第二对象数据;
数据匹配模块,被配置为执行按照预设对象关联特征,对所述第一对象数据和第二对象数据进行匹配,确定相匹配的第一对象账号和第二对象账号,将相匹配的第一对象账号和第二对象账号确定为匹配对,并将所述匹配对加入匹配对候选集;
识别结果确定模块,被配置为执行根据所述第一对象数据和第二对象数据中除所述预设对象关联特征外的其他属性数据,确定所述匹配对候选集中为同一对象的目标匹配对。
可选的,所述装置还包括:
预处理模块,被配置为执行分别对所述第一对象数据和第二对象数据进行预处理,使得所述第一对象数据和所述第二对象数据的数据格式一致。
可选的,所述数据匹配模块包括下述至少一种:
名称匹配单元,被配置为执行确定所述第一对象数据和第二对象数据中对象名称的相似度,将对象名称的相似度大于第一相似度阈值的第一对象账号和第二对象账号确定为相匹配的第一对象账号和第二对象账号;
描述信息匹配单元,被配置为执行确定所述第一对象数据和第二对象数据中对象描述信息的相似度,将对象描述信息的相似度大于第二相似度阈值的第一对象账号和第二对象账号确定为相匹配的第一对象账号和第二对象账号;
作品匹配单元,被配置为执行确定第一对象账号对应的第一对象数据和第二对象账号对应的第二对象数据中相同作品的数量,并确定第一对象账号的第一对象作品总数和第二对象账号的第二对象作品总数,将所述相同作品的数量占第一对象作品总数和第二对象作品总数的比例均大于第一比例阈值的第一对象账号和第二对象账号确定为相匹配的第一对象账号和第二对象账号;
关注者匹配单元,被配置为执行确定第一对象账号对应的第一对象数据和第二对象账号对应的第二对象数据中共同关注者的数量,并确定第一对象账号的第一总关注者数量和第二对象账号的第二总关注者数量,将所述共同关注者的数量占第一总关注者数量和第二总关注者数量的比例均大于第二比例阈值的第一对象账号和第二对象账号确定为相匹配的第一对象账号和第二对象账号。
可选的,所述识别结果确定模块包括:
匹配得分确定单元,被配置为执行根据所述第一对象数据和第二对象数据中除所述预设对象关联特征外的其他属性数据,确定所述匹配对候选集中的匹配对为同一对象的匹配得分;
识别结果确定单元,被配置为执行根据所述匹配得分,确定所述匹配对候选集中为同一对象的目标匹配对。
可选的,所述匹配得分确定单元包括:
属性相似度确定子单元,被配置为执行确定所述第一对象数据和第二对象数据中每个其他属性数据的相似度;
匹配得分确定子单元,被配置为执行根据所述每个其他属性数据的相似度,确定所述匹配对候选集中的匹配对为同一对象的匹配得分。
可选的,所述匹配得分确定子单元被配置为执行:
将所述每个其他属性数据的相似度作为权重,对每个其他属性数据的预设得分进行加权求和,得到所述匹配对候选集中的匹配对为同一对象的匹配得分;或者
将所述每个其他属性数据的相似度输入二分类模型,得到所述匹配对候选集中的匹配对为同一对象的匹配得分。
可选的,所述识别结果确定单元包括:
匹配对筛选子单元,被配置为执行从所述匹配对候选集中确定所述匹配得分大于或等于得分阈值的匹配对;
匹配对去重子单元,被配置为执行对所述匹配得分大于或等于得分阈值的匹配对进行去重,得到所述匹配对候选集中为同一对象的目标匹配对。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的对象识别方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的对象识别方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机程序或计算机指令,所述计算机程序或计算机指令被处理器执行时实现如第一方面所述的对象识别方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开实施例通过在获取到第一目标系统的第一对象群数据集合和第二目标系统的第二对象群数据集合后,按照预设对象关联特征对第一对象群数据集合中的第一对象数据和第二对象群数据集合中的第二对象数据进行匹配,将相匹配的第一对象账号和第二对象账号确定为匹配对,并将匹配对加入匹配对候选集,根据第一对象数据和第二对象数据中除预设对象关联特征外的其他属性数据确定匹配对候选集中为同一对象的目标匹配对,实现了基于第一目标系统的第一对象数据和第二目标系统的第二对象数据来识别两个目标系统的同一对象,相对于人工打标方式,可以对两个目标系统中所有数据进行处理,提高了数据覆盖率,而且提高了识别效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种对象识别方法的流程图;
图2是根据一示例性实施例示出的一种对象识别装置的框图;
图3是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
目前,对于短视频系统同一对象的识别几乎处于空白阶段,无法识别不同系统的对象账号是否属于同一对象,相关技术只能通过人工打标方式来识别不同系统的同一对象,但是这种方式识别效率较低而且覆盖率低。
目前在进行对象识别时可以从公开的对象信息着手来识别。与常见的偏静态文本类的应用程序不同,短视频领域的对象信息更加多元化,除了常见的年龄、性别、地理位置、学历等画像特征外,更多的是与作品相关的行为特征,比如对象直播、发布作品、转发分享、点赞、评论等行为数据,而文本类特征相对较少。鉴于此,普通对象若没有发布作品行为或者直播行为,则可用的识别特征较少导致准确性不高,而创作者在短视频系统具有至关重要的作用,因此本公开重点针对创作者进行对象识别。
需要说明的是,本公开所涉及的对象信息均为经用户授权或者经过各方充分授权的信息和数据。
图1是根据一示例性实施例示出的一种对象识别方法的流程图,如图1所示,该对象识别方法可以用于服务器等电子设备中,包括以下步骤。
在步骤S11中,获取第一目标系统的第一对象群数据集合,并获取第二目标系统的第二对象群数据集合,所述第一对象群数据集合包括多个与第一对象账号对应的第一对象数据,所述第二对象群数据集合包括多个与第二对象账号对应的第二对象数据。
其中,所述第一对象数据为第一目标系统中公开的对象数据,包括对象年龄、性别、地理位置、粉丝数、作品数、对象名称、对象描述信息、作品、关注者等。所述第二对象数据为第二目标系统中公开的对象数据,包括对象年龄、性别、地理位置、粉丝数、作品数、对象名称、对象描述信息、作品、关注者等。第一对象群数据集合为第一对象群的数据集合,第一对象群包括多个第一对象账号,在所述第一对象群数据集合中,一个第一对象账号对应一个第一对象数据;第二对象群数据集合为第二对象群的数据集合,第二对象群包括多个第二对象账号,在所述第二对象群数据集合中,一个第二对象账号对应一个第二对象数据。
分别整理第一目标系统和第二目标系统中当前可获得的合规的对象数据,对这些对象数据进行清洗,得到第一目标系统的第一对象群数据集合和第二目标系统的第二对象群数据集合。从当前可用的所有对象特征数据,探查数据字段的覆盖率以及格式问题,保证使用的数据是准确完整可用的,这一阶段同时也确定了哪些字段可用于后续匹配对的召回和排序识别。
在步骤S12中,按照预设对象关联特征,对所述第一对象数据和第二对象数据进行匹配,确定相匹配的第一对象账号和第二对象账号,将相匹配的第一对象账号和第二对象账号确定为匹配对,并将所述匹配对加入匹配对候选集。
其中,所述预设对象关联特征是预先设置的第一目标系统和第二目标系统中对象数据存在关联的属性特征,用于召回候选的匹配对。所述预设对象关联特征可以包括对象名称、对象描述信息、作品和关注者中的至少一种。
预设对象关联特征可以是一个特征或者多个特征,针对每个预设对象关联特征,可以分别对第一对象数据和第二对象数据按照预设对象关联特征进行匹配,若第一对象数据和第二对象数据相匹配,得到对应的第一对象账号和第二对象账号相匹配,即得到相匹配的第一对象账号和第二对象账号,将相匹配的第一对象账号和第二对象账号确定为候选的匹配对,将该匹配对加入匹配对候选集。匹配对候选集用于筛选识别为同一对象的匹配对。
在一个示例性实施例中,按照预设对象关联特征,对所述第一对象数据和第二对象数据进行匹配,确定相匹配的第一对象账号和第二对象账号,包括下述至少一种:
确定所述第一对象数据和第二对象数据中对象名称的相似度,将对象名称的相似度大于第一相似度阈值的第一对象账号和第二对象账号确定为相匹配的第一对象账号和第二对象账号;
确定所述第一对象数据和第二对象数据中对象描述信息的相似度,将对象描述信息的相似度大于第二相似度阈值的第一对象账号和第二对象账号确定为相匹配的第一对象账号和第二对象账号;
确定第一对象账号对应的第一对象数据和第二对象账号对应的第二对象数据中相同作品的数量,并确定第一对象账号的第一对象作品总数和第二对象账号的第二对象作品总数,将所述相同作品的数量占第一对象作品总数和第二对象作品总数的比例均大于第一比例阈值的第一对象账号和第二对象账号确定为相匹配的第一对象账号和第二对象账号;
确定第一对象账号对应的第一对象数据和第二对象账号对应的第二对象数据中共同关注者的数量,并确定第一对象账号的第一总关注者数量和第二对象账号的第二总关注者数量,将所述共同关注者的数量占第一总关注者数量和第二总关注者数量的比例均大于第二比例阈值的第一对象账号和第二对象账号确定为相匹配的第一对象账号和第二对象账号。
由于同一对象可能会在不同的目标系统使用相同的对象名称,所以可以将对象名称作为召回候选的匹配对的一个预设对象关联特征。从所述第一对象群数据集合中获取每条第一对象数据中的对象名称,并从第二对象群数据集合中获取每条第二对象数据中的对象名称,对对象名称去掉中文符号、大写转小写处理后,将第一对象数据中的对象名称与第二对象数据中的对象名称进行完全匹配,确定第一对象数据中的对象名称与第二对象数据中的对象名称的相似度,并将对象名称的相似度大于第一相似度阈值的第一对象账号和第二对象账号确定为相匹配的第一对象账号和第二对象账号。
同一对象在不同的目标系统填写对象描述信息时,一般填写的内容基本相同,所以可以将对象描述信息作为召回候选的匹配对的一个预设对象关联特征。从所述第一对象群数据集合中获取每条第一对象数据中的对象描述信息,并从第二对象群数据集合中获取每条第二对象数据中的对象描述信息,对对象描述信息长文本去掉所有标点符号,计算第一对象数据中的对象描述信息与第二对象数据中的对象描述信息的相似度,该相似度可以使用余弦相似度,并将对象描述信息的相似度大于第二相似度阈值的第一对象账号和第二对象账号确定为相匹配的第一对象账号和第二对象账号。
同一对象在不同系统可能会发布相同的作品,所以可以将相同作品作为召回候选的匹配对的一个预设对象关联特征。从所述第一对象群数据集合中获取每条第一对象数据中的作品,并从第二对象群数据集合中获取每条第二对象数据中的作品,按照对象账号,比较第一对象数据和第二对象数据中的作品,即将第一目标系统的一个第一对象账号对应的第一对象数据与第二目标系统的一个第二对象账号对应的第二对象数据进行比较,可以比较作品名称、发布时间等属性,确定该第一对象数据和第二对象数据是否存在相同作品,如果存在相同作品,确定第一对象数据和第二对象数据中相同作品的数量,并确定第一对象账号的对象作品总数,作为第一对象作品总数,确定第二对象账号的对象作品总数,作为第二对象作品总数,如果相同作品的数量占第一对象作品总数的比例大于第一比例阈值,且相同作品的数量占第二对象作品总数的比例大于第一比例阈值,则将对应的第一对象账号和第二对象账号确定为相匹配的第一对象账号和第二对象账号。例如,第一对象账号U1和第二对象账号U2有4个相同作品,第一对象账号U1的第一对象作品总数为5,第二对象账号U2的第二对象作品总数为10,则相同作品的数量占第一对象作品总数的比例为4/5,相同作品的数量占第二对象作品总数的比例为4/10,如果第一比例阈值为1/2,相同作品的数量占第一对象作品总数的比例大于第一比例阈值,相同作品的数量占第二对象作品总数的比例小于第一比例阈值,则确定第一对象账号U1和第二对象账号U2不作为匹配对。又如,第一对象账号U1和第二对象账号U2有6个相同作品,第一对象账号U1的第一对象作品总数为8,第二对象账号U2的第二对象作品总数为10,则相同作品的数量占第一对象作品总数的比例为6/8,相同作品的数量占第二对象作品总数的比例为6/10,如果第一比例阈值为1/2,相同作品的数量占第一对象作品总数的比例大于第一比例阈值,相同视频作品的数量占第二对象作品总数的比例大于第一比例阈值,则确定第一对象账号U1和第二对象账号U2为相匹配的第一对象账号和第二对象账号,可以作为匹配对。
同一对象在不同系统会存在相同的关注者,所以可以将关注者作为召回候选的匹配对的一个预设对象关联特征。按照对象账号,获取第一对象群数据集合中每条第一对象数据中关注者的名称,并获取第二对象群数据集合每条第二对象数据中关注者的名称,比较第一对象数据中关注者的名称与第二对象数据中关注者的名称,即确定第一目标系统的一个第一对象账号和第二目标系统的一个第二对象账号是否存在相同名称的关注者,如果第一对象账号和第二对象账号存在相同名称的关注者,则确定该关注者为第一对象账号和第二对象账号的共同关注者,确定第一对象账号和第二对象账号共同关注者的数量,并确定第一对象账号的总关注者数量,作为第一总关注者数量,确定第二对象账号的总关注者数量,作为第二总关注者数量,若共同关注者的数量占第一总关注者数量的比例大于第二比例阈值,且共同关注者的数量占第二总关注者数量的比例大于第二比例阈值,则将第一对象账号和第二对象账号确定为相匹配的第一对象账号和第二对象账号。例如第一对象账号A和第二对象账号B对应的共同关注者为4个,第一对象账号A对应的第一总关注者数量为6,第二对象账号B对应的第二总关注者数量为7,则共同关注者占第一对象账号A对应的第一总关注者数量的比例为4/6,共同关注者占第二对象账号B对应的第二总关注者数量的比例为4/7,如果第二比例阈值为1/2,则共同关注者占第一对象账号A的第一总关注者数量的比例大于1/2,共同关注者占第二对象账号B的第二总关注者数量的比例大于1/2,所以确定第一对象账号A和第二对象账号B为相匹配的第一对象账号和第二对象账号。又如,第一对象账号A和第二对象账号B对应的共同关注者为2个,第一对象账号A对应的第一总关注者数量为10,第二对象账号B对应的第二总关注者数量为3,则共同关注者占第一对象账号A对应的第一总关注者数量的比例为2/10,共同关注者占第二对象账号B对应的第二总关注者数量的比例为2/3,如果第二比例阈值为1/2,则共同关注者占第一对象账号A的第一总关注者数量的比例小于1/2,共同关注者占第二对象账号B的第二总关注者数量的比例大于1/2,所以确定第一对象账号A和第二对象账号B为不相匹配的第一对象账号和第二对象账号,第一对象账号A和第二对象账号B不作为一个匹配对。
通过基于对象名称、对象描述信息、相同作品占比、共同关注者占比来召回候选的匹配对,可以覆盖较多的对象,提高对象覆盖率,提高识别准确性。
在一个示例性实施例中,在确定所述第一对象数据和第二对象数据中对象描述信息的相似度之前,还包括:分别将第一对象群数据集合和第二对象群数据集合中出现频率大于频率阈值的对象描述信息过滤掉。
由于系统有默认的对象描述信息,或者对象描述信息太短没有区分性,因此可以对出现频率较高的对象描述信息做反作弊过滤,即对于第一目标系统中的第一对象群数据集合中出现频率大于频率阈值的对象描述信息过滤掉,并将第二目标系统中的第二对象群数据集合中出现频率大于频率阈值的对象描述信息过滤掉,即出现频率大于频率阈值的对象描述信息不作为召回候选的匹配对的依据,这样可以获取到较为准确的候选匹配对。
在步骤S13中,根据所述第一对象数据和第二对象数据中除所述预设对象关联特征外的其他属性数据,确定所述匹配对候选集中为同一对象的目标匹配对。
其中,所述其他属性数据可以包括:对象年龄、性别、地理位置、粉丝数、作品数以及是否同时安装第一目标系统应用程序和第二目标系统应用程序等中的至少一种。
在得到匹配对候选集后,需要进一步从匹配对候选集中筛选出识别为同一对象的匹配对,可以根据所述第一对象数据和第二对象数据中除所述预设对象关联特征外的其他属性数据,对匹配对候选集中的匹配对进行进一步筛选,即对于每个匹配对可以基于其他属性数据确定为是否为同一对象,从而得到匹配对候选集中为同一对象的目标匹配对。
在一个示例性实施例中,根据所述第一对象数据和第二对象数据中除所述预设对象关联特征外的其他属性数据,确定所述匹配对候选集中为同一对象的目标匹配对,包括:根据所述第一对象数据和第二对象数据中除所述预设对象关联特征外的其他属性数据,确定所述匹配对候选集中的匹配对为同一对象的匹配得分;根据所述匹配得分,确定所述匹配对候选集中为同一对象的目标匹配对。
对于每个匹配对可以基于其他属性数据确定匹配对为同一对象的匹配得分,可以将匹配得分与预先设置的得分阈值进行比较,将匹配得分大于或等于得分阈值的匹配对确定为同一对象,即将该匹配对确定为目标匹配对,从而可以得到匹配对候选集中为同一对象的目标匹配对。通过基于其他属性数据确定匹配对为同一对象的匹配得分,并基于匹配得分确定匹配对候选集中为同一对象的目标匹配对,可以提高确定的目标匹配对的准确性。
在一个示例性实施例中,根据所述第一对象数据和第二对象数据中除所述预设对象关联特征外的其他属性数据,确定所述匹配对候选集中的匹配对为同一对象的匹配得分,包括:确定所述第一对象数据和第二对象数据中每个其他属性数据的相似度;根据所述每个其他属性数据的相似度,确定所述匹配对候选集中的匹配对为同一对象的匹配得分。
对于匹配对候选集中每个匹配对,分别确定第一对象数据和第二对象数据中每个其他属性数据的相似度,例如分别确定对象年龄、性别、地理位置、粉丝数、作品数的相似度,基于每个其他属性数据的相似度可以使用熵值权重分配法或者使用二分类模型,确定匹配对为同一对象的概率值。由于同一对象在不同系统中的对象基本信息一般都是相同的,即对象年龄、性别、地理位置等是相同的,而作品相关信息如粉丝数和作品数一般也相似,所以基于每个其他属性数据的相似度可以得到匹配对为同一对象的匹配得分,得到的匹配得分可以准确的区分两个系统的对象账号是否为同一对象。
在一个示例性实施例中,根据所述每个其他属性数据的相似度,确定所述匹配对候选集中的匹配对为同一对象的匹配得分,包括:
将所述每个其他属性数据的相似度作为权重,对每个其他属性数据的预设得分进行加权求和,得到所述匹配对候选集中的匹配对为同一对象的匹配得分;或者
将所述每个其他属性数据的相似度输入二分类模型,得到所述匹配对候选集中的匹配对为同一对象的匹配得分。
使用熵值分配法确定匹配对为同一对象的匹配得分时,可以预先设置每个其他属性数据的得分,作为预设得分,对于每个匹配对,在计算得到每个其他属性数据的相似度后,将每个其他属性数据的相似度作为权重,对每个其他属性数据的预设得分进行加权求和,得到匹配对候选集中每个匹配对为同一对象的匹配得分。对于不同的粉丝段对准确性要求有差异时,可以基于粉丝数来调整每个其他属性数据的预设概率值,即对于不同的粉丝段其他属性数据的预设得分可以不同,例如,对于粉丝段为1-100设置的其他属性数据的预设概率值按照对象年龄、性别、地理位置、粉丝数、作品数、是否安装目标系统应用程序依次可以为:0.2、0.2、0.1、0.1、0.2、0.2,对于粉丝段为100-1000设置的其他属性数据的预设概率值按照对象年龄、性别、地理位置、粉丝数、作品数、是否安装目标系统应用程序依次可以为:0.2、0.2、0.1、0.15、0.15、0.2。通过不同的粉丝数来调整预设概率值,可以进一步提高识别的准确性。
可以预先训练一个二分类模型,输入为一个匹配对对应的其他属性数据的相似度,输出为该匹配对为同一对象的匹配得分,从而在得到匹配对候选集中每个匹配对对应的其他属性数据的相似度后,可以将每个其他属性数据的相似度输入二分类模型,获取二分类模型的输出结果,得到匹配对候选集中的匹配对为同一对象的概率值。
经过实践,熵值权重分配法,准确率效果不错,但是对于新增数据样本准确率波动较大,范化性能较差,而二分类模型可以进一步提高泛化性能,使用二分类模型可以得到较为准确的匹配得分,从而提高识别的准确性。
在一个示例性实施例中,根据所述匹配得分,确定所述匹配对候选集中为同一对象的目标匹配对,包括:从所述匹配对候选集中确定所述匹配得分大于或等于得分阈值的匹配对;对所述匹配得分大于或等于得分阈值的匹配对进行去重,得到所述匹配对候选集中为同一对象的目标匹配对。
将匹配对候选集中的每个匹配对的匹配得分分别与得分阈值进行比较,确定匹配得分大于或等于得分阈值的匹配对,由于匹配对候选集中的匹配对是通过不同的渠道即不同的预设对象关联特征分别召回的,可能会存在相同的匹配对,对于匹配得分大于或等于得分阈值的匹配对进行去重,剩余的匹配对为匹配对候选集中为同一对象的目标匹配对。通过从匹配对候选集中筛选匹配得分大于或等于得分阈值的匹配对并去重,可以得到较为准确的识别结果,提高同一对象的识别准确性。
根据业务要求,即要求识别效果更加准确,又要求将不同系统的同一对象尽可能识别出来,因此可以制定准确率和召回率(覆盖率)作为识别效果的评估指标。使用一批运营打标的双栖对象数据,利用这批数据来验证识别策略,经过验证最终准确率可达到93%以上,召回率也能达到90%左右,可见本示例性实施例提供的对象识别方法可以基于不同系统中的公开数据较为准确的识别同一对象。
本示例性实施例提供的对象识别方法,通过在获取到第一目标系统的第一对象群数据集合和第二目标系统的第二对象群数据集合后,按照预设对象关联特征对第一对象群数据集合中的第一对象数据和第二对象群数据集合中的第二对象数据进行匹配,将相匹配的第一对象账号和第二对象账号确定为匹配对,并将匹配对加入匹配对候选集,根据第一对象数据和第二对象数据中除预设对象关联特征外的其他属性数据确定匹配对候选集中为同一对象的目标匹配对,实现了基于第一目标系统的第一对象数据和第二目标系统的第二对象数据来识别两个目标系统的同一对象,相对于人工打标方式,可以对两个目标系统中所有数据进行处理,提高了数据覆盖率,而且提高了识别效率。
在上述技术方案的基础上,在按照预设对象关联特征,对所述第一对象数据和第二对象数据进行匹配之前,还包括:分别对所述第一对象数据和第二对象数据进行预处理,使得所述第一对象数据和所述第二对象数据的数据格式一致。
在获取到第一对象数据和第二对象数据后,为了较好地基于第一对象数据和第二对象数据进行跨系统同一对象的识别,可以分别对第一对象数据和第二对象数据进行预处理,使得第一对象数据和所述第二对象数据的数据格式一致。例如,对于文本内容可以去掉中英文标点符号等;对于年龄字段可以将数字、生日日期格式统一;对于性别字段需要将0/1数字编码与F/M(男/女)标识统一;生成是否安装目标系统应用程序的标签、去掉对象描述信息这种长文本中的标点符号等。通过预处理,使得第一对象数据和所述第二对象数据的数据格式一致,为后续的对象识别策略做准备。
在上述技术方案的基础上,在确定所述匹配对候选集中为同一对象的目标匹配对之后,还包括:对所述目标匹配对进行抽样,将抽样得到的目标匹配对发送至人工验证系统,并获取人工验证结果。
在确定匹配对候选集中为同一对象的目标匹配对后,可以对确定为同一对象的目标匹配对进行验证,以确保识别的准确性,这时可以对目标匹配对进行抽样,将抽样得到的目标匹配对发送至人工验证系统,验证人员可以通过人工验证系统获取待验证的匹配对对应的第一对象数据和第二对象数据,并进行人工验证,在人工验证系统上给出人工验证结果,从而可以从人工验证系统获取到人工验证结果。通过对目标匹配对进行抽样,并对抽样到的目标匹配对进行人工验证,可以保证同一对象的识别准确性。
图2是根据一示例性实施例示出的一种对象识别装置的框图。参照图2,该装置包括数据获取模块21、数据匹配模块22和识别结果确定模块23。
该数据获取模块21被配置为执行获取第一目标系统的第一对象群数据集合,并获取第二目标系统的第二对象群数据集合,所述第一对象群数据集合包括多个与第一对象账号对应的第一对象数据,所述第二对象群数据集合包括多个与第二对象账号对应的第二对象数据;
该数据匹配模块22被配置为执行按照预设对象关联特征,对所述第一对象数据和第二对象数据进行匹配,确定相匹配的第一对象账号和第二对象账号,将相匹配的第一对象账号和第二对象账号确定为匹配对,并将所述匹配对加入匹配对候选集;
该识别结果确定模块23被配置为执行根据所述第一对象数据和第二对象数据中除所述预设对象关联特征外的其他属性数据,确定所述匹配对候选集中为同一对象的目标匹配对。
可选的,所述装置还包括:
预处理模块,被配置为执行分别对所述第一对象数据和第二对象数据进行预处理,使得所述第一对象数据和所述第二对象数据的数据格式一致。
可选的,所述数据匹配模块包括下述至少一种:
名称匹配单元,被配置为执行确定所述第一对象数据和第二对象数据中对象名称的相似度,将对象名称的相似度大于第一相似度阈值的第一对象账号和第二对象账号确定为相匹配的第一对象账号和第二对象账号;
描述信息匹配单元,被配置为执行确定所述第一对象数据和第二对象数据中对象描述信息的相似度,将对象描述信息的相似度大于第二相似度阈值的第一对象账号和第二对象账号确定为相匹配的第一对象账号和第二对象账号;
作品匹配单元,被配置为执行确定第一对象账号对应的第一对象数据和第二对象账号对应的第二对象数据中相同作品的数量,并确定第一对象账号的第一对象作品总数和第二对象账号的第二对象作品总数,将所述相同作品的数量占第一对象作品总数和第二对象作品总数的比例均大于第一比例阈值的第一对象账号和第二对象账号确定为相匹配的第一对象账号和第二对象账号;
关注者匹配单元,被配置为执行确定第一对象账号对应的第一对象数据和第二对象账号对应的第二对象数据中共同关注者的数量,并确定第一对象账号的第一总关注者数量和第二对象账号的第二总关注者数量,将所述共同关注者的数量占第一总关注者数量和第二总关注者数量的比例大于第二比例阈值的第一对象账号和第二对象账号确定为相匹配的第一对象账号和第二对象账号。
可选的,所述识别结果确定模块包括:
匹配得分确定单元,被配置为执行根据所述第一对象数据和第二对象数据中除所述预设对象关联特征外的其他属性数据,确定所述匹配对候选集中的匹配对为同一对象的匹配得分;
识别结果确定单元,被配置为执行根据所述匹配得分,确定所述匹配对候选集中为同一对象的目标匹配对。
可选的,所述匹配得分确定单元包括:
属性相似度确定子单元,被配置为执行确定所述第一对象数据和第二对象数据中每个其他属性数据的相似度;
匹配得分确定子单元,被配置为执行根据所述每个其他属性数据的相似度,确定所述匹配对候选集中的匹配对为同一对象的匹配得分。
可选的,所述匹配得分确定子单元被配置为执行:
将所述每个其他属性数据的相似度作为权重,对每个其他属性数据的预设得分进行加权求和,得到所述匹配对候选集中的匹配对为同一对象的匹配得分;或者
将所述每个其他属性数据的相似度输入二分类模型,得到所述匹配对候选集中的匹配对为同一对象的匹配得分。
可选的,所述识别结果确定单元包括:
匹配对筛选子单元,被配置为执行从所述匹配对候选集中确定所述匹配得分大于或等于得分阈值的匹配对;
匹配对去重子单元,被配置为执行对所述匹配得分大于或等于得分阈值的匹配对进行去重,得到所述匹配对候选集中为同一对象的目标匹配对。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图3是根据一示例性实施例示出的一种用于电子设备的框图。例如,例如,电子设备300可以被提供为一服务器。参照图3,电子设备300包括处理组件322,其进一步包括一个或多个处理器,以及由存储器332所代表的存储器资源,用于存储可由处理组件322的执行的指令,例如应用程序。存储器332中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件322被配置为执行指令,以执行上述对象识别方法。
电子设备300还可以包括一个电源组件326被配置为执行电子设备300的电源管理,一个有线或无线网络接口350被配置为将电子设备300连接到网络,和一个输入输出(I/O)接口358。电子设备300可以操作基于存储在存储器332的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器332,上述指令可由电子设备300的处理组件322执行以完成上述对象识别方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品,包括计算机程序或计算机指令,所述计算机程序或计算机指令被处理器执行时实现上述的对象识别方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种对象识别方法,其特征在于,包括:
获取第一目标系统的第一对象群数据集合,并获取第二目标系统的第二对象群数据集合,所述第一对象群数据集合包括多个与第一对象账号对应的第一对象数据,所述第二对象群数据集合包括多个与第二对象账号对应的第二对象数据;
按照预设对象关联特征,对所述第一对象数据和第二对象数据进行匹配,确定相匹配的第一对象账号和第二对象账号,将相匹配的第一对象账号和第二对象账号确定为匹配对,并将所述匹配对加入匹配对候选集;
根据所述第一对象数据和第二对象数据中除所述预设对象关联特征外的其他属性数据,确定所述匹配对候选集中为同一对象的目标匹配对。
2.根据权利要求1所述的方法,其特征在于,在按照预设对象关联特征,对所述第一对象数据和第二对象数据进行匹配之前,还包括:
分别对所述第一对象数据和第二对象数据进行预处理,使得所述第一对象数据和所述第二对象数据的数据格式一致。
3.根据权利要求1所述的方法,其特征在于,按照预设对象关联特征,对所述第一对象数据和第二对象数据进行匹配,确定相匹配的第一对象账号和第二对象账号,包括下述至少一种:
确定所述第一对象数据和第二对象数据中对象名称的相似度,将对象名称的相似度大于第一相似度阈值的第一对象账号和第二对象账号确定为相匹配的第一对象账号和第二对象账号;
确定所述第一对象数据和第二对象数据中对象描述信息的相似度,将对象描述信息的相似度大于第二相似度阈值的第一对象账号和第二对象账号确定为相匹配的第一对象账号和第二对象账号;
确定第一对象账号对应的第一对象数据和第二对象账号对应的第二对象数据中相同作品的数量,并确定第一对象账号的第一对象作品总数和第二对象账号的第二对象作品总数,将所述相同作品的数量占第一对象作品总数和第二对象作品总数的比例均大于第一比例阈值的第一对象账号和第二对象账号确定为相匹配的第一对象账号和第二对象账号;
确定第一对象账号对应的第一对象数据和第二对象账号对应的第二对象数据中共同关注者的数量,并确定第一对象账号的第一总关注者数量和第二对象账号的第二总关注者数量,将所述共同关注者的数量占第一总关注者数量和第二总关注者数量的比例均大于第二比例阈值的第一对象账号和第二对象账号确定为相匹配的第一对象账号和第二对象账号。
4.根据权利要求1所述的方法,其特征在于,根据所述第一对象数据和第二对象数据中除所述预设对象关联特征外的其他属性数据,确定所述匹配对候选集中为同一对象的目标匹配对,包括:
根据所述第一对象数据和第二对象数据中除所述预设对象关联特征外的其他属性数据,确定所述匹配对候选集中的匹配对为同一对象的匹配得分;
根据所述匹配得分,确定所述匹配对候选集中为同一对象的目标匹配对。
5.根据权利要求4所述的方法,其特征在于,根据所述第一对象数据和第二对象数据中除所述预设对象关联特征外的其他属性数据,确定所述匹配对候选集中的匹配对为同一对象的匹配得分,包括:
确定所述第一对象数据和第二对象数据中每个其他属性数据的相似度;
根据所述每个其他属性数据的相似度,确定所述匹配对候选集中的匹配对为同一对象的匹配得分。
6.根据权利要求5所述的方法,其特征在于,根据所述每个其他属性数据的相似度,确定所述匹配对候选集中的匹配对为同一对象的匹配得分,包括:
将所述每个其他属性数据的相似度作为权重,对每个其他属性数据的预设得分进行加权求和,得到所述匹配对候选集中的匹配对为同一对象的匹配得分;或者
将所述每个其他属性数据的相似度输入二分类模型,得到所述匹配对候选集中的匹配对为同一对象的匹配得分。
7.一种对象识别装置,其特征在于,包括:
数据获取模块,被配置为执行获取第一目标系统的第一对象群数据集合,并获取第二目标系统的第二对象群数据集合,所述第一对象群数据集合包括多个与第一对象账号对应的第一对象数据,所述第二对象群数据集合包括多个与第二对象账号对应的第二对象数据;
数据匹配模块,被配置为执行按照预设对象关联特征,对所述第一对象数据和第二对象数据进行匹配,确定相匹配的第一对象账号和第二对象账号,将相匹配的第一对象账号和第二对象账号确定为匹配对,并将所述匹配对加入匹配对候选集;
识别结果确定模块,被配置为执行根据所述第一对象数据和第二对象数据中除所述预设对象关联特征外的其他属性数据,确定所述匹配对候选集中为同一对象的目标匹配对。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6任一项所述的对象识别方法。
9.一种计算机可读存储介质,当所述计算机存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至6任一项所述的对象识别方法。
10.一种计算机程序产品,包括计算机程序或计算机指令,其特征在于,所述计算机程序或计算机指令被处理器执行时实现权利要求1至6任一项所述的对象识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111447385.2A CN116204795A (zh) | 2021-11-30 | 2021-11-30 | 对象识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111447385.2A CN116204795A (zh) | 2021-11-30 | 2021-11-30 | 对象识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116204795A true CN116204795A (zh) | 2023-06-02 |
Family
ID=86510006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111447385.2A Pending CN116204795A (zh) | 2021-11-30 | 2021-11-30 | 对象识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116204795A (zh) |
-
2021
- 2021-11-30 CN CN202111447385.2A patent/CN116204795A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11194965B2 (en) | Keyword extraction method and apparatus, storage medium, and electronic apparatus | |
CN110210294B (zh) | 优化模型的评价方法、装置、存储介质及计算机设备 | |
US11475055B2 (en) | Artificial intelligence based method and apparatus for determining regional information | |
WO2019071738A1 (zh) | 考生身份验证方法、装置、可读存储介质及终端设备 | |
CN113382279B (zh) | 直播推荐方法、装置、设备、存储介质以及计算机程序产品 | |
CN111708942B (zh) | 多媒体资源推送方法、装置、服务器及存储介质 | |
CN110941978B (zh) | 一种未识别身份人员的人脸聚类方法、装置及存储介质 | |
CN111312286A (zh) | 年龄识别方法、装置、设备及计算机可读存储介质 | |
CN105303449B (zh) | 基于相机指纹特征的社交网络用户的识别方法和系统 | |
CN110245573A (zh) | 一种基于人脸识别的签到方法、装置及终端设备 | |
EP3486902A1 (en) | Identity vector processing method and computer device | |
CN113160800B (zh) | 语音数据标注方法及电子设备、存储装置 | |
CN114329034A (zh) | 基于细粒度语义特征差异的图像文本匹配判别方法及系统 | |
CN112990035A (zh) | 一种文本识别的方法、装置、设备以及存储介质 | |
CN112580108A (zh) | 签名和印章完整性验证方法及计算机设备 | |
CN111508506A (zh) | 音频文件的原唱检测方法、装置、服务器及存储介质 | |
CN115618415A (zh) | 敏感数据识别方法、装置、电子设备和存储介质 | |
CN109165572B (zh) | 用于生成信息的方法和装置 | |
CN113434672B (zh) | 文本类型智能识别方法、装置、设备及介质 | |
CN113723466B (zh) | 文本相似度量化方法、设备及系统 | |
CN112434049A (zh) | 表格数据存储方法、装置、存储介质及电子装置 | |
CN108830217B (zh) | 一种基于模糊均值哈希学习的签名自动判别方法 | |
CN116204795A (zh) | 对象识别方法、装置、电子设备及存储介质 | |
CN116110066A (zh) | 票据文本的信息提取方法、装置、设备及存储介质 | |
CN114297409A (zh) | 模型训练方法、信息抽取方法及装置、电子设备、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |