CN115982458A - 基于兴趣的数据推送方法和装置、电子设备及存储介质 - Google Patents
基于兴趣的数据推送方法和装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115982458A CN115982458A CN202211676587.9A CN202211676587A CN115982458A CN 115982458 A CN115982458 A CN 115982458A CN 202211676587 A CN202211676587 A CN 202211676587A CN 115982458 A CN115982458 A CN 115982458A
- Authority
- CN
- China
- Prior art keywords
- data
- interest
- user
- labeling
- annotation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种基于兴趣的数据推送方法和装置、电子设备及存储介质。该基于兴趣的数据推送方法包括:获取标注用户已标注的多个数据以及标注用户对多个数据的标注行为数据,其中,多个数据与至少一个兴趣标签关联;根据标注行为数据,确定标注用户针对至少一个兴趣标签的至少一个兴趣分,其中,至少一个兴趣分与至少一个兴趣标签一一对应,至少一个兴趣分中与至少一个兴趣标签中的每一个兴趣标签对应的兴趣分用于表示标注用户对每一个兴趣标签的感兴趣程度;基于至少一个兴趣分,为标注用户进行数据推送。通过本申请,能够提高数据的人工标注的效率。
Description
技术领域
本申请涉及推荐系统技术,尤其涉及一种基于兴趣的数据推送方法和装置、电子设备及存储介质。
背景技术
随着人类社会步入大数据时代,每一时刻都有海量的数据产生。为了更高效地利用这海量的数据,对数据的有效分类就显得尤为重要。人们已经提出了很多模型来进行数据分类、信息提取、信息过滤等。然而,这些模型的实际效果十分依赖于数据的标注。
然而,到目前为止,数据的标注仍需要标注用户的参与。这意味着对数据进行人工标注。这必然需要耗费大量的人力来实现海量数据的人工标注。
因此,如何提高数据的人工标注的效率是一个亟待解决的问题。
发明内容
本申请提供一种基于兴趣的数据推送方法和装置、电子设备及存储介质,能够提高数据的人工标注的效率。
本申请的技术方案是这样实现的:
在第一方面,本申请提供一种基于兴趣的数据推送方法。该方法包括:获取标注用户已标注的多个数据以及标注用户对多个数据的标注行为数据,其中,多个数据与至少一个兴趣标签关联;根据标注行为数据,确定标注用户针对至少一个兴趣标签的至少一个兴趣分,其中,至少一个兴趣分与至少一个兴趣标签一一对应,至少一个兴趣分中与至少一个兴趣标签中的每一个兴趣标签对应的兴趣分用于表示标注用户对每一个兴趣标签的感兴趣程度;基于至少一个兴趣分,为标注用户进行数据推送。
在第二方面,本申请提供一种基于兴趣的数据推送装置。该装置包括获取模块、确定模块、以及推送模块。获取模块被配置为获取标注用户已标注的多个数据以及标注用户对多个数据的标注行为数据。多个数据与至少一个兴趣标签关联。确定模块被配置为根据标注行为数据,确定标注用户针对至少一个兴趣标签的至少一个兴趣分。至少一个兴趣分与至少一个兴趣标签一一对应。至少一个兴趣分中与至少一个兴趣标签中的每一个兴趣标签对应的兴趣分用于表示标注用户对每一个兴趣标签的感兴趣程度。推送模块被配置为基于至少一个兴趣分,为标注用户进行数据推送。
在第三方面,本申请提供一种电子设备。该电子设备包括处理器和存储器。存储器被连接到处理器并且被配置为存储可执行指令。处理器被配置为在执行存储器中存储的可执行指令时,实现如第一方面所述的基于兴趣的数据推送方法。
在第四方面,本申请提供一种计算机可读存储介质。该计算机可读存储介质中存储有可执行指令。可执行指令被处理器执行时实现如第一方面所述的基于兴趣的数据推送方法。
在第五方面,本申请提供一种计算机程序产品。该计算机程序产品包括计算机程序或指令。计算机程序或指令被处理器执行时实现如第一方面所述的基于兴趣的数据推送方法。
本申请的技术方案具有以下有益效果:
根据本申请,通过动态计算标注用户的兴趣分,对标注用户的兴趣向量进行调整;之后,根据调整的兴趣向量,向标注用户推送与标注用户的兴趣最匹配的数据。如此,能够将与标注用户的兴趣标签最匹配的数据推送给标注用户。因为标注用户对于与自身兴趣标签最匹配的数据通常具有最高的认知程度,所以标注用户对这类数据的标注具有更高的准确率和最快的标注速度。因此,通过依照兴趣标签向标注用户推送数据,实现了更精准的待标注数据的推送,进而提高了数据标注的标注准确率并且缩短了标注耗时,以使数据标注具有更高的效率,减少了人力消耗。
附图说明
图1是本申请实施例中的基于兴趣的数据推送的系统架构的结构示意图。
图2是本申请实施例中的用于实现数据推送的终端的结构示意图。
图3是本申请实施例中的一种基于兴趣的数据推送方法的流程示意图。
图4是本申请实施例中的基于数据向量和用户向量确定待推送数据的流程示意图。
图5是本申请实施例中的一种基于兴趣的数据推送装置的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一实施例”、“一些实施例”等,其描述了所有可能实施例的子集,但是可以理解,“一实施例”、“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
如果申请文件中出现“第一/第二”的类似描述则增加以下的说明,在以下的描述中,所涉及的术语“第一/第二/第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
随着人类社会步入大数据时代,每一时刻都有海量的数据产生。为了更高效地利用这海量的数据,对数据的有效分类就显得尤为重要。人们已经提出了很多模型来进行数据分类、信息提取、信息过滤等。然而,这些模型的实际效果十分依赖于数据的标注。
对于数据的标注会产生该数据对应的标签。该标签可以用于表示数据所属的类别。对于数据而言,这样的标签可以被称为数据标签。
到目前为止,数据的标注仍需要标注用户的参与。这意味着对数据进行人工标注。通常,数据作为任务被随机分配给标注用户。然后,由标注用户对分配给自己的数据进行标注,并返回标注结果。这必然需要耗费大量的人力来实现海量数据的人工标注。更重要的是,标注用户针对不同场景、内容、领域的数据的认知程度往往是不同的。这意味着标注用户对于一些类别的数据更感兴趣,而对于另一些类别的数据更陌生。那么,对于不同类别的数据,标注用户的标注准确率和标注耗时必然是不同的。可以看出,随机分配的机制严重降低了人工标注的效率。
因此,如何提高数据的人工标注的效率是一个亟待解决的问题。
本申请实施例提供一种基于兴趣的数据推送方法和装置、电子设备及存储介质,能够提高数据的人工标注的效率。下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的用户终端,也可以实施为服务器。下面,将说明设备实施为终端或服务器时示例性应用。
图1是本申请实施例中的基于兴趣的数据推送的系统架构的结构示意图。为了实现基于兴趣的数据推送,终端110与服务器120之间通过网络130连接。网络130可以是广域网或者局域网,又或者是二者的组合。标注用户即为终端110的用户。
终端110用于获取标注用户已标注的多个数据以及标注用户对多个数据的标注行为数据,并且根据标注行为数据确定标注用户针对至少一个兴趣标签的至少一个兴趣分。服务器120用于基于至少一个兴趣分为标注用户进行数据推送。
在一些实施例中,终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等。在一些实施例中,服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通
信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等5基础云计算服务的云服务器。需要说明的是,本申请实施例中的终端110和服
务器120不限于此。此外,终端110和服务器120之间可以通过有线或无线通信方式进行直接或间接地连接,本发明实施例中不做限制。
可以理解的是,在一些实施例中,终端110可以用于获取标注用户已标注
的多个数据以及标注用户对多个数据的标注行为数据,根据标注行为数据确定0标注用户针对至少一个兴趣标签的至少一个兴趣分,以及基于至少一个兴趣分
为标注用户进行数据推送。在一些实施例中,服务器120可以用于获取标注用户已标注的多个数据以及标注用户对多个数据的标注行为数据,根据标注行为数据确定标注用户针对至少一个兴趣标签的至少一个兴趣分,以及基于至少一个兴趣分为标注用户进行数据推送。
5图2是本申请实施例中的用于实现数据推送的终端的结构示意图。如图2
所示,终端110包括:至少一个处理器210、存储器250、至少一个网络接口2
20和用户接口230。终端110中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括
数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说0明起见,在图2中将各种总线都标为总线系统240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
5用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Me mory),易失性存储器可以是随机存取存储器(RAM,Random Access Memor y)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统251包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。
网络通信模块252用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线保真(Wi-Fi)、和通用串行总线(USB,Universal Serial Bus)等。
呈现模块253用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口)。
输入处理模块254用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的装置可以采用软件方式实现,图2示出了存储在存储器250中的基于兴趣的数据推送装置500。基于兴趣的数据推送装置500可以是程序和插件等形式的软件,并且包括以下软件模块:获取模块510、确定模块520和推送模块530。这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在一些实施例中,本申请实施例提供的装置可以采用硬件方式实现,作为示例,本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的基于兴趣的数据推送方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Applicati on Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件。
在一些实施例中,终端和/或服务器可以通过运行计算机程序来实现本申请实施例提供的基于兴趣的数据推送方法。举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地应用程序(APP,Application),即需要在操作系统中安装才能运行的程序;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意应用程序中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
在下文中,将结合本申请实施例提供的基于兴趣的数据推送的系统架构基础上,说明本申请实施例提供的基于兴趣的数据推送方法。可以理解的是,基于兴趣的数据推送方法可以由终端单独实施,也可以由服务器单独实施,也可以由终端和服务器共同实施。
图3是本申请实施例中的一种基于兴趣的数据推送方法的流程示意图。如图3所示,基于兴趣的数据推送方法包括步骤S310至S330。
在步骤S310中,获取标注用户已标注的多个数据以及标注用户对多个数据的标注行为数据。
标注用户是对数据进行标注的用户。在一般情况下,标注用户可以通过终端对数据进行标注。标注用户与至少一个兴趣标签关联。与标注用户关联的至少一个兴趣标签可以是人为确定的,也可以是根据标注用户的用户数据计算得到的。在一实施例中,至少一个兴趣标签可以是标注用户通过终端在兴趣标签集合中选择的。例如,标注用户可以在终端的显示界面中显示的一个或多个候选兴趣标签中选择与自身关联的至少一个兴趣标签。在一实施例中,与标注用户关联的至少一个兴趣标签可以是根据标注用户的历史标注数据和/或历史交互数据确定的。例如,可以根据标注用户以往标注的数据的类别,将标注次数最多的数据类别确定与标注用户关联的至少一个兴趣标签。又例如,可以根据标注用户以往交互的数据的类别,将交互数量最多的数据类别确定为与标注用户关联的至少一个兴趣标签。
标注用户已标注的多个数据可以是待标注的数据。在实际应用中,该数据可以是各种形式的数据。该数据可以是文本、图片、视频、直播视频、应用程序以及其它类型数据中的任意一种或任意多种的组合。例如,对于微博应用程序,该数据可以是博文、图片、视频等。又例如,对于直播应用程序,该数据可以是直播视频。
在此,多个数据与至少一个兴趣标签关联。具体地,每个数据可以与一个或多个兴趣标签关联,这意味着一个数据可以属于一个类别,或者同时属于多个类别。例如,对于记载着明星消息的博文形式的数据,该数据的兴趣标签可以是明星。又例如,对于记录了第二次世界大战的视频形式的数据,该数据的兴趣标签可以是历史和战争。此外,每个数据的兴趣标签可以具有多个层级。例如,对于记载天蝎座的运势的博文形式的数据,该数据可以具有三个层级的兴趣标签:第一级兴趣标签为星座命理,第二级兴趣标签为星座,第三级兴趣标签为天蝎座。此外,在多个数据中,不同的数据可以具有相同的兴趣标签、部分相同的兴趣标签、或者完全不同的兴趣标签。需要说明的是,在本申请实施例中,与数据相关联的兴趣标签也可以被称为数据标签。
在实际应用中,已标注的多个数据可以是之前推送给标注用户并由标注用户完成标注的数据。在标注用户进行标注的过程中,同时得到标注用户对多个数据的标注行为数据。
在一实施例中,标注行为数据可以包括:标注用户针对多个数据标注的至少一个兴趣标签。在一实施例中,标注行为数据还可以包括:标注用户针对多个数据中的每一个数据进行标注的时间数据。时间数据可以包括时长或时刻。例如,时间数据可以包括每一个数据的标注开始时间和标注完成时间。标注开始时间是标注用户请求获得该数据的时间。标注完成时间是提交标注用户对该数据进行标注的结果的时间。标注开始时间和标注结束时间可以以时间戳的形式记录。又例如,时间数据可以包括每一个数据的标注时长。标注时长是从标注用户请求获得该数据到提交标注用户对该数据进行标注的结果之间的时长。
在步骤S320中,根据标注行为数据,确定标注用户针对至少一个兴趣标签的至少一个兴趣分。
在此,至少一个兴趣分与至少一个兴趣标签一一对应,并且至少一个兴趣分中与至少一个兴趣标签中的每一个兴趣标签对应的兴趣分用于表示标注用户对每一个兴趣标签的感兴趣程度。
在一实施例中,在多个数据被标注用户标注之前,需要对多个数据进行预处理。预处理的作用是基于多个数据确定兴趣标签集合。在一示例中,预处理包括关键词提取和聚类。在关键词提取过程中,提取每一个数据的关键词作为关键词标签。这里,可以使用关键提取算法实现关键词提取。之后,在聚类过程中,可以将针对每一个数据得到的关键词标签进行聚类,以得到兴趣标签。这里,可以使用诸如k均值聚类算法(k-means clusteringalgorithm)之类的方法进行聚类。此外,聚类之后的关键词标签在经过整理之后,还可以得到兴趣标签集合。因此,兴趣标签集合可以包括基于多个数据得到的全部关键词标签。
在预处理之后,可以针对多个数据中的每一个数据得到对应的数据向量。在一实施例中,可以基于兴趣标签集合,根据每一个数据的兴趣标签确定该数据的数据向量。在一示例中,可以基于兴趣标签集合并根据该数据的兴趣标签,对该数据的兴趣标签进行独热(one-hot)编码处理,从而得到与该数据对应的数据向量。例如,该数据对应的数据向量中的比特与兴趣标签集合中的兴趣标签是一一对应的;并且该数据的兴趣标签在数据向量中对应的比特设置为1,数据向量中除与该数据的兴趣标签对应的比特之外的比特均设置为0。又例如,该数据对应的数据向量中的比特与兴趣标签集合中的兴趣标签是多对一的。具体来说,兴趣标签集合中的每一个兴趣标签可以由数据向量中的多个比特表示,并且不同兴趣标签采用相同数量的比特表示。该数据的兴趣标签在数据向量中对应的多个比特可以采用以下方式设置:全部设置为1、首个比特设置为1、末尾比特设置为1等。数据向量中除与该数据的兴趣标签对应的比特之外的比特均设置为0。
此外,可以针对标注用户得到对应的用户向量。用户向量是基于兴趣标签集合确定的。在一实施例中,用户向量中的比特与兴趣标签集合中的兴趣标签是一一对应的。用户向量与数据向量可以具有相同的比特数,并且用户向量与数据向量中相同位置的比特与同一个兴趣标签对应。在一实施例中,用户向量中的比特与兴趣标签集合中的兴趣标签是多对一应的。具体来说,兴趣标签集合中的每一个兴趣标签可以由用户向量中的多个比特表示,并且不同兴趣标签采用相同数量的比特表示。在一实施例中,标注用户的兴趣标签是从兴趣标签集合中选择的。例如,终端可以将兴趣标签集合显示在显示界面上,以供标注用户进行选择。在一实例中,在确定出标注用户的兴趣标签之后,可以基于兴趣标签集合并根据标注用户的兴趣标签,对标注用户的兴趣标签进行独热编码处理,从而得到与标注用户对应的用户向量。
需要说明的是,用户向量中的每一个或每多个比特可以作为标注用户针对与该比特对应的兴趣标签的感兴趣程度。这样的感兴趣程度可以由兴趣分表示。
至此,经过预处理和独热编码得到的数据向量和用户向量可以表示相同数量的兴趣标签,并且可以采用相同或不同数量的比特表示同一个兴趣标签。
在一实施例中,步骤S320可以包括以下两个步骤。
在第一步骤中,根据标注行为数据,确定标注用户针对每一个兴趣标签的标注能力参数。
在此,标注能力参数用于表示标注用户对与每一个兴趣标签关联的数据进行标注的能力。
标注用户的标注能力参数用于衡量标注用户对与每一个兴趣标签关联的数据进行标注的能力。在一实施例中,标注能力参数可以包括标注准确率和/或标注耗时。标注准确率主要体现了标注用户的标注质量。标注耗时主要体现了标注用户的标注效率。需要说明的是,标注能力参数还可以包括其它参数,本申请实施例对此不做具体限定。
标注准确率用于表示标注用户对与每一个兴趣标签关联的数据进行标注的准确率。在一实施例中,标注准确率可以由标注用户对已标注的多个数据的准确率表示。
一方面,标注准确率可以通过以下步骤确定:确定多个数据中与每一个兴趣标签关联的第一数据;根据标注行为数据,从第一数据中确定标注正确的第二数据;计算第二数据的数量与第一数据的数量的比值,以得到标注准确率。为了确定标注正确的第二数据,可以将标注行为数据中标注用户对第一数据的标注结果与第一数据的正确标注结果进行比较,则第一数据中比较结果相同的数据被作为第二数据。在一实施例中,正确标注结果可以是通过专家用户对第一数据进行标注得到的。也就是说,针对每一个兴趣标签,将对应的第一数据推送给专家用户,并由专家用户进行标注并返回正确标注结果。
另一方面,标注耗时可以通过以下步骤确定:确定多个数据中与每一个兴趣标签关联的第一数据;根据标注行为数据,确定标注用户对第一数据中的每一个数据进行标注所耗费的第一时长;计算第一数据的所述第一时长之和,以得到每一个兴趣标签对应的第二时长;计算第二时长与第一数据的数量的比值,以得到标注耗时。因为在标注行为数据中包含有标注用户对多个数据进行标注的时间数据,所以根据标注行为数据确定与每一个兴趣标签关联的数据的时间数据,从而进一步确定与该兴趣标签对应的标注耗时。在一实施例中,可以将第一数据中的全部数据进行标注所耗费的第一时长相加并除以第一数据的数量,从而得到第一数据中的每一个数据的平均标注耗时。在一示例中,对于第一数据中的每一个数据,可以从标注行为数据中得到该数据的标注完成时间和标注开始时间,并计算标注完成时间和标注开始时间之差,以得到该数据的标注耗时。在另一示例中,可以从标注行为数据中直接得到标注时长。对于第一数据中的每一个数据,可以将该数据的标注完成时间减去标注开始时间,以得到该数据的标注耗时。可以看出,标注耗时可以是标注用户对第一数据进行标注的平均耗时。需要说明的是,在一些情况下,标注耗时也可以是标注用户对第一数据进行标注的最短耗时或最长耗时,本申请实施例对此不做具体限定。
在此,第一数据可以作为针对一个兴趣标签的验证数据集合。通常,第一数据可以包括多个数据。例如,第一数据可以包括数十个、数百个、甚至数千个数据。此外,第一数据可以是标注用户在一时间窗口内针对该兴趣标签标注的数据。时间窗口的长度可以根据实际需要具体设置。例如,时间窗口的长度可以是30分钟、2小时、24小时、7天等。
在第二步骤中,根据标注能力参数,确定与每一个兴趣标签对应的兴趣分。
在此,每一个兴趣标签对应的兴趣分是根据标注能力参数确定的。
需要说明的是,在通过独热编码得到标注用户的用户向量之后,标注用户的每一个用户标签对应的兴趣分具有初始值,则对应的用户向量为初始用户向量。在一实施例中,标注用户的初始用户向量可以是经过归一化处理得到的用户向量。经过归一化处理之后,与标注用户的每一个兴趣标签对应的兴趣分不大于1,并且与标注用户的全部兴趣标签对应的兴趣分之和为1。
在得到兴趣分的初始值之后,可以根据标注能力参数对兴趣分进行调整。需要说明的是,对于标注用户的每一个兴趣标签对应的兴趣分的调整是独立进行的。那么,在分别对标注用户的全部或部分兴趣标签对应的兴趣分进行调整之后,可以对用户向量进行归一化。
在此,对于在一时间窗口中确定兴趣分的第二步骤进行说明。在一实施例中,该第二步骤可以包括以下两个子步骤。在此,该时间窗口可以称为特定时间窗口。
在第一子步骤中,获取与每一个兴趣标签对应的当前兴趣分。
当前兴趣分是在特定时间窗口的前一个时间窗口中调整的兴趣分。当然,当特定时间窗口是第一次调整兴趣分的时间窗口时,则当前兴趣分可以是初始兴趣分。
在第二子步骤中,根据与每一个兴趣标签对应的标注能力参数,对当前兴趣分进行调整,以得到与每一个兴趣标签对应的兴趣分。
具体地,首先针对每一个兴趣标签,根据对应的标注能力参数对该当前兴趣分进行调整;在调整完全部兴趣标签的兴趣分之后,对全部兴趣分进行归一化处理。由此,能够得到每一个兴趣标签对应的调整后的兴趣分。
可以理解的是,通过多个时间窗口,可以对兴趣分进行多次调整。在一实施例中,多个时间窗口在时间上可以是连续的。如此,能够在一段时间内多次调整兴趣分。在一实施例中,多个时间窗口在时间上可以是间隔的。如此,可以在标注用户对大量待标注数据进行标注之后,基于这些标注的数据对兴趣分进行一次调整。
在一实施例中,在标注能力参数包括标注准确率的情况下,与每一个兴趣标签对应的兴趣分w'可以通过以下公式(1)获得:
w' = w + w × c (1);
其中,w'为与每一个兴趣标签对应的兴趣分,w为与每一个兴趣标签对应的当前兴趣分,c为与每一个兴趣标签对应的标注准确率。
在一实施例中,在标注能力参数包括标注耗时的情况下,与每一个兴趣标签对应的兴趣分w'可以通过以下公式(2)获得:
w' = w + w / v (2);
其中,w'为与每一个兴趣标签对应的兴趣分,w为与每一个兴趣标签对应的当前兴趣分,v为与每一个兴趣标签对应的标注耗时。
在一实施例中,在标注能力参数包括标注准确率和标注耗时的情况下,与每一个兴趣标签对应的兴趣分w'可以通过以下公式(3)获得:
w' = w + w × c / v (3);
其中,w'为与每一个兴趣标签对应的兴趣分,w为与每一个兴趣标签对应的当前兴趣分,c为与每一个兴趣标签对应的标注准确率,v为与每一个兴趣标签对应的标注耗时。
在步骤S330中,基于至少一个兴趣分,为标注用户进行数据推送。
具体地,在针对标注用户的至少一个兴趣标签得到至少一个兴趣分之后,可以基于待标注数据为标注用户进行数据推送。
在一实施例中,数据推送是基于待推送数据的数据向量和标注用户的用户向量进行的。图4是本申请实施例中的基于数据向量和用户向量确定待推送数据的流程示意图。如图4所示,步骤S330可以包括步骤S331、S332和S333。
在步骤S331中,获得待标注数据的数据向量以及标注用户的用户向量。
在一实施例中,待标注数据的数据向量可以是基于对待标注数据的兴趣标签得到的。具体地,可以对待标注数据进行预处理,以得到待标注数据的兴趣标签;然后,可以对得到的兴趣标签进行独热编码,从而得到待标注数据的数据向量。可以理解的是,待标注数据的数据向量可以与已标注的多个数据的数据向量具有相同的形式。
在步骤S332中,计算数据向量和用户向量之间的相似度。
在得到待标注数据的数据向量以及标注用户的用户向量之后,可以确定数据向量和用户向量之间的相似度。
在一实施例中,可以计算数据向量和用户向量之间的内积,以表示相似度。在一实施例中,可以计算数据向量和用户向量之间的余弦相似度,以表示相似度。在一实施例中,可以计算数据向量和用户向量之间的欧氏距离,以表示相似度。当然,还可以采用其它方式来计算数据向量和用户向量之间的相似度,本申请实施例对此不做具体限定。
在步骤S333中,根据相似度,从待标注数据中选择待推送数据,以用于推送给标注用户。
在此,待推送数据是从待标注数据中确定的将要推送给标注用户进行标注的数据。可以理解的是,待推送数据的数据向量与标注用户的用户向量之间的相似度较高。在一实施例中,可以对多个待标注数据按照相似度从高到低的顺序进行排序,然后将最前面的若干待推送数据作为待推送数据。在一实施例中,可以设置一阈值,并将相似度超过阈值的待标注数据作为待推送数据。
在一实施例中,在确定待推送数据之后,可以将待推送数据推送给标注用户。推送给标注用户的数据即为推送数据。
之后,可以获得标注用户针对推送数据的标注行为数据。例如,标注行为数据可以包括标注用户对推送数据的标注结果。又例如,标注行为数据还可以包括标注用户对推送数据进行标注的时间数据。在此情况下,标注用户针对推送数据的标注行为数据还可以用于该标注用户的用户向量(即兴趣分)的下一次调整。
在实际应用中,以上步骤310和320可以重复执行,从而实现对标注用户的兴趣分的迭代更新。在一些情况下,可以将步骤330中标注的数据用于之后对兴趣分的更新。
基于相同的发明构思,本申请实施例提供一种基于兴趣的数据推送装置。图5是本申请实施例中的一种基于兴趣的数据推送装置的结构示意图。如图5所示,该基于兴趣的数据推送装置500包括获取模块510、确定模块520、以及推送模块530。获取模块510被配置为获取标注用户已标注的多个数据以及标注用户对多个数据的标注行为数据。多个数据与至少一个兴趣标签关联。确定模块520被配置为根据标注行为数据,确定标注用户针对至少一个兴趣标签的至少一个兴趣分。至少一个兴趣分与至少一个兴趣标签一一对应。至少一个兴趣分中与至少一个兴趣标签中的每一个兴趣标签对应的兴趣分用于表示标注用户对每一个兴趣标签的感兴趣程度。推送模块530被配置为基于至少一个兴趣分,为标注用户进行数据推送。
在一些可能的实施方式中,确定模块520可以被配置为:根据标注行为数据,确定标注用户针对每一个兴趣标签的标注能力参数,其中,标注能力参数用于表示标注用户对与每一个兴趣标签关联的数据进行标注的能力;根据标注能力参数,确定与每一个兴趣标签对应的兴趣分。
在一些可能的实施方式中,确定模块520可以被配置为:获取与每一个兴趣标签对应的当前兴趣分;根据与每一个兴趣标签对应的标注能力参数,对当前兴趣分进行调整,以得到与每一个兴趣标签对应的兴趣分。
在一些可能的实施方式中,标注能力参数可以包括以下至少之一:标注准确率、标注耗时。标注准确率用于表示标注用户对与每一个兴趣标签关联的数据进行标注的准确率。标注耗时为标注用户对与每一个兴趣标签关联的数据进行标注所耗费的时长。
在一些可能的实施方式中,标注能力参数可以包括标注准确率和标注耗时。
每一个兴趣标签对应的兴趣分w'可以通过以下公式获得:w'=w+w×c/v;其中,w'为与每一个兴趣标签对应的兴趣分,w为与每一个兴趣标签对应的当
前兴趣分,c为与每一个兴趣标签对应的标注准确率,v为与每一个兴趣标签对5应的标注耗时。
在一些可能的实施方式中,标注能力参数可以包括标注准确率。确定模块520可以被配置为:确定多个数据中与每一个兴趣标签关联的第一数据;根据标注行为数据,从第一数据中确定标注正确的第二数据;计算第二数据的数量与第一数据的数量的比值,以得到标注准确率。
0在一些可能的实施方式中,标注能力参数可以包括标注耗时。确定模块52
0可以被配置为:确定多个数据中与每一个兴趣标签关联的第一数据;根据标注行为数据,确定标注用户对第一数据中的每一个数据进行标注所耗费的第一时长;计算第一数据的第一时长之和,以得到每一个兴趣标签对应的第二时长;
计算第二时长与第一数据的数量的比值,以得到标注耗时。
5在一些可能的实施方式中,推送模块530可以被配置为:获得待标注数据的数据向量以及标注用户的用户向量,其中,用户向量包括至少一个兴趣分;计算数据向量和用户向量之间的相似度;根据相似度,从待标注数据中选择待推送数据,以用于推送给标注用户。
需要说明的是,本申请实施例中的基于兴趣的数据推送装置的技术细节可0以参见上述的基于兴趣的数据推送方法的具体说明,本申请实施例在此不再赘述。
本申请实施例提供了一种计算机程序产品或计算机程序。该计算机程序产品或计算机程序包括计算机指令。该计算机指令存储在计算机可读存储介质中。
计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该5计算机指令,使得该计算机设备执行本申请实施例上述的基于兴趣的数据推送方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质。计算机可读存储介质中存储有可执行指令。可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的基于兴趣的数据推送方法。
在一些实施例中,计算机可读存储介质可以是非易失性计算机可读存储介质,例如,FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,根据本申请实施例,通过动态计算标注用户的兴趣分,对标注用户的兴趣向量进行调整;之后,根据调整的兴趣向量,向标注用户推送与标注用户的兴趣最匹配的数据。如此,能够将与标注用户的兴趣标签最匹配的数据推送给标注用户。因为标注用户对于与自身兴趣标签最匹配的数据通常具有最高的认知程度,所以标注用户对这类数据的标注具有更高的准确率和最快的标注速度。因此,通过依照兴趣标签向标注用户推送数据,实现了更精准的待标注数据的推送,进而提高了数据标注的标注准确率并且缩短了标注耗时,以使数据标注具有更高的效率,减少了人力消耗。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (12)
1.一种基于兴趣的数据推送方法,其特征在于,所述方法包括:
获取标注用户已标注的多个数据、以及所述标注用户对所述多个数据的标注行为数据,其中,所述多个数据与至少一个兴趣标签关联;
根据所述标注行为数据,确定所述标注用户针对所述至少一个兴趣标签的至少一个兴趣分,其中,所述至少一个兴趣分与所述至少一个兴趣标签一一对应,所述至少一个兴趣分中与所述至少一个兴趣标签中的每一个兴趣标签对应的兴趣分用于表示所述标注用户对所述每一个兴趣标签的感兴趣程度;
基于所述至少一个兴趣分,为所述标注用户进行数据推送。
2.根据权利要求1所述的方法,其特征在于,所述根据所述标注行为数据,确定所述标注用户对所述至少一个兴趣标签的至少一个兴趣分,包括:
根据所述标注行为数据,确定所述标注用户针对所述每一个兴趣标签的标注能力参数,其中,所述标注能力参数用于表示所述标注用户对与所述每一个兴趣标签关联的数据进行标注的能力;
根据所述标注能力参数,确定与所述每一个兴趣标签对应的兴趣分。
3.根据权利要求2所述的方法,其特征在于,所述根据所述标注能力参数,确定与所述每一个兴趣标签对应的兴趣分,包括:
获取与所述每一个兴趣标签对应的当前兴趣分;
根据与所述每一个兴趣标签对应的所述标注能力参数,对所述当前兴趣分进行调整,得到与所述每一个兴趣标签对应的兴趣分。
4.根据权利要求3所述的方法,其特征在于,所述标注能力参数包括以下至少之一:
标注准确率,其中,所述标注准确率用于表示所述标注用户对与所述每一个兴趣标签关联的数据进行标注的准确率;
标注耗时,其中,所述标注耗时为所述标注用户对与所述每一个兴趣标签关联的数据进行标注所耗费的时长。
5.根据权利要求4所述的方法,其特征在于,所述标注能力参数包括所述标注准确率和所述标注耗时;
其中,与所述每一个兴趣标签对应的兴趣分w'通过以下公式获得:
w′=w+w×c/v;
其中,w'为与所述每一个兴趣标签对应的兴趣分,w为与所述每一个兴趣标签对应的当前兴趣分,c为与所述每一个兴趣标签对应的所述标注准确率,v为与所述每一个兴趣标签对应的所述标注耗时。
6.根据权利要求4所述的方法,其特征在于,所述标注能力参数包括所述标注准确率;
其中,所述根据所述标注行为数据,确定所述标注用户针对所述每一个兴趣标签的标注能力参数,包括:
确定所述多个数据中与所述每一个兴趣标签关联的第一数据;
根据所述标注行为数据,从所述第一数据中确定标注正确的第二数据;
计算所述第二数据的数量与所述第一数据的数量的比值,得到所述标注准确率。
7.根据权利要求4所述的方法,其特征在于,所述标注能力参数包括所述标注耗时;
其中,所述根据所述标注行为数据,确定所述标注用户针对所述每一个兴趣标签的标注能力参数,包括:
确定所述多个数据中与所述每一个兴趣标签关联的第一数据;
根据所述标注行为数据,确定所述标注用户对所述第一数据中的每一个数据进行标注所耗费的第一时长;
计算所述第一数据的所述第一时长之和,得到所述每一个兴趣标签对应的第二时长;
计算所述第二时长与所述第一数据的数量的比值,得到所述标注耗时。
8.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个兴趣分,为所述标注用户进行数据推送,包括:
获得待标注数据的数据向量以及所述标注用户的用户向量,其中,所述用户向量包括所述至少一个兴趣分;
计算所述数据向量和所述用户向量之间的相似度;
根据所述相似度,从所述待标注数据中选择待推送数据,以推送给所述标注用户。
9.一种基于兴趣的数据推送装置,其特征在于,所述装置包括:
获取模块,配置为获取标注用户已标注的多个数据、以及所述标注用户对所述多个数据的标注行为数据,所述多个数据与至少一个兴趣标签关联;
确定模块,配置为根据所述标注行为数据,确定所述标注用户针对所述至少一个兴趣标签的至少一个兴趣分,所述至少一个兴趣分与所述至少一个兴趣标签一一对应,所述至少一个兴趣分中与所述至少一个兴趣标签中的每一个兴趣标签对应的兴趣分用于表示所述标注用户对所述每一个兴趣标签的感兴趣程度;
推送模块,配置为基于所述至少一个兴趣分,为所述标注用户进行数据推送。
10.一种电子设备,其特征在于,所述电子设备包括:
处理器;以及
存储器,连接到所述处理器并且配置为存储可执行指令;
其中,所述处理器被配置为在执行所述存储器中存储的所述可执行指令时,实现如权利要求1至8中任一项所述的基于兴趣的数据推送方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有可执行指令,所述可执行指令被处理器执行时实现如权利要求1至8中任一项所述的基于兴趣的数据推送方法。
12.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现如权利要求1至8中任一项所述的基于兴趣的数据推送方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211676587.9A CN115982458A (zh) | 2022-12-26 | 2022-12-26 | 基于兴趣的数据推送方法和装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211676587.9A CN115982458A (zh) | 2022-12-26 | 2022-12-26 | 基于兴趣的数据推送方法和装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115982458A true CN115982458A (zh) | 2023-04-18 |
Family
ID=85959097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211676587.9A Pending CN115982458A (zh) | 2022-12-26 | 2022-12-26 | 基于兴趣的数据推送方法和装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115982458A (zh) |
-
2022
- 2022-12-26 CN CN202211676587.9A patent/CN115982458A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112203122B (zh) | 基于人工智能的相似视频处理方法、装置及电子设备 | |
CN108416003B (zh) | 一种图片分类方法和装置、终端、存储介质 | |
CN109635155B (zh) | 为用户推送视频的方法、装置、电子设备及存储介质 | |
US8868609B2 (en) | Tagging method and apparatus based on structured data set | |
US10366154B2 (en) | Information processing device, information processing method, and computer program product | |
CN109275047B (zh) | 视频信息处理方法及装置、电子设备、存储介质 | |
CN103246690A (zh) | 标签继承 | |
CN109284367B (zh) | 用于处理文本的方法和装置 | |
CN114845149B (zh) | 视频片段的剪辑方法、视频推荐方法、装置、设备及介质 | |
CN117077679B (zh) | 命名实体识别方法和装置 | |
CN113704420A (zh) | 文本中的角色识别方法、装置、电子设备及存储介质 | |
CN115982458A (zh) | 基于兴趣的数据推送方法和装置、电子设备及存储介质 | |
CN114580533A (zh) | 特征提取模型的训练方法、装置、设备、介质及程序产品 | |
US11120204B2 (en) | Comment-based article augmentation | |
CN111127057B (zh) | 一种多维用户画像恢复方法 | |
CN114866818B (zh) | 视频推荐方法、装置、计算机设备及存储介质 | |
CN112287184B (zh) | 基于神经网络的迁移标注方法、装置、设备及存储介质 | |
CN113157901B (zh) | 用户产生内容过滤方法及相关装置 | |
CN113672820B (zh) | 特征提取网络的训练方法、信息推荐方法、装置及设备 | |
CN112988530B (zh) | 一种用户数据处理方法、装置、存储介质及用户终端 | |
CN110598040B (zh) | 专辑召回方法、装置、设备及存储介质 | |
CN116166858A (zh) | 基于人工智能的信息推荐方法、装置、设备及存储介质 | |
CN116450948A (zh) | 基于ai的消息智能推送方法、装置、设置及其存储介质 | |
CN114765702A (zh) | 视频的处理方法、装置及计算机可读存储介质 | |
CN115795158A (zh) | 物料排序和神经网络训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |