CN105117449A - 一种用于生成内容项的标签的方法和装置 - Google Patents

一种用于生成内容项的标签的方法和装置 Download PDF

Info

Publication number
CN105117449A
CN105117449A CN201510502394.5A CN201510502394A CN105117449A CN 105117449 A CN105117449 A CN 105117449A CN 201510502394 A CN201510502394 A CN 201510502394A CN 105117449 A CN105117449 A CN 105117449A
Authority
CN
China
Prior art keywords
content item
information
mark post
label
label information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510502394.5A
Other languages
English (en)
Other versions
CN105117449B (zh
Inventor
郝运峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510502394.5A priority Critical patent/CN105117449B/zh
Publication of CN105117449A publication Critical patent/CN105117449A/zh
Application granted granted Critical
Publication of CN105117449B publication Critical patent/CN105117449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的是提供一种用于生成内容项的标签的方法和装置。根据本发明的方法包括以下步骤:获取一标杆标签信息,其中,所述标杆标签信息对应一组标杆内容项;获取分别与所述标杆标签信息近似的一个或多个候选内容项;对所述一个或多个候选内容项,分别确定其中各个内容项各自对应的标签信息。

Description

一种用于生成内容项的标签的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于生成内容项的标签的方法和装置。
背景技术
现有的社交网络的内容主要采用用户生成内容(UserGeneratedContent,UGC)的方式而产生,然而如何对这些UGC内容生成准确的、符合用户习惯的标签则成为一个难题。
当前对UGC内容生成标签主要有三种方式:一种是采用UGC方式再次生成UGC内容的标签,即通过用户标注的方式来生成标签;第二种是通过关键词提取的方式来生成标签;第三种是采用机器学习的方式来生成标签。
然而以上三种方式都存在各自的缺点:采用UGC方式来生成标签的方式,所生成的标签的覆盖率一般较低;采用关键词提取的方式所生成的标签一般比较生硬,不符合用户的使用习惯;采用机器学习的方式需要大量策略人员监督学习并纠正机器学习策略,成本较高,并且所生成的标签仍然可能不够准确。
发明内容
本发明的目的是提供一种用于生成内容项的标签的方法和装置。
根据本发明的一个方面,提供了一种用于生成内容项的标签的方法,其中,所述方法包括以下步骤:
-获取一标杆标签信息,其中,所述标杆标签信息对应一组标杆内容项;
-获取分别与所述标杆标签信息近似的一个或多个候选内容项;
-对所述一个或多个候选内容项,分别确定其中各个内容项各自对应的标签信息。
根据本发明的一个方面,还提供了一种用于生成内容项的标签的标签生成装置,其中,所述标签生成装置包括:
用于获取一标杆标签信息的装置,其中,所述标杆标签信息对应一组标杆内容项的装置;
用于获取分别与所述标杆标签信息近似的一个或多个候选内容项的装置;
用于对所述一个或多个候选内容项,分别确定其中各个内容项各自对应的标签信息的装置。
与现有技术相比,本发明具有以下优点:通过获取标杆标签来为与各个标杆标签近似的内容项生成标签,提高了所生成的标签的覆盖率,并且,通过采用用户标注的标签作为标杆标签,能够极大的增加标签信息的准确性;此外,根据本发明的方案,无需如机器学习的方式那样,需要大量人员花费时间来进行纠正机器学习策略等工作,成本较低。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示意出了根据本发明的一种用于生成内容项的标签的方法流程图;
图2示意出了根据本发明的一种用于生成内容项的标签的标签生成装置的结构示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示意出了根据本发明的一种用于生成内容项的标签的方法流程图。根据本发明的方法包括步骤S1、步骤S2和步骤S3。
其中,根据本发明的方法通过包含于计算机设备中的标签生成装置来实现。所述计算机设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述计算机设备包括网络设备和/或用户设备。其中,所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、PDA、游戏机、或IPTV等。其中,所述用户设备及网络设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
需要说明的是,所述用户设备、网络设备以及网络仅为举例,其他现有的或今后可能出现的用户设备、网络设备以及网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
参照图1,在步骤S1中,标签生成装置获取一标杆标签信息。
其中,所述标杆标签信息对应一组标杆内容项。
优选地,标签生成装置从被用户标注的一个或多个标签信息中获取一标杆标签信息。
具体地,标签生成装置获取一标杆标签信息的方式包括但不限于以下任一种:
1)直接获取前次已生成的标杆标签;
2)对获取的各个标签信息进行归一化处理,并将处理后的标签信息作为标杆标签;该归一化处理包括将词义相近的标签信息进行统一的处理,例如,对于词义相近的标签信息“笑话”、“幽默”和“搞笑”,将其统一为“笑话”,并将“笑话”作为标杆标签。
3)对获取的标签信息执行优化选择,来获取标杆标签信息;所述步骤S1包括步骤S101(图未示)和步骤S102(图未示)。
在步骤S101中,标签生成装置获取与所述一个或多个初始内容项对应的一个或多个初始标签信息。
其中,所述初始标签信息包括各种方式生成的标签信息。
优选地,所述初始标签信息包括由用户标注生成的标签信息。
在步骤S102中,标签生成装置对所述一个或多个初始标签信息执行优化选择,以从所述一个或多个初始标签信息中选择部分或全部作为所述标杆标签信息。
具体地,标签生成装置基于第一选择条件,由所述一个或多个初始标签信息中选择满足所述第一选择条件的至少一个初始标签信息;接着,标签生成装置基于所选择的所述至少一个初始标签信息来确定所述标杆标签信息。
其中,所述第一选择条件基于各个标签信息的以下至少任一项来确定:
1)标签信息对应的内容项的内容用户信息;该内容用户信息包括各种与标记过该内容项的用户相关的信息,例如,对同一内容项标记标签的用户数量或用户等级等。
2)标签信息的属性信息;例如,标签信息的文字数、词性、或者,标签信息是否包含敏感词等。
3)使用所述标签信息的标签用户信息;该标签用户信息包括各种与使用该标签信息的用户相关的信息,例如,使用该标签对内容项进行标记的用户的数量、各个用户在各自所属网站的用户等级等。
例如,标签生成装置包含于一论坛网站的服务器中,标签生成装置对应的第一选择条件包括:对同一内容项,标记标签的用户数量大于阀值f1;标签信息的字数大于阀值f2;使用该标签对内容项进行标记的用户的级别高于“新人”等级。
标签生成装置将该论坛中的所有帖子作为初始内容项,并获取其各自对应的初始标签信息,接着基于该第一选择条件,由所述一个或多个初始标签信息中选择满足所述第一选择条件的初始标签信息,作为标杆标签信息。
接着,继续参照图1,在步骤S2中,标签生成装置获取分别与所述标杆标签信息近似的一个或多个候选内容项。
具体地,标签生成装置获取分别与所述标杆标签信息近似的一个或多个候选内容项的方式包括但不限于以下任一种:
1)基于预定关键词确定;例如,将包含与标杆标签信息对应的预定关键词的内容项作为与标杆标签信息近似的候选内容项。
2)基于内容项之间的内容距离信息来确定;其中,所述内容距离信息包括各种可用于指示内容项的文本内容的近似程度的信息。例如,基于邻近算法(k-NearestNeighbor,KNN)得到的内容项之间的KNN距离信息。
具体地,标签生成装置在所有内容项中,获取各个内容项与所述标杆内容项的内容距离信息;接着,标签生成装置根据各个内容项与标杆内容项的内容距离信息,选择与所述标杆内容项的内容距离信息满足第二选择条件的内容项作为候选内容项。
其中,所述第二选择条件用于选择与标杆内容项内容距离较近的内容项。
例如,标签生成装置对应的第二选择条件包括内容距离小于阈值f3,对于一标杆内容项,标签生成装置获取各个内容项与该标杆内容项的内容距离信息,并选择与该标杆内容项的内容距离小于阈值f3的内容项作为候选内容项。
接着,在步骤S3中,标签生成装置对所述一个或多个候选内容项,分别确定其中各个内容项各自对应的标签信息。
具体地,对所述一个或多个候选内容项中的各个候选内容项,所述步骤S3包括步骤S301(图未示)。
在步骤S301中,对一候选内容项,当该候选内容项未对应标杆标签信息时,标签生成装置选择与其内容距离最近的标杆标签信息作为其标杆标签信息。
优选地,对所述一个或多个候选内容项中的各个候选内容项,所述步骤S3包括步骤S302(图未示)。
在步骤S302中,对一候选内容项,当该候选内容项已对应一历史标杆标签信息时,标签生成装置基于该候选内容项与所述历史标杆标签的内容距离信息,以及该候选内容项与当前的所述标杆标签信息的内容距离信息,来确定该候选内容项对应的标杆标签信息。
例如,标签生成装置在步骤S1中获取到一于对应于标杆内容项为content_1的标杆标签label_1,并且,标签生成装置在步骤S2中确定的与标杆标签label_1近似的候选内容项包括content_2和content_3。其中,候选内容项content_2未对应标杆标签信息,候选内容项content_3已对应另一标杆标签label_2,并且该标杆标签label_2对应于标杆内容项content_4。
则对于候选内容项content_2,标签生成装置将标杆标签label_1作为其标杆标签信息,从而使用标杆标签label_1来标注该候选内容项content_2。
对于候选内容项content_3,标签生成装置获取其与标杆内容项content_1的之间的KNN距离信息d1,以及候选内容项content_3与标杆内容项content_4之间的KNN距离信息d2,并确定d1大于d2,则标签生成装置确定候选内容项content_3对应的标杆标签信息为label_2。
优选地,标签生成装置基于预定条件来触发所述步骤S1至S3的操作。
其中,所述预定条件包括但不限于以下至少任一种:
1)时间条件;如预定时间点条件,又预定间隔周期等。
例如,标签生成装置可每隔预定周期来触发步骤S1至步骤S3的操作。
2)内容项条件;例如,新内容项的数量到达预定阈值。
例如,当标签生成装置检测到未标记内容项的数量大于阈值时,触发步骤S1至步骤S3的操作。
根据本发明的方法,通过获取标杆标签来为与各个标杆标签近似的内容项生成标签,提高了所生成的标签的覆盖率,并且,通过采用用户标注的标签作为标杆标签,能够极大的增加标签信息的准确性;此外,根据本发明的方案,无需如机器学习的方式那样,需要大量人员花费时间来进行纠正机器学习策略等工作,成本较低。
图2示意出了根据本发明的一种用于生成内容项的标签的标签生成装置的结构示意图。根据本发明的标签生成装置包括:用于获取一标杆标签信息的装置,其中,所述标杆标签信息对应一组标杆内容项的装置(以下简称“第一获取装置1”);用于获取分别与所述标杆标签信息近似的一个或多个候选内容项的装置(以下简称“第二获取装置2”);用于对所述一个或多个候选内容项,分别确定其中各个内容项各自对应的标签信息的装置(以下简称“确定装置3”)。
参照图2,第一获取装置1获取一标杆标签信息。
其中,所述标杆标签信息对应一组标杆内容项。
优选地,第一获取装置1从被用户标注的一个或多个标签信息中获取一标杆标签信息。
具体地,第一获取装置1获取一标杆标签信息的方式包括但不限于以下任一种:
1)直接获取前次已生成的标杆标签;
2)对获取的各个标签信息进行归一化处理,并将处理后的标签信息作为标杆标签;该归一化处理包括将词义相近的标签信息进行统一的处理,例如,对于词义相近的标签信息“笑话”、“幽默”和“搞笑”,将其统一为“笑话”,并将“笑话”作为标杆标签。
3)对获取的标签信息执行优化选择,来获取标杆标签信息;所述第一获取装置1包括用于获取与所述一个或多个初始内容项对应的一个或多个初始标签信息的装置(图未示,以下简称“初始获取装置”),和用于对所述一个或多个初始标签信息执行优化选择,以从所述一个或多个初始标签信息中选择部分或全部作为所述标杆标签信息的装置(图未示,以下简称“第一选择装置”)。
初始获取装置获取与所述一个或多个初始内容项对应的一个或多个初始标签信息。
其中,所述初始标签信息包括各种方式生成的标签信息。
优选地,所述初始标签信息包括由用户标注生成的标签信息。
第一选择装置对所述一个或多个初始标签信息执行优化选择,以从所述一个或多个初始标签信息中选择部分或全部作为所述标杆标签信息。
具体地,第一选择装置基于第一选择条件,由所述一个或多个初始标签信息中选择满足所述第一选择条件的至少一个初始标签信息;接着,选择装置基于所选择的所述至少一个初始标签信息来确定所述标杆标签信息。
其中,所述第一选择条件基于各个标签信息的以下至少任一项来确定:
1)标签信息对应的内容项的内容用户信息;该内容用户信息包括各种与标记过该内容项的用户相关的信息,例如,对同一内容项标记标签的用户数量或用户等级等。
2)标签信息的属性信息;例如,标签信息的文字数、词性、或者,标签信息是否包含敏感词等。
3)使用所述标签信息的标签用户信息;该标签用户信息包括各种与使用该标签信息的用户相关的信息,例如,使用该标签对内容项进行标记的用户的数量、各个用户在各自所属网站的用户等级等。
例如,标签生成装置包含于一论坛网站的服务器中,标签生成装置对应的第一选择条件包括:对同一内容项,标记标签的用户数量大于阀值f1;标签信息的字数大于阀值f2;使用该标签对内容项进行标记的用户的级别高于“新人”等级。
初始获取装置将该论坛中的所有帖子作为初始内容项,并获取其各自对应的初始标签信息,接着第一选择装置基于该第一选择条件,由所述一个或多个初始标签信息中选择满足所述第一选择条件的初始标签信息,作为标杆标签信息。
接着,继续参照图2,第二获取装置2获取分别与所述标杆标签信息近似的一个或多个候选内容项。
具体地,第二获取装置2获取分别与所述标杆标签信息近似的一个或多个候选内容项的方式包括但不限于以下任一种:
1)基于预定关键词确定;例如,将包含与标杆标签信息对应的预定关键词的内容项作为与标杆标签信息近似的候选内容项。
2)基于内容项之间的内容距离信息来确定;其中,所述内容距离信息包括各种可用于指示内容项的文本内容的近似程度的信息。例如,基于邻近算法(k-NearestNeighbor,KNN)得到的内容项之间的KNN距离信息。
其中,第二获取装置2包括用于在所有内容项中,获取各个内容项与所述标杆内容项的内容距离信息的装置(图未示,以下简称“距离获取装置”),和用于根据各个内容项与标杆内容项的内容距离信息,选择与所述标杆内容项的内容距离信息满足第二选择条件的内容项作为候选内容项的装置(图未示,以下简称“第二选择装置”)。
距离获取装置在所有内容项中,获取各个内容项与所述标杆内容项的内容距离信息;接着,第二选择装置根据各个内容项与标杆内容项的内容距离信息,选择与所述标杆内容项的内容距离信息满足第二选择条件的内容项作为候选内容项。
其中,所述第二选择条件用于选择与标杆内容项内容距离较近的内容项。
例如,标签生成装置对应的第二选择条件包括内容距离小于阈值f3,对于一标杆内容项,距离获取装置获取各个内容项与该标杆内容项的内容距离信息,第二选择装置选择与该标杆内容项的内容距离小于阈值f3的内容项作为候选内容项。
接着,确定装置3对所述一个或多个候选内容项,分别确定其中各个内容项各自对应的标签信息。
具体地,对一候选内容项,当该候选内容项未对应标杆标签信息时,确定装置3选择与其内容距离最近的标杆标签信息作为其标杆标签信息。
优选地,对一候选内容项,当该候选内容项已对应一历史标杆标签信息时,确定装置3基于该候选内容项与所述历史标杆标签的内容距离信息,以及该候选内容项与当前的所述标杆标签信息的内容距离信息,来确定该候选内容项对应的标杆标签信息。
例如,第一获取装置1获取到一于对应于标杆内容项为content_1的标杆标签label_1,并且,第二获取装置2确定的与标杆标签label_1近似的候选内容项包括content_2和content_3。其中,候选内容项content_2未对应标杆标签信息,候选内容项content_3已对应另一标杆标签label_2,并且该标杆标签label_2对应于标杆内容项content_4。
则对于候选内容项content_2,确定装置3将标杆标签label_1作为其标杆标签信息,从而使用标杆标签label_1来标注该候选内容项content_2。
对于候选内容项content_3,确定装置3获取其与标杆内容项content_1的之间的KNN距离信息d1,以及候选内容项content_3与标杆内容项content_4之间的KNN距离信息d2,并确定d1大于d2,则确定装置3确定候选内容项content_3对应的标杆标签信息为label_2。
优选地,标签生成装置基于预定条件来触发第一获取装置1至确定装置3的操作。
其中,所述预定条件包括但不限于以下至少任一种:
1)时间条件;如预定时间点条件,又预定间隔周期等。
例如,标签生成装置可每隔预定周期来触发第一获取装置1至确定装置3的操作。
2)内容项条件;例如,新内容项的数量到达预定阈值。
例如,当标签生成装置检测到未标记内容项的数量大于阈值时,触发第一获取装置1至确定装置3的操作。
根据本发明的方案,通过获取标杆标签来为与各个标杆标签近似的内容项生成标签,提高了所生成的标签的覆盖率,并且,通过采用用户标注的标签作为标杆标签,能够极大的增加标签信息的准确性;此外,根据本发明的方案,无需如机器学习的方式那样,需要大量人员花费时间来进行纠正机器学习策略等工作,成本较低。
本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个功能或步骤的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
虽然前面特别示出并且描述了示例性实施例,但是本领域技术人员将会理解的是,在不背离权利要求书的精神和范围的情况下,在其形式和细节方面可以有所变化。这里所寻求的保护在所附权利要求书中做了阐述。在下列编号条款中规定了各个实施例的这些和其他方面:
1.一种用于生成内容项的标签的方法,其中,所述方法包括以下步骤:
-获取一标杆标签信息,其中,所述标杆标签信息对应一组标杆内容项;
-获取分别与所述标杆标签信息近似的一个或多个候选内容项;
-对所述一个或多个候选内容项,分别确定其中各个内容项各自对应的标签信息。
2.根据条款1所述的方法,其中,所述获取一标杆标签信息的包括以下步骤:
-从被用户标注的一个或多个标签信息中获取一标杆标签信息。
3.根据条款1所述的方法,其中,所述获取一标杆标签信息的步骤包括以下步骤:
-获取与所述一个或多个初始内容项对应的一个或多个初始标签信息;
-对所述一个或多个初始标签信息执行优化选择,以从所述一个或多个初始标签信息中选择部分或全部作为所述标杆标签信息。
4.根据条款3所述的方法,其中,所述对所述一个或多个初始标签信息执行优化选择,以从所述一个或多个初始标签信息中选择部分或全部作为所述标杆标签信息的步骤包括以下步骤:
-基于第一选择条件,由所述一个或多个初始标签信息中选择满足所述第一选择条件的至少一个初始标签信息;
-基于所选择的所述至少一个初始标签信息来确定所述标杆标签信息。
5.根据条款4所述的方法,其中,所述第一选择条件基于各个标签信息的以下至少任一项来确定:
-标签信息对应的内容项的内容用户信息;
-标签信息的属性信息;
-使用所述标签信息的标签用户信息。
6.根据条款1至5中任一项所述的方法,其中,所述获取分别与所述标杆标签信息近似的一个或多个候选内容项的步骤进一步包括以下步骤:
-在所有内容项中,获取各个内容项与所述标杆内容项的内容距离信息;
-根据各个内容项与标杆内容项的内容距离信息,选择与所述标杆内容项的内容距离信息满足第二选择条件的内容项作为候选内容项。
7.根据条款1至6中任一项所述的方法,其中,对所述一个或多个候选内容项中的各个候选内容项,所述对所述一个或多个候选内容项,分别确定其中各个内容项各自对应的标签信息的步骤进一步包括以下步骤:
-对一候选内容项,当该候选内容项未对应标杆标签信息时,选择与其内容距离最近的标杆标签信息作为其标杆标签信息。
8.根据条款7所述的方法,其中,所述对所述一个或多个候选内容项,分别确定其中各个内容项各自对应的标签信息的步骤进一步包括以下步骤:
对一候选内容项,当该候选内容项已对应一历史标杆标签信息时,基于该候选内容项与所述历史标杆标签的内容距离信息,以及该候选内容项与当前的所述标杆标签信息的内容距离信息,来确定该候选内容项对应的标杆标签信息。
9.一种用于生成内容项的标签的标签生成装置,其中,所述标签生成装置包括:
用于获取一标杆标签信息的装置,其中,所述标杆标签信息对应一组标杆内容项的装置;
用于获取分别与所述标杆标签信息近似的一个或多个候选内容项的装置;
用于对所述一个或多个候选内容项,分别确定其中各个内容项各自对应的标签信息的装置。
10.根据条款9所述的标签生成装置,其中,所述用于获取一标杆标签信息的装置用于:
-从被用户标注的一个或多个标签信息中获取一标杆标签信息。
11.根据条款9所述的标签生成装置,其中,所述用于获取一标杆标签信息的装置包括:
用于获取与所述一个或多个初始内容项对应的一个或多个候选标签信息的装置;
用于对所述一个或多个初始标签信息执行优化选择,以从所述一个或多个初始标签信息中选择部分或全部作为所述标杆标签信息的装置。
12.根据条款11所述的标签生成装置,其中,所述用于对所述一个或多个初始标签信息执行优化选择,以从所述一个或多个初始标签信息中选择部分或全部作为所述标杆标签信息的装置包括:
用于基于第一选择条件,由所述一个或多个初始标签信息中选择满足所述第一选择条件的至少一个初始标签信息的装置;
用于基于所选择的所述至少一个初始标签信息来确定所述标杆标签信息的装置。
13.根据条款12所述的第一选择条件,其中,所述第一选择条件基于各个标签信息的以下至少任一项来确定:
-标签信息对应的内容项的内容用户信息;
-标签信息的属性信息;
-使用所述标签信息的标签用户信息。
14.根据条款9至13中任一项所述的标签生成装置,其中,所述用于获取分别与所述标杆标签信息近似的一个或多个候选内容项的装置进一步包括:
用于在所有内容项中,获取各个内容项与所述标杆内容项的内容距离信息的装置;
用于根据各个内容项与标杆内容项的内容距离信息,选择与所述标杆内容项的内容距离信息满足第二选择条件的内容项作为候选内容项的装置。
15.根据条款9至14中任一项所述的标签生成装置,其中,对所述一个或多个候选内容项中的各个候选内容项,所述用于对所述一个或多个候选内容项,分别确定其中各个内容项各自对应的标签信息的装置进一步用于:
-对一候选内容,当该候选内容项未对应标杆标签信息时,选择与其内容距离最近的标杆标签信息作为其标杆标签信息。
16.根据条款15所述的标签生成装置,其中,所述用于对所述一个或多个候选内容项,分别确定其中各个内容项各自对应的标签信息的装置进一步用于:
-对一候选内容项,当该候选内容项已对应一历史标杆标签信息时,基于该候选内容项与所述历史标杆标签的内容距离信息,以及该候选内容项与当前的所述标杆标签信息的内容距离信息,来确定改候选内容项对应的标杆标签信息。

Claims (16)

1.一种用于生成内容项的标签的方法,其中,所述方法包括以下步骤:
-获取一标杆标签信息,其中,所述标杆标签信息对应一组标杆内容项;
-获取分别与所述标杆标签信息近似的一个或多个候选内容项;
-对所述一个或多个候选内容项,分别确定其中各个内容项各自对应的标签信息。
2.根据权利要求1所述的方法,其中,所述获取一标杆标签信息的包括以下步骤:
-从被用户标注的一个或多个标签信息中获取一标杆标签信息。
3.根据权利要求1所述的方法,其中,所述获取分别与所述标杆标签信息近似的一个或多个候选内容项的步骤包括以下步骤:
-获取与所述一个或多个初始内容项对应的一个或多个初始标签信息;
-对所述一个或多个初始标签信息执行优化选择,以从所述一个或多个初始标签信息中选择部分或全部作为所述标杆标签信息。
4.根据权利要求3所述的方法,其中,所述对所述一个或多个初始标签信息执行优化选择,以从所述一个或多个初始标签信息中选择部分或全部作为所述标杆标签信息的步骤包括以下步骤:
-基于第一选择条件,由所述一个或多个初始标签信息中选择满足所述第一选择条件的至少一个初始标签信息;
-基于所选择的所述至少一个初始标签信息来确定所述标杆标签信息。
5.根据权利要求4所述的方法,其中,所述第一选择条件基于各个标签信息的以下至少任一项来确定:
-标签信息对应的内容项的内容用户信息;
-标签信息的属性信息;
-使用所述标签信息的标签用户信息。
6.根据权利要求1至5中任一项所述的方法,其中,所述获取分别与所述标杆标签信息近似的一个或多个候选内容项的步骤进一步包括以下步骤:
-在所有内容项中,获取各个内容项与所述标杆内容项的内容距离信息;
-根据各个内容项与标杆内容项的内容距离信息,选择与所述标杆内容项的内容距离信息满足第二选择条件的内容项作为候选内容项。
7.根据权利要求1至6中任一项所述的方法,其中,对所述一个或多个候选内容项中的各个候选内容项,所述对所述一个或多个候选内容项,分别确定其中各个内容项各自对应的标签信息的步骤进一步包括以下步骤:
-对一候选内容项,当该候选内容项未对应标杆标签信息时,选择与其内容距离最近的标杆标签信息作为其标杆标签信息。
8.根据权利要求7所述的方法,其中,所述对所述一个或多个候选内容项,分别确定其中各个内容项各自对应的标签信息的步骤进一步包括以下步骤:
对一候选内容项,当该候选内容项已对应一历史标杆标签信息时,基于该候选内容项与所述历史标杆标签的内容距离信息,以及该候选内容项与当前的所述标杆标签信息的内容距离信息,来确定该候选内容项对应的标杆标签信息。
9.一种用于生成内容项的标签的标签生成装置,其中,所述标签生成装置包括:
用于获取一标杆标签信息的装置,其中,所述标杆标签信息对应一组标杆内容项的装置;
用于获取分别与所述标杆标签信息近似的一个或多个候选内容项的装置;
用于对所述一个或多个候选内容项,分别确定其中各个内容项各自对应的标签信息的装置。
10.根据权利要求9所述的标签生成装置,其中,所述用于获取一标杆标签信息的装置用于:
-从被用户标注的一个或多个标签信息中获取一标杆标签信息。
11.根据权利要求9所述的标签生成装置,其中,所述用于获取一标杆标签信息的装置包括:
用于获取与所述一个或多个初始内容项对应的一个或多个候选标签信息的装置;
用于对所述一个或多个初始标签信息执行优化选择,以从所述一个或多个初始标签信息中选择部分或全部作为所述标杆标签信息的装置。
12.根据权利要求11所述的标签生成装置,其中,所述用于对所述一个或多个初始标签信息执行优化选择,以从所述一个或多个初始标签信息中选择部分或全部作为所述标杆标签信息的装置包括:
用于基于第一选择条件,由所述一个或多个初始标签信息中选择满足所述第一选择条件的至少一个初始标签信息的装置;
用于基于所选择的所述至少一个初始标签信息来确定所述标杆标签信息的装置。
13.根据权利要求12所述的第一选择条件,其中,所述第一选择条件基于各个标签信息的以下至少任一项来确定:
-标签信息对应的内容项的内容用户信息;
-标签信息的属性信息;
-使用所述标签信息的标签用户信息。
14.根据权利要求9至13中任一项所述的标签生成装置,其中,所述用于获取分别与所述标杆标签信息近似的一个或多个候选内容项的装置进一步包括:
用于在所有内容项中,获取各个内容项与所述标杆内容项的内容距离信息的装置;
用于根据各个内容项与标杆内容项的内容距离信息,选择与所述标杆内容项的内容距离信息满足第二选择条件的内容项作为候选内容项的装置。
15.根据权利要求9至14中任一项所述的标签生成装置,其中,对所述一个或多个候选内容项中的各个候选内容项,所述用于对所述一个或多个候选内容项,分别确定其中各个内容项各自对应的标签信息的装置进一步用于:
-对一候选内容,当该候选内容项未对应标杆标签信息时,选择与其内容距离最近的标杆标签信息作为其标杆标签信息。
16.根据权利要求15所述的标签生成装置,其中,所述用于对所述一个或多个候选内容项,分别确定其中各个内容项各自对应的标签信息的装置进一步用于:
-对一候选内容项,当该候选内容项已对应一历史标杆标签信息时,基于该候选内容项与所述历史标杆标签的内容距离信息,以及该候选内容项与当前的所述标杆标签信息的内容距离信息,来确定改候选内容项对应的标杆标签信息。
CN201510502394.5A 2015-08-14 2015-08-14 一种用于生成内容项的标签的方法和装置 Active CN105117449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510502394.5A CN105117449B (zh) 2015-08-14 2015-08-14 一种用于生成内容项的标签的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510502394.5A CN105117449B (zh) 2015-08-14 2015-08-14 一种用于生成内容项的标签的方法和装置

Publications (2)

Publication Number Publication Date
CN105117449A true CN105117449A (zh) 2015-12-02
CN105117449B CN105117449B (zh) 2019-08-16

Family

ID=54665439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510502394.5A Active CN105117449B (zh) 2015-08-14 2015-08-14 一种用于生成内容项的标签的方法和装置

Country Status (1)

Country Link
CN (1) CN105117449B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056429A (zh) * 2016-05-26 2016-10-26 宇宙世代信息技术(深圳)有限公司 标签生成方法和标签生成装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120219191A1 (en) * 2011-02-28 2012-08-30 Xerox Corporation Local metric learning for tag recommendation in social networks
CN103049479A (zh) * 2012-11-26 2013-04-17 北京奇虎科技有限公司 一种在线视频标签生成方法和系统
CN103207917A (zh) * 2013-04-25 2013-07-17 百度在线网络技术(北京)有限公司 标注多媒体内容的方法、生成推荐内容的方法及系统
CN103279513A (zh) * 2013-05-22 2013-09-04 百度在线网络技术(北京)有限公司 产生内容标签的方法、提供多媒体内容信息的方法及装置
CN103577549A (zh) * 2013-10-16 2014-02-12 复旦大学 一种基于微博标签的人群画像系统和方法
CN103631874A (zh) * 2013-11-07 2014-03-12 微梦创科网络科技(中国)有限公司 社交平台的ugc标签类别确定方法和装置
CN104216881A (zh) * 2013-05-29 2014-12-17 腾讯科技(深圳)有限公司 一种个性化标签的推荐方法及装置
CN104750789A (zh) * 2015-03-12 2015-07-01 百度在线网络技术(北京)有限公司 标签的推荐方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120219191A1 (en) * 2011-02-28 2012-08-30 Xerox Corporation Local metric learning for tag recommendation in social networks
CN103049479A (zh) * 2012-11-26 2013-04-17 北京奇虎科技有限公司 一种在线视频标签生成方法和系统
CN103207917A (zh) * 2013-04-25 2013-07-17 百度在线网络技术(北京)有限公司 标注多媒体内容的方法、生成推荐内容的方法及系统
CN103279513A (zh) * 2013-05-22 2013-09-04 百度在线网络技术(北京)有限公司 产生内容标签的方法、提供多媒体内容信息的方法及装置
CN104216881A (zh) * 2013-05-29 2014-12-17 腾讯科技(深圳)有限公司 一种个性化标签的推荐方法及装置
CN103577549A (zh) * 2013-10-16 2014-02-12 复旦大学 一种基于微博标签的人群画像系统和方法
CN103631874A (zh) * 2013-11-07 2014-03-12 微梦创科网络科技(中国)有限公司 社交平台的ugc标签类别确定方法和装置
CN104750789A (zh) * 2015-03-12 2015-07-01 百度在线网络技术(北京)有限公司 标签的推荐方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056429A (zh) * 2016-05-26 2016-10-26 宇宙世代信息技术(深圳)有限公司 标签生成方法和标签生成装置

Also Published As

Publication number Publication date
CN105117449B (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN103064826B (zh) 一种用于表情输入的方法、装置与系统
CN103443786B (zh) 识别网络浏览器中的并行布局的独立任务的机器学习方法
CN104750789B (zh) 标签的推荐方法及装置
CN102609474B (zh) 一种访问信息提供方法及系统
CN103699619A (zh) 一种用于提供搜索结果的方法及装置
JP6646931B2 (ja) 推薦情報を提供するための方法および装置
US8180778B1 (en) Generating action trails from web history
CN110309316B (zh) 一种知识图谱向量的确定方法、装置、终端设备和介质
CN103248705B (zh) 服务器、客户端及视频处理方法
CN104268166A (zh) 一种输入方法、装置和电子设备
CN105718184A (zh) 一种数据处理方法和装置
CN104216881A (zh) 一种个性化标签的推荐方法及装置
CN103207892B (zh) 一种用于经由网络分享文档的方法和装置
CN104537000A (zh) 一种用于推送信息的方法和装置
CN104008203A (zh) 一种融入本体情境的用户兴趣挖掘方法
CN104239298A (zh) 文本信息推荐方法、服务器、浏览器及系统
CN104933191A (zh) 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端
CN104866116A (zh) 一种用于输出表情信息的方法和装置
CN103713894A (zh) 一种用于确定用户的访问需求信息的方法与设备
CN105183853A (zh) 一种用于展现标签页的方法和装置
CN103678325A (zh) 一种用于提供与初始页面相对应的浏览页面的方法和设备
CN104221019A (zh) 用于在基于随机索引的系统中增强情境智能的方法和装置
CN103136213A (zh) 一种提供相关词的方法及装置
CN113190741A (zh) 搜索方法、装置、电子设备及存储介质
KR101667199B1 (ko) 키워드 검색을 통한 웹 페이지의 상대적 품질 지수 평가 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant