CN103927309A - 一种对业务对象标注信息标签的方法及装置 - Google Patents

一种对业务对象标注信息标签的方法及装置 Download PDF

Info

Publication number
CN103927309A
CN103927309A CN201310012653.7A CN201310012653A CN103927309A CN 103927309 A CN103927309 A CN 103927309A CN 201310012653 A CN201310012653 A CN 201310012653A CN 103927309 A CN103927309 A CN 103927309A
Authority
CN
China
Prior art keywords
descriptor
business object
theme
marked
bunch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310012653.7A
Other languages
English (en)
Other versions
CN103927309B (zh
Inventor
李军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201310012653.7A priority Critical patent/CN103927309B/zh
Publication of CN103927309A publication Critical patent/CN103927309A/zh
Application granted granted Critical
Publication of CN103927309B publication Critical patent/CN103927309B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种对业务对象标注信息标签的方法及装置,包括:针对由多个业务对象各自的描述词组成的描述词集合进行主题聚类,将描述词集合中的描述词划分为多个主题词簇,其中,一个主题词簇对应一个主题;根据划分的该多个主题词簇及待标注业务对象的各描述词,确定待标注业务对象对应的主题;从待标注业务对象对应的主题中确定待标注业务对象的代表主题;基于确定的代表主题选择描述词作为信息标签,对该待标注业务对象进行标注。采用本申请实施例提供的方案,提高了对业务对象标注的信息标签的准确性。

Description

一种对业务对象标注信息标签的方法及装置
技术领域
本申请涉及互联网技术领域和计算机技术领域,尤其涉及一种对业务对象标注信息标签的方法及装置。
背景技术
在现有的互联网技术中,网站上一般会发布一些业务对象,供登录该网站的用户浏览,以及进一步的针对特定业务对象的后续处理操作。例如,以电子商务网站为例,业务对象具体可以是卖家用户发布的产品,业务对象的信息具体可以是产品的描述信息,产品的属性信息,以及产品的购买信息等,登录电子商务网站的用户可以通过浏览所发布产品的各种信息,了解该产品的详细情况,并可以进一步的执行收藏、购买或推荐给其他用户等处理操作;以社区网站为例,业务对象具体可以是社区用户发布的帖子,业务对象的信息具体可以是帖子的描述信息,帖子的内容信息等,登录社区网站的浏览用户可以通过浏览发布的帖子的各种信息,了解该帖子的详细情况,并可以进一步的执行收藏、回帖或推荐给其他用户等处理操作。
在实际应用中,为了便于用户浏览,以及使得用户能够快速搜索到自身想要的业务对象,可以对网站上发布的业务对象标注信息标签,信息标签能够表征业务对象最突出的特征信息,而且相比业务对象大量的各种描述信息而言,具体精简的特点,从而使得基于业务对象的信息标签进行搜索时,能够提高搜索效率,也能够基于用户的搜索条件,更准确的匹配出搜索结果。另外,在用户浏览以及搜索业务对象的过程中,还可以基于业务对象的信息标签向用户提供导航信息,以便用户基于导航信息进行进一步的浏览和搜索,以便更快速的搜索到想要的业务对象。
目前,对业务对象标注信息标签的方案,主要是基于人工标注的方式实现,即人工对业务对象的描述信息进行分析,然后找出作为该业务对象的信息标签的描述词,并使用该描述词对该业务对象进行标注。
然而,对于网站上发布的业务对象的数量越来越大,人工标注的方式效率较低,并且由于业务对象的各种描述也越来越复杂,以及不同人对描述信息理解上的差异,人工标注可能导致所标注的信息标签未能体现该业务对象最突出的特征信息,即出现信息标签标注不准确的问题。
发明内容
有鉴于此,本申请实施例提供一种对业务对象标注信息标签的方法及装置,用于解决现有技术中存在的对业务对象标注的信息标签不准确的问题。
本申请实施例通过如下技术方案实现:
本申请实施例提供了一种对业务对象标注信息标签的方法,包括:
针对由多个业务对象各自的描述词组成的描述词集合进行主题聚类,将所述描述词集合中的描述词划分为多个主题词簇,其中,一个主题词簇对应一个主题;
根据划分的所述多个主题词簇及待标注业务对象的各描述词,确定所述待标注业务对象对应的主题;
从所述待标注业务对象对应的主题中确定所述待标注业务对象的代表主题;
基于确定的所述代表主题选择描述词作为信息标签,对所述待标注业务对象进行标注。
本申请实施例还提供了一种对业务对象标注信息标签的装置,包括:
聚类处理单元,用于针对由多个业务对象各自的描述词组成的描述词集合进行主题聚类,将所述描述词集合中的描述词划分为多个主题词簇,其中,一个主题词簇对应一个主题;
第一主题确定单元,用于根据划分的所述多个主题词簇及待标注业务对象的各描述词,确定所述待标注业务对象对应的主题;
第二主题确定单元,用于从所述待标注业务对象对应的主题中确定所述待标注业务对象的代表主题;
标注单元,用于基于确定的所述代表主题选择描述词作为信息标签,对所述待标注业务对象进行标注。
本申请实施例提供的上述至少一个技术方案中,首先针对由多个业务对象各自的描述词组成的描述词集合进行主题聚类,将该描述词集合中的描述词划分为多个主题词簇,其中,一个主题词簇对应一个主题,该多个主题词簇即可用于后续对业务对象标注信息标签使用;在对一个待标注业务对象标注信息标签时,根据划分的该多个主题词簇及待标注业务对象的各描述词,确定该待标注业务对象对应的主题,并从该待标注业务对象对应的主题中确定该待标注业务对象的代表主题,由于所确定的待标注业务对象的代表主题体现了该业务对象最突出的特征,所以,基于确定的代表主题选择描述词作为信息标签,对待标注业务对象进行标注,能够体现该业务对象的最突出的特征信息,从而提高了标注的信息标签的准确性。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中:
图1为本申请实施例提供的对业务对象标注信息标签的方法的流程图;
图2为本申请实施例1中提供的建立主题模型的流程图;
图3为本申请实施例2中提供的基于建立的主题模型对业务对象标注信息标签的方法的流程图;
图4为本申请实施例3中提供的对业务对象标注信息标签的装置的结构示意图。
具体实施方式
为了给出提高对业务对象标注信息标签的准确性的实现方案,本申请实施例提供了一种对业务对象标注信息标签的方法及装置,该技术方案可以应用于对业务对象标注信息标签的过程,既可以实现为一种方法,也可以实现为一种装置。以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本申请实施例提供一种对业务对象标注信息标签的方法,如图1所示,包括:
步骤101、针对由多个业务对象各自的描述词组成的描述词集合进行主题聚类,将描述词集合中的描述词划分为多个主题词簇。
其中,一个主题词簇中的描述词用于描述业务对象的同一个主题特征,一个主题词簇对应一个主题。
在本步骤中,可以为每一主题词簇设定一个主题。比如,对于某一主题词簇,其包含的描述词有“清新”、“萝莉”、“学院派”及“淑女范”等,都是用于描述着装风格,可以将“风格”作为该主题词簇的主题。
步骤102、根据划分的该多个主题词簇及待标注业务对象的各描述词,确定待标注业务对象对应的主题。
基于步骤101划分得到的多个主题词簇,可以确定待标注业务对象的各描述词分别所属的主题词簇。待标注业务对象的每一描述词可以归属于多个主题词簇中的一个主题词簇,而待标注业务对象可以有一个或多个描述词,各描述词可以用于描述一项或多项特征。因此,待标注业务对象可以对应一个或多个主题词簇。
本步骤中,根据待标注业务对象的各描述词分别所属的主题词簇也可以进一步地确定待标注业务对象对应的主题。待标注业务对象对应的主题即待标注业务对象的各描述词所归属的主题词簇对应的主题。
由于待标注业务对象的各描述词可以分别归属到一个或多个主题词簇,一个主题词簇对应一个主题,因此,待标注业务对象可以对应一个或多个主题。
具体的,本步骤中当待标注业务对象为步骤101中的多个业务对象之一时,可以从划分的多个主题词簇中分别确定待标注业务对象的各描述词所属的主题词簇,并将待标注业务对象的各描述词分别所属的主题词簇对应的主题,确定为待标注业务对象对应的主题。
当待标注业务对象不为步骤101中的多个业务对象之一时,可以依次针对待标注业务对象的每个描述词,从划分的多个主题词簇中确定包括待标注业务对象的该描述词的主题词簇,并将包括待标注业务对象的该描述词的主题词簇对应的主题,确定为待标注业务对象对应的主题。
步骤103、从待标注业务对象对应的主题中确定待标注业务对象的代表主题。
例如,可以比较待标注业务对象对应的主题中每个主题下包含的该待标注业务对象的描述词的数量,并将包含有该待标注业务对象的描述词的数量最多的主题作为该待标注业务对象的代表主题。
步骤104、基于确定的代表主题选择描述词作为信息标签,对该待标注业务对象进行标注。
具体可以采用如下两种方式:
第一种方式:从待标注业务对象的归属代表主题的描述词中,选择描述词作为信息标签,对待标注业务对象进行标注。
第二种方式:从代表主题的主题代表词中,选择描述词作为信息标签,对待标注业务对象进行标注,其中,一个主题的主题代表词为从该主题对应的主题词簇中选择的用于表示该主题的主题含义的描述词。
一个主题的主题代表词为从该主题对应的主题词簇中选择的用于表示该主题的主题含义的描述词,也就是说,该主题代表词能够更清楚的表示该主题对应的特征,从而丰富了业务对象的信息标签,使得信息标签能够更全面的体现业务对象的突出的特征信息。
上述两种方式也可以结合使用。
在本申请实施例提供的上述对业务对象标注信息标签的方法中,步骤101中所划分出的多个主题词簇,可以作为后续确定待标注业务对象的代表主题时所基于的主题模型。在这一主题模型中,一个主题对应一个主题词簇,且一个主题词簇中的描述词用于描述业务对象的同一个主题特征,即一个主题对应表示一个主题特征,且一个主题词簇中的描述词可以各不相同。比如可以是表示产品功能特征的功能主题,可以是表示产品性能的性能主题,可以是表示风格特征的风格主题。还可以进一步对一些特征的主题进行区分,例如,可以进一步对各种类型的风格进行区分,得到分别表示各种类型风格特征的各风格主题。
本申请实施例中,除了通过上述步骤104基于确定的代表主题选择描述词作为信息标签,对该待标注业务对象进行标注之外,进一步的,当代表主题中不包括指定主题时,还可以对该待标注业务对象标注与该指定主题的主题含义相符的信息标签,即标注与该指定主题对应标识的特征相符的信息标签,例如,对于服装产品,在实际中用户更关注服装产品的风格特征,所以,可以将风格主题作为指定主题,又如,对于电子产品,在实际中用户更关注电子产品的性能特征和功能特征,所以,可以将性能主题和功能主题作为指定主题,从而使得信息标签能够更全面的体现业务对象被用户更多关注的特征信息。
下面结合附图,用具体实施例对本申请提供的方法及装置进行详细描述。
实施例1:
本申请实施例1中对如何划分得到多个主题词簇,即如何建立主题模型进行详细描述,图2所示为建立主题模型的流程图,具体包括如下步骤:
步骤201、在网站上发布的业务对象中,确定由多个提供方分别提供的同一款业务对象。
由于一些网站上所发布的业务对象可以是由多个提供方提供的,所以可能会出现不同的提供方提供相同业务对象的情况,即提供同一款业务对象,例如电子商务网站上,不同的卖家可能会提供同一款产品。本申请实施例中,针对这种情况,对于同一款业务对象是标注相同的信息标签,所以,本步骤中先确定出由多个提供方分别提供的同一款业务对象,在后续进行信息标签标注时作为同一个业务对象处理。
本步骤具体可以根据网站上发布的业务对象的代表性图片,确定代表性图片的图片指纹,并将图片指纹相同或满足设定相似条件的代表性图片所属的业务对象,确定为同一款业务对象。
其中,确定图片指纹所采用的方法可以为现有技术中的各种方法,在此不再进行详细描述。
当网站上所发布的业务对象均不相同时,可以省略本步骤。
步骤202、针对同一款业务对象,基于多个提供方分别提供的该同一款业务对象的描述信息,确定该同一款业务对象的描述词。
不同提供方在提供同一款业务对象时,所提供的该同一款业务对象的描述信息可能是存在差别的,例如,业务对象的标题内容可能会存在差别,以及业务对象的属性信息也可能会存在差别,所以,本步骤中参考多个提供方分别提供的该同一款业务对象的描述信息,以便所确定的该同一款业务对象的描述词更能够准确体现该同一款业务对象的各种信息。
具体的,本步骤可以采用如下两种方式执行:
第一种方式:针对多个提供方分别提供的同一款业务对象,分别对每个提供方提供的该同一款业务对象的标题进行分词,得到分词结果;
从得到的所有分词结果中选择出现频率高的前第一设定数量的词,作为该同一款业务对象的描述词;即对分词结果中的分词按照其出现频率从大到小排序,取排序在前的第一设定数量的分词作为该款业务对象的描述词。
其中,所有分词结果即为对各提供方提供的该同一款业务对象的标题进行分词得到的所有分词结果;该第一设定数量可以根据实际需要进行灵活设置,例如,基于目前网络的实际情况,可以设置为15。
较佳的,由于标题中有些词的作用并非是描述业务对象,如一些连接词,所以,在基于分词结果进行出现频率的统计时,可以将这一些词排除,后续即不会选择这些词作为业务对象的描述词。
第二种方式:获取每个提供方提供的该同一款业务对象的各属性词;
从得到的所有属性词中选择出现频率高的前第二设定数量的词,作为该同一款业务对象的描述词;其中,所有属性词即为各提供方提供的该同一款业务对象的所有属性词;该第二设定数量可以根据实际需要进行灵活设置,也可以与第一设定数量相同,例如,基于目前网络的实际情况,可以设置为15。
较佳的,由于有些属性词不适用于作为业务对象的信息标签,如表示价格的属性词,所以,在基于分词结果进行出现频率的统计时,可以将这一些词排除,后续即不会选择这些词作为业务对象的描述词。
本步骤中,也可以将上述两种方式结果,即将采用上述两种方式确定的该同一款业务对象的描述词进行去重处理,将去重之后的描述词均作为该同一款业务对象的描述词。
当网站上所发布的业务对象均不相同时,可以直接针对每个业务对象的描述信息确定该业务对象的描述词。
步骤203、针对由多个业务对象各自的描述词组成的描述词集合进行主题聚类,将该描述词集合中的描述词划分为多个主题词簇,其中,一个主题词簇中的描述词用于描述业务对象的同一个主题特征,一个主题词簇对应一个主题。
本步骤具体可以采用潜在狄利克雷分配模型(Latent Dirichlet Allocation,LDA)技术进行主题聚类处理,LDA技术为现有技术中一种用于对词进行主题聚类的方法,其在文本挖掘中可以用来识别词语库中潜藏的主题信息。
较佳的,本步骤中进行主题聚类所基于的上述多个业务对象,可以为同一类别的多个业务对象,并将根据该同一类别的多个业务对象得到的主题模型,后续用于针对该同一类别的业务对象的信息标签的标注,例如,在电子商务网站中,可以针对服装产品确定对应的主题模型,也可以针对电子产品确定对应的主题模型。
204、针对划分的得到的上述多个主题中的每个主题,确定主题的主题代表词,一个主题的主题代表词为从该主题对应的主题词簇中选择的用于表示该主题的主题含义的描述词。
在从一个主题对应的主题词簇中选择该主题的主题代表词时,可以先针对该主题词簇中的每个描述词进行评分,然后基于描述词的分值,从该主题词簇中选择分值高的前第三设定数量的描述词,作为该主题词簇的主题代表词,即对描述词按照其分值从大到小依次排序,取排序在前的第三设定数量的描述词作为该主题词簇的主题代表词。
其中,第三设定数量可以根据实际需要进行灵活设置,以便能够全面准确的表示该主题的主题含义,例如,可以设置为3个。
本步骤中,对描述词进行评分采用如下方式确定一个主题词簇中的描述词的标准分:
采用如下公式确定一个主题词簇中的描述词的标准分:
Z w , t = count w , t - p * count w , c count c * p * ( 1 - p ) ;
p = count w , t count c ;
其中,Zw,t为描述词w在主题词簇t中时的标准分;countw,t为描述词w划分到主题词簇t下的次数;
描述词w可以在多个业务对象中出现,根据描述词w在不同上下文中的情形,不同业务对象的描述词w可能会划分到不同的主题词簇,也可能划分到同一个主题词簇。当某一业务对象的描述词w划分到主题词簇t下时,描述词w划分到主题词簇t下的次数就增加一次。
countw,c为描述词w在描述词集合中出现的次数;即在进行主题词簇的聚类时,不同业务对象具有不同的上下文环境,不同业务对象可能包含同一描述词w,对不同的上下文环境的描述词w用于题词簇的聚类的情形分别计数。描述词w在描述词集合中出现的次数因此也可以理解为在进行主题词簇的聚类过程中描述词w对应的业务对象的数量。
countc为描述词集合中描述词的数量。
由于不同业务对象会存在部分描述词相同的情况,所以,由上述多个业务对象各自的描述词组成的描述词集合中,会存在相同的描述词,并且,同一个描述词,在不同的业务对象中所描述的主题特征可能是不同的,所以来自不同业务对象的同一个描述词所归属的主题词簇也可能是不同的,即所对应的主题也可能是不同的。
所以,各描述词在描述词集合中和主题词簇中的出现的次数不会全部相同,因此,采用上述评分方式基于出现次数所确定的描述词的标准分,可以体现次数数据偏离平均数的多少个标准差,从而能够体现一个主题词簇中包括的各描述词代表该主题的主题含义的程度,标准分值越高,越能代表该主题,即可以作为该主题的主题代表词。
上述公式中,来自一个业务对象的一个描述词所归属的主题词簇,在上述步骤203通过进行主题聚类划分主题词簇的过程即已经确定,本步骤直接获取所得到的结果即可。
本步骤中,确定一个主题的主题代表词,也可以采用自定义的方式,可以不从该主题对应的主题词簇中选择,而是用其他能表示该主题的主题含义的词汇,作为该主题的主题代表词。
通过上述图2所示的步骤201-步骤204,即可以完成主题模型的建立。
进一步的,为了使得建立的主题模型包括的各主题分别表示的业务对象的特征之间区分的更明显,还可以分别建立多个主题模型,各主题模型分别预先设置不同的主题簇数。针对每个主题模型,使用预先设置的主题簇数,对描述词集合进行主题聚类,将描述词集合中的描述词划分到各主题词簇,划分得到的主题词簇的数量即为该主题模型预先设置的主题簇数,从而可以得到多个主题模型结果。
针对这多个主题模型结果,从多个主题模型结果中选择一个主题模型,作为后续使用的主题模型。
实施例2:
在建立主题模型之后,即可以针对待标注业务对象,基于该主题模型确定该待标注业务对象的代表主题,以及选择描述词作为信息标签,对该待标注业务对象进行标注,其流程如图3所示,具体包括如下处理步骤:
步骤301、获得该待标注业务对象的描述词。
当网站上发布的业务对象可以是由多个提供方提供时,本步骤可以采用上述步骤201和步骤202中的方式,确定该待标注业务对象的描述词,在此不再进行详细描述。
步骤302、根据主题模型中的多个主题词簇及待标注业务对象的各描述词,确定待标注业务对象对应的主题。
本步骤中,当待标注业务对象为建立主题模型所使用的多个业务对象之一时,可以从划分的多个主题词簇中分别确定待标注业务对象的各描述词所属的主题词簇,并将待标注业务对象的各描述词分别所属的主题词簇对应的主题,确定为待标注业务对象对应的主题;
当待标注业务对象不为建立主题模型所使用的多个业务对象之一时,可以依次针对待标注业务对象的每个描述词,从划分的多个主题词簇中确定包括待标注业务对象的该描述词的主题词簇,并将包括待标注业务对象的该描述词的主题词簇对应的主题,确定为待标注业务对象对应的主题。
当在建立主题模型时是通过LDA技术进行主题聚类处理时,当待标注业务对象不为建立主题模型所使用的多个业务对象之一时,本步骤也可以相应的使用LDA技术确定待标注业务对象的一个描述词对应的主题,从而使得划分结果更准确。
步骤303、从待标注业务对象对应的主题中确定该待标注业务对象的代表主题。
例如,可以比较待标注业务对象对应的主题中每个主题下包含的该待标注业务对象的描述词的数量,并将包含有该待标注业务对象的描述词的数量最多的主题作为该待标注业务对象的代表主题,也可以选择数量多的前第五设定数量的主题,作为该待标注业务对象的代表主题,例如,选择数据量多的前3个主题作为代表主题。
也可以依次针对每个主题,确定该主题下包含的该待标注业务对象的描述词的数量与该待标注业务对象的所有描述词的数量的比值,当该比值满足预设比值条件时,如大于预设比值阈值时,将该主题确定为该待标注业务对象的代表主题,该预设比值阈值可以根据实际需要进行灵活设置,如设置为0.1。
在确定出代表主题后,即可以基于确定的代表主题选择描述词作为信息标签,对该待标注业务对象进行标注,具体可以采用如下步骤304和步骤305实现。
步骤304、从待标注业务对象的归属代表主题的描述词中,选择描述词作为信息标签,对该待标注业务对象进行标注。
具体可以从中随机选择设定数量的描述词,也可以通过人工观察的方式从中选择设定数量的描述词,也可以选择该代表主题下的该待标注业务对象的所有描述词,作为信息标签。
步骤305、从该代表主题的主题代表词中,选择描述词作为信息标签,对该待标注业务对象进行标注。
具体可以从中随机选择设定数量的描述词,也可以通过人工观察的方式从中选择设定数量的描述词,也可以选择该代表主题的所有主题代表词,作为信息标签。
本步骤与上述步骤304没有严格的先后顺序。
步骤306、当该代表主题中不包括指定主题时,还可以对该待标注业务对象标注与该指定主题的主题含义相符的信息标签。
具体可以从指定主题下的该待标注业务对象的描述词中,选择描述词作为信息标签,对该待标注业务对象进行标注。
采用本申请实施例2提供的上述对业务对象标注信息标签的方法,基于建立的主题模型中的多个主题和对应的主题词簇,确定待标注业务对象的代表主题,由于所确定的代表主题体现了该业务对象最突出的特征,所以,基于确定的代表主题选择描述词作为信息标签,例如从划分到代表主题下的待标注业务对象的描述词中,选择描述词作为信息标签,对待标注业务对象进行标注,能够体现该业务对象的最突出的特征信息,从而提高了标注的信息标签的准确性。
并且,当进一步的从该代表主题的主题代表词中,选择描述词作为信息标签,对该待标注业务对象进行标注,以及进一步的当代表主题中不包括指定主题时,对该待标注业务对象标注与该指定主题的主题含义相符的信息标签,能够进一步的丰富业务对象的信息标签,使得信息标签能够更全面的体现业务对象的突出的特征信息。
本申请实施例中的待标注业务对象的信息标签可以进一步用于业务对象的搜索或导航。在用于业务对象的搜索或导航时,根据输入的关键字,对标注有与输入的该关键字匹配的信息标签的业务对象进行展示;和/或,根据输入的导航信息,对标注有与输入的所述导航信息匹配的信息标签的业务对象进行展示。
实施例3:
基于同一发明构思,根据本申请上述实施例提供的对业务对象标注信息标签的方法,相应地,本申请实施例3还提供了一种对业务对象标注信息标签的装置,其结构示意图如图4所示,具体包括:
聚类处理单元401,用于针对由多个业务对象各自的描述词组成的描述词集合进行主题聚类,将所述描述词集合中的描述词划分为多个主题词簇,其中,一个主题词簇对应一个主题;
第一主题确定单元402,用于根据划分的所述多个主题词簇及待标注业务对象的各描述词,确定所述待标注业务对象对应的主题;
第二主题确定单元403,用于从所述待标注业务对象对应的主题中确定所述待标注业务对象的代表主题;
标注单元404,用于基于确定的所述代表主题选择描述词作为信息标签,对所述待标注业务对象进行标注。
进一步的,上述装置,还包括:
描述词确定单元405,用于采用如下方式确定业务对象的描述词:
针对多个提供方分别提供的同一款业务对象,分别对每个提供方提供的该同一款业务对象的标题进行分词,得到分词结果;并从得到的所有分词结果中选择出现频率高的前第一设定数量的词,作为该同一款业务对象的描述词;和/或
获取每个提供方提供的该同一款业务对象的各属性词;并从得到的所有属性词中选择出现频率高的前第二设定数量的词,作为该同一款业务对象的描述词。
进一步的,第一主题确定单元402,具体用于当所述待标注业务对象为所述多个业务对象之一时,从划分的所述多个主题词簇中分别确定所述待标注业务对象的各描述词所属的主题词簇;并将所述待标注业务对象的各描述词分别所属的主题词簇对应的主题,确定为所述待标注业务对象对应的主题;
当所述待标注业务对象不为所述多个业务对象之一时,从划分的所述多个主题词簇中确定至少包括所述待标注业务对象的一个描述词的主题词簇;并将至少包括所述待标注业务对象的一个描述词的主题词簇对应的主题,确定为所述待标注业务对象对应的主题。
进一步的,标注单元404,具体用于从所述待标注业务对象的归属所述代表主题的描述词中,选择描述词作为信息标签,对所述待标注业务对象进行标注。
进一步的,标注单元404,具体用于从所述代表主题的主题代表词中,选择描述词作为信息标签,对所述待标注业务对象进行标注,其中,一个主题的主题代表词为从该主题对应的主题词簇中选择的用于表示该主题的主题含义的描述词。
进一步的,上述装置,还包括:
代表词确定单元406,用于采用如下方式从一个主题对应的主题词簇中选择出该主题的主题代表词:
采用如下公式确定一个主题词簇中的描述词的标准分:
Z w , t = count w , t - p * count w , c count c * p * ( 1 - p ) ;
p = count w , t count c ;
其中,Zw,t为描述词w在主题词簇t中时的标准分;countw,t为所述描述词集合中归属主题词簇t的描述词w的数量;countw,c为所述描述词集合中描述词w的数量;countc为描述词集合中描述词的数量;
基于该主题词簇的描述词的标准分,从该主题词簇中选择标准分高的前第三设定数量的描述词,作为该主题词簇的主题代表词。
进一步的,标注单元404,还用于当所述代表主题中不包括指定主题时,对所述待标注业务对象标注与所述指定主题的主题含义相符的信息标签。
进一步的,上述装置,还包括:
匹配展示单元407,用于根据输入的关键字,对标注有与输入的所述关键字匹配的信息标签的业务对象进行展示;和/或,根据输入的导航信息,对标注有与输入的所述导航信息匹配的信息标签的业务对象进行展示。
上述各单元的功能可对应于图1至图3所示流程中的相应处理步骤,在此不再赘述。
综上所述,本申请实施例提供的方案,包括:针对由多个业务对象各自的描述词组成的描述词集合进行主题聚类,将描述词集合中的描述词划分为多个主题词簇,其中,一个主题词簇对应一个主题;根据划分的该多个主题词簇及待标注业务对象的各描述词,确定待标注业务对象对应的主题;从待标注业务对象对应的主题中确定待标注业务对象的代表主题;基于确定的代表主题选择描述词作为信息标签,对该待标注业务对象进行标注。采用本申请实施例提供的方案,提高了对业务对象标注的信息标签的准确性。
本申请的实施例所提供的装置可通过计算机程序实现。本领域技术人员应该能够理解,上述的模块划分方式仅是众多模块划分方式中的一种,如果划分为其他模块或不划分模块,只要装置具有上述功能,都应该在本申请的保护范围之内。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (16)

1.一种对业务对象标注信息标签的方法,其特征在于,包括:
针对由多个业务对象各自的描述词组成的描述词集合进行主题聚类,将所述描述词集合中的描述词划分为多个主题词簇,其中,一个主题词簇对应一个主题;
根据划分的所述多个主题词簇及待标注业务对象的各描述词,确定所述待标注业务对象对应的主题;
从所述待标注业务对象对应的主题中确定所述待标注业务对象的代表主题;
基于确定的所述代表主题选择描述词作为信息标签,对所述待标注业务对象进行标注。
2.如权利要求1所述的方法,其特征在于,采用如下方式确定业务对象的描述词:
针对多个提供方分别提供的同一款业务对象,分别对每个提供方提供的该同一款业务对象的标题进行分词,得到分词结果;并从得到的所有分词结果中选择出现频率高的前第一设定数量的词,作为该同一款业务对象的描述词;和/或
获取每个提供方提供的该同一款业务对象的各属性词;并从得到的所有属性词中选择出现频率高的前第二设定数量的词,作为该同一款业务对象的描述词。
3.如权利要求1所述的方法,其特征在于,根据划分的所述多个主题词簇及待标注业务对象的各描述词,确定所述待标注业务对象对应的主题,具体包括:
当所述待标注业务对象为所述多个业务对象之一时,从划分的所述多个主题词簇中分别确定所述待标注业务对象的各描述词所属的主题词簇;并将所述待标注业务对象的各描述词分别所属的主题词簇对应的主题,确定为所述待标注业务对象对应的主题;
当所述待标注业务对象不为所述多个业务对象之一时,依次针对所述待标注业务对象的每个描述词,从划分的所述多个主题词簇中确定包括所述待标注业务对象的该描述词的主题词簇,并将包括所述待标注业务对象的该描述词的主题词簇对应的主题,确定为所述待标注业务对象对应的主题。
4.如权利要求1所述的方法,其特征在于,基于确定的所述代表主题选择描述词作为信息标签,对所述待标注业务对象进行标注,具体为:
从所述待标注业务对象的归属所述代表主题的描述词中,选择描述词作为信息标签,对所述待标注业务对象进行标注。
5.如权利要求1所述的方法,其特征在于,基于确定的所述代表主题选择描述词作为信息标签,对所述待标注业务对象进行标注,具体为:
从所述代表主题的主题代表词中,选择描述词作为信息标签,对所述待标注业务对象进行标注,其中,一个主题的主题代表词为从该主题对应的主题词簇中选择的用于表示该主题的主题含义的描述词。
6.如权利要求5所述的方法,其特征在于,采用如下方式从一个主题对应的主题词簇中选择出该主题的主题代表词:
采用如下公式确定一个主题词簇中的描述词的标准分:
Z w , t = count w , t - p * count w , c count c * p * ( 1 - p ) ;
p = count w , t count c ;
其中,Zw,t为描述词w在主题词簇t中时的标准分;countw,t为所述描述词集合中归属主题词簇t的描述词w的数量;countw,c为所述描述词集合中描述词w的数量;countc为描述词集合中描述词的数量;
基于该主题词簇的描述词的标准分,从该主题词簇中选择标准分高的前第三设定数量的描述词,作为该主题词簇的主题代表词。
7.如权利要求1所述的方法,其特征在于,还包括:
当所述代表主题中不包括指定主题时,对所述待标注业务对象标注与所述指定主题的主题含义相符的信息标签。
8.如权利要求1所述的方法,其特征在于,还包括:
根据输入的关键字,对标注有与输入的所述关键字匹配的信息标签的业务对象进行展示;和/或
根据输入的导航信息,对标注有与输入的所述导航信息匹配的信息标签的业务对象进行展示。
9.一种对业务对象标注信息标签的装置,其特征在于,包括:
聚类处理单元,用于针对由多个业务对象各自的描述词组成的描述词集合进行主题聚类,将所述描述词集合中的描述词划分为多个主题词簇,其中,一个主题词簇对应一个主题;
第一主题确定单元,用于根据划分的所述多个主题词簇及待标注业务对象的各描述词,确定所述待标注业务对象对应的主题;
第二主题确定单元,用于从所述待标注业务对象对应的主题中确定所述待标注业务对象的代表主题;
标注单元,用于基于确定的所述代表主题选择描述词作为信息标签,对所述待标注业务对象进行标注。
10.如权利要求9所述的装置,其特征在于,还包括:
描述词确定单元,用于采用如下方式确定业务对象的描述词:
针对多个提供方分别提供的同一款业务对象,分别对每个提供方提供的该同一款业务对象的标题进行分词,得到分词结果;并从得到的所有分词结果中选择出现频率高的前第一设定数量的词,作为该同一款业务对象的描述词;和/或
获取每个提供方提供的该同一款业务对象的各属性词;并从得到的所有属性词中选择出现频率高的前第二设定数量的词,作为该同一款业务对象的描述词。
11.如权利要求9所述的装置,其特征在于,所述第一主题确定单元,具体用于当所述待标注业务对象为所述多个业务对象之一时,从划分的所述多个主题词簇中分别确定所述待标注业务对象的各描述词所属的主题词簇;并将所述待标注业务对象的各描述词分别所属的主题词簇对应的主题,确定为所述待标注业务对象对应的主题;
当所述待标注业务对象不为所述多个业务对象之一时,从划分的所述多个主题词簇中确定至少包括所述待标注业务对象的一个描述词的主题词簇;并将至少包括所述待标注业务对象的一个描述词的主题词簇对应的主题,确定为所述待标注业务对象对应的主题。
12.如权利要求9所述的装置,其特征在于,所述标注单元,具体用于从所述待标注业务对象的归属所述代表主题的描述词中,选择描述词作为信息标签,对所述待标注业务对象进行标注。
13.如权利要求9所述的装置,其特征在于,所述标注单元,具体用于从所述代表主题的主题代表词中,选择描述词作为信息标签,对所述待标注业务对象进行标注,其中,一个主题的主题代表词为从该主题对应的主题词簇中选择的用于表示该主题的主题含义的描述词。
14.如权利要求13所述的装置,其特征在于,还包括:
代表词确定单元,用于采用如下方式从一个主题对应的主题词簇中选择出该主题的主题代表词:
采用如下公式确定一个主题词簇中的描述词的标准分:
Z w , t = count w , t - p * count w , c count c * p * ( 1 - p ) ;
p = count w , t count c ;
其中,Zw,t为描述词w在主题词簇t中时的标准分;countw,t为所述描述词集合中归属主题词簇t的描述词w的数量;countw,c为所述描述词集合中描述词w的数量;countc为描述词集合中描述词的数量;
基于该主题词簇的描述词的标准分,从该主题词簇中选择标准分高的前第三设定数量的描述词,作为该主题词簇的主题代表词。
15.如权利要求9所述的装置,其特征在于,所述标注单元,还用于当所述代表主题中不包括指定主题时,对所述待标注业务对象标注与所述指定主题的主题含义相符的信息标签。
16.如权利要求9所述的装置,其特征在于,还包括:
匹配展示单元,用于根据输入的关键字,对标注有与输入的所述关键字匹配的信息标签的业务对象进行展示;和/或,根据输入的导航信息,对标注有与输入的所述导航信息匹配的信息标签的业务对象进行展示。
CN201310012653.7A 2013-01-14 2013-01-14 一种对业务对象标注信息标签的方法及装置 Active CN103927309B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310012653.7A CN103927309B (zh) 2013-01-14 2013-01-14 一种对业务对象标注信息标签的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310012653.7A CN103927309B (zh) 2013-01-14 2013-01-14 一种对业务对象标注信息标签的方法及装置

Publications (2)

Publication Number Publication Date
CN103927309A true CN103927309A (zh) 2014-07-16
CN103927309B CN103927309B (zh) 2017-08-11

Family

ID=51145531

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310012653.7A Active CN103927309B (zh) 2013-01-14 2013-01-14 一种对业务对象标注信息标签的方法及装置

Country Status (1)

Country Link
CN (1) CN103927309B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279208A (zh) * 2014-07-25 2016-01-27 北京龙源创新信息技术有限公司 一种数据标示方法和管理系统
CN105528356A (zh) * 2014-09-29 2016-04-27 阿里巴巴集团控股有限公司 结构化标签生成方法、使用方法及装置
CN106599194A (zh) * 2016-12-14 2017-04-26 北京小米移动软件有限公司 标签确定方法及装置
WO2017107805A1 (zh) * 2015-12-24 2017-06-29 阿里巴巴集团控股有限公司 确定商品对象标题文本的方法及装置
CN106919619A (zh) * 2015-12-28 2017-07-04 阿里巴巴集团控股有限公司 一种商品聚类方法、装置及电子设备
CN106940705A (zh) * 2016-12-20 2017-07-11 上海掌门科技有限公司 一种用于构建用户画像的方法与设备
CN106951571A (zh) * 2017-04-10 2017-07-14 广州优视网络科技有限公司 一种给应用标注标签的方法和装置
CN107292365A (zh) * 2017-06-27 2017-10-24 百度在线网络技术(北京)有限公司 商品标签的绑定方法、装置、设备及计算机可读存储介质
CN107515877A (zh) * 2016-06-16 2017-12-26 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN108874874A (zh) * 2018-04-27 2018-11-23 合肥工业大学 产品市场定位方法和系统、存储介质
CN110059309A (zh) * 2018-01-18 2019-07-26 北京京东尚科信息技术有限公司 信息对象标题的生成方法和装置
CN111178421A (zh) * 2019-12-25 2020-05-19 贝壳技术有限公司 检测用户状态的方法、装置、介质以及电子设备
CN114003725A (zh) * 2021-12-30 2022-02-01 深圳佑驾创新科技有限公司 信息标注模型的构建方法以及信息标注的生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430708A (zh) * 2008-11-21 2009-05-13 哈尔滨工业大学深圳研究生院 一种基于标签聚类的博客层次分类树构建方法
CN101685464A (zh) * 2009-06-18 2010-03-31 浙江大学 基于社群潜在主题挖掘的自动图像标注的方法
US20100223258A1 (en) * 2005-12-01 2010-09-02 Ucl Business Plc Information retrieval system and method using a bayesian algorithm based on probabilistic similarity scores
US20100228738A1 (en) * 2009-03-04 2010-09-09 Mehta Rupesh R Adaptive document sampling for information extraction
CN102156737A (zh) * 2011-04-12 2011-08-17 华中师范大学 一种中文网页主题内容的提取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100223258A1 (en) * 2005-12-01 2010-09-02 Ucl Business Plc Information retrieval system and method using a bayesian algorithm based on probabilistic similarity scores
CN101430708A (zh) * 2008-11-21 2009-05-13 哈尔滨工业大学深圳研究生院 一种基于标签聚类的博客层次分类树构建方法
US20100228738A1 (en) * 2009-03-04 2010-09-09 Mehta Rupesh R Adaptive document sampling for information extraction
CN101685464A (zh) * 2009-06-18 2010-03-31 浙江大学 基于社群潜在主题挖掘的自动图像标注的方法
CN102156737A (zh) * 2011-04-12 2011-08-17 华中师范大学 一种中文网页主题内容的提取方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
卓景文: "基于主题分析的图像自动标注研究", 《中国优秀硕士学位论文全文数据库·信息科技辑》 *
周津 等: "采用对象特征向量表示法的标签聚类算法", 《小型微型计算机系统》 *
王小华 等: "基于共词分析的文本主题词聚类与主题发现", 《情报科学》 *
王嵩 等: "《基于贝叶斯层级模型的社会化标注主题聚类探讨》", 《情报理论与实践》 *
王梅: "基于多标签学习的图像语义自动标注研究", 《中国博士学位论文全文数据库·信息科技辑》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279208A (zh) * 2014-07-25 2016-01-27 北京龙源创新信息技术有限公司 一种数据标示方法和管理系统
CN105528356A (zh) * 2014-09-29 2016-04-27 阿里巴巴集团控股有限公司 结构化标签生成方法、使用方法及装置
CN105528356B (zh) * 2014-09-29 2019-01-18 阿里巴巴集团控股有限公司 结构化标签生成方法、使用方法及装置
WO2017107805A1 (zh) * 2015-12-24 2017-06-29 阿里巴巴集团控股有限公司 确定商品对象标题文本的方法及装置
CN106919543A (zh) * 2015-12-24 2017-07-04 阿里巴巴集团控股有限公司 确定商品对象标题文本的方法及装置
CN106919619A (zh) * 2015-12-28 2017-07-04 阿里巴巴集团控股有限公司 一种商品聚类方法、装置及电子设备
CN107515877A (zh) * 2016-06-16 2017-12-26 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN106599194A (zh) * 2016-12-14 2017-04-26 北京小米移动软件有限公司 标签确定方法及装置
CN106599194B (zh) * 2016-12-14 2021-03-30 北京小米移动软件有限公司 标签确定方法及装置
CN106940705B (zh) * 2016-12-20 2021-01-22 上海掌门科技有限公司 一种用于构建用户画像的方法与设备
CN106940705A (zh) * 2016-12-20 2017-07-11 上海掌门科技有限公司 一种用于构建用户画像的方法与设备
CN106951571A (zh) * 2017-04-10 2017-07-14 广州优视网络科技有限公司 一种给应用标注标签的方法和装置
CN106951571B (zh) * 2017-04-10 2021-06-22 阿里巴巴(中国)有限公司 一种给应用标注标签的方法和装置
CN107292365A (zh) * 2017-06-27 2017-10-24 百度在线网络技术(北京)有限公司 商品标签的绑定方法、装置、设备及计算机可读存储介质
CN107292365B (zh) * 2017-06-27 2021-01-08 百度在线网络技术(北京)有限公司 商品标签的绑定方法、装置、设备及计算机可读存储介质
CN110059309A (zh) * 2018-01-18 2019-07-26 北京京东尚科信息技术有限公司 信息对象标题的生成方法和装置
CN108874874A (zh) * 2018-04-27 2018-11-23 合肥工业大学 产品市场定位方法和系统、存储介质
CN111178421A (zh) * 2019-12-25 2020-05-19 贝壳技术有限公司 检测用户状态的方法、装置、介质以及电子设备
CN111178421B (zh) * 2019-12-25 2023-10-20 贝壳技术有限公司 检测用户状态的方法、装置、介质以及电子设备
CN114003725A (zh) * 2021-12-30 2022-02-01 深圳佑驾创新科技有限公司 信息标注模型的构建方法以及信息标注的生成方法

Also Published As

Publication number Publication date
CN103927309B (zh) 2017-08-11

Similar Documents

Publication Publication Date Title
CN103927309A (zh) 一种对业务对象标注信息标签的方法及装置
CN103729359B (zh) 一种推荐搜索词的方法及系统
US10140368B2 (en) Method and apparatus for generating a recommendation page
CN104239331B (zh) 一种用于实现评论搜索引擎排序的方法和装置
CN103123624B (zh) 确定中心词的方法及装置、搜索方法及装置
WO2019041521A1 (zh) 用户关键词提取装置、方法及计算机可读存储介质
CN104111941B (zh) 信息展示的方法及设备
CN105426514A (zh) 个性化的移动应用app推荐方法
CN111259271A (zh) 评论信息的展示方法、装置、电子设备及计算机可读介质
CN104636371A (zh) 信息推荐方法及设备
CN110263248A (zh) 一种信息推送方法、装置、存储介质和服务器
CN102591880A (zh) 信息提供方法及装置
CN103020295A (zh) 一种问题标签标注方法及装置
CN103218368B (zh) 一种挖掘热词的方法与装置
CN112948575A (zh) 文本数据处理方法、装置和计算机可读存储介质
CN104102662A (zh) 一种用户兴趣偏好相似度确定方法及装置
CN112052397B (zh) 用户特征生成方法、装置、电子设备及存储介质
CN103106234A (zh) 一种网页内容搜索方法和装置
CN103365842A (zh) 一种页面浏览推荐方法及装置
CN113469461B (zh) 生成信息的方法和装置
CN107369066B (zh) 一种评论对象之间的特征比较方法及装置
CN103092838B (zh) 一种获取英文词的方法及装置
CN111831938A (zh) 信息显示方法、装置、电子设备及介质
CN103294780A (zh) 一种目录映射关系挖掘方法和装置
CN111046271A (zh) 用于搜索的挖掘方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant