CN104572904A

CN104572904A - 一种标签关联程度的确定方法及装置

Info

Publication number: CN104572904A
Application number: CN201410828156.9A
Authority: CN
Inventors: 李金奎; 陈挺; 郭艳波
Original assignee: Weimeng Chuangke Network Technology China Co Ltd
Current assignee: Weimeng Chuangke Network Technology China Co Ltd
Priority date: 2014-12-25
Filing date: 2014-12-25
Publication date: 2015-04-29
Anticipated expiration: 2034-12-25
Also published as: CN104572904B

Abstract

本申请公开了一种标签关联程度的确定方法，用以提供一种确定用户标签之间关联程度的方案。方法包括：确定同已有标签存在共现关系的用户标签与已有标签的编辑距离；其中，所述已有标签是根据用户特征信息生成的；根据所述编辑距离，确定所述同已有标签存在共现关系的用户标签与所述已有标签的关联程度。本申请还公开了标签关联程度的确定装置。

Description

一种标签关联程度的确定方法及装置

技术领域

本申请涉及互联网技术领域，尤其涉及一种标签关联程度的确定方法及装置。

背景技术

目前，针对微博等社交工具，可以把用户的关注对象所在分组的分组名称确定为用户标签，后续可以根据用户标签实现对用户的查找。

比如，基于通过上述方式确定的用户标签“NBA”，当需要查找一批对“NBA”感兴趣的用户时，可以直接以该用户标签作为查询关键词，查找以该用户标签作为分组名称的分组，进而将查找到分组中的关注对象和/或设置该分组名称的用户确定为对“NBA”感兴趣的用户。可以理解，与该用户标签相关联的其他用户标签(如“NBA球星”等)作为分组名中的关注对象，其实也是对“NBA”感兴趣的用户，若能够获知与该用户标签相关联的所有用户标签，则可查找到非常多的对“NBA”感兴趣的用户。可见，确定用户标签之间的关联关系对于提高查找对象的全面性是非常重要的。

现有技术中，为了确定与某用户标签相关联的标签，首先会建立一个基于常识、文化、学术等公知内容的多种类目的存在关联关系的标签库。当需要确定出与该用户标签存在关联关系的用户标签时，计算标签库中用户标签与选定的用户标签的共现频率，并选取共现频率大于设定的共现频率阈值的用户标签，作为该用户标签的关联标签。

一般地，与任一用户标签的关联标签可以分为强关联标签和弱关联标签两种。“强关联”表示用户标签之间存在较强的关联关系；“弱关联”表示用户标签之间存在较弱的关联关系。如：“NBA球星”与“NBA”这两个用户标签就具有较强的关联关系，而相对“NBA球星”与“NBA”之间的关联关系，“球星”与“NBA”这两个用户标签的关联关系就较弱。

区分用户标签关联程度的意义在于：后续在基于用户标签进行用户查找时，可以仅根据查询关键词，以及与查询关键词(某用户标签)之间强关联的其他用户标签，进行用户查找；而对于虽然与该查询关键词有关联，但关联程度较弱的用户标签，则不再以它们作为查询关键词。从而可以避免对一些准确度较差的查找结果进行查找而导致资源无谓浪费的问题。

然而，现有技术中还没有提出能够自动区分用户标签关联程度的技术。

发明内容

本申请实施例提供一种标签关联程度的确定方法，提供一种确定用户标签之间关联程度的方案。

本申请实施例提供一种标签关联程度的确定装置，提供一种确定用户标签之间关联程度的方案。

本申请实施例采用下述技术方案：

一种标签关联程度的确定方法，包括：确定同已有标签存在共现关系的用户标签与已有标签的编辑距离；其中，所述已有标签是根据用户特征信息生成的；根据所述编辑距离，确定所述同已有标签存在共现关系的用户标签与所述已有标签的关联程度。

一种标签关联程度的确定装置，包括：计算标签单元，用于确定同已有标签存在共现关系的用户标签与已有标签的编辑距离；其中，所述已有标签是根据用户特征信息生成的；确定关系单元，用于根据所述编辑距离，确定所述同已有标签存在共现关系的用户标签与所述已有标签的关联程度。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

采用根据通过确定同已有标签存在共现关系的用户标签与已有标签的编辑距离，确定出同已有标签存在共现关系的用户标签与已有标签的关联程度，由于已有标签也是用户标签，所以等同于确定出用户标签之间的关联程度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种标签关联程度的确定方法的具体实现流程示意图；

图2为本申请实施例提供的一种标签关联程度的确定装置的具体结构示意图；

图3为本申请实施例提供的一种标签关联程度的确定方法的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

本申请实施例提供一种标签关联程度的确定方法，提供一种确定用户标签之间关联程度的方案。该方法的实现流程示意图如图1所示，包括下述步骤：

步骤11，确定同已有标签存在共现关系的用户标签与已有标签的编辑距离；其中，已有标签是根据用户特征信息生成的。

步骤12，根据编辑距离，确定同已有标签存在共现关系的用户标签与已有标签的关联程度。

采用本实施例提供的该方法，根据通过确定同已有标签存在共现关系的用户标签与已有标签的编辑距离，确定出同已有标签存在共现关系的用户标签与已有标签的关联程度，由于已有标签也是用户标签，所以等同于确定出用户标签之间的关联程度。

以下分别详细介绍步骤11和步骤12：

在一种实施方式中，可以采用下述方式，生成所述已有标签：获取用户特征信息；根据设定的标签生成方式以及用户特征信息，生成所述已有标签。

其中，用户特征信息可以包括：用户的分组名称、用户的自标签、用户的职业信息、用户的教育信息。比如，获取到用户的分组名称，分析分组名称的语义，再根据设定的标签生成方式，生成所述已有标签。

具体而言：可以但不限于根据以下述相关规则中的一种或多种生成已有标签：行业术语；行业认证信息；拼音及拼音缩写；英文表达方式及英文表达方式的缩写；类目体系词汇。具体可以参考如下表1所示的实例。

表1

以投资理财为例，本申请实施例中，为了根据相关规则生成已有标签，可以对“投资理财”先进行语义分析；然后根据保存的语义与行业术语的映射关系，以及分析结果，确定出作为已有标签的行业术语。

需要说明的是，由于用户分组名称属于用户原创内容(User GeneratedContent，UGC)，个性，潮流等新鲜元素不断注入到互联网，用户标签也各式各样，如：【潮流】，即加入特定符号，在根据上述规则生成已有标签时，会导致无法对这样的用户标签进行语义分析或其他解析操作，所以可以对类似的用户分组名称做预处理。

在一种实施方式中，为了达到更加方便地对用户特征信息进行语义分析或其他解析操作的效果，根据用户特征信息生成已有标签，可以包括：按照设定的预处理方式，对用户特征信息进行处理，得到处理后的用户特征信息；根据设定的标签生成方式以及处理后的用户特征信息，生成已有标签。

其中，预处理方式可以但不限于包括下述方式中的一种或多种：

将繁体字符转换为简体字符；去除特定符号；将大写字母转换为小写字母。具体可以参考如下表2所示的实例。

表2

针对步骤11而言，先对共现关系和共现频率做以下解释：

当粉丝将姚明分配到以“NBA”为分组名称的分组n次，也将姚明分配到以“休斯顿火箭”为分组名称的分组中也为n次，可以定义“NBA”和“休斯顿火箭”这两个分组名称(即用户标签)存在共现关系，且共现频率为1。可以推出，当姚明被粉丝分配到“NBA”和“休斯顿火箭”这两个分组中的次数均为2n次时，这两个用户标签的共现频率为2。

具体而言，同已有标签存在共现关系的用户标签(下文统称为共现标签)是指：被分配到以已有标签作为分组名称的分组下的用户关注对象所属的其他分组的分组名称(用户标签)。比如，“NBA”为已有标签，粉丝将“姚明”、“易建联”等等分配到“NBA”这个标签中，也有粉丝将“姚明”、“易建联”等等分配到“休斯顿火箭”、“NBA球星”、“广东宏远”等等的用户标签中。“休斯顿火箭”、“NBA球星”、“广东宏远”等等用户标签就是同“NBA”这个已有标签存在共现关系的用户标签。

在确定出共现标签后，再计算共现标签与已有标签的编辑距离。编辑距离是指是指两个字串之间，由一个转成另一个所需的最少编辑操作次数；在本实施例中，可以指两个用户标签之间，由一个转成另一个所需的最少编辑操作次数。

针对步骤12而言，根据步骤11确定出的编辑距离，可以有以下两种情况确定共现标签与已有标签的关联程度。

第一种情况：判断编辑距离是否大于设定的第一编辑距离阈值；在判断结果为否时，确定所述同已有标签存在共现关系的用户标签与所述已有标签的关联程度为强关联关系；在判断结果为是时，根据编辑距离、以及共现标签与已有标签的共现频率，确定共现标签与已有标签的关联程度。

具体而言，可以设定第一编辑距离阈值为1。

当判断结果为否时，即共现标签与已有标签的编辑距离为0或1。为0或1的情况，就可以确定出共现标签与已有标签的关联程度为强关联关系，就把共现标签确定为已有标签的强关联标签。比如：共现标签是“互联网”，与已有标签“互联网”的编辑距离为0；或共现标签是“互联网1”，与已有标签“互联网”的编辑距离为1；可以把此类共现标签确定为已有标签的强关联标签。

当判断结果为是时，即共现标签与已有标签的编辑距离为2或更大，则根据共现标签与已有标签的共现频率来确定两者之间的关联程度。比如，共现频率大于30时，可以把此类共现标签确定为已有标签的强关联标签；否则，确定为已有标签的弱关联标签。

第二种情况：当所述编辑距离不大于设定的第二编辑距离阈值，且共现频率大于设定的第一共现频率阈值时，确定共现标签与已有标签的关联程度为强关联关系；其中，第二编辑距离阈值大于第一编辑距离阈值；当编辑距离大于设定的第二编辑距离阈值，且共现频率大于设定的第二共现频率阈值时，确定共现标签与已有标签的关联程度为强关联关系；其中，第二共现频率阈值大于第一共现频率阈值。

具体而言，可以设定第二编辑距离阈值为2；第一共现频率阈值为10；将共现标签与已有标签的共现频率按从高到低进行排序，将排序后的第31位共现频率大小的值确定为第二共现频率阈值。设定同一对象分别被分配到以共现标签作为分组名称的分组中3次，以及以已有标签作为分组名称的分组中3次时，共现标签与已有标签的共现频率为1。

当编辑距离等于2，且共现频率大于10时，则确定共现标签与已有标签的关联程度为强关联关系，即共现标签是已有标签的强关联标签；

当编辑距离等于2，且共现频率不大于10时，则确定共现标签是已有标签的弱关联标签；

当编辑距离大于2，且共现频率大于第二共现频率阈值时，则确定共现标签是已有标签的强关联标签；

当编辑距离大于2，且共现频率不大于第二共现频率阈值时，则确定共现标签是已有标签的弱关联标签。

在实际的社交网络中发现，有一些用户会随机将关注对象分配到与之不相干的用户标签中，用户标签的名称之间编辑距离又很小，实际表达的意思却相差甚远，如果按照上述两种情况确定关联程度会有误差。比如，有人将本属于“黑客”这个用户标签下的关注对象无意地分配到了“黑马”这个用户标签中，类似的，“手机行业”和“手游行业”，“地产”和“特产”。他们之间的编辑距离仅为1，但语义相差很大，如果按照上述情况，将他们定位强关联关系，显然不正确。所以，为了减少类似这样的误差，在计算编辑距离时，制定了一套限制条件，条件如下：

当已有标签是2字词时，不与共现标签计算编辑距离，直接根据共现频率来确定关联程度；

当已有标签与共现标签均为3-5字词时，仅当两个词中的字符存在前部分(至少2字)或后部分(至少2字)完全相同时，进行计算编辑距离。当编辑距离为1，确定为强关联关系；当编辑距离为2，再根据共现频率来确定是否为强关联关系，否则，直接将共现标签确定为已有标签的弱关联标签。

需要说明的是，本申请实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤11和步骤12的执行主体可以为设备1；又比如，步骤11的执行主体可以为设备1，步骤12的执行主体可以为设备2；等等。

本申请实施例提供一种标签关联程度的确定装置，提供一种确定用户标签之间关联程度的方案。该装置的具体结构示意图如图2所示，包括如下功能单元：

计算标签单元21，可以用于确定同已有标签存在共现关系的用户标签与已有标签的编辑距离；其中，已有标签是根据用户特征信息生成的；

确定关系单元22，可以用于根据编辑距离，确定同已有标签存在共现关系的用户标签与已有标签的关联程度。

采用本实施例提供的该装置，通过确定同已有标签存在共现关系的用户标签与已有标签的编辑距离和共现频率的方法，可以确定出用户标签之间的关联程度。

在一种实施例中，确定关系单元22，可以用于：判断编辑距离是否大于设定的第一编辑距离阈值；

在判断结果为否时，确定同已有标签存在共现关系的用户标签与已有标签的关联程度为强关联关系；

在判断结果为是时，根据编辑距离、以及同已有标签存在共现关系的用户标签与已有标签的共现频率，确定同已有标签存在共现关系的用户标签与已有标签的关联程度；

其中，共现频率是根据同一对象分别被分配到以已有标签作为分组名称的分组中的次数、和以同已有标签存在共现关系的用户标签作为分组名称的分组中的次数确定的。

在一种实施例中，确定关系单元23，在判断结果为是时，具体可以用于：

当编辑距离不大于设定的第二编辑距离阈值，且共现频率大于设定的第一共现频率阈值时，确定同已有标签存在共现关系的用户标签与已有标签的关联程度为强关联关系；其中，第二编辑距离阈值大于第一编辑距离阈值；

当编辑距离大于设定的第二编辑距离阈值，且共现频率大于设定的第二共现频率阈值时，确定同已有标签存在共现关系的用户标签与已有标签的关联程度为强关联关系；其中，第二共现频率阈值大于第一共现频率阈值。

在一种实施例中，还可以包括，生成标签单元，可以用于：获取用户特征信息；根据设定的标签生成方式以及用户特征信息，生成已有标签；其中，标签生成方式包括下述方式中的一种或多种：

根据与用户特征信息相关的行业术语，生成已有标签；

根据与用户特征信息相关的行业认证信息，生成已有标签；

根据与用户特征信息相关的拼音及拼音缩写，生成已有标签；

根据与用户特征信息相关的英文表达方式及英文表达方式的缩写，生成已有标签；

根据与用户特征信息相关的类目体系词汇，生成已有标签。

在一种实施例中，生成标签单元，可以用于：按照设定的预处理方式，对所述用户特征信息进行处理，得到处理后的用户特征信息；根据设定的标签生成方式以及处理后的用户特征信息，生成已有标签；

其中，预处理方式包括下述方式中的一种或多种：将繁体字符转换为简体字符；去除特定符号；将大写字母转换为小写字母。

本申请实施例提供一种标签关联程度的确定方法，提供一种确定用户标签之间关联程度的方案，将具备关联性的用户标签之间分为强关联和弱关联。

步骤31，对“★考研信息★”这一用户分组名称做预处理，得到“考研信息”。

步骤32，根据处理后得到的“考研信息”这一用户标签根据类目体系词汇生成“考研”这一标签作为已有标签。

步骤33，获取与“考研”这个已有标签存在共现关系的所有用户标签，得到“考研资料”、“考研信息”、“我要考研”、“英语作文”、“努力复习”、“研究生”、“新东方”等等。

步骤34，计算“考研”与其他共现标签的编辑距离和共现频率。

步骤35，根据计算结果确定出共现标签与“考研”的关联程度，结果如下表3所示。

表3

本领域内的技术人员应明白，本发明的实施例可提供为装置、系统、或计算机程序商品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序商品的形式。

本发明是参照根据本发明实施例的装置、设备(系统)、和计算机程序商品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何装置或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、装置、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为装置、系统或计算机程序商品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序商品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种标签关联程度的确定方法，其特征在于，包括：

确定同已有标签存在共现关系的用户标签与已有标签的编辑距离；其中，所述已有标签是根据用户特征信息生成的；

根据所述编辑距离，确定所述同已有标签存在共现关系的用户标签与所述已有标签的关联程度。

2.如权利要求1所述的方法，其特征在于，所述根据编辑距离，确定所述同已有标签存在共现关系的用户标签与所述已有标签的关联程度，具体包括：

判断所述编辑距离是否大于设定的第一编辑距离阈值；

在判断结果为否时，确定所述同已有标签存在共现关系的用户标签与所述已有标签的关联程度为强关联程度；

在判断结果为是时，根据所述编辑距离、以及所述同已有标签存在共现关系的用户标签与所述已有标签的共现频率，确定所述同已有标签存在共现关系的用户标签与所述已有标签的关联程度；

其中，所述共现频率是根据同一对象分别被分配到以所述已有标签作为分组名称的分组中的次数、和以所述同已有标签存在共现关系的用户标签作为分组名称的分组中的次数确定的。

3.如权利要求2所述的方法，其特征在于，所述在判断结果为是时，根据所述编辑距离、以及所述同已有标签存在共现关系的用户标签与所述已有标签的共现频率，确定所述同已有标签存在共现关系的用户标签与所述已有标签的关联程度，具体包括：

当所述编辑距离不大于设定的第二编辑距离阈值，且所述共现频率大于设定的第一共现频率阈值时，确定所述同已有标签存在共现关系的用户标签与所述已有标签的关联程度为强关联程度；其中，所述第二编辑距离阈值大于第一编辑距离阈值；

当所述编辑距离大于设定的第二编辑距离阈值，且所述共现频率大于设定的第二共现频率阈值时，确定所述同已有标签存在共现关系的用户标签与所述已有标签的关联程度为强关联程度；其中，所述第二共现频率阈值大于第一共现频率阈值。

4.如权利要求1至3任一权项所述的方法，其特征在于，采用下述方式，生成所述已有标签：

获取用户特征信息；

根据设定的标签生成方式以及用户特征信息，生成所述已有标签；

其中，所述设定的标签生成方式包括下述方式中的一种或多种：

根据与用户特征信息相关的行业术语，生成所述已有标签；

根据与用户特征信息相关的行业认证信息，生成所述已有标签；

根据与用户特征信息相关的拼音及拼音缩写，生成所述已有标签；

根据与用户特征信息相关的英文表达方式及英文表达方式的缩写，生成所述已有标签；

根据与用户特征信息相关的类目体系词汇，生成所述已有标签。

5.如权利要求4所述的方法，其特征在于，根据设定的标签生成方式以及用户特征信息，生成所述已有标签，具体包括：

按照设定的预处理方式，对所述用户特征信息进行处理，得到处理后的用户特征信息；

根据设定的标签生成方式以及处理后的用户特征信息，生成所述已有标签；

其中，所述预处理方式包括下述方式中的一种或多种：

将繁体字符转换为简体字符；

去除特定符号；

将大写字母转换为小写字母。

6.一种标签关联程度的确定装置，其特征在于，包括：

计算标签单元，用于确定同已有标签存在共现关系的用户标签与已有标签的编辑距离；其中，所述已有标签是根据用户特征信息生成的；

确定关系单元，用于根据所述编辑距离，确定所述同已有标签存在共现关系的用户标签与所述已有标签的关联程度。

7.如权利要求6所述的装置，其特征在于，确定关系单元，具体用于：

判断所述编辑距离是否大于设定的第一编辑距离阈值；

在判断结果为否时，确定所述同已有标签存在共现关系的用户标签与所述已有标签的关联程度为强关联关系；

8.如权利要求7所述的装置，其特征在于，确定关系单元，具体用于：

9.如权利要求6至8任一权项所述的装置，其特征在于，装置还包括：生成标签单元，具体用于：