CN103500219B

CN103500219B - 一种标签自适应精准匹配的控制方法

Info

Publication number: CN103500219B
Application number: CN201310476266.9A
Authority: CN
Inventors: 汤伟杰
Original assignee: XIANGAO INFORMATION TECHNOLOGY (SHANGHAI) CO LTD
Current assignee: XIANGAO INFORMATION TECHNOLOGY (SHANGHAI) CO LTD
Priority date: 2013-10-12
Filing date: 2013-10-12
Publication date: 2017-08-15
Anticipated expiration: 2033-10-12
Also published as: CN103500219A

Abstract

本发明提供一种标签自适应精准匹配的控制方法，包括：a.获取目标数据以及至少一个标签数据；b.基于所述目标数据确定自然语言相似度指数；c.基于所述目标数据确定情景相似度指数；d.对所述自然语言相似度指数以及所述情景相似度指数进行加权处理，并获得所述标签与所述目标数据匹配度指数。还提供一种在计算机处理系统中进行标签自适应精准匹配的控制装置。本发明可以自适应地实现标签与特定关键信息的匹配度的计算，提高计算效率并推进了应用程序的准确度。本算法实现简单且计算复杂度适中，适合移动应用。

Description

一种标签自适应精准匹配的控制方法

技术领域

本发明涉及计算机处理系统，尤其是通过计算机进行关联度匹配计算的算法，具体地，涉及通过计算机对于标签与关键信息的匹配度进行精准计算的算法。

背景技术

随着20世纪计算机的问世，越来越多的逻辑问题、数学问题都可以通过计算机进行计算。通过计算机进行计算的原理是设计一套算法，对一个数学问题或者现实技术问题进行描述，且该描述可以被计算机所识别，从而可以通过计算机的运算来得出针对该数学问题或现实技术问题的答案。通过对算法的不断改进，可以使得上述答案更加精确或者提高计算效率，从而对技术发展做出贡献。

例如，通过计算机算法可以对计算机的内存进行补充，这样的过程通常是通过利用外部存储空间来完成的，即将计算机内存内暂时不使用的数据、但还没有删除的数据移动到外部存储空间，从而使得计算机内存被空闲出来给其他应用程序使用，并且在需要被移动的数据时再将这些数据从外部存储空间移回内存内。这样的方式，牺牲了计算机的效率但却提升了计算机的空间。

又例如，在针对一个现实技术问题提出的算法中，可以得出符合要求的结果，但其计算复杂度过大导致计算机的处理效率过低。所以，提出一个新的算法来替代原算法，从而提高了计算效率，这也是对现有技术的一个改进。

类似的例子还存在很多，并被广泛地应用于各行各业。

尤其是，当移动终端作为具有计算能力的终端被广泛应用之后，众多应用厂商开始借助移动终端来进行少量的计算，从而衍生了众多的移动应用，这彻底改变了应用程序的工作方式，也提出了更多的计算要求。通过移动终端进行计算，需要尽量少地利用移动终端的中央处理单元，并在必须利用该中央处理单元时通过最简单、有效的算法完成计算，从而不对移动终端构成比较大的影响。相应地，与移动终端匹配的后台服务器也要被设计为有效地进行运算从而可以实现应用程序的计算目的。

在一类应用程序中，在移动终端中可能设有多个标签，这些标签可能是针对网页的标签，也可能是针对移动终端本身的标签，也可能是针对移动终端用户的标签，也可能是针对移动终端用户所喜欢的应用程序、物品、消费地点的标签，而后台服务器在通过应用程序与移动终端进行交互的过程中，需要对这些标签与某些关键信息的匹配度进行精准地计算，这样的计算就需要足够精确，同时不过多占用移动终端的计算能力、通讯渠道。然而，现有技术中对于此类应用的算法还不足够好。

因此，本发明要解决如何更准确地对移动终端中的标签与特定关键信息的匹配度选择将要发布的信息的问题。

发明内容

针对现有技术中无法对标签的匹配度进行精准计算的缺陷，本发明的目的是提供一种标签自适应精准匹配的控制方法以及相应的控制装置。

根据本发明的一个方面，提供一种标签自适应精准匹配的控制方法，用于对一个标签与目标数据的匹配度进行计算，包括如下步骤：

a.获取目标数据以及至少一个标签数据，所述标签数据对应于所述标签；

b.基于所述目标数据确定自然语言相似度指数；

c.基于所述目标数据确定情景相似度指数；

d.对所述自然语言相似度指数以及所述情景相似度指数进行加权处理，并获得加权指数，其中所述加权指数即为所述标签与所述目标数据匹配度指数。

根据本发明的另一个方面，还提供一种在计算机处理系统中进行标签自适应精准匹配的控制装置，其用于对一个标签与目标数据的匹配度进行计算，包括：第一获取装置，用于获取目标数据以及至少一个标签数据，所述标签数据对应于所述标签；第一计算装置，用于基于所述目标数据确定自然语言相似度指数；第二计算装置，用于基于所述目标数据确定情景相似度指数；第三计算装置，用于对所述自然语言相似度指数以及所述情景相似度指数进行加权处理，并获得加权指数，其中所述加权指数即为所述标签与所述目标数据匹配度指数。

本发明通过提出一种全新的计算机算法，使得标签与关键信息的匹配足够智能化，可以自适应地实现标签与特定关键信息的匹配度的计算，从而提高了计算效率并推进了应用程序的准确度。本算法实现简单且计算复杂度适中，适合移动应用。同时，基于本发明可以实现一种用于具有计算能力的终端内的控制装置，该控制装置可以以芯片的方式实现对上述标签的匹配计算。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明的第一实施例的，标签自适应精准匹配控制方法的流程图；

图2示出根据本发明的第二实施例的，标签自适应精准匹配控制方法的流程图；

图3示出根据本发明的第二实施例的，标签自适应精准匹配控制方法中基于所述情景相似度函数进行相似度计算的流程图；

图4示出根据本发明的第二实施例的，标签自适应精准匹配控制方法中的实况指数函数的实现流程图；

图5示出根据本发明的第一实施例的，标签自适应精准匹配控制装置的组成结构示意图；以及

图6示出根据本发明的第一实施例的，提供标签自适应精准匹配控制方法的系统的网络拓扑示意图。

具体实施方式

图1示出根据本发明的第一实施例的，标签自适应精准匹配控制方法的流程图。在本实施例中，通过图1所示的控制方法，对一个标签与目标数据的匹配度进行计算，具体地，通过如下步骤实现该过程。

首先，执行步骤S210，获取目标数据以及至少一个标签数据，所述标签数据对应于所述标签。本领域技术人员理解，该获取步骤可以在一个移动终端中完成，也可以在后台服务器(例如图3所示设备91、92……9T)中完成。优选地，通过后台服务器获取上述目标数据以及标签数据并优选地在后台服务器中完成后续步骤。更为具体地，本领域技术人员理解，所述目标数据可以通过外部输入获取，而所述标签数据则优选地通过从移动终端中获取。例如，所述标签数据都存储在移动终端中的特定区域，通过一个固定的函数接口可以获取这些标签数据，或者通过读取该存储区域的数据可以获得这些标签数据。在另一个变化例中，在所述移动终端中安装有与本控制方法对应的客户端程序，通过该客户端程序，移动终端用户可以将各种标签数据输入，或者可以将标签数据批量导入所述客户端内，从而使得所述客户端获取这些标签数据，进而可以通过该客户端将所述标签数据传输给所述后台服务器，在此不予赘述。

然后，进入步骤S211，基于所述目标数据确定自然语言相似度指数。在获取上述目标数据后，优选地通过各种算法确定自然语言相似度指数。具体地，本领域技术人员理解，可以通过多种算法计算所述自然语言相似度指数，例如下述的自然语言函数。

接下来，执行步骤S212，基于所述目标数据确定情景相似度指数。类似地，在获取了上述目标数据后，优选地计算情景相似度指数。同样地本领域技术人员理解，可以通过多种算法计算所述情景相似度指数，例如下述的情景相似度函数。

最后，进入步骤S213，对所述自然语言相似度指数以及所述情景相似度指数进行加权处理，并获得加权指数。本领域技术人员理解，所述加权指数即为所述标签与所述目标数据匹配度指数。本领域技术人员理解，可以通过多种方式进行上述加权处理。优选地，在本实施例中，上述自然语言相似度指数以及所述情景相似度指数均被设置一个加权参数R1、R2，且R1+R2=1，即通过如下公式进行加权计算：

S=R1*自然语言相似度指数+R2*情景相似度指数。

其中，S即代表上述加权指数，即为所述标签与所述目标数据匹配度指数。

进一步地，本领域技术人员理解，还可以通过其他方式进行上述步骤S213的加权计算，例如还可以采用局部加权算法、移动加权平均算法等算法进行计算。

进一步地，图2示出根据本发明的第二实施例的，标签自适应精准匹配控制方法的流程图。在图1所示基础上，图2所示第二实施例采用了更为具体的实施方式实现对标签自适应精准匹配的处理。具体地，在图1基础上，计算自然语言相似度指数以及计算情景相似度指数的步骤采用了不同的实施方式。具体地，通过步骤S221实现计算自然语言相似度指数的目的，即基于自然语言相似度函数对所述目标数据以及所述标签数据的相似度进行计算，从而获得所述自然语言相似度指数。其中，优选地，所述步骤b1中的相似度值范围优选地在0～1之间。

更为具体地，所述自然语言相似度指数可以采用F1进行表示，即F1(target，tag)，其中，target表示目标数据，tag表示标签数据。

F1函数标示基于自然语言架构下的，上述目标数据和标签数据直接的相似度，该相似度取值范围在0～1之间。例如，

F1(乐观，积极)=0.95

F1(苦，甜)=0.01

F1(幸福，安康)=0.5

F1(富二代，有钱)=0.98

更进一步地，本领域技术人员理解，在本实施例中，通过两种步骤确定上述自然语言相似度指数。首先，在本实施例所应用的系统中设置一个数据库存储各种数据，例如上述的“乐观”、“积极”等词汇，并对各种词汇、各种词汇之间的相似度进行存储，相应地在步骤S220中获取了目标数据以及标签数据后，则在步骤S221中通过对上述数据库的访问来获得所述目标数据与标签数据之间的相似度。本领域技术人员理解，在不同的硬件设备中，所述用于存储所述词汇、相似度的设备会有所区别。例如当采用图5所示控制装置7类似的芯片运行图2所示步骤时，则优选地所述词汇、相似度等信息被存储于一个Flash或RAM或类似存储设备中。而当所述控制装置7被设置为一个大型服务器中的一部分，则所述词汇、相似度被存储在一个数据库中，优选地作为一个数据表来存储，这并不影响本发明的技术内容。

而进一步地，还存在着一种可能性，即上述目标数据以及标签数据无法在所述数据库或其他存储装置被找到，则采用两种不同技术方案对没有被存储的目标数据以及标签数据的相似度予以计算。优选地，在上述存储装置中寻找与所述目标数据或标签数据的近似词汇，若找到近似词汇，则基于所述近似词汇做与上述操作同样的步骤来计算所述自然语言相似度指数。若次优地，查找不到上述目标数据或标签数据的近似词汇，则通过通讯接口发出查询请求。该查询请求可以被一个特定服务器处理，也可以以云计算的方式进行处理，即通过互联网进行搜索、计算。

进一步地，通过上述方式，可以实现对所述自然语言相似度指数的计算，在此不予赘述。

更进一步地，本领域技术人员理解，在一个变化例中，可以通过其他算法实现上述计算自然语言相似度指数的过程。例如，针对F1(target，tag)可以进行自然语言比较，即按照如下步骤进行：

i.对target、tag中所包含的每个字进行比较，从而得出针对每个字的相似度，表示为k1；

ii对target、tag中所包含的每个词进行比较，从而得出针对每个词的相似度，表示为k2；

iii.对target、tag中所包含的每个词进行相似比较，从而得出针对每个相似词的相似度，表示为k3；

iv.根据K=t1*k1+t2*k2+t3*k3的方式计算相似度K，并将K作为所述自然语言相似度指数。

在上述计算步骤中，t1<t3<t2。且通过这样的计算过程，可以实现对自然语言相似度指数的精准计算，在此不予赘述。

相应地，本领域技术人员理解，在本实施例中，通对过步骤S222实现计算情景相似度指数，即基于情景相似度函数对所述目标数据、所述标签数据以及时间参数进行相似度计算，从而获得所述情景相似度指数。

本领域技术人员理解，可以采用如下函数来计算所述情景相似度指数：F2(target，tag，time)。类似地，所述target表示目标数据，tag表示标签数据，所述time表示时间参数。

更进一步地，在所述步骤S222的一个变化例中，所述步骤S222采用如下步骤实现：基于情景相似度函数对所述目标数据、所述标签数据、时间参数以及地理信息参数进行相似度计算，从而获得所述情景相似度指数。本领域技术人员理解，针对该变化例，也可以采用如下函数来计算所述情景相似度指数：

F2(target，tag，time，GPS)，类似地，所述target表示目标数据，tag表示标签数据，所述time表示时间参数，所述GPS表示地理信息参数。

基于上述F2函数，可以容易地计算所述情景相似度指数，例如：

F2(‘牛排’，‘红酒’，晚餐时间，上海餐厅)=0.85

F2(‘毛峰’，‘猪肉’，12:00～13:00，黄山)=0.95

F2(‘活鱼’，‘红烧酱’，午饭时间，闽南)=0.35

本领域技术人员理解，通过上述情景相似度函数F2，可以确定在某个时间范围、某个地点，target和tag之间的相似度值。进一步地，可以确定所述相似度取值范围在0～1之间，在此不予赘述。

进一步地，本领域技术人员理解，可以通过图3、图4所示实施例实现基于所述情景相似度函数进行情景相似度计算的过程，在此不予赘述。

具体地，图3示出根据本发明的第二实施例的，标签自适应精准匹配控制方法中基于所述情景相似度函数进行情景相似度计算的流程图。首先执行步骤S231，基于挖掘函数对所述目标数据以及所述标签数据的进行计算，并获得挖掘指数；然后进入步骤S232，基于实况指数函数对所述目标数据、所述标签数据、时间参数以及地理信息参数进行计算，并获得实况指数；最后执行步骤S234，将所述挖掘指数与所述实况指数相加，并将和作为所述情景相似度指数。

具体地，在上述步骤S231中，所述挖掘函数通过如下方式获得。首先，针对所述客户标签分两种：手动输入，智能抽取。在第一种情况下，优选地通过人工输入所述客户标签。第二种情况下，在可以通过很多种途径获得所述客户标签。例如，通过客户浏览商品，收集商品标签(P1，P2，P3，P4，……)。具体地，通过如下步骤实现所述挖掘函数：

1)假定每个客户则拥有0个标签O1，02，03，04，……

2)N个客户则拥有N*O个标签，对这些数组采取关联规则数据挖掘Apriori算法；

3)算法的结果在不同的置信度和支持度的阀值可以得到不同的规则合集，在本实施例中暂定10组阀值，对应的关联度从0.1～1，阶梯值为0.1。若两个标签，在不同的阀值下面有不同的取值，阀值最高的取值为最终值。通过上述步骤，则可以实现所述挖掘函数，进而可以确定所述挖掘指数。

进一步地，本领域技术人员理解，所述确定客户标签的方式还可以其他方式实现，例如可以通过客户发起即时咨询的内容文本而抽取(Q1，Q2，Q3，Q4，……)。又例如，可以通过分析客户最近一段时期的社交关键字(S1，S2，S3，S4，……)。

…………

进一步地，本领域技术人员理解，在所述步骤S232中，通过如下公式计算所述实况指数，即：

Reality＝

R1*Arrive(target，tag，time，GPS)+

R2*Hit(target，tag，time，GPS)+

R3*Query(target，tag，time，GPS)

Arrive，Hit，Query三者的取值范围在0～1之间，R1+R2+R3=1。因此Reality取值范围在0～1之间

其中，Arrive函数表示被推送标签到达率；所述Hit函数表示被推送标签被点击率；所述Query函数表示所述被推送标签的互动率，即针对该被推送标签，有哪些终端进行了互动操作。

具体地，通过如下实例可以更加清楚地知悉所述实况指数的计算过程：

1)假设客户资源池有N个客户；

2)首次推送标签，输入目标数据(key1，key2，……)，进而群发N客户。假定每客户均拥有手动定义的tag合集(tag1，tag2，tag3，tag4，……)，其中两tag之间关联度由上述F1函数进行计算；

3)统计到达时间，用户终端所在区域、被推送标签的到达率、被推送标签的被点击率、以及被推送标签的互动率；即，获取到F2(key1，tag_ni)的所有取值；

4)对此次推送涉及的所有的文本标签，通过使用基于密度聚类算法，可以划分出一些特定的标签簇；采用基于密度，而不是采用基于原型，基于图的算法在于前者可以丢弃部分被识别为噪声的点，自动的划分簇，算法复杂度在O(m²)；再者需要多次迭代，数据指数级增长，因此采用可伸缩的CURE算法，用来解决运行时间过长，存储量大的问题；

5)将同一簇的标签关联度定义为1，从而基于上述规则可以计算所述实况指数。

在上述基础上，本领域技术人员理解，所述步骤S234中，所述情景相似度指数可以通过如下公式获得：

F2=挖掘指数+实况指数

挖掘函数(target，tag)+实况函数(target，tag，time，GPS)

图4示出根据本发明的第二实施例的，标签自适应精准匹配控制方法中的实况指数函数的实现流程图。图4示出了图3中步骤S232中计算所述实况指数的过程。具体地，在一个优选实施例中，所述实况指数函数通过如下步骤实现：

首先执行步骤S240，基于所述目标数据、所述标签数据、所述时间参数以及所述地理信息参数计算传播到达指数；

然后进入步骤S241，基于所述目标数据、所述标签数据、所述时间参数以及所述地理信息参数计算传播点击指数；

然后执行步骤S242，基于所述目标数据、所述标签数据、所述时间参数以及所述地理信息参数计算传播互动指数；

最后进入步骤S243，将上述传播到达指数、传播点击指数、传播互动指数进行加权计算，并将所述加权结果作为所述实况指数。

图5示出根据本发明的第一实施例的，标签自适应精准匹配控制装置的组成结构示意图。具体地，在本实施例中，所述标签自适应精准匹配控制装置7包括第一获取装置71、第一计算装置72、第二计算装置73、第三计算装置74。其中，所述第一获取装置71用于获取目标数据以及至少一个标签数据，所述标签数据对应于所述标签；所述第一计算装置72用于基于所述目标数据计算自然语言相似度指数；所述第二计算装置73用于基于所述目标数据确定情景相似度指数；所述第三计算装置74用于对所述自然语言相似度指数以及所述情景相似度指数进行加权计算，并获得加权指数，其中所述加权指数即为所述标签与所述目标数据匹配度指数。

本领域技术人员理解，通过上述四个装置的配合，可以实现对标签自适应精准匹配的处理。具体地，本领域技术人员理解，所述第一计算装置72、第二计算装置73可以并行地进行计算，而不必要顺行地进行计算，这并不影响本发明的实质内容。

更进一步地，在本实施例中，所述第一计算装置72包括第四计算装置721，其用于基于自然语言相似度函数对所述目标数据以及所述标签数据的相似度进行计算，从而获得所述自然语言相似度指数。

更进一步地，在本实施例中，所述第二计算装置73包括第五计算装置731，其用于基于情景相似度函数对所述目标数据、所述标签数据、时间参数以及地理信息参数进行相似度计算，从而获得所述情景相似度指数。

更为具体地，上述第一获取装置71、第一计算装置72、第二计算装置73、第三计算装置74的内部流程可以参考上述图1至图4实施例指导本领域技术人员实现，在此不予赘述。

图6示出根据本发明的第一实施例的，提供标签自适应精准匹配控制方法的系统的网络拓扑示意图。本领域技术人员理解，在本实施例中，通过后台服务器91、92……9T与移动终端51、52……5N进行交互。在具体的应用中，存在N个移动终端，每个终端有M个标签数据，且针对一个终端构成一个标签集合，针对N个移动终端构成一个标签集合矩阵。在当目标数据确定后，通过上述图1至图4所示的步骤确定目标数据与标签数据的相似度，并根据该相似度确定所述N个终端中与所述目标数据相适应的终端。在确定所述终端后，则可以向这些终端推送所述被推送标签。

进一步地，参考上述图1至图6，本领域技术人员理解，所述目标数据包括多种类型的信息，例如可以是关键字数据，优选地以字符的形式存在，又例如可以是语音数据，优选地以语音数据的方式存在；又例如可以是图片数据、视频数据、用于描述气味的数据以及用于描述液体特征的数据中的任一种或任多种，这并不影响本发明的技术内容。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种标签自适应精准匹配的控制方法，用于对一个标签与目标数据的匹配度进行计算，包括如下步骤：

b.基于所述目标数据确定自然语言相似度指数包括：基于自然语言相似度函数对所述目标数据以及所述标签数据的相似度进行计算，选取0～1之间的相似度值作为自然语言相似度指数；

c.基于所述目标数据确定情景相似度指数包括：

i.基于挖掘函数对所述目标数据以及所述标签数据的进行计算，并获得挖掘指数；

ii.基于所述目标数据、所述标签数据、时间参数以及地理信息参数计算传播到达指数；

iii.基于所述目标数据、所述标签数据、所述时间参数以及所述地理信息参数计算传播点击指数；

iv.基于所述目标数据、所述标签数据、所述时间参数以及所述地理信息参数计算传播互动指数；

v.将上述传播到达指数、传播点击指数、传播互动指数进行加权计算，并将所述加权结果作为实况指数；

vi.将所述挖掘指数与所述实况指数相加，并将和作为情景相似度指数；

2.根据权利要求1所述的控制方法，其特征在于，所述步骤c包括如下步骤：

c1.基于情景相似度函数对所述目标数据、所述标签数据以及时间参数进行相似度计算，从而获得所述情景相似度指数。

3.根据权利要求2中所述的控制方法，其特征在于，所述步骤c包括如下步骤：

c1′.基于情景相似度函数对所述目标数据、所述标签数据、时间参数以及地理信息参数进行相似度计算，从而获得所述情景相似度指数。

4.根据权利要求1所述的控制方法，其特征在于

所述挖掘函数通过关联规则数据挖掘Apriori算法实现。

5.根据权利要求1至4中任一项所述的控制方法，其特征在于，所述目标数据包括如下数据中的任一种或任多种：

-关键字数据；

-图片数据；

-视频数据；

-用于描述气味的数据；以及

-用于描述液体特征的数据。

6.一种具有计算能力的终端内处理标签自适应精准匹配的控制装置，用于对一个标签与目标数据的匹配度进行计算，包括如下装置：

第一获取装置，其用于获取目标数据以及至少一个标签数据，所述标签数据对应于所述标签；

第一计算装置，其用于基于所述目标数据计算自然语言相似度指数，对所述目标数据以及所述标签数据的相似度进行计算，选取0～1之间的相似度值作为自然语言相似度指数；

第二计算装置，其基于所述目标数据确定情景相似度指数，

i.用于挖掘函数对所述目标数据以及所述标签数据的进行计算，并获得挖掘指数；

ii.用于所述目标数据、标签数据、时间参数以及地理信息参数计算传播到达指数；

iii.用于所述目标数据、所述标签数据、所述时间参数以及所述地理信息参数计算传播点击指数；

iv.用于所述目标数据、所述标签数据、所述时间参数以及所述地理信息参数计算传播互动指数；

v.用于将上述传播到达指数、传播点击指数、传播互动指数进行加权计算，并将所述加权结果作为实况指数；

vi.用于将所述挖掘指数与所述实况指数相加，并将和作为情景相似度指数；

第三计算装置，其用于所述目标数据确定情景相似度，对所述自然语言相似度指数以及所述情景相似度指数进行加权处理，并获得加权指数，其中所述加权指数即为所述标签与所述目标数据匹配度指数。