CN105631025A

CN105631025A - 一种查询标签的归一化处理方法和装置

Info

Publication number: CN105631025A
Application number: CN201511020654.1A
Authority: CN
Inventors: 宋原; 赵琳; 杨月奎; 王迪
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2015-12-29
Filing date: 2015-12-29
Publication date: 2016-06-01
Anticipated expiration: 2035-12-29
Also published as: CN105631025B

Abstract

本发明实施例公开了一种查询标签的归一化处理方法，所述方法包括：从查询日志中分析得到语义相关的查询语句对；从所述语义相关的查询语句对中抽取语义相关的查询标签对，所述查询标签对包括第一查询标签和第二查询标签；根据所述第一查询标签和所述第二查询标签分别在所述查询日志中出现的频次，以及所述第一查询标签和所述第二查询标签出现在所述查询日志中同一查询会话记录的频次，确定所述第一查询标签和第二查询标签的标签相关度；若所述标签相关度满足预设阈值，则将所述第一查询标签和第二查询标签归一化处理。本发明实施例还公开了一种查询标签的归一化处理装置。采用本发明，可将相关语义的查询标签归一化处理。

Description

一种查询标签的归一化处理方法和装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种查询标签的归一化处理方法和装置。

背景技术

随着互联网技术的飞速发展，越来越多的app(Application，应用程序)在应用市场中被提供给用户下载安装使用，app在应用市场中会被设置对应的查询标签，这些查询标签通常是通过类别、功能、适用场景、用户评价、用户属性等维度来描述app的词或短语，从而用户可以通过使用包括一个或多个的查询标签的查询语句在应用市场中搜索app，例如查询语句“好玩的游戏”中包括查询标签“好玩”和“游戏”、查询语句“不花钱的聊天工具”中包括查询标签“不花钱”和“聊天工具”。现有技术中，通常需要app被设置的应用标签与用户输入的查询标签完全一致，才能被判定为搜索命中并将命中的app作为搜索结果返回给用户，但是由于汉字可能存在多种表达方式可以表示相同语义，用户使用的语义表达方式与目标app设置的查询标签的语义表达方式经常存在偏差，导致用户输入的查询语句无法搜索到目标app。

发明内容

有鉴于此，本发明实施例提供了一种查询标签的归一化处理方法和装置，可将相关语义的查询标签归一化处理。

为了解决上述技术问题，本发明实施例提供了一种查询标签的归一化处理方法，所述方法包括：

从查询日志中分析得到语义相关的查询语句对，所述查询日志包括多个查询会话记录，每个查询会话记录中包括至少一个查询语句；

从所述语义相关的查询语句对中抽取语义相关的查询标签对，所述查询标签对包括第一查询标签和第二查询标签；

根据所述第一查询标签和所述第二查询标签分别在所述查询日志中出现的频次，以及所述第一查询标签和所述第二查询标签出现在所述查询日志中同一查询会话记录的频次，确定所述第一查询标签和第二查询标签的标签相关度；

若所述标签相关度满足预设阈值，则将所述第一查询标签和第二查询标签归一化处理，所述归一化处理包括设置所述第一查询标签和第二查询标签相互为对方的归一化查询标签。

相应地，本发明实施例还提供了一种查询标签的归一化处理装置，所述装置包括：

查询语句匹配模块，用于从查询日志中分析得到语义相关的查询语句对，所述查询日志包括多个查询会话记录，每个查询会话记录中包括至少一个查询语句；

查询标签匹配模块，用于从所述语义相关的查询语句对中抽取语义相关的查询标签对，所述查询标签对包括第一查询标签和第二查询标签；

相关标签判断模块，用于根据所述第一查询标签和所述第二查询标签分别在所述查询日志中出现的频次，以及所述第一查询标签和所述第二查询标签出现在所述查询日志中同一查询会话记录的频次，确定所述第一查询标签和第二查询标签的标签相关度；

归一化处理模块，用于若所述标签相关度满足预设阈值，则将所述第一查询标签和第二查询标签归一化处理，所述归一化处理包括设置所述第一查询标签和第二查询标签相互为对方的归一化查询标签。

本发明实施例通过从查询日志中抽取查询语句对，进而从查询语句对中提取语义相关的查询标签对，并根据查询标签对分别在查询日志中的出现频次以及同时出现在同一查询会话的频次，判断查询标签对之间的标签相关度，从而可以将标签相关度满足预设阈值的查询标签对进行归一化处理，使得后续在接收到包含相关查询标签的查询语句时，可以根据该查询标签及其归一化查询标签返回查询结果，就实现了根据用户输入的查询标签向用户返回的更多相似语义查询结果，能够有效避免因目标对象采用相似语义的查询标签而无法根据用户输入的查询标签查询命中的情况发生，即提高了查询命中率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中的一种查询标签的归一化处理方法的流程示意图；

图2是本发明另一实施例中的查询标签的归一化处理方法的流程示意图；

图3是本发明另一实施例中的查询标签的归一化处理方法的流程示意图；

图4是本发明另一实施例中的查询标签的归一化处理方法的流程示意图；

图5是本发明实施例中的一种查询标签的归一化处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中的查询标签的归一化处理方法和装置，可以实现在计算机系统中，例如网络搜索服务器中，进行查询标签的归一化处理，进而根据归一化处理后的查询标签向用户返回查询结果。

图1是本发明实施例中的一种查询标签的归一化处理方法的流程示意图，如图所示实施例中的查询标签的归一化处理方法可以包括以下流程：

S101，从查询日志中分析得到语义相关的查询语句对，所述查询日志包括多个查询会话记录，每个查询会话记录中包括至少一个查询语句。

具体的，所述查询日志是本发明的查询标签的归一化处理装置(下文也称归一化处理装置)在根据接收到的查询语句进行网络搜索过程中记录得到的，每个查询会话记录为归一化处理装置为某个查询请求对象在一定时间段内的查询记录，例如可以根据从某个用户开始访问该归一化处理装置，直至该用户终止本次访问该归一化处理装置(例如退出登录、关闭搜索页面、退出应用等)，这期间归一化处理装置根据该用户的查询请求进行查询的过程，得到一个查询会话记录，该查询会话记录可以记录查询请求对象的对象标识(例如用户标识)，查询时间以及查询对象每次提交的查询语句。所述查询语句可以例如“益智类的游戏”、“不花钱的聊天工具”以及“万能的视频播放软件”等。

语义相关的查询语句，可以为搜索同一目标对象的查询语句。判断查询语句是否语义相关，进而将语义相关的查询语句组成查询语句对，本发明实施例提供两种方式：

一是可以通过分析查询日志中的查询语句的语句结构和语义，判断两个查询语句之间是否语义相关，例如根据预设的语义模板，从所述查询日志中提取符合所述语义模板的查询语句，所述符合所述语义模板的查询语句两两组成所述语义相关的查询语句对。所述语义模板可以例如“***的游戏”、“***的阅读工具”或“***的浏览器”等等，并且可以不限定除模板外的字符数一定要与“*”的数量相同，例如“益智类的棋牌游戏”与“锻炼大脑的棋牌游戏”都可以被认为符合语义模板“***的棋牌游戏”的查询语句。

二是可以通过分析查询语句的提交场景的相关度，并结合查询语句的语句结构和语义的相关度，判断两个查询语句之间是否语义相关，例如根据预设的查询标签集合，判断属于同一查询会话记录中包含所述查询标签集合中的查询标签的至少两个查询语句是否语义对齐，若是则确定该两个查询语句为相互语义相关的查询语句。这里提及的查询标签集合，不是归一化标签集合，其包含的查询标签之间不一定语义相关或相似。由于用户在一定时间内很有可能只是针对同一目标对象进行搜索，因此属于同一查询会话记录的查询语句相关的可能性较高，进而将同属于一个查询会话记录的查询语句比较是否语义对齐，从而可以得到两查询语句之间是否语义相关的判断结果。所述语义对齐，可以为首先分别在两个查询语句中找到其中包含的预设查询标签集合中的查询标签，进而分别在各查询语句中除去其包含的查询标签，剩余部分若基本一致或完全一致，则可以认为两个查询语句语义对齐。

需要说明的是，以上仅为示例说明，不应被用于限定本发明的保护范围，本领域技术人员基于上述示例和精神，可以得到更多可实现的实施例，即可以通过其他方式从查询日志中分析得到语义相关的查询语句对。

S102，从所述语义相关的查询语句对中抽取语义相关的查询标签对，所述查询标签对包括第一查询标签和第二查询标签。

在可选实施例中，在确定得到语义相关的查询语句对后，可以将查询语句对中语义相同或对齐的部分去除，从而从剩余部分得到查询标签对，例如上述根据预设的语义模板，从所述查询日志中提取符合所述语义模板的查询语句，将查询语句对中的查询语句中的语义模板部分去除，剩余部分即为语义相关的查询标签对；又例如上述根据预设的查询标签集合，通过确定属于同一查询会话记录中包含所述查询标签集合中的查询标签的至少两个查询语句语义对齐从而确定其为查询语句对，可以将所述查询语句对中语义对齐部分去除，剩余部分即为语义相关的查询标签对。

需要说明的是，以上仅为示例说明，不应被用于限定本发明的保护范围，本领域技术人员基于上述示例和精神，可以得到更多可实现的实施例，即可以通过其他方式从查询语句对中抽取语义相关的查询标签对，例如根据语义分析，从查询语句中抽取具有语义的查询词语，进而通过两个查询语句的语句格式比较得到格式相对的具有语义查询词语作为语义相关的查询标签对，等等。

S103，根据所述第一查询标签和所述第二查询标签分别在所述查询日志中出现的频次，以及所述第一查询标签和所述第二查询标签出现在所述查询日志中同一查询会话记录的频次，确定所述第一查询标签和第二查询标签的标签相关度。

具体实现中，查询标签在查询日志中出现的频次，可以为预设时间段内该查询标签在查询日志中出现的次数，还可以为预设时间段内存在该查询标签的查询会话的个数，所述预设时间段可以为1天、3天、一周、一个月等。同样，所述第一查询标签和所述第二查询标签出现在所述查询日志中同一查询会话记录的频次，可以为在预设时间段内存在该第一查询标签并且存在所述第二查询标签的查询会话的个数。例如可以使用下式计算第一查询标签和第二查询标签的confidence表示其之间的标签相关度：

c o n f i d e n c e = (c / \sqrt{e * f}) * l o g - - - (c)

其中，c为所述第一查询标签和所述第二查询标签出现在所述查询日志中同一查询会话记录的频次，e为第一查询标签在所述查询日志中出现的频次，f为所述第二查询标签在所述查询日志中出现的频次。

在可选实施例中，也可以根据查询标签在查询日志中出现的频次，计算第一查询标签和第二查询标签分别在查询日志中出现的概率，以及第一查询标签和第二查询标签共同出现在同一查询会话中的概率，进而根据这三个概率值计算第一查询标签和第二查询标签之间的标签相关度，如可以采用下式I(x，y)表示第一查询标签和第二查询标签之间的标签相关度：

I(x,y)＝p(x,y)*log(p(x,y)/p(x)*p(y))

其中，所述p(x，y)表示所述第一查询标签和所述第二查询标签出现在所述查询日志中同一查询会话记录的概率，p(x)为第一查询标签在所述查询日志中出现的概率，p(y)为所述第二查询标签在所述查询日志中出现的概率。

S104，若所述标签相关度满足预设阈值，则将所述第一查询标签和第二查询标签归一化处理，所述归一化处理包括设置所述第一查询标签和第二查询标签相互为对方的归一化查询标签。

具体实现中，若计算得到的第一查询标签和第二查询标签的标签相关度的数值达到预设阈值，则可以认为第一查询标签和第二查询标签是语义相似的查询标签，则可以将其进行归一化处理，包括将其设置为相互为对方的归一化查询标签，还可以将其设为同一个归一化标签集合中的查询标签，例如将第一查询标签和第二查询标签组成一个新的归一化标签集合，在可选实施例中，若第一查询标签当前已是某个归一化标签集合中的成员，则可以将第二查询标签加入该第一查询标签当前所属的归一化标签集合，反之亦然；进而在另一可选实施例中，若第一查询标签和第二查询标签当前都分别属于不同的归一化标签集合了，还可以将其分别所属的归一化标签集合合并形成新的归一化标签集合。

S105，当接收到用户通过查询会话提交的查询语句时，根据所述查询语句包含的查询标签及其归一化查询标签返回查询结果。

具体的，例如接收到用户通过查询会话提交的查询语句，该查询语句若包括上述第一查询标签，当前第二查询标签已经被设置为第一查询标签的归一化查询标签，则可以根据该第一查询标签和第二查询标签分别进行查询，并将查询命中的结果一起返回给用户，若当前第一查询标签的归一化查询标签除了第二查询标签之外还有其他查询标签、如第三查询标签、第四查询标签等，则可以将根据第三查询标签、第四查询标签分别进行查询的查询结果一起返回给用户，这样就实现了根据用户输入的查询标签向用户返回的更多相似语义查询结果，能够有效避免因目标对象采用相似语义的查询标签而无法根据用户输入的查询标签查询命中的情况发生。

在可选实施例中，若用户提交的查询语句中包含的查询标签当前是某个归一化标签集合中的成员，仍以第一查询标签为例，若第一查询标签当前是某个归一化标签集合中的成员，当接收到用户提交的查询语句包含的第一查询标签时，则可以根据第一查询标签所在的归一化标签集合中的所有查询标签返回查询结果。进一步的，若第一查询标签同时归属于多个归一化标签集合，则可以根据第一查询标签所在的所有归一化标签集合中的所有查询标签返回查询结果。

图2是本发明另一实施例中的查询标签的归一化处理方法的流程示意图，如图所示本实施例中的查询标签的归一化处理方法流程可以包括：

S201，根据预设的语义模板，从所述查询日志中提取符合所述语义模板的查询语句，所述符合所述语义模板的查询语句两两组成所述语义相关的查询语句对。

所述语义模板可以例如“***的游戏”、“***的阅读工具”或“***的浏览器”等等，并且可以不限定除模板外的字符数一定要与“*”的数量相同，例如“益智类的棋牌游戏”与“锻炼大脑的棋牌游戏”都可以被认为符合语义模板“***的棋牌游戏”的查询语句。

S202，将所述语义相关的查询语句对中的语义模板部分去除，剩余部分即为语义相关的查询标签对，所述查询标签对包括第一查询标签和第二查询标签。

例如“益智类的棋牌游戏”与“锻炼大脑的棋牌游戏”，将“***的棋牌游戏”模板部分去除，剩余“益智类”和“锻炼大脑”组成查询标签对，分别称为第一查询标签和第二查询标签。

S203，根据所述第一查询标签和所述第二查询标签分别在所述查询日志中出现的频次，以及所述第一查询标签和所述第二查询标签出现在所述查询日志中同一查询会话记录的频次，确定所述第一查询标签和第二查询标签的标签相关度。

本实施例中，可以根据查询标签在查询日志中出现的频次，计算第一查询标签和第二查询标签分别在查询日志中出现的概率，以及第一查询标签和第二查询标签共同出现在同一查询会话中的概率，进而根据这三个概率值计算第一查询标签和第二查询标签之间的标签相关度，如可以采用下式I(x，y)表示第一查询标签和第二查询标签之间的标签相关度：

I(x,y)＝p(x,y)*log(p(x,y)/p(x)*p(y))

S204，若所述标签相关度满足预设阈值，则将所述第一查询标签和第二查询标签归一化处理，所述归一化处理包括设置所述第一查询标签和第二查询标签相互为对方的归一化查询标签。

本实施例通过使用语义模板从查询日志中抽取符合所述语义模板的查询语句对，进而从查询语句对中提取语义相关的查询标签对，并根据查询标签对分别在查询日志中的出现概率以及出现在同一查询会话中的概率判断查询标签对之间的标签相关度，从而可以将标签相关度满足预设阈值的查询标签对进行归一化处理。

图3是本发明另一实施例中的查询标签的归一化处理方法的流程示意图，如图所示本实施例中的查询标签的归一化处理方法流程可以包括：

S301，根据预设的查询标签集合，判断属于同一查询会话记录中包含所述查询标签集合中的查询标签的至少两个查询语句是否语义对齐，若是则确定语义对齐的两个查询语句为相互语义相关的查询语句对。

具体的，由于用户在一定时间内很有可能只是针对同一目标对象进行搜索，因此属于同一查询会话记录的查询语句相关的可能性较高，因此本实施例仅针对一个查询会话中的查询语句进行查询标签的归一化处理。具体的，可以根据一个预设的查询标签集合，在查询会话中剔除不包含该查询标签集合中的查询标签的查询语句，进而判断该查询会话中剩余的包含该查询标签集合中的查询标签的查询语句是否语义对齐，从而可以得到两查询语句之间是否语义相关的判断结果。这里提及的查询标签集合，不是归一化标签集合，而是任意确定语义正确的查询标签集合，其包含的查询标签之间不一定语义相关或相似。所述语义对齐，可以为首先分别在两个查询语句中找到其中包含的预设查询标签集合中的查询标签，进而分别在各查询语句中除去其包含的查询标签，剩余部分若基本一致或完全一致，则可以认为两个查询语句语义对齐。

例如“益智类”和“锻炼大脑”是预设查询标签集合中的查询标签，在当前查询会话中找到分别包含“益智类”和“锻炼大脑”的查询语句：“益智类的棋牌游戏”和“锻炼大脑的棋牌游戏”，进而可以将其分别包含的查询标签从该查询语句中去除，剩余部分均为“的棋牌游戏”，那么显然这两个查询语句是语义对齐的，确定为相互语义相关的查询语句对。以上仅为示例，在其他可选实施例中，也可以采用其他语义对齐的判断方式，本发明不做限定。

进而在可选实施例中，可以判断属于同一查询会话记录中包含所述查询标签集合中的查询标签的相邻查询语句是否语义对齐，若是则确定该相邻查询语句为相互语义相关的查询语句对，由于是相邻的查询语句，其相关的可能性更高，因此该方式得到的查询语句对的相关性会更准确。

S302，将所述查询语句对中语义对齐部分去除，剩余部分即为语义相关的查询标签对，所述查询标签对包括第一查询标签和第二查询标签。

仍以上文的“益智类的棋牌游戏”和“锻炼大脑的棋牌游戏”查询语句为例，分别将对其部分“的棋牌游戏”去除，剩余部分“益智类”和“锻炼大脑”即为语义相对的查询标签对。

S303，根据所述第一查询标签和所述第二查询标签分别在所述查询日志中出现的频次，以及所述第一查询标签和所述第二查询标签出现在所述查询日志中同一查询会话记录的频次，确定所述第一查询标签和第二查询标签的标签相关度。

具体实现中，查询标签在查询日志中出现的频次，可以为预设时间段内该查询标签在查询日志中出现的次数，还可以为预设时间段内存在该查询标签的查询会话的个数，所述预设时间段可以为1天、3天、一周、一个月等。同样，所述第一查询标签和所述第二查询标签出现在所述查询日志中同一查询会话记录的频次，可以为在预设时间段内存在该第一查询标签并且存在所述第二查询标签的查询会话的个数。本实施例中，可以使用下式计算第一查询标签和第二查询标签的confidence表示其之间的标签相关度：

c o n f i d e n c e = (c / \sqrt{e * f}) * l o g - - - (c)

S304，若所述标签相关度满足预设阈值，则将所述第一查询标签和第二查询标签归一化处理，所述归一化处理包括设置所述第一查询标签和第二查询标签相互为对方的归一化查询标签。

本实施例通过判断属于同一查询会话的查询语句是否语义对齐，从而从查询日志中抽取查询语句对，进而从查询语句对中提取语义相关的查询标签对，并根据查询标签对分别在查询日志中的出现频次以及同时出现在同一查询会话的频次，判断查询标签对之间的标签相关度，从而可以将标签相关度满足预设阈值的查询标签对进行归一化处理。

图4是本发明另一实施例中的查询标签的归一化处理方法的流程示意图，如图所示本实施例中的查询标签的归一化处理方法流程可以包括：

S401，根据预设的查询标签集合和同义词词库，在所述同义词词库中查找所述查询标签集合中任一查询标签的至少部分标签内容的同义词。

所述查询标签集合，可以是预先得到的归一化标签集合，也可以是任意确定语义正确的查询标签集合，其包含的查询标签之间不一定语义相关或相似。该预设的查询标签集合中的任一查询标签，例如“锻炼大脑”，可以根据预设的同义词词库，查找“锻炼大脑”中任一部分标签内容的同义词，例如“锻炼”的同义词可以有“训练”、“磨练”以及“锤炼”等，另一方面“大脑”的同义词可以包括“头脑”、“脑袋”等。

S402，将所述同义词替换该查询标签的同义词部分，得到该查询标签的同义词标签。

以上述“锻炼大脑”为例，一方面可以使用“锻炼”的同义词替换“锻炼”，组成新的同义词标签：“训练大脑”、“磨练大脑”、“锤炼大脑”等，或者使用“大脑”的同义词替换“大脑”，组成新的同义词标签“锻炼头脑”或“锻炼脑袋”，另一方面还可以使用“锻炼”的同义词替换“锻炼”的同时使用“大脑”的同义词替换“大脑”，组成新的同义词标签：“训练头脑”、“锤炼脑袋”等。

S403，判断所述同义词标签在所述查询日志中出现的频次是否大于预设频次阈值，若判断结果为是则执行S404，否则执行S406。

具体实现中，同义词标签在查询日志中出现的频次，可以为预设时间段内该同义词标签在查询日志中出现的次数，还可以为预设时间段内存在该同义词标签的查询会话的个数，所述预设时间段可以为1天、3天、一周、一个月等。若所述同义词标签在查询日志中出现的频次高于预设频次阈值(例如最近一周内500次)，则可以确认该同义词标签语义正确。

S404，确认该同义词标签语义正确。

S405，将该查询标签及其同义词标签归一化处理。

包括将该查询标签及其同义词标签设置为相互为对方的归一化查询标签，还可以将该查询标签及其同义词标签设为同一个归一化标签集合中的查询标签，例如第二查询标签是第一查询标签的同义词标签，并且第二查询标签经判断语义正确，则可以将第一查询标签和第二查询标签组成一个新的归一化标签集合，在另一可选实施例中，若第一查询标签当前已是某个归一化标签集合中的成员，则可以将第二查询标签加入该第一查询标签当前所属的归一化标签集合，反之亦然；进而在另一可选实施例中，若第一查询标签和第二查询标签当前都分别属于不同的归一化标签集合了，还可以将其分别所属的归一化标签集合合并形成新的归一化标签集合。

S406，确定该同义词标签语义不正确，丢弃。

本实施例根据同义词词库，对已有查询标签进行语义扩展，并根据语义扩展得到的同义词标签在查询日志中的出现频次判断其语义是否正确，从而可以将语义正确的同义词标签与原查询标签进行归一化处理。

图5是本发明实施例中的一种查询标签的归一化处理装置的结构示意图，如图所示本实施例中的归一化处理装置可以包括:

查询语句匹配模块510，用于从查询日志中分析得到语义相关的查询语句对，所述查询日志包括多个查询会话记录，每个查询会话记录中包括至少一个查询语句。

语义相关的查询语句，可以为搜索同一目标对象的查询语句。查询语句匹配模块510判断查询语句是否语义相关，进而将语义相关的查询语句组成查询语句对，本发明实施例提供两种方式：

二是可以通过分析查询语句的提交场景的相关度，并结合查询语句的语句结构和语义的相关度，判断两个查询语句之间是否语义相关，例如根据预设的查询标签集合，判断属于同一查询会话记录中包含所述查询标签集合中的查询标签的至少两个查询语句是否语义对齐，若是则确定语义对齐的两个查询语句为相互语义相关的查询语句。这里提及的查询标签集合，不是归一化标签集合，其包含的查询标签之间不一定语义相关或相似。由于用户在一定时间内很有可能只是针对同一目标对象进行搜索，因此属于同一查询会话记录的查询语句相关的可能性较高，进而将同属于一个查询会话记录的查询语句比较是否语义对齐，从而可以得到两查询语句之间是否语义相关的判断结果。所述语义对齐，可以为首先分别在两个查询语句中找到其中包含的预设查询标签集合中的查询标签，进而分别在各查询语句中除去其包含的查询标签，剩余部分若基本一致或完全一致，则可以认为两个查询语句语义对齐。

需要说明的是，以上仅为示例说明，不应被用于限定本发明的保护范围，本领域技术人员基于上述示例和精神，可以得到更多可实现的实施例，即查询语句匹配模块510可以通过其他方式从查询日志中分析得到语义相关的查询语句对。

查询标签匹配模块520，用于从所述语义相关的查询语句对中抽取语义相关的查询标签对，所述查询标签对包括第一查询标签和第二查询标签。

在可选实施例中，在确定得到语义相关的查询语句对后，查询标签匹配模块520可以将查询语句对中语义相同或对齐的部分去除，从而从剩余部分得到查询标签对，例如上述根据预设的语义模板，从所述查询日志中提取符合所述语义模板的查询语句，将查询语句对中的查询语句中的语义模板部分去除，剩余部分即为语义相关的查询标签对；又例如上述根据预设的查询标签集合，通过确定属于同一查询会话记录中包含所述查询标签集合中的查询标签的至少两个查询语句语义对齐从而确定其为查询语句对，查询标签匹配模块520可以将所述查询语句对中语义对齐部分去除，剩余部分即为语义相关的查询标签对。

需要说明的是，以上仅为示例说明，不应被用于限定本发明的保护范围，本领域技术人员基于上述示例和精神，可以得到更多可实现的实施例，即查询标签匹配模块520可以通过其他方式从查询语句对中抽取语义相关的查询标签对，例如根据语义分析，从查询语句中抽取具有语义的查询词语，进而通过两个查询语句的语句格式比较得到格式相对的具有语义查询词语作为语义相关的查询标签对，等等。

相关标签判断模块530，用于根据所述第一查询标签和所述第二查询标签分别在所述查询日志中出现的频次，以及所述第一查询标签和所述第二查询标签出现在所述查询日志中同一查询会话记录的频次，确定所述第一查询标签和第二查询标签的标签相关度。

具体实现中，查询标签在查询日志中出现的频次，可以为预设时间段内该查询标签在查询日志中出现的次数，还可以为预设时间段内存在该查询标签的查询会话的个数，所述预设时间段可以为1天、3天、一周、一个月等。同样，所述第一查询标签和所述第二查询标签出现在所述查询日志中同一查询会话记录的频次，可以为在预设时间段内存在该第一查询标签并且存在所述第二查询标签的查询会话的个数。例如相关标签判断模块530可以使用下式计算第一查询标签和第二查询标签的confidence表示其之间的标签相关度：

c o n f i d e n c e = (c / \sqrt{e * f}) * l o g - - - (c)

在可选实施例中，相关标签判断模块530也可以根据查询标签在查询日志中出现的频次，计算第一查询标签和第二查询标签分别在查询日志中出现的概率，以及第一查询标签和第二查询标签共同出现在同一查询会话中的概率，进而根据这三个概率值计算第一查询标签和第二查询标签之间的标签相关度，如可以采用下式I(x，y)表示第一查询标签和第二查询标签之间的标签相关度：

I(x,y)＝p(x,y)*log(p(x,y)/p(x)*p(y))

归一化处理模块540，用于若所述标签相关度满足预设阈值，则将所述第一查询标签和第二查询标签归一化处理，所述归一化处理包括设置所述第一查询标签和第二查询标签相互为对方的归一化查询标签。

具体实现中，若计算得到的第一查询标签和第二查询标签的标签相关度的数值达到预设阈值，则归一化处理模块540可以认为第一查询标签和第二查询标签是语义相似的查询标签，则可以将其进行归一化处理，包括将其设置为相互为对方的归一化查询标签，还可以将其设为同一个归一化标签集合中的查询标签，例如将第一查询标签和第二查询标签组成一个新的归一化标签集合，在可选实施例中，若第一查询标签当前已是某个归一化标签集合中的成员，则可以将第二查询标签加入该第一查询标签当前所属的归一化标签集合，反之亦然；进而在另一可选实施例中，若第一查询标签和第二查询标签当前都分别属于不同的归一化标签集合了，还可以将其分别所属的归一化标签集合合并形成新的归一化标签集合。

进而在可选实施例中，查询标签的归一化处理装置进一步还可以包括：

标签查询模块550，用于当接收到用户通过查询会话提交的查询语句时，根据所述查询语句包含的查询标签及其归一化查询标签返回查询结果。

同义标签获取模块560，用于根据预设的查询标签集合和同义词词库，在所述同义词词库中查找所述查询标签集合中任一查询标签的至少部分标签内容的同义词，若存在，则将所述同义词替换该查询标签的同义词部分，得到该查询标签的同义词标签。

具体实现中，所述查询标签集合，可以是预先得到的归一化标签集合，也可以是任意确定语义正确的查询标签集合，其包含的查询标签之间不一定语义相关或相似。该预设的查询标签集合中的任一查询标签，例如“锻炼大脑”，可以根据预设的同义词词库，查找“锻炼大脑”中任一部分标签内容的同义词，例如“锻炼”的同义词可以有“训练”、“磨练”以及“锤炼”等，另一方面“大脑”的同义词可以包括“头脑”、“脑袋”等。在可选实施例中，同义标签获取模块560一方面可以使用“锻炼”的同义词替换“锻炼”，组成新的同义词标签：“训练大脑”、“磨练大脑”、“锤炼大脑”等，或者使用“大脑”的同义词替换“大脑”，组成新的同义词标签“锻炼头脑”或“锻炼脑袋”，另一方面还可以使用“锻炼”的同义词替换“锻炼”的同时使用“大脑”的同义词替换“大脑”，组成新的同义词标签：“训练头脑”、“锤炼脑袋”等。

语义标签判断模块570，用于判断所述同义词标签在所述查询日志中出现的频次是否大于预设频次阈值，若是则确认该同义词标签语义正确。

具体实现中，同义词标签在查询日志中出现的频次，可以为预设时间段内该同义词标签在查询日志中出现的次数，还可以为预设时间段内存在该同义词标签的查询会话的个数，所述预设时间段可以为1天、3天、一周、一个月等。若所述同义词标签在查询日志中出现的频次高于预设频次阈值(例如最近一周内500次)，则语义标签判断模块570可以确认该同义词标签语义正确，进而触发所述归一化处理模块540将该查询标签及其同义词标签归一化处理，反之若所述同义词标签在查询日志中出现的频次未达到预设频次阈值，则可以认为该同义词标签语义不正确，丢弃。

本实施例一方面通过从查询日志中抽取查询语句对，进而从查询语句对中提取语义相关的查询标签对，并根据查询标签对分别在查询日志中的出现频次以及同时出现在同一查询会话的频次，判断查询标签对之间的标签相关度，从而可以将标签相关度满足预设阈值的查询标签对进行归一化处理；另一方面还可以根据同义词词库，对已有查询标签进行语义扩展，并根据语义扩展得到的同义词标签在查询日志中的出现频次判断其语义是否正确，从而可以将语义正确的同义词标签与原查询标签进行归一化处理，通过实时本发明，使得后续在接收到包含相关查询标签的查询语句时，可以根据该查询标签及其归一化查询标签返回查询结果，就实现了根据用户输入的查询标签向用户返回的更多相似语义查询结果，能够有效避免因目标对象采用相似语义的查询标签而无法根据用户输入的查询标签查询命中的情况发生，即提高了查询命中率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种查询标签的归一化处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的查询标签的归一化处理方法，其特征在于，所述方法还包括：

当接收到用户通过查询会话提交的查询语句时，根据所述查询语句包含的查询标签及其归一化查询标签返回查询结果。

3.如权利要求1所述的查询标签的归一化处理方法，其特征在于，所述归一化处理还包括：

将所述第一查询标签和第二查询标签设为同一个归一化标签集合中的查询标签；

所述方法还包括：

当接收到用户通过查询会话提交的查询语句时，根据所述查询语句包含的查询标签所在的归一化标签集合中的所有查询标签返回查询结果。

4.如权利要求1所述的查询标签的归一化处理方法，其特征在于，所述从查询日志中分析得到语义相关的查询语句对包括：

根据预设的语义模板，从所述查询日志中提取符合所述语义模板的查询语句，所述符合所述语义模板的查询语句两两组成所述语义相关的查询语句对。

5.如权利要求4所述的查询标签的归一化处理方法，其特征在于，所述从所述语义相关的查询语句对中抽取语义相关的查询标签对包括：

将所述语义相关的查询语句对中的语义模板部分去除，剩余部分即为语义相关的查询标签对。

6.如权利要求1所述的查询标签的归一化处理方法，其特征在于，所述从查询日志中分析得到语义相关的查询语句对包括：

根据预设的查询标签集合，判断属于同一查询会话记录中包含所述查询标签集合中的查询标签的至少两个查询语句是否语义对齐，若是则确定语义对齐的两个查询语句为相互语义相关的查询语句对。

7.如权利要求6所述的查询标签的归一化处理方法，其特征在于，所述判断属于同一查询会话记录中包含所述查询标签集合中的查询标签的至少两个查询语句是否语义对齐为：

判断属于同一查询会话记录中包含所述查询标签集合中的查询标签的相邻查询语句是否语义对齐，若是则确定该相邻查询语句为相互语义相关的查询语句对。

8.如权利要求6所述的查询标签的归一化处理方法，其特征在于，所述从所述语义相关的查询语句对中抽取语义相关的查询标签对包括：

将所述查询语句对中语义对齐部分去除，剩余部分即为语义相关的查询标签对。

9.如权利要求1-8中任一项所述的查询标签的归一化处理方法，其特征在于，所述方法还包括：

根据预设的查询标签集合和同义词词库，在所述同义词词库中查找所述查询标签集合中任一查询标签的至少部分标签内容的同义词，若存在，则将所述同义词替换该查询标签的同义词部分，得到该查询标签的同义词标签；

判断所述同义词标签在所述查询日志中出现的频次是否大于预设频次阈值，若是则确认该同义词标签语义正确；

若该同义词标签语义正确，则将该查询标签及其同义词标签归一化处理。

10.一种查询标签的归一化处理装置，其特征在于，所述装置包括：

11.如权利要求10所述的查询标签的归一化处理装置，其特征在于，所述装置还包括：

标签查询模块，用于当接收到用户通过查询会话提交的查询语句时，根据所述查询语句包含的查询标签及其归一化查询标签返回查询结果。

12.如权利要求10所述的查询标签的归一化处理装置，其特征在于，所述归一化处理还包括：

所述装置还包括：

标签查询模块，用于当接收到用户通过查询会话提交的查询语句时，根据所述查询语句包含的查询标签所在的归一化标签集合中的所有查询标签返回查询结果。

13.如权利要求10所述的查询标签的归一化处理装置，其特征在于，所述查询语句匹配模块用于：

14.如权利要求13所述的查询标签的归一化处理装置，其特征在于，所述查询标签匹配模块用于：

15.如权利要求10所述的查询标签的归一化处理装置，其特征在于，所述查询语句匹配模块用于：

16.如权利要求15所述的查询标签的归一化处理装置，其特征在于，所述查询语句匹配模块具体用于：

根据预设的查询标签集合，判断属于同一查询会话记录中包含所述查询标签集合中的查询标签的相邻查询语句是否语义对齐，若是则确定该相邻查询语句为相互语义相关的查询语句对。

17.如权利要求15所述的查询标签的归一化处理装置，其特征在于，所述查询标签匹配模块用于：

18.如权利要求9-17中任一项所述的查询标签的归一化处理装置，其特征在于，所述装置还包括：

同义标签获取模块，用于根据预设的查询标签集合和同义词词库，在所述同义词词库中查找所述查询标签集合中任一查询标签的至少部分标签内容的同义词，若存在，则将所述同义词替换该查询标签的同义词部分，得到该查询标签的同义词标签；

语义标签判断模块，用于判断所述同义词标签在所述查询日志中出现的频次是否大于预设频次阈值，若是则确认该同义词标签语义正确；

所述归一化处理模块，还用于在所述同义词标签语义正确时，将该查询标签及其同义词标签归一化处理。